樣本方差是什么 總體方差和樣本方差計算公式

總體方差和樣本方差計算公式,樣本方差是什么 。小編來告訴你更多相關信息 。
一、方差(variance):衡量隨機變量或一組數據時離散程度的度量 。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度 。
統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數 。
概率論中的方差表示方法 :
樣本方差,無偏估計、無偏方差(unbiased variance) 。對于一組隨機變量,從中隨機抽取N個 樣本,這組樣本的方差就 是Xi^2平方和除以N-1 。

樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
總體方差,也叫做有偏估計,其實就是我們從初高中就學到的那個標準定義的方差,除數是N 。
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
統計中的方差表示方法 :
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖

樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
二、為什么樣本方差的分母是n-1?為什么它又叫做無偏估計?簡單的回答,是因為因為均值你已經用了n個數的平均來做估計在求方差時,只有(n-1)個數和均值信息是不相關的 。
而你的第n個數已經可以由前(n-1)個數和均值來唯一確定,實際上沒有信息量 。所以在計算方差時,只除以(n-1) 。
那么更嚴格的證明呢?
樣本方差計算公式里分母為n-1的目的是為了讓方差的估計是無偏的 。
無偏的估計(unbiased estimator)比有偏估計(biased estimator)更好是符合直覺的,盡管有的統計學家認為讓mean square error即MSE最小才更有意義,這個問題我們不在這里探討;
不符合直覺的是,為什么分母必須得是n-1而不是n才能使得該估計無偏 。
首先,我們假定隨機變量的數學期望是已知的,然而方差未知 。在這個條件下,根據方差的定義我們有
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
由此可得
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
這個結果符合直覺,并且在數學上也是顯而易見的 。
現在,我們考慮隨機變量
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖

樣本方差是什么 總體方差和樣本方差計算公式

文章插圖

樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
三、理論推導為了方便敘述,在這里說明好數學符號:
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
前面說過樣本方差之所以要除以(n-1)是因為這樣的方差估計量才是關于總體方差的無偏估計量 。在公式上來講的話就是樣本方差的估計量的期望要等于總體方差 。如下:
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
但是沒有修正的方差公式,它的期望是不等于總體方差的
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
也就是說,樣本方差估計量如果是用沒有修正的方差公式來估計總計方差的話是有偏差的
下面給出比較好理解的公式推導過程:
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
也就是說,除非
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
否則一定會有
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
需要注意的是不等式右邊的才是的對方差的“正確”估計,但是我們是不知道真正的總體均值是多少的,只能通過樣本的均值來代替總體的均值 。
所以樣本方差估計量如果是用沒有修正的方差公式來估計總計方差的話是會有偏差,是會低估了總體的樣本方差的 。為了能無偏差的估計總體方差,所以要對方差計算公式進行修正,修正公式如下:
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
這種修正后的估計量將是總體方差的無偏估計量,下面將會給出這種修正的一個來源;
為了能搞懂這種修正是怎么來的,首先我們得有下面幾個等式:
1.方差計算公式:
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖
2. 均值的均值、方差計算公式:
樣本方差是什么 總體方差和樣本方差計算公式

文章插圖

推薦閱讀