我們天天都可以接觸很多隨機現象,比如每天的天氣不一樣氣溫是我們最直接的感受,我們很難預測明天的精確問題,但是這些隨機現象又體現出了一定的規律性 。比如上海7月份平均35度左右,冬天的平均溫度在5度左右 。所以35、5這些數字體現了某種穩定性 。所以除了前面幾章中講到的分布律和概率密度函數可以表征隨機變量外,還可以用一組數字來表達隨機變量的一般特性 。這就是我們今天要講到的隨機變量的數字特征 。通過對數字特征的研究 , 我們可以更好的發現隨機變量的潛在特點 。
1、數學期望:這個定義太過專業,我們將其理解為平均值就好了 , 不管是算術平均和加權平均 。它體現的是數據的基本面(炒股專用名詞) , 信號里面的低頻信息 。比如剛才舉得例子,他能說明很多問題,比如夏天的平均溫度一定比冬天高,比如平均分數高的班級的同學學習狀態要比分數低的班級好等等 。數學期望的定義式為E(X)=x*f(x)dx的積分 。x為取值matlab語言常用算法程序集 , f(x)為取值的概率 。如我們要設定一個兩個產品的投資組合,一個產品收益1000元,風險為10%,另一個產品1000元,風險為50%,總的期望收益就是這個投資組合的數學期望Z=1000*0.9+10000*0.5 。所以很多投資組合的選擇,就是在選擇每個產品投入的額度試圖使收益最大!是不是很有用啊,學好概率論賺錢更容易 。但難的地方是如何可靠的風險評估,f(x)需要專業的知識才能,這個就不是本講討論的內容了 。(當然可以推廣到隨機變量函數的數學期望,大家用到的時候去查公式就好了)
2、方差:這是另外一個研究隨機現象的重要的數字特征,它表征了數據與均值的偏離程度 。方差越大 , 表明數據越無序 。例如,公司生產兩批尺子,我們標準是1米 , 經過測試其中一批的方差比另一批大就說明了方差大的那組的質量控制沒有做好 。數學定義總是嚴謹的,它的定義形式為E{|(X-E(X)|},但帶了絕對值數學上很不好運算 , 所以就改成了E{(X-E(X)(X-E(X)},效果是一樣的 。上面例子不太嚴謹但是可以說明問題,嚴謹的說法是方差體現了其與均值的偏離度 。方差通常用D來表示D(X)=E{(X-E(X)(X-E(X)},開根號取正后變為標準差 。方差有很多性質:常數的方差為零、隨機變量乘以常數方差等于常數平方乘以方差、和的方差等于方差的和加上協方差(協方差的概念后面講),如果變量相互獨立則為方差的和、方差為零的充分必要條件是X為常數 。這些性質簡單推導即可得,拿來用就好了 。重要的引出了協方差的概念 。
3、切比雪夫不等式:意思就是隨機變量如果存在均值和方差 , 則隨機變量偏離均值的范圍是有界的matlab語言常用算法程序集,即偏離均值的距離越遠可能性就越小 。這個不等式很重要,在于在不知道隨機變量的概率密度函數的情況下,知道一個隨機變量的均值和方差的條件下,我可以估計出隨機變量大于某個區間的上界,回答某種情況出現的概率最高不會超過多少的問題 。在大數定理、中心極限定理的證明中都會用到 。大家可以先記住這個結論 。
4、協方差:對于二維隨機變量就出現了協方差的概念 。定義是從方差公式中來的,兩個隨機變量和的方差等于隨機變量的方差之和再加上協方差 。所以這個協方差體現了兩個隨機變量的關系,如果兩個隨機變量是相互獨立的,這個協方差就為零 。所以我們要衡量兩個隨機變量是不是獨立,看他們協方差就好了,很多論文里面出現的復雜的協方差矩陣本質上就是在討論多維變量之間的關系 。
5、相關系數:協方差除以相應變量的標準差被定義為相關系數 。相關系數有兩條重要的性質,一是絕對值小于等于1,而等于1的充分必要條件是存在a,b,使得P(Y=a+bX)=1成立 。也就是說,如果Y能被X線性表示,Y與X相關性系數為1 。同樣的如果Y不能被X線性表示,相關系數為0 , 那么在0-1之間呢就是部分相關 。所以相關系數變成了判斷兩個隨機變量相關性的重要特征 。這里舉個例子,對于二維正態分布的變態公式,我們在理解了上述概念后看上去就很美妙了,他們能夠被隨機變量的均值、方差和相關系數所確定 。
圖1 二維正態分布概率密度函數
6、矩:可以理解為隨機變量X的k次方的數學期望(原點矩);X-E(X)的k次方的數學期望叫中心矩;X的k次方乘以Y的l次方的數學期望叫做X和Y的k+l階混合矩 。所以數學期望是X的一階原點矩,X的方差是X的二階中心矩,X和Y的協方差是XY的二階混合中心距 。矩的概念在統計中有用,做參數的矩估計 , 所以這里只要知道定義和概念就好了 。
7、協方差矩陣:n維隨機變量的分布是不太知道的,或者是太復雜,以至于在數學上不易處理 。因此在實際應用中,協方差矩陣就非常重要了 。協方差矩陣式是由隨機變量的二階中心矩構成的對稱矩陣 。比如滿足二維正態分布的隨機變量除了可以用均值、方差和相關系數來表達,還可以用協方差寫成矩陣形式 , 方便用線性代數的庫進行高維計算 。
圖2 參考教材
【算法數學基礎-統計學最基礎之均值、方差、協方差、矩】本文到此結束 , 希望對大家有所幫助 。
- 如何才能記住各種算法?
- 原理+代碼 基于Python實現五大常用分類算法
- 超牛!博士老爸自編!最高效“速算法”,比按計算器都快
- 9個月大的嬰兒就能夠理解一些重要的統計學概念了
- 教你如何推送寶寶預產期
- 安全期“前7后8”的算法靠譜嗎?其實這3天時間,更穩妥一些!
- 預產期怎么算才準確?最簡單的預產期算法,看完自己算!
- 虹軟算法加持,這些手機都是真正的美顏神器
