收藏!看懂這12個日常數據理論,你也能一眼看透事物本質( 二 )


收藏!看懂這12個日常數據理論,你也能一眼看透事物本質

文章插圖
學術上是這么來定義正態分布的:“如果一個量是由許多微小的獨立隨機因素影響的結果,那么就可以認為這個量具有正態分布” 。 聽完這個定義,是不是有點懵,拿個示例來說 。 比如我們知道中國人的平均身高大概是 1 米 7,那么實際上我們隨機找 100 個人,把每個區間的身高累個計數畫出來一個直方圖,它就會是一個正態曲線 。
收藏!看懂這12個日常數據理論,你也能一眼看透事物本質

文章插圖
9、拉普拉斯分布拉普拉斯分布,是一個“凸”字形的塔尖兒曲線,從左到右,斜率先緩慢增大再快速增大,到達最高點后變為負值繼續先快速減小,最后再緩慢地減小,所以有點像“往里邊凹陷的金字塔” 。
收藏!看懂這12個日常數據理論,你也能一眼看透事物本質

文章插圖
對比正態分布圖像,我們可以看到拉普拉斯分布圖像是尖峰厚尾的,塔尖上的那些,就是我們看到的稀缺資源 。 比如說房價,理論上房價應該和人的身高一樣,在某一個地區有一個均價,并且整體的房價和身高是一樣呈正態分布 。 但為什么在某一個區域可能就隔了一條街,房價卻翻了好幾倍,而且數量也不少? 在信息透明和市場競爭的情況下,房價、工資、股票都會符合一個特點:越塔尖的個體越具有資源吸附能力 。 那么在整體資源恒定的情況下,這已經不是一個簡單的符合隨機分布的市場了,簡單來講,“大勢”變了 。 10、德克薩斯神槍手謬誤先有彈孔,還是先有靶子 。 當年在美國西部得克薩斯州發現一個神槍手,他經常在各地的民居的墻上練習射擊,幾乎他所有的彈孔都集中在十環左右這個中心的區域 。 他已經成為了神話,人們一直在尋找他 。 但是當人們真的找到了這個神槍手后,發現他自己打槍其實一點都不準,也不敢跟其他人去決斗 。 那他墻上的這些靶子和槍手點是怎么形成的呢?原來他是先朝墻上開很多槍,然后在彈孔最密集的地方畫上了十環的靶子,再把散布在其它地方的彈孔用原來的泥土補起來 。 這樣看上去,他每個地方打的靶子都很準確,因為先有彈孔,再有靶子 。 這就是德克薩斯神槍手謬誤 。 在我們日常生活當中也很容易出現這種情況,當你看到一個數據散點報告的時候,你一定要看清背后所蘊含的實際數據是不是涵蓋了所有的數據,還是只給你看了最有這種數據規律的數據 。 前者就像先有靶子來瞄準再去射擊,后者就好比先射擊完最后再畫上靶子,這樣結果會完全不同 。 依據數據決策很重要,但是也不要被數據給騙了 。 11、因果倒置典型的因果倒置就是,天亮了雞就開始打鳴,但是我們不能說是因為雞打鳴導致了天亮 。 但是實際的應用當中,我們往往會忽略這個邏輯 。 比如,我們在一些醫學統計上會看到說不吃早飯會導致人肥胖,甚至還有大量的統計數據表明這些肥胖的人都沒有吃早飯 。 問題是,數據的確是同步發生的,但是不代表這些數據之間有因果關系 。 而且有可能會出現因果倒置——肥胖的人胖所以早上不餓,所以他不吃早飯 。 而比較瘦的人自身代謝比較快,晚上消耗多,早上就會比較餓,所以他要吃早飯 。 所以如果你沒有了解這個原因,然后只是很簡單地覺得吃早飯就不會變胖 。 12、柏克松悖論伯克松悖論是指,當不同個體被納入研究樣本的機會不同時,研究樣本中的兩個變量 X 和 Y 表現出統計相關,而總體中 X 和 Y 卻不存在這種相關性 。 聽上去是不是有點拗口?沒關系,我們看個例子 。 比如“海軍與平民死亡率”的例子 。 在 1898 年“美西戰爭” 期間,美國海軍的死亡率是 9%,而同期紐約市市民的死亡率為 16% 。 后來海軍征兵部門就拿這個數據跟大家講,待在部隊里其實比大家待在家中更加安全 。 這邏輯肯定是錯誤的,但錯誤不在具體數據,而是這兩組數據其實沒有什么可比性 。 因為海軍的主要是年輕人,他們身強體壯、不會出現太多身體疾??;而紐約市民里面包含了新出生的嬰兒、老年人、病人等等,這些人無論放在哪里,他的死亡率都會高于普通人 。 所以,參軍不能說比大家待在家中更加安全,但反過來你也無法證明待在家中就比參軍更安全,因為比對的對象不是在同一個人群里,這就是伯克森悖論 。 這是數據分析中非常常見的幾個理論,也能用來解釋生活中諸多現象 。 數據,給你一雙看透本質的眼睛 。 學完這12個理論,恭喜你,又多了一個看清世界的思維 。

推薦閱讀