收藏!看懂這12個日常數據理論,你也能一眼看透事物本質

這個數據為王的時代,我們缺乏的不是數據、工具、算法,而是數據思維 。 最近在學習「數據分析思維」,這里總結了12個常見數據分析的理論/悖論,分享給你 。 1、辛普森悖論2、大數定律3、小數陷阱4、墨菲定律5、幸存者偏差6、帕累托法則7、馬太效應8、正太分布9、拉普拉斯分布10、德克薩斯神槍手謬誤11、因果倒置12、柏克松悖論 看完后,希望你能多一個數據思維,去詮釋生活中的現象 。 讓數據,給你一雙看透本質的眼睛 。 1、辛普森悖論辛普森悖論是指,在分組比較中都占優勢的一方,在總評中有時反而是失勢的一方 。 比如這個表中,兩分球和三分球投中率都比球員A高的球員 B,整體的命中率反比球員A低 。

收藏!看懂這12個日常數據理論,你也能一眼看透事物本質

文章插圖

收藏!看懂這12個日常數據理論,你也能一眼看透事物本質

文章插圖
也就是說,“質”(命中率)與“量”(投球數)是兩個維度的數據,如果全部合并成“質”(命中率)這個維度的數據,那就會出錯 。 2、大數定律大數定律是指,當隨機事件發生的次數足夠多時,發生的頻率才會趨近于預期的概率 。 隨機拋硬幣,出現正面和反面的概率均為 50%,也就是一半正面一半反面 。 但如果你拋10次,可能7次正面3次反面,或者8次正面2次反面,并不是5次正面5次反面 。 只有你當你拋幾千次、幾萬次時,正面和反面的概率,才趨近于50% 。 3、小數陷阱小數陷阱,也叫賭徒謬誤,比如去賭場玩俄羅斯輪盤,連續 10 次開小了,你心里可能會覺得連續 10 次小了,下一次開大的概率更高一些,然后就去押大 。 這是典型的“賭徒謬誤”,是錯誤的 。 每次開大還是開小,是獨立且隨機的,并不是前面都是“大”,后面開“小”的概率就會高 。 大數定律里面,最重要的是“大數”,也就是說你得出現足夠多的次數,才能夠趨近于它的期望概率 。 一般的賭徒都沒有賭到足夠多的時候就已經輸成窮光蛋了 。 賭場其實是在利用大數定律賺錢,一般的賭博機都會被設計成為 51% 比 49% 的這種預期概率,賭場其實只贏 2%,而你卻會輸 100% 。 4、墨菲定律總之你越不希望某件事情發生,這件事情往往就會發生,怕什么來什么 。 這就是墨菲定律 。 緊急趕時間,恰好每個路口都遇到紅燈 。 上班時工作較少,下班時恰好來活 。 不打車時街上到處都是空出租車,但等你需要打車時發現全是滿員的 。 … 其實墨菲定律不是一個數學規律,而是一種選擇性記憶的心理學現象 。 順利的事情,不會令人記憶深刻,只有那些讓人感到憤怒、挫敗和痛苦的記憶,最難磨滅 。 如果用數據分析的思維去看墨菲定律,這是一個期望值的問題,是我們對于好事情和壞事情的期望值差異造成的 。 5、幸存者偏差幸存者偏差是指,當取得資訊的渠道僅來自幸存者時,我們得出的結論可能會與實際情況存在巨大偏差 。 幸存者偏差這個概念來源于二戰時期,戰爭中,戰機機身上幾乎所有地方都可能中彈,因此需要用統計學研究戰機被擊中的部位,從而確定哪個部分需要額外加強裝甲 。 人們對返航的戰機進行彈痕分析后發現,飛機機翼和尾部被打穿的彈孔較多,由此得出應該是加強機翼的裝甲防護會更好 。 但對返航的飛機樣本來說,其實是說明即使機翼中彈,飛機也有很大的幾率能夠返航 。 對于那些彈孔不多的部位來說(比如駕駛艙、油箱和機尾),當這些部位中彈的時候,飛機很可能連飛回來的機會都沒有了,而這并沒有統計出來,這就是所謂的“看不見的彈痕最為致命” 。 最后事實也證明,加強彈孔較少部位的裝甲防護是正確的 。 6、帕累托法則 帕累托法則,也叫做二八法則,簡單來說,就是 20% 的人占了 80% 的資源,剩下 80% 的人分最后 20% 的資源 。 這個法則誕生于帕累托的花園 。 有一天帕累托偶然發現,自己園子里絕大部分的豌豆是由園子里極少部分豌豆莢產生 。 這樣的規律其實無處不在 。 語言中常用詞只有500-1000個,剩余的更多詞匯使用很少 。 20%的員工,為公司做出了80%的業績 。 20%的人,掌握了全世界80%以上的財富 。 … 那么這種現象是怎么產生的呢? 病毒、樹種和語言其實都有一個共性——傳播性 。 比如在亞馬遜雨林里,兩株植物長在了一塊,那么每天這兩株植物就要為陽光和土壤中的養分去競爭 。 如果其中一株能比另外一株植物每天稍微長快一點,那么它就能長得更高,從而獲得更多的陽光、吸收更多的養分 。 如果每天都有這些額外的能量,這株植物就更加有能力把種子給傳播出去,然后復制這種模式 。 一直持續下去,這種植物就會積累出得天獨厚的優勢 。 開始的微妙的優勢會隨著時間逐步加強,最后就能占領絕對優勢,就像滾雪球一樣,越滾越大 。 7、馬太效應馬太效應是指,大者恒大,贏家通吃 。 馬太效應來源于圣經《新約·馬太福音》,文中是這樣描述的:“ 凡有的,還要加給他,叫他多余 。 沒有的,連他所有的也要奪過來 ” 。 比如電商平臺,用戶越多,入駐的商家就越多;商家越多,提供的商品越豐富,用戶就越多 。 原來屬于小電商平臺的用戶和商家,都都會逐步來來到大的電商平臺 。 馬太效應告訴我們,我們身處的世界是贏者通吃的世界,開始時細微優勢最終將帶來無窮多的回報 。 反之,最初的細微劣勢也將導致最終一無所有 。 8、正太分布正態分布也叫高斯分布,就是你在課本里曾經學過的那個兩頭低、中間高然后左右軸對稱的鐘形曲線 。

推薦閱讀