3分鐘,看懂區間估計和置信區間

很多小伙伴想知道:做數據分析, 到底要懂多少統計學?小熊妹很認真地做一個懶人攻略, 不講復雜的理論, 直接講實際操作, 希望能幫助到大家哦 。 如果要講統計學, 第一個概念要從區間估計講起, 這是后續很多方法的基礎 。 一聽:“區間估計”的名字, 很多小伙伴會一腦袋問號: 1、為什么要“估計” 2、為什么還要有“區間” 今天的分享就從這里開始 。 一:什么是“估計”“估計”是指用抽樣的數據估計全體的數據情況 。 之所以這么做, 是因為很多時候, 想全體采集數據太難了!比如生產真空包裝雞腿的企業, 要檢查質量, 就得把包裝拆開, 那雞腿就不能再賣了 。 這是多大的損失呀!所以必須抽樣 。 如果直接用抽樣數據代表全體數據, 就是所謂:點估計 。 常見的點估計指標有2個: 平均值:比如抽樣雞腿的平均重量為150克 。 比例:比如抽樣雞腿的衛生合格率為99.9% 。 但是, 直接這么做會有問題, 就是:抽樣對象不同, 點估計值經常有差異 。 為了解決這個問題, 有了區間估計的做法二:什么是“區間估計”通俗地講:區間估計是在點估計的基礎上, 給一個合理取值范圍 。 比如: 抽樣雞腿的平均重量為150克, 是一個點估計值 。 抽樣雞腿的平均重量為145克到155克之間, 是一個區間估計 。 其中, 145到155稱為置信區間 。 這很符合人們的常規理解:東西很難100%準確, 有個范圍也是可以理解的 。 但這個范圍有多大可信度呢?人們用置信置信水平來衡量, 即:“我們有多大把握, 真實值在置信區間內” 。 一般用(1-α)表示 。 如果α取0.05, 則置信水平為0.95, 即95%的把握 。 置信區間與置信水平連起來, 完整的表達為:“我們有95%的把握, 雞腿平均重量在145至155克之間 。 ”有小伙伴會好奇, 為啥置信水平不是100%!通俗地說, 當置信水平太高時, 置信區間會變得非常大, 從而產生一些正確但無用的結論 。 比如:我們有100%的把握, 小熊妹顏值在負分滾粗(-10分)與美若天仙(10分)之間……這是句正確的廢話 。 再比如:我們有95%的把握, 小熊妹是個顏值8分的美女(10分滿分)……這個結論是不是有用多了!三:如何做區間估計做區間估計需要四步, 不想看原理的小伙伴, 死記硬背即可 。 第一步:確認抽樣對象和要計算的指標(看算平均值還是比例) 第二步:進行抽樣, 獲得樣本數據(平均值、比例、方差、樣本量) 第三步:給定置信水平(1-α值) 第四步:利用Z分布, 求出對應置信區間范圍計算公式為:

3分鐘,看懂區間估計和置信區間

文章插圖
只要把公式的參數, 套進去即可 。 其中標準差, Z值/t值, 平均值等參數, 在各種計算工具里都有現成的公式可以用 。 四:兩個簡單的例子某公司主要針對中老年群體開發產品, 用戶在購買時無需提供身份信息, 因此不清楚用戶年齡 。 現需抽樣, 調查其目標客戶的年齡是否符合“中老年”的范疇, 抽樣數據如下, 請計算90%置信水平下的目標客戶年齡置信區間(如下圖) 。
3分鐘,看懂區間估計和置信區間

文章插圖
再看個比例的例子 。 某公司想了解用戶滿意度, 而有相當比例的用戶沒有在商品評價里打分, 因此采用調查方法, 抽300名未在網站打分用戶調查, 其中182名用戶表示滿意, 求95%置信水平下, 用戶滿意率的置信區間(如下圖)
3分鐘,看懂區間估計和置信區間

文章插圖
看到這個結果, 反應快的小伙伴已經馬上意識到:這種計算能用來驗證業務有沒有撒謊!比如上例中, 如果業務方說“用戶滿意率肯定在70%以上”這樣謊言就被戳穿了 。 實際上, 也確實是如此操作的 。 區間估計的方法是做假設檢驗的基礎理論, 所以小伙們都得掌握一下 。 五:這么神奇的方法, 為啥平時不咋用?答:現代企業采集數據的手段豐富了很多, 特別是互聯網企業, 用戶的注冊、點擊、互動數據是全體收集的 。 因此想了解用戶消費情況, 完全可以針對全體統計消費率, 消費金額等指標 。 就不需要抽樣了, 因此用得很少 。 但這不意味著運營、產品、銷售的同學就不需要掌握這個概念 。 因為這兩年ABtest大行其道, 導致抽樣實驗的方法又形成一輪文藝復興 。

    推薦閱讀