區間估計是什么,區間估計和置信區間的區別是什么

很多小伙伴想知道:做數據分析 , 到底要懂多少統計學?小熊妹很認真地做一個懶人攻略 , 不講復雜的理論 , 直接講實際操作 , 希望能幫助到大家哦 。 如果要講統計學 , 第一個概念要從區間估計講起 , 這是后續很多方法的基礎 。 一聽:“區間估計”的名字 , 很多小伙伴會一腦袋問號: 1、為什么要“估計” 2、為什么還要有“區間” 今天的分享就從這里開始 。 一:什么是“估計”“估計”是指用抽樣的數據估計全體的數據情況 。 之所以這么做 , 是因為很多時候 , 想全體采集數據太難了!比如生產真空包裝雞腿的企業 , 要檢查質量 , 就得把包裝拆開 , 那雞腿就不能再賣了 。 這是多大的損失呀!所以必須抽樣 。 如果直接用抽樣數據代表全體數據 , 就是所謂:點估計 。 常見的點估計指標有2個: 平均值:比如抽樣雞腿的平均重量為150克 。 比例:比如抽樣雞腿的衛生合格率為99.9% 。 但是 , 直接這么做會有問題 , 就是:抽樣對象不同 , 點估計值經常有差異 。 為了解決這個問題 , 有了區間估計的做法二:什么是“區間估計”通俗地講:區間估計是在點估計的基礎上 , 給一個合理取值范圍 。 比如: 抽樣雞腿的平均重量為150克 , 是一個點估計值 。 抽樣雞腿的平均重量為145克到155克之間 , 是一個區間估計 。 其中 , 145到155稱為置信區間 。 這很符合人們的常規理解:東西很難100%準確 , 有個范圍也是可以理解的 。 但這個范圍有多大可信度呢?人們用置信置信水平來衡量 , 即:“我們有多大把握 , 真實值在置信區間內” 。 一般用(1-α)表示 。 如果α取0.05 , 則置信水平為0.95 , 即95%的把握 。 置信區間與置信水平連起來 , 完整的表達為:“我們有95%的把握 , 雞腿平均重量在145至155克之間 。 ”有小伙伴會好奇 , 為啥置信水平不是100%!通俗地說 , 當置信水平太高時 , 置信區間會變得非常大 , 從而產生一些正確但無用的結論 。 比如:我們有100%的把握 , 小熊妹顏值在負分滾粗(-10分)與美若天仙(10分)之間……這是句正確的廢話 。 再比如:我們有95%的把握 , 小熊妹是個顏值8分的美女(10分滿分)……這個結論是不是有用多了!三:如何做區間估計做區間估計需要四步 , 不想看原理的小伙伴 , 死記硬背即可 。 第一步:確認抽樣對象和要計算的指標(看算平均值還是比例) 第二步:進行抽樣 , 獲得樣本數據(平均值、比例、方差、樣本量) 第三步:給定置信水平(1-α值) 第四步:利用Z分布 , 求出對應置信區間范圍計算公式為:

區間估計是什么,區間估計和置信區間的區別是什么

文章插圖
只要把公式的參數 , 套進去即可 。 其中標準差 , Z值/t值 , 平均值等參數 , 在各種計算工具里都有現成的公式可以用 。 四:兩個簡單的例子某公司主要針對中老年群體開發產品 , 用戶在購買時無需提供身份信息 , 因此不清楚用戶年齡 。 現需抽樣 , 調查其目標客戶的年齡是否符合“中老年”的范疇 , 抽樣數據如下 , 請計算90%置信水平下的目標客戶年齡置信區間(如下圖) 。
區間估計是什么,區間估計和置信區間的區別是什么

文章插圖
再看個比例的例子 。 某公司想了解用戶滿意度 , 而有相當比例的用戶沒有在商品評價里打分 , 因此采用調查方法 , 抽300名未在網站打分用戶調查 , 其中182名用戶表示滿意 , 求95%置信水平下 , 用戶滿意率的置信區間(如下圖)
區間估計是什么,區間估計和置信區間的區別是什么

文章插圖
看到這個結果 , 反應快的小伙伴已經馬上意識到:這種計算能用來驗證業務有沒有撒謊!比如上例中 , 如果業務方說“用戶滿意率肯定在70%以上”這樣謊言就被戳穿了 。 實際上 , 也確實是如此操作的 。 區間估計的方法是做假設檢驗的基礎理論 , 所以小伙們都得掌握一下 。 五:這么神奇的方法 , 為啥平時不咋用?答:現代企業采集數據的手段豐富了很多 , 特別是互聯網企業 , 用戶的注冊、點擊、互動數據是全體收集的 。 因此想了解用戶消費情況 , 完全可以針對全體統計消費率 , 消費金額等指標 。 就不需要抽樣了 , 因此用得很少 。 但這不意味著運營、產品、銷售的同學就不需要掌握這個概念 。 因為這兩年ABtest大行其道 , 導致抽樣實驗的方法又形成一輪文藝復興 。

推薦閱讀