顯著性分析


顯著性分析

文章插圖
1、Coefficient 系數
回歸分析的系數代表了每個自變量對因變量的 貢獻度 ,系數的絕對值越大,表示該變量在模型里面貢獻越大,也表示了該自變量與因變量的關系越緊密 。
另外這些系數的值表明了自變量與因變量的關系,比如S(總出口)的系數為0.58,則表示當總出口每增加一個單位,在其他自變量的值不發生改變的時候,因變量財政收入會增加0.58個單位 。
而且這個系數也表示了自變量與因變量之間的關系類型,即它分為 正向 和 負向 ,系數為正,表示正相關,系數為負,表示負相關 。如下圖所示:
不管是正向大還是負向大,越大,表示與因變量的關系強度越大,只不過是正相關還是負相關的問題 。
該參數是整個回歸模型里面 最重要的參數 ,沒有之一 。
2、StdError:回歸系數的標準差
回歸的標準誤是模型中隨機擾動項(誤差項)的標準差的估計值 。它的平方誤差項的方差的無偏估計量,實際上又叫做誤差均方,等于殘差的平方和/(樣本容量-待估參數的個數) 。
【顯著性分析】
這個值越小,表示模型的預測越準 。
3、t-Statistic T統計量
在統計學里面,T統計量是假設檢驗的重要樞軸量,多用于兩樣本均值檢驗,回歸模型系數顯著性檢驗 。
T-Statistic=平均值 / 標準誤
一般來來說,這個值表示,與P-value意義差不多,都是在驗證零假設的情況下,模型的 顯著性 ,但是有些時候P-value會有一些問題,比如丟失一些信息 。計算機里面進行統計驗證的時候,T統計量越大,表示越顯著 。
一般abs()》=1.96 就可以
4、Probability 概率:
這個就是P值,關于它的解釋,翻以前的文章,這里不多說 。一般需要小于0.05
5、6、7:Robust_SE Robust_t Robust_Pr [b] 這三個字段,分別表示了標準差的健壯度、T統計量的健壯度和概率的健壯度 。
在統計學里面,Robust Test通常被翻譯 穩健性檢驗 ,一般來說,就是通過修改(增添或者刪除)變量值,看所關注解釋變量的回歸系數和結果是否穩健 。
8、VIF (方差膨脹因子(Variance Inflation Factor,VIF)) ,這個值主要驗證解釋變量里面是否有冗余變量(即是否存在多重共線性) 。一般來說,只要VIF超過 7.5 ,就表示該變量有可能是 冗余變量。
1.概念與意義 在假設檢驗中,顯著性水平顯著性水平顯著性水平顯著性水平((((Significant level,,,,用用用用α表示表示表示表示))))的確定是假設檢驗中至關重要的問題 。顯著性水平是在原假設成立時檢驗統計量的值落在某個極端區域的概率值 。因此,如果取α= 0.05,如果計算出的p值小于α ,則可認為原假設是一個不可能發生的小概率事件 。當然,如果真的發生了,則犯錯誤的可能性為5% 。顯然,顯著性水平反映了拒絕某一原假設時所犯錯誤的可能性,或者說,α是指拒絕了事實上正確的原假設的概率 。2.通常的取值 α值一般在進行假設檢驗前由研究者根據實際的需要確定 。常用的取值是0.05或0.01 。對于前者,相當于在原假設事實上正確的情況下,研究者接受這一假設的可能性為95%;對于后者,則研究者接受事實上正確的原假設的可能性為99% 。顯然,降低α值可以減少拒絕原假設的可能性 。因此,在報告統計分析結果時,必須給出α值 。3.進行統計推斷 在進行假設檢驗時,各種統計軟件均會給出檢驗統計量觀測值以及原假設成立時該檢驗統計量取值的相伴概率(即檢驗統計量某特定取值及更極端可能值出現的概率,用p表示) 。p值是否小于事先確定的α值,是接受或拒絕原假設的依據 。如果p值小于事先已確定的α值,就意味著檢驗統計量取值的可能性很小,進而可推斷原假設成立的可能性很小,因而可以拒絕原假設 。相反,如果p值大于事先已確定的α值,就不能拒絕原假設 。在計算機技術十分發達,以及專業統計軟件功能十分強大的今天,計算檢驗統計量及其相伴概率是一件十分容易的事情 。然而,在20世紀90年代以前,只有服從標準正態分布的檢驗統計量,人們可以直接查閱事先準備好的標準正態分布函數表,從中獲得特定計算結果的相伴概率 。而對于的服從t-分布、F-分布、卡方分布或其它特殊的理論分布的檢驗統計量(大多數的假設檢驗是這樣),人們無法直接計算相伴概率 。人們通常查閱各類假設檢驗的臨界值表進行統計推斷 。這些表格以自由度和很少的幾個相伴概率(通常為0.1、0.05和0.01)為自變量,以檢驗統計量的臨界值為函數排列 。在進行統計推斷時,人們使用上述臨界值表根據事先確定的顯著性水平,查閱對應于某一自由度和特定相伴概率的檢驗統計量的臨界值,然后將所計算出的檢驗統計量與該臨界值相比較 。如果檢驗統計量的計算值大于臨界值,即實際的相伴概率小于事先規定的顯著性水平,便可拒絕原假設 。否則,可接受原假設 。4.舉例 在根據顯著性水平進行統計推斷時,應注意原假設的性質 。以二元相關分析為例,相關分析中的原假設是“相關系數為零”(即2個隨機變量間不存在顯著的相關關系) 。如果計算出的檢驗統計量的相伴概率(p值)低于事先給定α值(如0.05),就可以認為“相關系數為零”的可能性很低,既2個隨機變量之間存在顯著的相關關系 。在正態分布檢驗時,原假設是“樣本數據來自服從正態分布的總體” 。此時,如果計算出的檢驗統計量的相伴概率(p值)低于事先給定α值(如0.05),則表明數據不服從正態分布 。只有p值高于α值時,數據才服從正態分布 。這與相關分析的假設檢驗不同 。5.作者在描述相關分析結果時常有的失誤 僅給出相關系數的值,而不給出顯著性水平 。這就無法判斷2個隨機變量間的相關性是否顯著 。有時作者不是根據顯著性水平判斷相關關系是否顯著,而是根據相關系數的大小來推斷(相關系數越近1,則相關關系越顯著) 。問題是,相關系數本身是一個基于樣本數據計算出的觀測值,其本身的可靠性尚需檢驗 。此外,作者在論文中常常用“顯著相關”和“極顯著相關”來描述相關分析結果,即認為p值小于0.05就是顯著相關關系(或顯著相關),小于0.01就是極顯著相關關系(或極顯著相關) 。在假設檢驗中,只有 “顯著”和 “不顯著”,沒有“極顯著”這樣的斷語 。只要計算出的檢驗統計量的相伴概率(p值)低于事先確定的α值,就可以認為檢驗結果“顯著”(相關分析的原假設是“相關系數為零”,故此處的“顯著”實際意味著“相關系數不為零”,或說“2個隨機變量間有顯著的相關關系”);同樣,只要計算出的檢驗統計量的相伴概率(p值)高于事先確定的α值,就可以認為檢驗結果“不顯著” 。在進行相關分析時,不能同時使用0.05和0.01這2個顯著性水平來決定是否拒絕原假設,只能使用其中的1個 。

推薦閱讀