匯總16個數據分析常用的分析方法 如何數據整理分析?

本文主要目的是為了匯總數據分析常用的分析方法 , 讓大家有整體的概念 , 知道常用的算法 , 由于篇幅太長了 , 每個方法只進行了簡單概括介紹 , 后面會開文單獨介紹說明每個算法 。
昨天文章
《數據分析:入門到精通》
說到了四大類數據分析法 。 我們今天詳細說明下具體有哪些分析方法 。
四大類數據分析法
一、現狀描述型統計
現狀描述型統計是指運用制表和分類 , 圖形以及計筠概括性數據來描述數據的頻數、集中趨勢、離散程度、偏度、峰度 。 是分析中最常見與常用的方法 。 統計圖形 , 包括條形圖、餅圖和折線圖等 。
描述性統計
1、缺失值填充:常用方法:剔除法、均值法、最小鄰居法、比率回歸法、決策樹法 。
2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布 , 所以之前需要進行正態性檢驗 。 常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法 。
二、假設檢驗
假設檢驗是通過觀察一組隨機變量的模型進行檢驗的科學假說 。 一旦能估計未知參數 , 就會希望根據結果對未知的真正參數值做出適當的推論 。
所以計量資料一般是參數、非參數檢驗都是可以的 。 但是對于能使用參數檢驗的 , 首選參數檢驗 , 對不能滿足條件的才選用非參數檢驗 。
假設檢驗的種類包括:t檢驗 , Z檢驗 , 卡方檢驗 , F檢驗等等 。
假設檢驗的基本思想是小概率反證法思想 。 小概率思想是指小概率事件(P<0.01或P<0.05)在一次試驗中基本上不會發生 。 反證法思想是先提出假設(檢驗假設H0) , 再用適當的統計方法確定假設成立的可能性大小 , 如可能性小 , 則認為假設不成立 , 若可能性大 , 則還不能認為假設不成立 。
三、信度分析
信度(Reliability)即可靠性 , 它是指采用同樣的方法對同一對象重復測量時所得結果的一致性程度 。 檢査測量的可信度 , 例如調查問卷的真實性 。
信度指標多以相關系數表示 , 大致可分為三類:
穩定系數(跨時間的一致性)
等值系數(跨形式的一致性)
內在一致性系數(跨項目的一致性)
信度分析的方法主要有以下四種:
重測信度法、復本信度法、折半信度法、α信度系數法 。
四、交互分類分析
交互分類分析是指同時依據兩個變量的值 , 將所研究的個案分類 。 交互分類的目的是將兩變量分組 , 然后比較各組的分布狀況 , 以尋找變量間的關系 。 該方法通常用于分析離散變量或定型變量之間是否存在相關 。
對于二維表 , 可進行卡方檢驗 , 對于三維表 , 可作Mentel-Hanszel分層分析 。 還包括配對計數資料的卡方檢驗、行列均為順序變量的相關檢驗 。
五、相關分析
研究現象之間是否存在某種依存關系 , 對具體有依存關系的現象探討相關方向及相關程度 。
1、單相關: 兩個因素之間的相關關系叫單相關 , 即研究時只涉及一個自變量和一個因變量;
2、復相關 :三個或三個以上因素的相關關系叫復相關 , 即研究時涉及兩個或兩個以上的自變量和因變量相關;
3、偏相關:在某一現象與多種現象相關的場合 , 當假定其他變量不變時 , 其中兩個變量之間的相關關系稱為偏相關 。
六、方差分析
方差分析的基本思想是通過分析研究不同來源的變異對總變異的貢獻大小 , 從而確定可控因素對研究結果影響力的大小 。
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等 。
方差分析主要用途:
1、均數差別的顯著性檢驗;
2、分離各有關因素并估計其對總變異的作用;
3、分析因素間的交互作用 ,
4、方差齊性檢驗 。
七、回歸分析
回歸時研究因變量對自變量的依賴關系的一種統計分析方法 , 目的是通過自變量的給定值來估計或預測因變量的均值 。 它可用于預測、時間序列建模以及發現各種變量之間的因果關系 。
回歸分析按照涉及的變量的多少 , 分為一元回歸和多元回歸分析;
按照因變量的多少 , 可分為簡單回歸分析和多重回歸分析;
按照自變量和因變量之間的關系類型 , 可分為線性回歸分析和非線性回歸分析 。
其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權回歸等 。
回歸分析研究的主要問題是:

推薦閱讀