介紹這10個分析方法 數據統計分析方法有哪些?( 二 )


  • 明年我每月的開支會是多少?
  • 哪個因素(每月收入還是每月旅行次數)在決定我的每月開支時更重要?
  • 每月收入、每月旅行次數是如何與每月支出相關的?
分類
分類是一種數據挖掘技術 , 通過確定一組數據所屬的類別以實現更準確的預測和分析 。 分類有時候也稱為決策樹 , 是對大型數據集進行分析的利器之一 。 常用的分類方法有兩種:邏輯回歸和判別分析(Discriminant Analysis) 。
邏輯回歸適合于因變量為二元變量時 。 像所有的回歸分析一樣 , 邏輯回歸是一種預測性分析 。 邏輯回歸用于描述數據并解釋一個二元因變量與一個或多個名義、序列、時間間隔或比率獨立變量之間的關系 。 邏輯回歸可以回答的問題有:
  • 每增加一磅體重和每天吸煙的包數如何影響患肺癌的概率?
  • 卡路里攝入、脂肪攝入和年齡是否對心臟病發作有影響?
在判別分析中 , 先驗知道兩個或多個分組或類別(clusters) , 然后基于已測量的特征將1個或多個新觀測對象分類到一個已知類別中去 。 判別分析在每個類別下分別對預測變量X的分布進行建模 , 然后使用貝葉斯定理將這些變量轉換為給定X值的對應類別的概率估計 。 這些模型可以是線性的或者二次方的:
線性判別分析(Linear Discriminant Analysis)為每個觀測值計算“判別分數”來判斷它應該屬于哪個類別 。 判別分數是通過尋找自變量的線性組合得到的 。 它假設每個類別中的觀測值都來自于多元高斯分布 , 并且預測變量的協方差在響應變量Y的所有k個水平上都相同 。
二次判別分析(Quadratic Discriminant Analysis)提供了一個替代方法 。 與線性判別分析一樣 , 二次判別分析假設每個Y類別的觀察值都來自于高斯分布 。 然后 , 與線性判別分析不同的是 , 二次判別分析假設每個類都有自己的協方差矩陣 。 換句話說 , 預測變量并未假設在Y中的所有k個水平上都具有共同的方差 。
重采樣方法(Resampling Methods)
重采樣是從原始數據中重復采集樣本的方法 。 這是一種非參數統計推斷方法 。 換句話說 , 重采樣方法不涉及使用通用分布表來計算近似的p概率值 。
重采樣根據實際數據生成一個唯一的采樣分布 。 它使用實驗方法而不是分析方法來生成唯一的樣本分布 。 它產生的是無偏估計 , 因為它是基于研究人員研究的數據的所有可能結果生成的無偏樣本 。 為了理解重采樣的概念 , 你需要理解術語Bootstrapping和交叉驗證(Cross-Validation) 。
Bootstrapping 在很多情況下是一種有用的方法 , 比如評估模型性能、模型集成(ensemble methods)、估計模型的偏差和方差等 。 它的工作機制是對原始數據進行有放回的采樣 , 并將“沒被選上”的數據點作為測試用例 。 我們可以這樣操作多次 , 并計算平均得分作為模型性能的估計 。
交叉驗證是評估模型性能的一種方法 , 它通過將訓練數據分成k份 , 使用k-1份作為訓練集 , 使用保留的那份作為測試集 。 以不同的方式重復整個過程k次 。 最終取k個得分的平均值作為模型性能的估計 。
對于線性模型而言 , 普通最小二乘法是擬合數據的主要標準 。 不過 , 接下來的3種方法可以為線性模型提供更好的預測準確性和模型可解釋性 。
子集選擇(Subset Selection)
這種方法先確定與因變量相關的p個自變量的一個子集 , 然后使用子集特征的最小二乘擬合模型 。
  • 最優子集法(Best-Subset Selection)對p個自變量的所有可能組合分別做最小二乘法回歸 , 查看最終的模型擬合效果 。 該算法分為2個階段:
  • 擬合所有包含k個自變量的模型 , 其中k是模型的最大長度;
  • 使用交叉驗證誤差來選出最佳模型 。
使用測試誤差或者驗證誤差而不是訓練誤差來評估模型很重要 , 因為RSS和R2會隨著變量的增加而單調增加 。 最好的方式是交叉驗證并選擇測試誤差上R2最高而RSS最低的模型 。