介紹這10個分析方法數據統計分析方法有哪些？( 二 )

2026-05-09 小知識

明年我每月的開支會是多少？
哪個因素（每月收入還是每月旅行次數）在決定我的每月開支時更重要？
每月收入、每月旅行次數是如何與每月支出相關的？

分類
分類是一種數據挖掘技術，通過確定一組數據所屬的類別以實現更準確的預測和分析。分類有時候也稱為決策樹，是對大型數據集進行分析的利器之一。常用的分類方法有兩種：邏輯回歸和判別分析(Discriminant Analysis) 。
邏輯回歸適合于因變量為二元變量時。像所有的回歸分析一樣，邏輯回歸是一種預測性分析。邏輯回歸用于描述數據并解釋一個二元因變量與一個或多個名義、序列、時間間隔或比率獨立變量之間的關系。邏輯回歸可以回答的問題有：

每增加一磅體重和每天吸煙的包數如何影響患肺癌的概率？
卡路里攝入、脂肪攝入和年齡是否對心臟病發作有影響？

在判別分析中，先驗知道兩個或多個分組或類別（clusters），然后基于已測量的特征將1個或多個新觀測對象分類到一個已知類別中去。判別分析在每個類別下分別對預測變量X的分布進行建模，然后使用貝葉斯定理將這些變量轉換為給定X值的對應類別的概率估計。這些模型可以是線性的或者二次方的：
線性判別分析(Linear Discriminant Analysis)為每個觀測值計算“判別分數”來判斷它應該屬于哪個類別。判別分數是通過尋找自變量的線性組合得到的。它假設每個類別中的觀測值都來自于多元高斯分布，并且預測變量的協方差在響應變量Y的所有k個水平上都相同。
二次判別分析(Quadratic Discriminant Analysis)提供了一個替代方法。與線性判別分析一樣，二次判別分析假設每個Y類別的觀察值都來自于高斯分布。然后，與線性判別分析不同的是，二次判別分析假設每個類都有自己的協方差矩陣。換句話說，預測變量并未假設在Y中的所有k個水平上都具有共同的方差。
重采樣方法（Resampling Methods）
重采樣是從原始數據中重復采集樣本的方法。這是一種非參數統計推斷方法。換句話說，重采樣方法不涉及使用通用分布表來計算近似的p概率值。
重采樣根據實際數據生成一個唯一的采樣分布。它使用實驗方法而不是分析方法來生成唯一的樣本分布。它產生的是無偏估計，因為它是基于研究人員研究的數據的所有可能結果生成的無偏樣本。為了理解重采樣的概念，你需要理解術語Bootstrapping和交叉驗證(Cross-Validation) 。
Bootstrapping 在很多情況下是一種有用的方法，比如評估模型性能、模型集成(ensemble methods)、估計模型的偏差和方差等。它的工作機制是對原始數據進行有放回的采樣，并將“沒被選上”的數據點作為測試用例。我們可以這樣操作多次，并計算平均得分作為模型性能的估計。
交叉驗證是評估模型性能的一種方法，它通過將訓練數據分成k份，使用k-1份作為訓練集，使用保留的那份作為測試集。以不同的方式重復整個過程k次。最終取k個得分的平均值作為模型性能的估計。
對于線性模型而言，普通最小二乘法是擬合數據的主要標準。不過，接下來的3種方法可以為線性模型提供更好的預測準確性和模型可解釋性。
子集選擇（Subset Selection）
這種方法先確定與因變量相關的p個自變量的一個子集，然后使用子集特征的最小二乘擬合模型。

最優子集法(Best-Subset Selection)對p個自變量的所有可能組合分別做最小二乘法回歸，查看最終的模型擬合效果。該算法分為2個階段：

擬合所有包含k個自變量的模型，其中k是模型的最大長度;
使用交叉驗證誤差來選出最佳模型。

使用測試誤差或者驗證誤差而不是訓練誤差來評估模型很重要，因為RSS和R2會隨著變量的增加而單調增加。最好的方式是交叉驗證并選擇測試誤差上R2最高而RSS最低的模型。

向前逐步選擇(Forward Stepwise Selection)使用一個更小的自變量子集。它從一個不包含任何自變量的模型開始，將自變量逐個加入模型中，一次一個，直到所有自變量都進入模型。每次只將能夠最大限度提升模型性能的變量加入模型中，直到交叉驗證誤差找不到更多的變量可以改進模型為止。
向后逐步選擇(Backward Stepwise Selection)在開始時包含全部p個自變量，然后逐個移除最沒用的自變量。
混合方法(Hybrid Methods)遵循向前逐步選擇原則，但是在每次添加新變量之后，該方法也可能移除對模型擬合沒有貢獻的變量。
- 上一頁
- 1
- 2
- 3
- 4
- 下一頁
推薦閱讀

上一篇：以柴火創客空間公眾號作為案例來分析怎樣寫新媒體運營計劃？

下一篇：介紹5個分析用戶行為數據驅動業務增長的方法如何用戶行為數據分析？