介紹這10個分析方法 數據統計分析方法有哪些?( 三 )

特征縮減(Shrinkage)
這種方法使用所有p個自變量擬合模型 , 但相對于最小二乘估計 , 該方法會讓一些自變量的估計系數向著0衰減 。 這種衰減又稱正則化(Regularization) , 具有減少方差的作用 。 根據所使用的縮減方法 , 一些系數可能被估計為0 。 因此這個方法也用于變量選擇 。 最常用的兩種縮減系數方法是嶺回歸(Ridge regression)和L1正則化(Lasso) 。
嶺回歸(Ridge regression)與最小二乘類似 , 但在原有項的基礎上增加了一個正則項 。 和最小二乘法一樣 , 嶺回歸也尋求使RSS最小化的參數估計 , 但當待估參數接近于0時 , 它會有一個收縮懲罰 。 這個懲罰會促使縮減待估參數接近于0 。 您無需深入數學海洋 , 僅需要知道嶺回歸通過減小模型方差來縮減特征就可以了 。 就像主成分分析一樣 , 嶺回歸將數據投影到d維空間 , 然后對比低方差(最小主成分)和高方差(最大主成分)的系數進行剔除和篩選 。
嶺回歸至少有一個缺點:它的最終模型中包含全部p個自變量 。 懲罰項會讓許多系數接近于0但永遠不為0 。 這一點通常對預測準確性而言并不是問題 , 但它可能會使模型更難解釋 。 正則化克服了這個缺點 , 只要s足夠小 , 它能強迫某些系數為0 。 S=1就是常規的最小二乘法回歸 , 當s接近于0時 , 系數朝著0縮減 。 因此正則化也相當于進行了變量選擇 。
降維(Dimension Reduction)
降維將估計p+1個系數減少為M+1個系數 , 其中M<p 。 這是通過計算變量的M個不同的線性組合或投影來實現的 。 然后 , 這M個投影被用作預測變量 , 使用最小二乘來擬合線性回歸模型 。 常用的兩種降維方法分別是主成分回歸(Principal component regression)和偏最小二乘法(Partial least squares) 。
可以將主成分回歸描述為從大量變量中導出低維特征集的方法 。 數據的第一主成分方向是觀測值變化最大的方向 。 換句話說 , 第一主成分是一條盡可能擬合數據的直線 。 可以擬合p個不同的主成分 。 第二主成分是與第一主成分不相關的變量的線性組合 , 且方差最大 。 主成分分析的思想是使用正交方向的數據的線性組合來捕獲數據中的最大方差 。 通過這種方式可以組合相關變量的影響 , 從可用數據中提取更多信息 , 而在常規最小二乘中我們必須丟棄其中一個相關變量 。
主成分分析法識別最能代表預測變量X的線性組合 。 這些組合(方向)以無監督的方式被識別 , 響應變量Y并未用于幫助確定主成分方向 , 因此不能保證最能解釋預測變量的方向在預測上也是最好的(盡管通常都這樣假定) 。 偏最小二乘法是主成分分析法的一種監督學習替代方式 。 它也是一種降維方法 , 首先識別一個新的較小的特征集 , 這些特征是原始特征的線性組合 , 然后通過對新的M個特征最小二乘擬合成線性模型 。 與主成分分析法不同的是 , 偏最小二乘法會利用響應變量來識別新特征 。
非線性模型(Nonlinear Models)
在統計學中 , 非線性回歸是回歸分析的一種形式 , 觀測數據是通過一個或多個自變量的非線性組合函數來建模 。 數據用逐次逼近的方法進行擬合 , 下面是一些處理非線性模型的重要方法:
如果一個實數域上的函數可以用半開區間上的指示函數的有限次線性組合來表示 , 則它被稱為階躍函數(step function) 。 換一種不太正式的說法就是 , 階躍函數是有限段分段常數函數的組合 。
分段函數是由多個子函數定義的函數 , 每個子函數應用于主函數域的某一個區間上 。 分段實際上是表達函數的一種方式 , 而不是函數本身的特性 , 但是加上額外的限定條件 , 它也可以描述函數的性質 。 例如 , 分段多項式函數是這樣一個函數 , 它是每個子域上的多項式 , 但每個子域上可能是不同的函數 。
樣條曲線(spline)是由多項式分段定義的特殊函數 。 在計算機圖形學中 , 樣條是指分段多項式參數曲線 。 因為它們的結構簡單 , 擬合簡易而準確 , 可以近似曲線擬合和交互式曲線設計中的復雜形狀 , 樣條曲線是很流行的曲線 。
廣義可加模型(Generalized additive model)是一種廣義線性模型 , 其中線性預測變量依賴于某些預測變量的未知光滑函數 , 側重于這些光滑函數的推理 。
樹形方法(Tree-Based Methods)
樹形方法可以用于回歸和分類問題 。 這涉及到將預測空間分層或分割成若干簡單區域 。 由于用于分割預測空間的分裂規則集可以概括成樹形 , 因此這類方法被稱為決策樹方法 。 下面的方法都是先生成多棵樹 , 然后將這些樹組合在一起以產生單個共識預測 。

推薦閱讀