介紹這10個分析方法 數據統計分析方法有哪些?( 四 )


Bagging是一種通過從原始數據生成額外的訓練數據從而減少預測方差的方法 , 它通過使用重復的組合來生成與原始數據相同的多樣性 。 通過增加訓練集的大小 , 雖然不能提高模型的預測力 , 但可以減小方差 , 將預測調整到預期結果 。
Boosting是一種使用多個不同模型計算輸出的方法 , 然后使用加權平均法對結果進行平均 。 通過改變加權公式 , 結合這些模型的優點和缺陷 , 使用不同的微調模型 , 可以為更廣泛的輸入數據提供良好的預測力 。
隨機森林算法非常類似于Bagging 。 先采集訓練集的隨機bootstrap樣本 , 然后采集特征的隨機子集來訓練單棵樹;而在bagging時是給每一棵樹全部特征 。 由于隨機特征選擇 , 與常規bagging相比 , 樹彼此之間更加獨立 , 這通常會導致更好的預測性能(因為更好的方差偏差權衡) , 而且訓練速度更快 , 因為每棵樹只從特征的一個子集學習 。
支持向量機
支持向量機是一種分類技術 , 屬于機器學習中的監督學習模型 。 通俗地說 , 它通過尋找超平面(二維中的線 , 三維中的平面和更高維中的超平面 , 更正式地 , 超平面是n維空間的n-1維子空間)以及最大邊界(margin)來劃分兩類點 。 從本質上講 , 它是一個約束優化問題 , 因為其邊界最大化受到數據點分布的約束(硬邊界) 。
“支持”這個超平面的數據點被稱為“支持向量” 。 在上圖中 , 填充的藍色圓圈和兩個實心方塊是支持向量 。 對于兩類數據不能線性分離的情況 , 這些點將被投影到一個更高維的的空間中 , 在這個空間里可能會線性可分 。 多分類問題可以分解為多個一對一或者一對其余類的二分類問題 。
無監督學習
到目前為止 , 我們只討論了監督學習 , 即數據類別是已知的 , 算法的目標是找出實際數據與它們所屬的類別之間的關系 。 當類別未知時 , 我們使用另一種方法 , 叫做無監督學習 , 因為它讓學習算法自己去找出數據中的模式 。 聚類是無監督學習的一個例子 , 其中不同的數據被聚類為密切相關的分組 。 下面是最廣泛使用的無監督學習算法的列表:

  • 主成分分析:通過識別一組具有最大方差和相互不相關的特征的線性組合來生成低維表示的數據集 。 這種方法有助于理解變量在無監督環境下的潛在的相互作用 。
  • k-Means聚類:根據聚類中心點的距離將數據分為k個不同的聚蔟 。
  • 層次聚類:通過創建一棵聚類樹來構建多級分層結構 。
以上是一些基本的統計技術概要 , 可以幫助數據科學項目經理/執行人員更好地理解他們的數據科學團隊運作的內容背后隱藏著什么 。 事實上 , 一些數據科學團隊純粹通過python和R庫運行算法 。 他們中的大多數甚至不必考慮背后的數學原理 。 但是 , 理解統計分析的基礎知識可以為你的團隊提供更好的方法 。 深入了解一小部分就可以更輕松地進行操作和抽象 。 我希望這篇基礎的數據科學統計指南能給你一個不錯的理解!
P.S:您可以從我的GitHub源代碼中獲取所有演講幻燈片和RStudio會話 。 感謝您的回應!
如果你喜歡這篇文章 , 可以在社交媒體上分享它 , 我會很感激 。 你可以在GitHub上找到我的代碼:
https://github.com/khanhnamle1994/statistical-learning
以及我在個人網站上的更多寫作和項目:
https://jameskle.com/)
原文標題:The 10 Statistical Techniques Data Scientists Need to Master
原文鏈接:https://www.codementor.io/james_aka_yale/the-10-statistical-techniques-data-scientists-need-to-master-fvj4dx78a
譯者簡介
【介紹這10個分析方法 數據統計分析方法有哪些?】和中華 , 留德軟件工程碩士 。 由于對機器學習感興趣 , 碩士論文選擇了利用遺傳算法思想改進傳統kmeans 。 目前在杭州進行大數據相關實踐 。 加入數據派THU希望為IT同行們盡自己一份綿薄之力 , 也希望結交許多志趣相投的小伙伴 。

推薦閱讀