介紹這10個分析方法 數據統計分析方法有哪些?

本文站在統計學家的角度對數據科學常用的一些技術方法進行總結 , 幫助讀者建立直觀印象 。 內容對應的R代碼可以在作者的GitHub上找到 。
無論你在數據科學中是何種立場 , 你都無法忽視數據的重要性 , 數據科學家的職責就是分析、組織和應用這些數據 。
著名求職網站Glassdoor根據龐大的就業數據和員工反饋信息 , 將數據科學家排名為美國最佳的25個工作之首 。 雖然名頭不小 , 但毫無疑問 , 數據科學家所做的具體工作是不斷發展變化的 。 隨著機器學習等技術越來越普及 , 像深度學習這樣的新興領域在研究人員、工程師以及聘用他們的公司中成為新寵 , 數據科學家們將繼續在創新浪潮和技術進步中嶄露頭角 。
盡管具有強大的編程能力很重要 , 但數據科學家不需要都是軟件工程師(實際上會用Python你就可以上路了) 。 數據科學家處于編程、統計學和批判性思維的交叉區域 。 正如Josh Wills所說:“數據科學家是這樣一種人 , 他比任何程序員都更懂統計 , 并且他比任何統計學家都更懂編程” 。
我認識很多想轉行數據科學家的軟件工程師 , 他們盲目地使用TensorFlow或者Apache Spark等機器學習框架去處理數據 , 卻沒有深入理解背后的統計理論 。 因此本文要談一談統計學習(statistical learning) , 它是源于統計學和泛函分析的一個機器學習理論框架 。
為什么要學習統計學習?
首先 , 為了知道如何以及何時使用各種分析方法 , 理解各種分析方法背后的思想很重要 。 要想掌握更精巧復雜的方法 , 你必須先理解較簡單的方法;其次 , 當你想準確地評估一種分析方法的效果時 , 你得知道其運行的多好或者多么不好;第三 , 這是一個令人興奮的研究領域 , 在科學、業界和金融領域有重要的應用 。 最后 , 統計學習也是一名現代數據科學家的重要素養 。 一些統計學習的代表性問題包括:

  • 找出前列腺癌的高危因素
  • 根據對數周期圖對一個音位進行分類
  • 根據人口統計學資料、飲食和臨床測量數據預測某人是否會得心臟病
  • 自定義一個垃圾郵件檢測系統
  • 識別手寫的郵政編碼數字
  • 確定一個組織樣本屬于哪一類癌癥
  • 建立人口調查數據中工資和人口統計學變量之間的關系
在大學的最后一個學期 , 我完成了一門數據挖掘的獨立學習課程 。 該課程涵蓋了來自3本書的大量材料:《Intro to Statistical Learning》(Hastie, Tibshirani, Witten, James), 《Doing Bayesian Data Analysis》 (Kruschke),和《Time Series Analysis and Applications》 (Shumway, Stoffer) 。 我們在貝葉斯分析、馬爾科夫鏈、蒙特卡洛、層次建模、監督學習和非監督學習方面做了大量的練習 。
這些經歷加深了我對數據挖掘的興趣 , 并使我確信要在此領域進一步專注 。 最近我完成了Stanford Lagunita的統計學習在線課程 , 它涵蓋了我在獨立學習課程中讀過的《Intro to Statistical Learning》的全部內容 。 在接觸了這本書兩次之后 , 我想分享這本書中的10個統計分析方法 , 我相信任何數據科學家 , 若想更有效的處理大數據集 , 都應該學習這些方法 。
在介紹這10個分析方法之前 , 我想先對統計學習和機器學習做一個區分 。 我曾經寫過一篇關于機器學習的很受歡迎的文章 , 所以我相信我有專業能力來區分二者:
  • 機器學習是人工智能的一個子領域 , 統計學習是統計學的一個子領域;
  • 機器學習強調大規模應用和預測準確性 , 統計學習強調模型及其可解釋性(interpretability) , 精度(precision)和不確定性(uncertainty) 。
但是這種區別已經越來越模糊 , 并且存在大量交叉 。 此外 , 機器學習的市場營銷做的更好 。
線性回歸
在統計學中 , 線性回歸是一種通過擬合因變量(dependent)和自變量(independent variable)之間最佳線性關系來預測目標變量的方法 。 最佳擬合是通過確保每個實際觀察點到擬合形狀的距離之和盡可能小而完成的 。 最佳擬合指的是沒有其他形狀可以產生更小的誤差了 。 線性回歸的兩種主要類型是:簡單線性回歸(Simple Linear Regression)和多元線性回歸(Multiple Linear Regression) 。 簡單線性回歸使用單一的自變量 , 通過擬合出最佳的線性關系來預測因變量 。 而多元線性回歸使用多個自變量 , 擬合出最佳的線性關系來預測因變量 。
選擇任意兩個你日常生活中使用的相關的東西 。 比如 , 我有過去3年中自己每月開支、每月收入、每月旅行次數的數據 , 現在我想回答下列問題:

推薦閱讀