by28777換哪了 by28777


by28777換哪了  by28777

文章插圖
監督學習(Supervised Learning)包括分類算法(Classification)和回歸算法(Regression)兩種 , 它們是根據類別標簽分布的類型來定義的 ?;貧w算法用于連續型的數據預測 , 分類算法用于離散型的分布預測 ?;貧w算法作為統計學中最重要的工具之一 , 它通過建立一個回歸方程用來預測目標值 , 并求解這個回歸方程的回歸系數 。
一.回歸1.什么是回歸回歸(Regression)最早是英國生物統計學家高爾頓和他的學生皮爾遜在研究父母和子女的身高遺傳特性時提出的 。1855年 , 他們在《遺傳的身高向平均數方向的回歸》中這樣描述“子女的身高趨向于高于父母的身高的平均值 , 但一般不會超過父母的身高” , 首次提出來回歸的概念 ?,F在的回歸分析已經和這種趨勢效應沒有任何瓜葛了 , 它只是指源于高爾頓工作 , 用一個或多個自變量來預測因變量的數學 ***。
by28777換哪了  by28777

文章插圖
圖1是一個簡單的回歸模型 , X坐標是質量 , Y坐標是用戶滿意度 , 從圖中可知 , 產品的質量越高其用戶評價越好 , 這可以擬合一條直線來預測新產品的用戶滿意度 。
在回歸模型中 , 我們需要預測的變量叫做因變量 , 比如產品質量;選取用來解釋因變量變化的變量叫做自變量 , 比如用戶滿意度 ?;貧w的目的就是建立一個回歸方程來預測目標值 , 整個回歸的求解過程就是求這個回歸方程的回歸系數 。
簡言之 , 回歸最簡單的定義就是:
給出一個點集 , 構造一個函數來擬合這個點集 , 并且盡可能的讓該點集與擬合函數間的誤差最小 , 如果這個函數曲線是一條直線 , 那就被稱為線性回歸 , 如果曲線是一條三次曲線 , 就被稱為三次多項回歸 。
2.線性回歸首先 , 作者引用類似于斯坦福大學機器學習公開課線性回歸的例子 , 給大家講解線性回歸的基礎知識和應用 , 方便大家的理解 。同時 , 作者強烈推薦大家學習原版Andrew Ng教授的斯坦福機器學習公開課 , 會讓您非常受益 。
by28777換哪了  by28777

文章插圖
假設存在表1的數據集 , 它是某企業的成本和利潤數據集 。數據集中2002年到2016年的數據集稱為訓練集 , 整個訓練集共15個樣本數據 。重點是成本和利潤兩個變量 , 成本是輸入變量或一個特征 , 利潤是輸出變量或目標變量 , 整個回歸模型如圖2所示 。
by28777換哪了  by28777

文章插圖
現建立模型 , x表示企業成本 , y表示企業利潤 , h(Hypothesis)表示將輸入變量映射到輸出變量y的函數 , 對應一個因變量的線性回歸(單變量線性回歸)公式如下:
by28777換哪了  by28777

文章插圖
那么 , 現在要解決的問題是如何求解的兩個參數和 。我們的構想是選取的參數和使得函數盡可能接近y值 , 這里提出了求訓練集(x,y)的平方誤差函數(Squared Error Function)或最小二乘法 。
在回歸方程里 , 最小化誤差平方和 *** 是求特征對應回歸系數的更佳 ***。誤差是指預測y值和真實y值之間的差值 , 使用誤差的簡單累加將使得正差值和負差值相互抵消 , 所采用的平方誤差(最小二乘法)如下:
by28777換哪了  by28777

文章插圖
在數學上 , 求解過程就轉化為求一組值使上式取到最小值 , 最常見的求解 *** 是梯度下降法(Gradient Descent) 。根據平方誤差 , 定義該線性回歸模型的損耗函數(Cost Function)為 , 公式如下:
by28777換哪了  by28777

文章插圖
選擇適當的參數讓其最小化min , 即可實現擬合求解過程 。通過上面的這個示例 , 我們就可以對線性回歸模型進行如下定義:根據樣本x和y的坐標 , 去預估函數h , 尋求變量之間近似的函數關系 。公式如下:
by28777換哪了  by28777

推薦閱讀