挖掘數據分析產品經理的相關價值 如何挖掘數據分析產品經理?( 二 )


4. 參數估計參數估計是根據從總體中抽取的隨機樣本來估計總體分布中未知參數的過程 。 在對數據進行統計分析時 , 對于知道其分布形式的總體 , 用若干未知參數來表示 , 研究總體分布 , 首先就要估計出參數的取值 , 這樣的問題就是參數估計問題 。
參數估計從估計形式看 , 區分為點估計與區間估計;從構造估計量的方法講 , 有矩估計、最小二乘估計、似然估計、貝葉斯估計等 。
5. 假設檢驗假設檢驗是用于檢驗統計假設的一種方法 。 而“統計假設”是可通過觀察一組隨機變量的模型進行檢驗的科學假說 。 一旦能估計未知參數 , 就會希望根據結果對未知的真正參數值做出適當的推論 。 統計上對參數的假設 , 就是對一個或多個參數的論述 。
假設檢驗 , 又稱統計假設檢驗 , 是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法 。 假設檢驗基本原理是先對總體的特征作出某種假設 , 然后通過抽樣研究的統計推理 , 對此假設應該被拒絕還是接受作出推斷 。
假設檢驗的種類包括:t檢驗 , Z檢驗 , 卡方檢驗 , F檢驗等等 。
三、數據挖掘方法數據挖掘方法按照是否有目標變量可分為有監督學習的預測性方法和無監督學習的描述性方法 。
預測性方法通過對所提供數據集應用特定方法分析所獲得的一個或一組數據模型 , 并將該模型用于預測未來新數據的有關性質 , 包括分類和回歸 。
描述性方法以簡潔概述的方式表達數據中的存在一些有意義的性質 , 分為聚類和關聯 。
1. 分類分類是找出數據中的一組數據對象的共同特點并按照分類模式將其劃分為不同的類 , 其目的是通過分類模型 , 將數據中的數據項映射到某個給定的類別中 。
分類的輸出變量為離散型 , 常見的分類方法包括(樸素)貝葉斯、決策樹、邏輯回歸、KNN、SVM、支持向量機、神經網絡、隨機森林和邏輯回歸等 。
分類可以應用到涉及到應用分類、趨勢預測中 , 如用戶分層、用戶商品推薦、用戶流失率、促銷活動響應等 。
2. 回歸回歸分析反映了數據中數據的屬性值的特性 , 通過函數表達數據映射的關系來發現屬性值之間的依賴關系 。 它可以應用到對數據的預測及相關關系的研究中去 。
回歸的輸出變量為連續型 , 常見的回歸方法有線性回歸、多項式回歸、嶺回歸、套索回歸、彈性網絡回歸等
回歸可以應用到銷量預測、備貨管理中 , 如通過回歸分析對電商商品的銷售趨勢作出預測 。
3. 聚類聚類是把數據按照相似性歸納成若干類別 , 同一類中的數據彼此相似 , 不同類中的數據相異 。 聚類分析可以建立抽象概念 , 發現數據的分布模式 , 探索可能的數據屬性之間的相互關系 。
聚類類似于分類 , 但與分類的目的不同 , 是針對數據的相似性和差異性將一組數據分為幾個類別 。 屬于同一類別的數據間的相似性很大 , 但不同類別之間數據的相似性很小 , 跨類的數據關聯性很低 。
細分市場、細分客戶群體都屬于數據挖掘中的聚類問題 , 例如劃分聚類、層次聚類、密度聚類、網格聚類、基于模型聚類等 。
聚類能夠實現對樣本的細分 , 使得同組內的樣本特征較為相似 , 不同組的樣本特征差異較大 。 例如零售場景中對客戶的細分 , 然后針對不同類別的客戶進行對應營銷 。
4. 關聯關聯是隱藏在數據項之間的關聯或相互關系 , 即可以根據一個數據項的出現推導出其他數據項的出現 。 關聯規則的挖掘過程主要包括兩個階段:

  • 第一階段為從海量原始數據中找出所有的高頻項目組;
  • 第二階段是從這些高頻項目組產生關聯規則 。
關聯指的是發現數據的各部分之間的聯系和規則 , 常見的關聯分析算法包括Aprior算法、Carma算法 , 序列算法等 。
關聯常用于預測客戶的需求 , 例如消費者常常會同時購買哪些產品 , 從而有助于商家的捆綁銷售 。

推薦閱讀