匯總16個數據分析常用的分析方法 如何數據整理分析?( 二 )

【匯總16個數據分析常用的分析方法 如何數據整理分析?】(1)確定Y與X間的定量關系表達式 , 這種表達式稱為回歸方程;
(2)對求得的回歸方程的可信度進行檢驗;
(3)判斷自變量X對因變量Y有無影響;
(4)利用所求得的回歸方程進行預測和控制 。
八、聚類分析
樣本個體或指標變量按其具有的特性進行分類 , 尋找合理的度量事物相似性的統計量 。
1、性質分類:
Q型聚類分析:對樣本進行分類處理 , 又稱樣本聚類分祈 使用距離系數作為統計量衡量相似度 , 如歐式距離、極端距離、絕對距離等
R型聚類分析:對指標進行分類處理 , 又稱指標聚類分析 使用相似系數作為統計量衡量相似度 , 相關系數、列聯系數等
2、方法分類:
1)系統聚類法: 適用于小樣本的樣本聚類或指標聚類 , 一般用系統聚類法來聚類指標 , 又稱分層聚類
2)逐步聚類法 :適用于大樣本的樣本聚類
3)其他聚類法 :兩步聚類、K均值聚類等
九、判別分析
1、判別分析:根據已掌握的一批分類明確的樣品建立判別函數 , 使產生錯判的事例最少 , 進而對給定的一個新樣品 , 判斷它來自哪個總體 。
2、與聚類分析區別
1)聚類分析可以對樣本逬行分類 , 也可以對指標進行分類;而判別分析只能對樣本
2)聚類分析事先不知道事物的類別 , 也不知道分幾類;而判別分析必須事先知道事物的類別 , 也知道分幾類
3)聚類分析不需要分類的歷史資料 , 而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數 , 然后才能對樣本進行分類
3、進行分類 :
1)Fisher判別分析法 :
以距離為判別準則來分類 , 即樣本與哪個類的距離最短就分到哪一類 , 適用于兩類判別;
以概率為判別準則來分類 , 即樣本屬于哪一類的概率最大就分到哪一類 , 適用于
適用于多類判別 。
2)BAYES判別分析法 :
BAYES判別分析法比FISHER判別分析法更加完善和先進 , 它不僅能解決多類判別分析 , 而且分析時考慮了數據的分布狀態 , 所以一般較多使用 。
十、主成分分析
將彼此梠關的一組指標變適轉化為彼此獨立的一組新的指標變量 , 并用其中較少的幾個新指標變量就能綜合反應原多個指標變量中所包含的主要信息 。
十一、因子分析
一種旨在尋找隱藏在多變量數據中、無法直接觀察到卻影響或支配可測變量的潛在因子、并估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統計分析方法
與主成分分析比較:
相同:都能夠起到済理多個原始變量內在結構關系的作用
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關系 , 是比主成分分析更深入的一種多元統計方法
用途:
1)減少分析變量個數
2)通過對變量間相關關系探測 , 將原始變量進行分類
十二、時間序列分析
動態數據處理的統計方法 , 研究隨機數據序列所遵從的統計規律 , 以用于解決實際問題;時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動 。
主要方法:移動平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型
十三、生存分析
用來研究生存時間的分布規律以及生存時間和相關因索之間關系的一種統計分析方法
1、包含內容:
1)描述生存過程 , 即研究生存時間的分布規律
2)比較生存過程 , 即研究兩組或多組生存時間的分布規律 , 并進行比較
3)分析危險因素 , 即研究危險因素對生存過程的影響
4)建立數學模型 , 即將生存時間與相關危險因素的依存關系用一個數學式子表示出來 。
2、方法:
1)統計描述:包括求生存時間的分位數、中數生存期、平均數、生存函數的估計、判斷生存時間的圖示法 , 不對所分析的數據作出任何統計推斷結論
2)非參數檢驗:檢驗分組變量各水平所對應的生存曲線是否一致 , 對生存時間的分布沒有要求 , 并且檢驗危險因素對生存時間的影響 。
A 乘積極限法(PL法)
B 壽命表法(LT法)
3)半參數橫型回歸分析:在特定的假設之下 , 建立生存時間隨多個危險因素變化的回歸方程 , 這種方法的代表是Cox比例風險回歸分析法

推薦閱讀