進行數據整理分析的3大戰略 如何進行數據整理分析?

想要做一個專題分析 , 首先就是要有數據 。 那么數據有哪些種類呢 , 數據又從哪里來呢?這兩個問題將會引導我們學會如何理解數據和收集數據 。
01數據的類型我們經常會在Excel的設置單元格對話框中看到很多的數據類型,但其實這么多數據類型 , 最終都可以歸為兩大類 。
? 定性數據(字符型數據):
◎分類數據 , 如男女、民族等 , 不能區分大小 , 不能運算
◎順序數據 , 如成績的優良中差、滿意度評分等 , 可分大小
? 定量數據(數值型數據):
◎離散型數據:如用戶數、消費次數等 , 可加減
◎連續型數據:成績、消費金額等 , 可乘除
※統計方法差異:
連續型變量:頻數分析、集中趨勢分析(均值、眾數、中位數)、離散程度分析(標準差、方差、最大值、最小值、范圍);
非連續性變量:主要能做頻數分析
02數據的收集? 公司自己的數據庫
互聯網公司一般會通過數據埋點(日志)來獲取數據 , 如UV/PV、用戶數、用戶停留時間、瀏覽頁面等用戶行為數據 。
傳統業務的公司則可能會通過一些系統 , 如SAP;
? 公開出版物 , 如統計局出版的期刊、年鑒等;
? 互聯網
互聯網上有很多的第三方的數據平臺如:年鑒汪、中研網數據、中國互聯網數據平臺、騰訊大數據、國家數據 , 中國統計信息網等 。
? 市場調研
線上問卷調查(如問卷星)、線下問卷調查、電話回訪等 。
03數據的整理收集完數據 , 下一步就是要做數據的整理了 , 數據整理是一項很繁瑣很枯燥的工作 。
? “三心二意”的整理數據:
◎信心:無論多少數據 , 相信自己一定能干掉它;
◎細心:1%的錯誤=100%的失敗 , 注意每一個細微之處 。
◎平常心:加班、電腦死機 , 軟件無響應 , 一定要淡定!
◎誠意:對數據嚴謹負責 , 誠心誠意 , 保證數據客觀真實
◎合意:要滿足領導和業務部門的需求 , 及時溝通 。
? “火眼金睛”的整理數據:
◎數據的異常表現:
空值、重復值、缺失值、波動太大、不同數據源獲取的數據矛盾 , 數據與常識或經驗矛盾等 。
◎數據異常原因分析:系統故障 , 人為因素
? “按部就班”的整理數據(記得數據源備份一下哦)
◎數據分類化:每類數據命名并統一格式
◎數據統一化

  • 數據口徑的統一化 , 也就是同一維度的數據單位要一致 。 舉個例子:二手車的行駛里程里面的數據不能有單位是“公里”的還有單位是“萬公里”的 , 所有的數據要換算成同一單位 。
  • 數據定義的統一化 , 舉個例子 , 新增對普遍人來說就是新注冊用戶 , 但在這個總數據里頭 , 仍需細分 , 內部人員注冊 / 搜索引擎注冊 / 其他子產品用戶注冊 / 公眾號入口注冊 / PC端的注冊 / 移動端的注冊 / APP端的注冊...等等 , 在整理數據時 , 要細分數據指標的意義 。
◎刪除多余的空格
◎刪除重復值
◎填補缺失值(統計計算值填充 , 模型計算填充等)
◎處理異常值(平均值填充 , 統計計算值填充等)
◎不同數據源的交叉驗證 。
【進行數據整理分析的3大戰略 如何進行數據整理分析?】好啦 , 數據的收集和整理過程中的需要注意的問題到這里就大概介紹完啦 , 剩下的更多的是需要你在實際工作中結合實際情況去應用啦!作為一名數據分析師 , 你一定要學會修煉出一顆平常心 , 不能浮躁敷衍 。 記住 , 整理數據要“三心二意”、“火眼金睛”、“按部就班” 。 一起奮斗吧 , 加油!

    推薦閱讀