分享寫數據分析報告的教程 如何寫數據分析報告?

給你一份數據 , 你能完美的出一份數據報告嗎?本文結合一個小故事 , 來告訴大家如何寫好一份數據分析報告 , enjoy~
本故事純屬虛構 。
故事發生在花果山 , 主人公是一只初入職場的小猴子 , 名叫“嗨皮君” , 他剛剛被水簾洞科技有限公司錄用為數據分析專員 。 他的老板就是大名鼎鼎的數據分析師“猴子” , 公司里的人都尊稱他為“齊天大圣” 。
花果山最近出現了一些狀況 , 某些猴子感染了不明病毒 , 導致花果山發生了嚴重的疫情 。 現在水簾洞科技有限公司的員工都只能在家辦公 。
這天 , 老板齊天大圣通過“猴信”(花果山全民都在用的IM軟件)找到嗨皮君 , 他說:“嗨皮君 , 你剛進公司不久 , 需要盡快熟悉公司的業務 。 現在還不能上班 , 但也不能把這些時間浪費了 。 這樣 , 我給你一份數據 , 你好好研究分析一下 , 下周給我一份數據分析報告 。 ”
接到任務 , 嗨皮君心里十分緊張:這可是進入公司的第一個任務啊 , 一定要好好表現!于是他認認真真地觀看了老板齊天大圣以前做過的數據分析教學視頻 , 還在網上查閱了很多相關資料 。
以下便是嗨皮君的思考和寫作過程:
一、分析背景及目的數據源:Baby Goods Info Data-數據集-阿里云天池
這是一份母嬰產品的銷售數據 , 數據集各字段的含義如下:
我們需要從這些數據中發現某些規律或者異常 , 進而給運營團隊提出建議 。
二、分析思路從“產品”和“用戶”兩個角度來分析:
1. 產品角度
  • 分析銷量隨時間變化有什么規律
  • 分析哪些是熱銷產品 , 哪些是滯銷產品 , 它們有什么特征
2. 用戶角度
  • 分析嬰兒年齡和銷量之間有什么關系
  • 分析嬰兒生日和銷量之間有什么關系
三、分析過程1. 數據清洗(1)確定分析表
把列名替換成中文 , 調整列寬和列與列的順序:
(2)多刪少補
① 處理重復項
由上述結果可見 , 并未發現重復項 。
② 處理空值項
處理結果發現 , 產品信息表中的空值項均出現在商品屬性字段下 , 由于商品屬性是特定值 , 不可預估 , 在缺乏其他數據源的情況下沒有辦法進行填補 , 因此暫時忽略這些空值項 。
嬰兒信息表中未發現有空值項 。
(3)一致化處理
把“購買時間”和“嬰兒生日”用分列功能轉換為日期格式 , 把“嬰兒性別”轉換成其真實含義 。
(4)異常值處理
① 刪除性別異常值
嬰兒出生時的性別只有男和女兩種可能 , 經過上面的清洗步驟 , 發現嬰兒性別出現了異常值 , 刪除掉 。
② 刪除日期異常值
經排序后觀察發現 , 購買時間的區間范圍是[2012/7/2,2015/2/5] , 沒有極端異常值 。
嬰兒生日的區間范圍是[1984/6/16,2015/8/15] , 產品銷售時間在2012年~2015年 , 卻出現了生日是1984年的嬰兒 , 顯然這個1984/6/16的項是異常項 , 故需刪除 。
③ 判斷數據集是否還有可能存在異常值
對購買數量進行描述統計分析得:
變異系數=標準差/平均值*100%=2515% , 說明數據集離散程度很高 , 可能存在部分極端值 。
有時候某些異常值我們在數據清洗階段無法發現 , 所以在結合圖表分析的時候我們還會進行異常值的判斷 。
2. 結合圖表分析(1)分析銷量隨時間變化有什么規律
① 觀察整體銷售趨勢
從圖中發現 , 2014年11月出現了一個顯著的銷量高峰 。
看到11月份銷量暴漲我們通常會想到是由于雙十一活動造成的 , 是否真的這樣呢?
我們先假設是由于雙十一活動造成的 , 那么銷量暴漲背后必定是由于購買人數暴漲 , 下面便要收集數據證明購買人數也暴漲 。
② 分析2014年11月出現銷量暴增的原因
進一步 , 查看11月的銷售情況:
從上圖中可以看出 , 2014年11月銷售暴增主要是因為11月13日這天的銷量出現了暴增 。
③ 分析2014年11月13日這天出現銷量暴增的原因

推薦閱讀