數據分析實戰案例 excel數據分析案例

excel數據分析案例,數據分析實戰案例 。小編來告訴你更多相關信息 。
今天給大家分享一個真實的探究變量間關系的例子 。
為什么低質量的鉆石反而更加貴ggplot(diamonds, aes(cut, price)) + geom_boxplot()
【數據分析實戰案例 excel數據分析案例】ggplot(diamonds, aes(color, price)) + geom_boxplot()
ggplot(diamonds, aes(clarity, price)) + geom_boxplot()

數據分析實戰案例 excel數據分析案例

文章插圖
數據分析實戰案例 excel數據分析案例

文章插圖

數據分析實戰案例 excel數據分析案例

文章插圖
數據分析實戰案例 excel數據分析案例

文章插圖

數據分析實戰案例 excel數據分析案例

文章插圖
數據分析實戰案例 excel數據分析案例

文章插圖
鉆石價格和重量的關系低質量的鉆石價格反而高,是因為一個混雜變量:carat,carat對鉆石來說是一個很重要的變量,低質量的鉆石一般都要重一點 。我們可以做出了克拉和價格的關系:
ggplot(diamonds, aes(carat, price)) +
geom_hex(bins = 50)
數據分析實戰案例 excel數據分析案例

文章插圖
數據分析實戰案例 excel數據分析案例

文章插圖
我們在探究其余的變量和因變量的關系時,需要控制混雜變量后再探究自變量與因變量的關系,也就是說在本例中探討cuts, colours, clarity和price的關系時,需要控制掉,或者是摳掉carat對price的影響 。
在分析之前首先對數據進行變形,可以更好的看出變量的線性關系
diamonds2 %
filter(carat %
mutate(lprice = log2(price), lcarat = log2(carat))
然后再作圖
ggplot(diamonds2, aes(lcarat, lprice)) +
geom_hex(bins = 50)
數據分析實戰案例 excel數據分析案例

文章插圖
數據分析實戰案例 excel數據分析案例

文章插圖
可以清楚的看到carat和price線性關系,現在我們對轉換后的變量進行線性擬合:
mod_diamond <- lm(lprice ~ lcarat, data = https://www.0579wy.com/article/diamonds2)
擬合過后,我們就相當于形成了carat對price的效應,此時我們看cuts, colours, clarity與模型殘差的關系就是摳掉carat對price的效應之后cuts, colours, clarity與price的真正關系了 。
diamonds2 %
add_residuals(mod_diamond, \”lresid\”)
ggplot(diamonds2, aes(cut, lresid)) + geom_boxplot()
ggplot(diamonds2, aes(color, lresid)) + geom_boxplot()
ggplot(diamonds2, aes(clarity, lresid)) + geom_boxplot()
數據分析實戰案例 excel數據分析案例

文章插圖
數據分析實戰案例 excel數據分析案例

文章插圖

數據分析實戰案例 excel數據分析案例

文章插圖
數據分析實戰案例 excel數據分析案例

文章插圖

數據分析實戰案例 excel數據分析案例

文章插圖
數據分析實戰案例 excel數據分析案例

文章插圖
此時,從上面3個圖中我們可以看出cuts, colours, clarity與price的關系就不再是文章開頭所寫的反常的關系了 。
小結 往期內容:

    推薦閱讀