AI帶你省錢旅游！精準預測民宿房源價格！( 五 ) _生活百科

文章插圖

gm_regression_df['bathrooms_text'] =gm_regression_df['bathrooms_text'].str.replace("private bath", "pb", case=False)gm_regression_df['bathrooms_text'] =gm_regression_df['bathrooms_text'].str.replace("private baths", "pbs", case=False)gm_regression_df['bathrooms_text'] =gm_regression_df['bathrooms_text'].str.replace("shared bath", "sb", case=False)gm_regression_df['bathrooms_text'] =gm_regression_df['bathrooms_text'].str.replace("shared baths", "sb", case=False)gm_regression_df['bathrooms_text'] =gm_regression_df['bathrooms_text'].str.replace("shared half-bath", "sb", case=False)gm_regression_df['bathrooms_text'] =gm_regression_df['bathrooms_text'].str.replace("private half-bath", "sb", case=False)gm_regression_df = split_bathroom(gm_regression_df, column='bathrooms_text', text='bath', new_column='bathrooms_new')gm_regression_df['shared_bath'] = gm_regression_df['shared_bath'].str.split(" ", expand=True)gm_regression_df['private_bath'] = gm_regression_df['private_bath'].str.split(" ", expand=True)gm_regression_df['bathrooms_new'] = gm_regression_df['bathrooms_new'].str.split(" ", expand=True)# 填充缺失值為0gm_regression_df = gm_regression_df.fillna(0)gm_regression_df['shared_bath'] = gm_regression_df['shared_bath'].replace(to_replace='Shared', value=https://www.huyubaike.com/biancheng/0.5)gm_regression_df['private_bath'] = gm_regression_df['private_bath'].replace(to_replace='Private', value=https://www.huyubaike.com/biancheng/0.5)gm_regression_df['bathrooms_new'] = gm_regression_df['bathrooms_new'].replace(to_replace='Half-bath', value=https://www.huyubaike.com/biancheng/0.5)# 轉成數值型gm_regression_df['shared_bath'] = pd.to_numeric(gm_regression_df['shared_bath']).astype(int)gm_regression_df['private_bath'] = pd.to_numeric(gm_regression_df['private_bath']).astype(int)gm_regression_df['bathrooms_new'] =pd.to_numeric(gm_regression_df['bathrooms_new']).astype(int)# 查看處理后的字段gm_regression_df[['shared_bath', 'private_bath', 'bathrooms_new']].head()

文章插圖
下面我們對類別型字段進行編碼，根據字段含義的不同，我們使用「序號編碼」和「獨熱向量編碼」等方法來完成。

# 序號編碼def encoder(df):for column in df[['neighbourhood_group_cleansed', 'property_type']].columns:labels = df[column].astype('category').cat.categories.tolist()replace_map = {column : {k: v for k,v in zip(labels,list(range(1,len(labels)+1)))}}df.replace(replace_map, inplace=True)print(replace_map)return df gm_regression_df = encoder(gm_regression_df)

文章插圖
我們對于host_response_time和room_type字段，使用獨熱向量編碼（啞變量變換）

host_dummy = pd.get_dummies(gm_regression_df['host_response_time'], prefix='host_response')room_dummy = pd.get_dummies(gm_regression_df['room_type'], prefix='room_type')# 拼接編碼后的字段gm_regression_df = pd.concat([gm_regression_df, host_dummy, room_dummy], axis=1)# 剔除原始字段gm_regression_df = gm_regression_df.drop(columns=['host_response_time', 'room_type'], axis=1)

我們再把之前處理過的df_amenities做一點處理，再拼接到數據特征里

df_3 = pd.DataFrame(df_amenities.sum())features = df_3['amenities'][:150].to_list()amenities_updated = df_amenities.filter(items=(features))gm_regression_df = pd.concat([gm_regression_df, amenities_updated], axis=1)

查看一下最終數據的維度
gm_regression_df.shape# (3584, 198)我們最后得到了198個字段，為了避免特征之間的多重共線性，使用方差因子法（VIF）來選擇機器學習模型的特征。VIF 大于 10 的特征被刪除，因為這些特征的方差可以由數據集中的其他特征表示和解釋。

# 計算VIFvif_model = gm_regression_df.drop(['price'], axis=1)vif_df = pd.DataFrame()vif_df['feature'] = vif_model.columnsvif_df['VIF'] = [variance_inflation_factor(vif_model.values, i) for i in range(len(vif_model.columns))]# 選出小于10的特征vif_df_new = vif_df[vif_df['VIF']<=10]feature_list =vif_df_new['feature'].to_list()# 選出這些特征對應的數據model_df = gm_regression_df.filter(items=(feature_list))model_df.head()

文章插圖
我們拼接上price目標標簽字段，可以構建完整的數據集
price_col = gm_regression_df['price']model_df = model_df.join(price_col)機器學習算法我們在這里使用幾個典型的回歸算法，包括線性回歸、RandomForestRegression、Lasso Regression 和 GradientBoostingRegression 。

關于機器學習算法的應用方法，歡迎大家查閱ShowMeAI對應的教程與文章，快學快用。

上一頁
1
2
3
4
5
6
下一頁

推薦閱讀

平凡的世界讀書心得初二優秀作文700字

李廣的生平事跡李廣人物介紹

職場女強人的星座女巨蟹女

今日查詢價格3011元，今日查詢價格3011元寶？

報考的c1考了科目一可以改成c2嗎報的是c1,考了科一,想換成c2可以不

淡豆豉煮水喝有什么作用與功效淡豆豉煮水喝有什么作用

交通事故索賠需要準備哪些誤工費證據

關于閃長巖簡述閃長巖

2021年正月初六出生的寶寶名字如何取,簡約大氣旺生肖

vivox21耗電快怎么辦 vivox21耗電快怎么解決

宋媽后來怎么樣了宋媽后來怎樣了

當一個女人不愛你了會有什么表現

保衛蘿卜深海16攻略保衛蘿卜深海攻略2關

知名女星李羲兒車禍縫54針！一臉血跡躺倒在地，車子翻轉掉落田溝 ...

關于跑跑姜餅人簡述跑跑姜餅人

2006年屬狗的是什么命五行屬什么

光遇12月3日復刻旅行先祖兌換物品要多少蠟燭,高手進階

造夢西游4手機版龍幣怎么得到

飛機托運酒水規定2022 國內飛機能帶酒嗎？

四個木念什么四個木念什么呀

一篇文章帶你了解NoSql數據庫——Redis簡單入門

一篇文章帶你了解服務器操作系統——Linux簡單入門

一步一圖帶你深入理解 Linux 虛擬內存管理

一篇文章帶你了解熱門版本控制系統——Git

一篇文章帶你了解網頁框架——Vue簡單入門

我用canvas帶你看一場流星雨

一篇文章帶你掌握主流辦公框架——SpringBoot

帶你認識JDK8中超nice的Native Memory Tracking

SpringBoot+Vue3 AgileBoot - 手把手一步一步帶你Run起全棧項目

帶你讀AI論文丨ACGAN-動漫頭像生成

AI帶你省錢旅游！精準預測民宿房源價格！( 五 )

推薦閱讀

AI帶你省錢旅游！精準預測民宿房源價格！( 五 )