AI帶你省錢旅游!精準預測民宿房源價格!


AI帶你省錢旅游!精準預測民宿房源價格!

文章插圖
作者:韓信子@ShowMeAI 數據分析實戰系列:https://www.showmeai.tech/tutorials/40 機器學習實戰系列:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-detail/316 聲明:版權所有,轉載請聯系平臺與作者并注明出處 收藏ShowMeAI查看更多精彩內容

AI帶你省錢旅游!精準預測民宿房源價格!

文章插圖
大家出去旅游最關心的問題之一就是住宿 , 在國外以 Airbnb 為代表的民宿互聯網模式徹底改變了酒店業,很多游客更喜歡預訂 Airbnb 而不是酒店,而在國內的美團飛豬等平臺 , 也有大量的民宿入駐 。
在現在這個信息透明開放的互聯網時代,我們能否收集數據信息,開發一個機器學習模型來預測房源價格 , 為自己的出行提供更智能化的信息呢?肯定是可以的,下面ShowMeAI以Airbnb在大曼徹斯特地區的房源數據為例(截至 2022 年 3 月) , 來演示數據分析與挖掘建模的全過程,同樣的方法模式可以應用在大家熟悉的國內平臺上 。
AI帶你省錢旅游!精準預測民宿房源價格!

文章插圖
下面的項目業務和 Airbnb民宿數據 來源于 Inside Airbnb , 包含有關 Airbnb 對住宅社區影響的數據和宣傳 。數據源可以在上述鏈接中獲取,大家也可以訪問ShowMeAI的百度網盤地址,獲取我們為大家存儲好的項目數據 。
實戰數據集下載(百度網盤):公眾號『ShowMeAI研究中心』回復『實戰』,或者點擊 這里 獲取本文 [22]基于Airbnb數據的民宿房價預測模型 『Airbnb民宿數據』
ShowMeAI官方GitHub:https://github.com/ShowMeAI-Hub
業務問題一般我們需要在開始挖掘和建模之前,深入了解我們的業務場景和數據情況,我們先總結了一些在這個業務場景下我們關心的一些業務問題,我們將通過數據分析挖掘來完成這些業務問題的理解 。
  • 哪些地區或城鎮的 Airbnb 房源最多?
  • 最受歡迎的房型是什么?
  • 大曼徹斯特地區的 Airbnb 房源價格特點是什么?
  • 房源與房東的分布情況?
  • 大曼徹斯特地區有哪些房型可供選擇?
  • 機器學習模型預測該地區 Airbnb 房源價格的思路是什么樣的?
  • 在預測大曼徹斯特地區 Airbnb 房源的價格時,哪些特征更重要?
數據讀取與初探我們先導入本次需要使用到的分析挖掘與建模工具庫
import numpy as npimport pandas as pdfrom tqdm.notebook import tqdm, trangeimport seaborn as sbimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.linear_model import LinearRegressionfrom sklearn.linear_model import Lassofrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import r2_score, mean_squared_errorfrom sklearn.preprocessing import StandardScalerimport statsmodels.api as smfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.model_selection import GridSearchCVfrom sklearn.pipeline import Pipeline, FeatureUnionfrom sklearn.feature_selection import SelectFromModelfrom sklearn.ensemble import GradientBoostingRegressorfrom statsmodels.stats.outliers_influence import variance_inflation_factorfrom sklearn.inspection import permutation_importancepd.set_option('display.max_columns', None)pd.set_option('display.max_rows', None)接下來我們讀取大曼徹斯特地區的房源數據
gm_listings = pd.read_csv('gm_listings-2.csv')gm_calendar = pd.read_csv('calendar-2.csv')gm_reviews = pd.read_csv('reviews-2.csv')查看數據的基礎信息如下
gm_listings.head()
AI帶你省錢旅游!精準預測民宿房源價格!

文章插圖
gm_listings.shape# (3584, 74)gm_listings.columns
AI帶你省錢旅游!精準預測民宿房源價格!

文章插圖
gm_calendar.head()
AI帶你省錢旅游!精準預測民宿房源價格!

文章插圖
gm_reviews.head()
AI帶你省錢旅游!精準預測民宿房源價格!

文章插圖
我們對數據的初覽可以看到,大曼徹斯特地區的房源數據集包含 3584 行和 78 列,包含有關房東、房源類型、區域和評級的信息 。
數據清洗
AI帶你省錢旅游!精準預測民宿房源價格!

文章插圖
數據清洗是機器學習建模應用的【特征工程】階段的核心步驟,它涉及的方法技能歡迎大家查閱ShowMeAI對應的教程文章,快學快用 。