分析客戶畫像的5個步驟都有哪些 分析客戶畫像的5個步驟( 三 )

  • 第三類是地理屬性,這一類標簽的時效性跨度很大,如GPS軌跡標簽需要做到實時更新,而常住地標簽一般可以幾個月不用更新,所用的挖掘方法和前面兩類也大有不同,如圖10-6所示 。

  • ▲圖10-6 三類標簽屬性
    1. 人口屬性畫像
    人口屬性包括年齡、性別、學歷、人生階段、收入水平、消費水平、所屬行業等 。 這些標簽基本是穩定的,構建一次可以很長一段時間不用更新,標簽的有效期都在一個月以上 。 同時標簽體系的劃分也比較固定,表10-2是中國無線營銷聯盟對人口屬性的一個劃分 。
    大部分主流的人口屬性標簽都和這個體系類似,有些在分段上有一些區別 。
    表10-2 人口標簽
    很多產品(如QQ、Facebook等)都會引導用戶填寫基本信息,這些信息就包括年齡、性別、收入等大多數的人口屬性,但完整填寫個人信息的用戶只占很少一部分 。 對于無社交屬性的產品(如輸入法、團購App、視頻網站等),用戶信息的填充率非常低,有的甚至不足5% 。
    在這種情況下,一般會用填寫了信息的用戶作為樣本,把用戶的行為數據作為特征訓練模型,對無標簽的用戶進行人口屬性的預測 。 這種模型把有標簽用戶的標簽傳給與他行為相似的用戶,可以認為是對人群進行了標簽擴散,因此常被稱為標簽擴散模型 。
    下面使用視頻網站性別年齡畫像的例子來說明標簽擴散模型是如何構建的 。
    某個視頻網站希望了解自己的用戶組成,于是對用戶的性別進行畫像 。 通過數據統計,有大約30%的用戶在注冊時填寫了個人信息,將這30%的用戶作為訓練集,以構建全量用戶的性別畫像,所用數據如表10-3所示 。
    分析客戶畫像的5個步驟都有哪些 分析客戶畫像的5個步驟

    文章插圖

    表10-3 視頻網站用戶數據
    下面來構建特征 。 通過分析發現男性和女性對于影片的偏好是有差別的,因此使用用戶觀看的影片列表預測用戶性別有一定的可行性 。 此外,還可以考慮用戶的觀看時間、瀏覽器、觀看時長等,為了簡化,這里只使用用戶觀看的影片特征 。
    由于觀看影片特征是稀疏特征,所以可以調用MLlib,使用LR、線性SVM等模型進行訓練 。 考慮到注冊用戶填寫的用戶信息的準確性不高,所以可以從30%的樣本集中提取準確性較高的部分(如用戶信息填寫較完備的)用于訓練,因此整體的訓練流程如圖10-7所示 。
    對于預測性別這樣的二分類模型,如果行為的區分度較好,一般準確率和覆蓋率都可以達到70%左右 。
    ▲圖10-7 訓練流程
    對于人口屬性標簽,只要有一定的樣本標簽數據,并找到能夠區分標簽類別的用戶行為特征,就可以構建標簽擴散模型 。 其中使用的技術方法主要是機器學習中的分類技術,常用的模型有LR、FM、SVM、GBDT等 。
    2. 興趣畫像
    興趣畫像是互聯網領域中使用最廣泛的畫像,互聯網廣告、個性化推薦、精準營銷等領域最核心的標簽都是興趣標簽 。 興趣畫像主要是從用戶海量的行為日志中進行核心信息抽取、標簽化和統計,因此在構建用戶興趣畫像之前需要先對用戶有行為的內容進行內容建模 。
    內容建模需要注意粒度,過細的粒度會導致標簽沒有泛化能力和使用價值,過粗的粒度會導致標簽沒有區分度 。
    • 例如用戶在購物網上點擊查看了一雙“Nike AIR MAX跑步鞋”,如果用單個商品作為粒度,畫像的粒度就過細,結果是只知道用戶對“Nike AIR MAX跑步鞋”有興趣,在進行商品推薦時,也只能給用戶推薦這雙鞋;
    • 而如果用大品類作為粒度,如“運動戶外”,將無法發現用戶的核心需求是買鞋,從而會給用戶推薦所有的運動用品,如乒乓球拍、籃球等,這樣的推薦缺乏準確性,用戶的點擊率就會很低 。
    為了保證興趣畫像既有一定的準確性又有較好的泛化性,我們會構建層次化的興趣標簽體系,其中同時用幾個粒度的標簽去匹配用戶興趣,既保證了標簽的準確性,又保證了標簽的泛化性 。 下面以用戶的新聞興趣畫像舉例,介紹如何構建層次化的興趣標簽 。
    新聞興趣畫像的處理難度要比購物興趣畫像困難,購物標簽體系基本固定,如圖10-8所示,京東頁面已經有成熟的三級類目體系 。
    分析客戶畫像的5個步驟都有哪些 分析客戶畫像的5個步驟

    文章插圖

    ▲圖10-8 三級類目體系
    1)內容建模
    新聞數據本身是非結構化的,首先需要人工構建一個層次化的標簽體系 。 考慮如圖10-9所示的一篇新聞,看看哪些內容可以表示用戶的興趣 。

    推薦閱讀