分析客戶畫像的5個步驟都有哪些 分析客戶畫像的5個步驟( 四 )


分析客戶畫像的5個步驟都有哪些 分析客戶畫像的5個步驟

文章插圖

▲圖10-9 新聞例子
首先,這是一篇體育新聞,體育這個新聞分類可以表示用戶興趣,但是這個標簽太粗了,因為用戶可能只對足球感興趣,所以體育這個標簽就顯得不夠準確 。
其次,可以使用新聞中的關鍵詞,尤其是里面的專有名詞(人名、機構名),如“桑切斯”“阿森納”“厄齊爾”,這些詞也表示了用戶的興趣 。 關鍵詞的主要問題在于粒度太細,如果某天的新聞里沒有這些關鍵詞,就無法給用戶推薦內容 。
最后,我們希望有一個中間粒度的標簽,既有一定的準確度,又有一定的泛化能力 。 于是我們嘗試對關鍵詞進行聚類,把一類關鍵詞當成一個標簽,或者拆分一個分類下的新聞,生成像“足球”這種粒度介于關鍵詞和分類之間的主題標簽 。 我們可以使用文本主題聚類完成主題標簽的構建 。
至此,就完成了對新聞內容從粗到細的“分類-主題-關鍵詞”三層標簽體系的內容建模,新聞的三層標簽如表10-4所示 。
分析客戶畫像的5個步驟都有哪些 分析客戶畫像的5個步驟

文章插圖

表10-4 三層標簽體系
可能讀者會有疑問,既然主題的準確度和覆蓋率都不錯,我們只使用主題不就可以了嗎?為什么還要構建分類和關鍵詞這兩層標簽呢?這么做是為了針對用戶進行盡可能精確和全面的內容推薦 。
當用戶的關鍵詞命中新聞時,顯然能夠給用戶更準確的推薦,這時就不需要再使用主題標簽;而對于比較小眾的主題(如體育類的冰上運動主題),若當天沒有新聞覆蓋,就可以根據分類標簽進行推薦 。 層次標簽兼顧了刻畫用戶興趣的覆蓋率和準確性 。
2)興趣衰減
在完成內容建模以后,就可以根據用戶點擊,計算用戶對分類、主題、關鍵詞的興趣,得到用戶興趣標簽的權重 。 最簡單的計數方法是,用戶點擊一篇新聞,就把用戶對該篇新聞的所有標簽興趣值上加1,用戶對每個詞的興趣計算使用如下的公式:
scorei+1=scorei+ C×weight
其中,詞在這次瀏覽的新聞中出現,則C=1,否則C=0, weight表示詞在這篇新聞中的權重 。
這樣做有兩個問題:一個是用戶的興趣累加是線性的,數值會非常大,老的興趣權重會特別高;另一個是用戶的興趣有很強的時效性,對一篇新聞昨天的點擊要比一個月之前的點擊重要得多,線性疊加無法突出用戶的近期興趣 。
為了解決這個問題,需要對用戶興趣得分進行衰減,可使用如下的方法對興趣得分進行次數衰減和時間衰減 。
次數衰減的公式如下:
scorei+1=α×scorei+ C×weight, 0<α<1
其中,α是衰減因子,每次都對上一次的分數做衰減,最終得分會收斂到一個穩定值,α取0.9時,得分會無限接近10 。
時間衰減的公式如下:
scoreday+1=scoreday×β, 0<β<1
它表示根據時間對興趣進行衰減,這樣做可以保證時間較早期的興趣會在一段時間以后變得非常弱,同時近期的興趣會有更大的權重 。 根據用戶興趣變化的速度、用戶活躍度等因素,也可以對興趣進行周級別、月級別或小時級別的衰減 。
3. 地理位置畫像
地理位置畫像一般分為兩部分:一部分是常駐地畫像;一部分是GPS畫像 。 這兩類畫像的差別很大,常駐地畫像比較容易構造且標簽比較穩定,GPS畫像需要實時更新 。
常駐地包括國家、省份、城市三級,一般只細化到城市粒度 。 在常駐地挖掘中,對用戶的IP地址進行解析,并對應到相應的城市,再對用戶IP出現的城市進行統計就可以得到常駐城市標簽 。 用戶的常駐城市標簽不僅可以用來統計各個地域的用戶分布,還可以根據用戶在各個城市之間的出行軌跡識別出差人群、旅游人群等 。
GPS數據一般從手機端收集,但很多手機App沒有獲取用戶GPS信息的權限 。 能夠獲取用戶GPS信息的主要是百度地圖、滴滴打車等出行導航類App,此外收集到的用戶GPS數據比較稀疏 。
百度地圖使用該方法并結合時間段數據,構建了用戶公司和家的GPS標簽 。 此外百度地圖還基于GPS信息,統計各條路上的車流量,進行路況分析,圖10-10所示是北京市某天的實時路況圖,紅色表示擁堵線路 。
分析客戶畫像的5個步驟都有哪些 分析客戶畫像的5個步驟

文章插圖

▲圖10-10 北京的實時路況圖
04 用戶畫像評估和使用人口屬性畫像的相關指標比較容易評估,而興趣畫像的標簽比較模糊,所以人為評估比較困難,對于興趣畫像的常用評估方法是設計小流量的A/B測試進行驗證 。

推薦閱讀