分析客戶畫像的5個步驟都有哪些 分析客戶畫像的5個步驟( 二 )


在制定標簽體系時,可以參考業界的標簽體系,尤其是同行業的標簽體系 。 用業界已有的成熟方案解決目標業務問題,不僅可以擴充思路,技術可行性也會比較高 。
此外,需要明確的一點是:標簽體系不是一成不變的,隨著業務的發展,標簽體系也會發生變化 。 例如電商行業的用戶標簽,最初只需要消費偏好標簽,GPS標簽既難以刻畫也沒有使用場景 。 隨著智能手機的普及,GPS數據變得易于獲取,而且線下營銷也越來越注重場景化,因此GPS標簽也有了構建的意義 。
3)畫像構建
基于用戶基礎數據,根據構建好的標簽體系,就可以進行畫像構建的工作了 。 用戶標簽的刻畫是一個長期的工作,不可能一步到位,需要不斷地擴充和優化 。 一次性構建中如果數據維度過多,可能會有目標不明確、需求相互沖突、構建效率低等問題,因此在構建過程中建議將項目進行分期,每一期只構建某一類標簽 。
畫像構建中用到的技術有數據統計、機器學習和自然語言處理技術(NLP)等,如圖10-3所示 。 具體的畫像構建方法會在本文后面的部分詳細介紹 。

分析客戶畫像的5個步驟都有哪些 分析客戶畫像的5個步驟

文章插圖

▲圖10-3 用戶畫像的構建技術
2. 標簽體系
目前主流的標簽體系都是層次化的,如圖10-4所示 。 首先標簽分為幾個大類,每個大類再進行逐層細分 。 在構建標簽時,只需要構建最下層的標簽,就能夠映射出上面兩級標簽 。
上層標簽都是抽象的標簽集合,一般沒有實用意義,只有統計意義 。 例如我們可以統計有人口屬性標簽的用戶比例,但用戶有人口屬性標簽,這本身對廣告投放沒有任何意義 。
分析客戶畫像的5個步驟都有哪些 分析客戶畫像的5個步驟

文章插圖

▲圖10-4 互聯網大數據領域常用標簽體系
用于廣告投放和精準營銷的一般是底層標簽,對于底層標簽有兩個要求:一個是每個標簽只能表示一種含義,避免標簽之間的重復和沖突,便于計算機處理;另一個是標簽必須有一定的語義,方便相關人員理解每個標簽的含義 。
此外,標簽的粒度也是需要注意的,標簽粒度太粗會沒有區分度,粒度過細會導致標簽體系太過復雜而不具有通用性 。
下文列舉了各個大類常見的底層標簽 。
  • 人口標簽:性別、年齡、地域、教育水平、出生日期、職業、星座
  • 興趣特征:興趣愛好、使用App/網站、瀏覽/收藏內容、互動內容、品牌偏好、產品偏好
  • 社會特征:婚姻狀況、家庭情況、社交/信息渠道偏好
  • 消費特征:收入狀況、購買力水平、已購商品、購買渠道偏好、最后購買時間、購買頻次
最后介紹一下構建各類標簽的優先級 。 對此需要綜合考慮業務需求、構建難易程度等,業務需求各有不同,這里介紹的優先級排序方法主要依據構建的難易程度和各類標簽的依存關系,優先級如圖10-5所示 。
▲圖10-5 各類標簽的構建優先級
1)事實標簽
基于原始數據首先構建的是事實標簽,事實標簽可以從數據庫直接獲取(如注冊信息),或通過簡單的統計得到 。 這類標簽構建難度低、實際含義明確,且部分標簽可用作后續標簽挖掘的基礎特征(如產品購買次數可用來作為用戶購物偏好的輸入特征數據) 。
事實標簽的構造過程,也是對數據加深理解的過程 。 對數據進行統計的同時,不僅完成了數據的處理與加工,也對數據的分布有了一定的了解,為高級標簽的構造做好了準備 。
2)模型標簽
模型標簽是標簽體系的核心,也是用戶畫像中工作量最大的部分,大多數用戶標簽的核心都是模型標簽 。 模型標簽的構建大多需要用到機器學習和自然語言處理技術,下文介紹的標簽構建主要指的是模型標簽構建,具體的構造算法會在下文中詳細介紹 。
3)高級標簽
最后構造的是高級標簽,高級標簽是基于事實標簽和模型標簽進行統計建模得出的,它的構造多與實際的業務指標緊密聯系 。 只有完成基礎標簽的構建,才能夠構造高級標簽 。 構建高級標簽使用的模型,可以是簡單的數據統計模型,也可以是復雜的機器學習模型 。
03 構建用戶畫像我們把標簽分為三類,這三類標簽有較大的差異,構建時所用技術的差別也很大 。