信息繭房經典案例 信息繭房( 三 )


一般當推薦系統的自動化運作時,它就像山頭巡視的小兵,不斷從整個物品或者信息聚合中抽取當次需要查詢的候選集;根據各種不同維度,如物品、年齡、性別、愛好,場景等種類以及規模的大小對候選集進行推送 。
此場景猶如流水線工作的「抽樣檢查」,也同樣用在大部分平臺的召回手段上,具體策略是什么樣呢?
其一:內容過濾(Content Filtering);其二:協同過濾(Collaborative Filtering) 。資訊類產品的內容審核是不可缺失一部分,主要目的是確保無低質庸俗,保持平臺該有的調性;通常有“先發后審”和“先審后發”兩個原則 。
場景較輕如網易云, *** 音樂此類閱讀、聽歌類產品通常是前者;對社區論壇、偏觀點討論、樹立權威通常是后者;因此內容抽檢或過濾的基礎也是查敏感關鍵詞、重復度、IP發布次數等權重指數 。
協同過濾是基于已知部分用戶或部分物品的偏好或評分,預測缺失偏好或評分的一種 ***。
從切入點上,則可分為基于“去鄰域”的 *** (本地生活類平臺使用居多)和隱語義模型(給每個分類中不同維度標簽的人進行推送),比較難理解對不對?
舉個例子:跟朋友聚餐會習慣性打開美食點評平臺去搜索周邊餐廳,過程中我們能看到按照公里排行的推薦、也有部分商家的競價廣告 。
疑問的是,你會發現那些廣告的美食是自己日常愛吃的,并且區域也不是太遠,為什么會這么做?
因為可以基于“鄰域”做精準的推薦,以此滿足用戶多頻次的消費和深度洞察;如果把“鄰域”比作數學的“2”,它左手鏈接“1”,右手鏈接數字“3” 。
去鄰域算法就是把“1”推薦給“3”,假設不做去中心化折中結果就是上述你看到場景,基于自己搜索習慣、愛好、距離做折中推薦 。

信息繭房經典案例  信息繭房

文章插圖
對于人工干預比較容易理解,基礎的說我基于某類標簽做手動推送,如:性別類型、興趣愛好、話題、KOL量級等 。
高維一點會融會貫通幾項不同的數據綜合考量,好比針對女人中對護膚話題感興趣,客單價又在多少區間等 。
這種方式常見在中小型(百萬級用戶量)以上的平臺,主要特征表現在技術的基礎建設已經完成,屬于發展中期還完全不能依靠自動化解決 。
一方面防止有巨大漏洞出現,造成損失 。
另一方面也能運用人工的方式靈活多維度的基于用戶(商品)進行推送,比如基于點擊率作為推薦指標時,排序算法篩選后,我們會以預測結果為目標 。
這些場景中就會用到因子分解,邏輯歸因,梯度提升決策樹,以及各種神經 *** 算法,這一切也把它稱之為“混合模型” 。
但不管怎么樣始終都離不開那兩大原則“基于用戶行為”和“基于內容”;綜合上述,我們能得到什么啟發呢?
企業 *** 大量研發人員,利用理科的思維邏輯將人的行為特征變成“數據化”,由數據進行顆粒化,最終通過個性化的分析讓平臺更了解每個人,也就有了那句感同身受的話“我都沒有平臺了解我自己” 。
但真的是這樣嗎?這種理解就狹隘了 。
你以為平臺很了解自己?其實我們不過是把愛好,需求形成的特征進行標簽化沉淀在平臺上,這造成推薦的內容都在自身的“認知圈內” 。
簡而言之,每個人在頭部資訊(購物)平臺看到的展示頁均不同,他代表一個人的視野和愛好,這仿佛似一面鏡子瘋狂的為你展現熱愛的一面,它帶來的利弊也是極為可見 。
三、孰是孰非從優劣上有兩個方面:一是良好的認知能力,二是陷入回音室效應 。
如果我們能夠正確認知到信息繭房如何由來的,或者算法如何基于自身的各種行為形成“虛擬人設”為你定做線上畫像;加上我們能夠辨別哪些信息是優質的,哪些是不能為我所用,那就不存在“繭房” 。
這就給我們更大的啟示是,很多時候我們聽到的未必都是正確的,只有深入并全面了解才會擺脫困境 。
比如:很多人拼命的為擺脫算法的囚籠在平臺看內容不點贊、不評論、不互動;這就能擺脫它嗎?并不能 。
反而會為你推薦一大堆亂八七糟的內容讓自身眼花繚亂失去對關鍵信息的辨別的能力 。
換句話說,“信息封閉環境”聽起來是壞事,這好像人們無法接受其他信息一樣,可實際上,這也是一種很常見的現象不是嗎?
在沒有互聯網時,世界上的信息同等無窮盡,新的信息也在產生舊的信息也從未消失,堆積依然很多;即便人用上一生的精力學習也是有限,真正有所造詣的人都是在冰山上抓住某個一角 。

推薦閱讀