PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

論文信息

論文標題:Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks論文作者:Jiaying Wu、Bryan Hooi論文來源:2022, arXiv論文地址:download 論文代碼:download
Abstract開源的數據集存在虛假相關性,這種虛假相關性來自三個方面:
    • event-based data collection and labeling schemes assign the same veracity label to multiple highly similar posts from the same underlying event;
    • merging multiple data sources spuriously relates source identities to veracity labels;
    • labeling bias;
在  event-separated 的設置下 , 現有最先進的模型準確性下降了 40% 以上,和簡單的線性分類器差不多 。本文為解決這個問題,提出了 Publisher Style Aggregation(PSA),是一種通用的方法 , 可以聚合發布者的發布信息 , 以及寫作風格和立場等 。
1 Introduction現有數據集的構建過程中存在虛假的 屬性-標簽相關性 。回顧基于事件的數據集采集框架,首先對事實有價值的事件自動檢測,然后剔除大量包含相同事件關鍵詞高度相似的微博 。此外,一些基準數據集還通過合并現有多個源的數據樣本,來平衡類分布 。
忽略虛假信息會導致不公平的過度預測,從而限制了模型的泛化和適應性 。在情緒分類、參數推理理解 和 事實驗證 等一些自然語言處理任務中也發現了類似的問題 , 但社交媒體謠言檢測的任務仍未得到充分的探索 。
2 Spurious Correlations in Event-Based Datasets2.1 Event-Based Data CollectionNewsworthy Event Selection
從具有權威的事實核查網絡收集事件,或由專業人士確定候選事件 。
Keyword-Based Microblog Retrieval
現有的數據集通常是基于事件的自動數據收集策略,即對每個事件:
    1. 從其 claim 中提取關鍵詞;
    2. 通過基于關鍵詞的搜索獲取微博;
    3. 選擇有影響力的微博;
事件關鍵字大多是中立的(例如,地點、人或對象),攜帶很少或沒有立場 。
Microblog Labeling Scheme
Event-level labeling assigns all source posts under an event with the same event-level factchecking label.
Post-level labeling annotates every source post independently.
2.2 Possible Causes of Spurious CorrelationsIntra-Event Textual Similarity在每個 Event 下 , 基于自動關鍵字的微博檢索框架收集了大量具有相同標簽的高度相似的關鍵詞共享樣本,甚至獲得了相同的微博文本(Fig.1) 。因此,事件關鍵字和類標簽之間的相關性導致強文本線索,難以概括當前 Event。
PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

文章插圖
根據現有工程所采用的 post-level data splitting scheme,也就是使用關鍵詞相關性對帖子進行收集 。
PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

文章插圖
具體來說,前 5 個最大的事件覆蓋了 PHEME 中 96.09% 的數據樣本 , 而大型事件(包含超過5個關鍵詞共享推文)覆蓋了 Twitter 15 和 Twitter16 中超過70% 的樣本 。大的事件規模導致特定事件的 keyword-label 相關性的流行,進一步加劇了問題 。
Merge of Data Sources為了平衡標簽 , Twitter 15 和 Twitter16 合并了來自包括[4,12,16] 在內的多個來源的推文,并從經過驗證的媒體賬戶中提取其他新聞事件 。雖然不同的數據源所覆蓋的事件不重疊 , 但數據源和標簽之間的直接相關性可能會導致數據源特征和標簽之間的虛假相關性 。
如 Fig 3 所示,來自每個源的推文的 user interaction count(評論和轉發)和  interaction time range of tweets 形成了不同的模式 。例如,所有來自 PLOS_ONE 的推文都是“True”,傳播得很快,往往會引起更少的互動 。這些特定于源的傳播模式可能被基于圖或時間的模型所利用 。
PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

文章插圖
Labeling Bias
由于文本內容相似,簡單的為其自動設置相同標簽 , 會帶來嚴重的標簽偏差,舉例如 Fig.4 所示:
PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

文章插圖
3 Event-Separated Rumor Detection3.1 Problem Formulation
PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

文章插圖
現有的方法大多忽略了底層的 microblog-event 關系,采用了 event-mixed post-level data splits,導致 $\mathcal{E}_{t r}$ 和 $\mathcal{E}_{t e}$ 之間存在顯著的重疊 。然而,在實踐中,測試數據的先驗知識并不總是得到保證(例如 , 模型從訓練和測試數據中重復推文獲得的性能收益不太可能推廣),而以前的假設可能導致事件內文本相似性導致的性能高估 。

推薦閱讀