GACL 謠言檢測《Rumor Detection on Social Media with Graph Adversarial Contrastive Learning》

論文信息

論文標題:Rumor Detection on Social Media with Graph AdversarialContrastive Learning論文作者:Tiening Sun、Zhong Qian、Sujun Dong論文來源:2022, WWW論文地址:download論文代碼:download
Abstract盡管基于GNN的方法在謠言檢測領域取得了一些成功,但是這些基于交叉熵損失的方法常常導致泛化能力差 , 并且缺乏對一些帶有噪聲的或者對抗性的樣本的魯棒性,尤其是一些惡意謠言 。有時,僅僅設置一個簡單的擾動就會導致標簽被高度置信地錯誤分類 , 這對謠言分類系統無疑是一個巨大的潛在危害 。因此 , 現有的數據驅動模型需要變得更加健壯 , 以應對通常由正常用戶無意識地產生和傳播的錯誤信息或者由謠言制造者惡意設計的混亂對話結構 。
在本文中,我們提出了一種新的圖對抗對比學習(GACL)方法來對抗這些復雜的情況,其中引入對比學習作為損失函數的一部分,用于明確感知同類和不同類的會話線程之間的差異 。同時,設計了一個對抗性特征變換(AFT)模塊來產生相互沖突的樣本 , 以加壓模型以挖掘事件不變的特征 。這些對抗性樣本也被用作對比學習的硬負樣本,使模型更魯棒和有效 。在三個公共基準數據集上的實驗結果表明,我們的 GACL 方法比其他最先進的模型取得了更好的結果 。
1 Introduction本文提出一個圖對抗對比學習(GACL)方法謠言檢測 。具體來說,首先采用 edge perturbation 和 dropout 等圖數據增強策略掩模來模擬 Figure 1(b) 的情況,它為模型提供了豐富噪聲的輸入數據 。然后,我們引入 Figure 2 所示的監督圖對比學習 來訓練 GNN 編碼器 明確地感知增強數據的差異,并學習魯棒表示 。與自監督對比學習策略不同,本文的方法可以更有效地利用標簽信息 。這樣,就可以防止在一些包含噪聲的情況下,如錯誤的注釋和混亂的字符被檢測模型錯誤地分類 。
GACL 謠言檢測《Rumor Detection on Social Media with Graph Adversarial Contrastive Learning》

文章插圖
有時,僅憑這一點是不夠的 。因為在現實世界中,除了由普通用戶無意中創造和傳播的錯誤信息外 , 還有一些由謠言生產者精心設計和故意推廣的惡意謠言,如 Figure 1(c) 所示,這可能會使該模型失效 。一些研究人員也注意到了這個問題 。Ma等人[21]分析了一個關于“沙特阿拉伯斬首第一個女性機器人公民”的謠言案例,以說明謠言機器人如何使用高頻和指示性詞匯來掩蓋事實 。Yang等人 [32] 還提到,謠言生產者經常操縱由用戶、消息來源和評論組成的關系網絡,以逃避檢測 。無論是文本篡改還是網絡操縱 , 謠言制作者的目的都是使謠言在高維空間中接近非謠言樣本 , 從而混淆模型 。因此,為了解決這個問題,我們開發了一個對抗性特征轉換(AFT)模塊,旨在利用對抗性訓練來生成具有挑戰性的特征 。這些對抗性特征將作為對比學習中的硬負樣本,幫助模型加強對這些困難樣本的特征學習,實現魯棒性和有效的檢測 。此外,我們直觀地相信,這些對抗性的特征可以被解碼成各種不同類型的擾動 。
本文貢獻:
    • 據我們所知,這是第一個將對比學習引入謠言檢測任務的研究,旨在通過感知同一標簽和不同標簽樣本之間的差異來提高表征質量 。
    • 我們提出了GACL模型,它不僅考慮了謠言的傳播結構信息,還模擬了噪聲和對抗性情況,并利用對比學習捕獲了事件不變特征 。
    • 在GACL框架下,我們開發了AFT模塊來生成對抗性特征,這些特征作為對比學習中的硬負樣本,以學習更魯棒的表示 。
    • 我們通過實驗證明,我們的模型在真實世界的數據集上優于最先進的基線 。
2 Method2.1 Definition本文將謠言檢測定義為一種分類任務,其目的是從一組帶標簽的訓練事件中學習一個分類器,然后用它來預測測試事件的標簽 。使用  $C=\left\{c_{1}, c_{2}, \cdots, c_{n}\right\}$ ,$c_{i}$ 是第  $i$  個事件,  $n$  是事件的數量 。每個事件  $c=(y, G)$  包含 ground-truth 標簽  $y \in\{R, N\}$  (也就是 Rumor 和 Non-rumor) 和其傳播結構樹  $G=(V, E)$ ,$V$  和  $E$  分別是節點和邊的集合 。有時謠言檢測被定義為一個四類的分類任務,相應的  $y \in\{N, F, T, U\}$  ( Non-rumor、False Rumor、True Rumor、Unverified Rumor) 。在模型訓練階段,$\hat{G}$  由數據增強生成,目的是與原圖  $G$  一起學習一個分類器  $f(\cdot)$ 。在測試階段,只有原圖  $G$  會被用來預測給定事件  $c_{i}$  的標簽 。

推薦閱讀