GACL 謠言檢測《Rumor Detection on Social Media with Graph Adversarial Contrastive Learning》( 二 )


2.2 Framework

GACL 謠言檢測《Rumor Detection on Social Media with Graph Adversarial Contrastive Learning》

文章插圖
2.3 Graph Data AugmentationGACL采用 Edge perturbation 策略進行數據增強 。對于一個圖 $G=(V, E) $,其鄰接矩陣為 $A$  , 特征矩陣為 $X$  ,  Edge perturbation 在訓練時將會根據一定的概率 $r$ 來隨機丟棄、 添加或者誤置一些邊,以此來干擾 $G$ 的連接 。假設新生成的增強圖為 $\hat{G}^{\prime}$,$A_{\text {perturbation }}$ 為一 個從原來的邊集合中隨機采樣的矩陣,則 $\hat{G}$ 的鄰接矩陣 $A^{\prime}$ 可以計算為對謠言制造者設計的偽裝結構 。
此外,對于謠言檢測任務,上圖中由 $post$ 組成的圖節點的文本信息也是正確分類謠言的關鍵線索之一,還需要對其進行增強以提供一些噪聲 。本文采用 Dropout mask 來對這些文本進行增強 , 也就是隨機 mask 每個 post 中的一些詞 , 如上圖所示 。
2.4 Graph Representation本文使用 BERT 來獲取事件的原文和評論的句子表示,以構建新的 $X$。為了強調 source post 的重要性,以 [CLS] Source [SEP] Comment [SEP] 的形式來將原文和評論連接起來 , 以 [CLS] 這個 token 的最終表示作為節點的表示 。
本文使用一個兩層$\mathrm{GCN}$作為encoder。當前圖記為$G_{k} $ ,其增強圖為$\hat{G}_{k}$,經過兩層$\mathrm{GCN}$后學習到的節點表示矩陣為$H_{k}^{(2)}$,最后使用一個 mean-pooling 來獲得圖的表示:
$h_{k}=M E A N\left(H_{k}^{(2)}\right)$
2.5 AFT Component即使 AFT  module 不存在,由 GCN 生成的圖表示 $h$ 也可以直接輸入最終的 $softmax$ 層進行謠言分類 。然而,由于該模型在訓練階段只暴露于包含隨機噪聲的數據增強生成的輸入樣本中,因此它缺乏對對抗性樣本(特別是一些被人類仔細干擾的數據)的魯棒性,如 Figure1(c). 所示為了逃避模型檢測,謠言產生者可能會使用圖偽裝策略,使會話線程更接近非謠言實例,從而混淆了圖檢測模型 。他們也可以利用謠言機器人來發布大量的評論,其中包含許多高頻和指示性的詞,以掩蓋事實 。這些案例的最終目標是使謠言特征向量更接近于潛在空間中的非謠言特征向量 。提出的基于對抗學習的 AFTmodule 試圖在高維空間中模擬這些行為 , 并生成對抗向量,用于挖掘訓練階段的事件不變特征 。如  Figure 3 所示,AFT 由 $L = 2$ fully connected layers、Dropout 和 Normalization (DN) 組成 。經過 AFT module 后,$h_k$ 轉換為 $z_k$ , 公式為
$z_{k}=D N\left(\max \left(0, h_{k} W_{1}^{A F T}+b_{1}\right) W_{2}^{A F T}+b_{2}\right)$
將得到的 $z_k$ 向量作為對比學習中的硬負樣本 。
現在,對于 batch 中的每一個 post,我們得到了 GCN 編碼的相應圖表示 $h_{k}$,以及 AFT 生成的對抗表示 $z_{k}$ 。然后,我們將它們連接起來,以將信息合并為
$m_{k}=\operatorname{concat}\left(h_{k}, z_{k}\right)$
接下來,將 $m_{k}$ 輸入全連接層和 softmax 層,輸出計算為
$\hat{y}_{k}=\operatorname{softmax}\left(W_{k}^{F} m_{k}+b_{k}^{F}\right)$
其中,$\hat{y} \in \mathbb{R}^{1 \times C}$ 為預測的概率分布 。$W^{F}$ 和 $b^{F}$ 分別為可訓練的權重矩陣和偏差 。
2.6 Adversarial Contrastive Learning本文采用的損失函數旨在給定標簽信息的條件下最大化正樣本之間的一致性同時拉遠負樣本 。如 Figure 3 ,以  $m_{k}$  作為錨點,具備與  $m_{k}$  相同標簽的  $m_{p}$  作為正樣本,具備與  $m_{k}$  不同標簽的  $m_{a}$  作為負樣本 。對比損失的目的是讓具有相同標簽的樣本余弦相似度變大,具有不同標簽的樣本余弦相似度變小 。最終的損失函數為:
$\mathcal{L}=\mathcal{L}_{c e}+\alpha \mathcal{L}_{s u p}$
這兩部分損失分別是:
$\mathcal{L}_{c e}=-\frac{1}{N} \sum\limits ^{N} \sum\limits^{M} y_{k, c} \log \left(\hat{y}_{k, c}\right)$
${\large \mathcal{L}_{s u p}=-\sum\limits _{k \in K} \log \left\{\frac{1}{|P(k)|} \sum\limits _{p \in P(k)} \frac{\exp \left(\operatorname{sim}\left(m_{k}, m_{p}\right) \tau\right)}{\sum\limits _{a \in A(k)} \exp \left(\operatorname{sim}\left(m_{k}, m_{a}\right) \tau\right)}\right\}} $
$k$  代表第幾個樣本, $c$  代表類別,  $A(k)=\left\{a \in K: y_{a} \neq y_{k}\right\}$  是負樣本索引,$P(k)=\left\{p \in K: y_{p}=y_{k}\right\}$  是正樣本索引 ,   $\operatorname{sim}(\cdot)$  為余弦相似度,即  $\operatorname{sim}\left(m_{k}, m_{p}\right)=m_{k}^{T} m_{p} /\left\|m_{k}\right\|\left\|m_{p}\right\|$ ,$\tau \in \mathbb{R}^{\dagger}$  是溫度超參數 。
一部分研究表明BERT驅動的句子表示容易造成坍塌現象,這是由于句子的語義信息由高頻詞主導 。在謠言檢測中,高頻詞經常被謠言制造者利用來逃避檢測 。因此采用對比學習的方式能夠 平滑化句子的語義信息 , 并且理論上能夠增加低頻但重要的詞的權重 。本文通過最小化 $\mathcal{L}$ 來更新模型的參數,但不包括 AFT 的參數 。

推薦閱讀