DUCK 謠言檢測《DUCK: Rumour Detection on Social Media by Modelling User and Comment Propagation Networks》( 二 )


Longformer 具有與  one-tier transformer 類似的架構,但使用更稀疏的注意模式來更有效地處理更長的序列 。我們使用一個預先訓練過的 Longformer,并遵循與之前相同的方法來建模 comment chain:
$z_{c c}=\mathrm{LF}\left(\operatorname{emb}\left([C L S], c_{0},[S E P], c_{1}, \ldots, c_{m^{\prime \prime}}\right)\right)$
其中,$m^{\prime \prime} \approx m$
3.2.3 Two-tier transformer解決序列長度限制的另一種方法是使用 two tiers of transformers 對 comment chain 進行建模:一層用于獨立處理帖子,另一種用于使用來自第一個 transformer 的表示來處理帖子序列 。
$\begin{array}{l}h_{i} &=&\operatorname{BERT}\left(\mathrm{emb}_{1}\left([C L S], c_{i}\right)\right) \\z_{c c} &=&\operatorname{transformer}\left(\operatorname{emb}_{2}([C L S]), h_{0}, h_{1}, \ldots, h_{m}\right)\end{array}$
其中,BERT 和 transformer 分別表示 first-tier transformers 和 second-tier transformers 。econd-tier transformers 具有與 BERT 類似的架構 , 但只有 2 層 , 其參數是隨機初始化的 。
3.3 User Tree我們探索了三種都是基于 GAT 建模 user network 的方法 , 并通過 mean-pooling 所有節點來聚合節點編碼,以生成圖表示:
$z_{u t}=\frac{1}{m+1} \sum\limits_{i=0}^{m} h_{i}^{L}$
這三種方法之間的主要區別在于它們如何初始化用戶節點 $\left(h_{i}^{(0)}\right)$:
第一種 $\mathbf{G A T_{\text {rnd }}}$ :用隨機向量初始化用戶節點 。
$h_{i}^{0}=\operatorname{random}\left[v_{1}, v_{2}, \ldots, v_dikr8e4r4\right]$
第二種 $\mathbf{GAT _{\text {prf: }}}$ : 來自他們的 user profiles :username, user screen name, user description, user account age 等 。因此 , static user node $h_{i}^{0}$ 由 $v_{i} \in \mathbb{R}^{k}$ 給出
$h_{i}^{0}=\left[v_{1}, v_{2}, \ldots, v_{k}\right]$
第三種 $\mathbf{GAT_{\text {prf }+\text { rel : }}}$:該方法基于用戶特征(user profiles)及其社會關系(基于“follow”關系)通過變分圖自動編碼器 GAE 初始化用戶節點的表示 。前者捕捉使用源帖子的用戶 , 而后者是互相關注的用戶網絡 。
給定基于訓練數據構造的 social graph  $G_{s}$,我們可以推導出一個鄰接矩陣 $\mathrm{A} \in \mathbb{R}^{n \times n}$,其中 $\mathrm{n} $ 為用戶數 。設 $X=\left[x_{1}, x_{2}, \ldots, x_{n}\right], x_{i} \in \mathbb{R}^{k}$,$x_{i} \in \mathbb{R}^{k}$ 為輸入節點特征 。我們的目標是學習一個變換矩陣 $\mathrm{Z} \in \mathbb{R}^{n \times d}$,它將用戶轉換為一個維數為 $d$ 的潛在空間 。我們使用一個兩層的 GCN 作為編碼器 。它以鄰接矩陣 $\mathrm{A}$ 和特征矩陣 $\mathrm{X}$ 作為輸入,并生成潛在變量 $Z$ 作為輸出 。解碼器由潛在變量 $\mathrm{Z}$ 之間的內積定義 。我們的解碼器的輸出是一個重構的鄰接矩陣 $ \hat{A}$ 。從形式上講:$\begin{array}{l}Z &=\operatorname{enc}(\mathbf{X}, \mathbf{A}) =\operatorname{GCN}\left(f\left(\operatorname{GCN}\left(\mathbf{A}, \mathbf{X} ; \theta_{1}\right)\right) ; \theta_{2}\right) \\\hat{A} &=\operatorname{dec}\left(Z, Z^{\top}\right)=\sigma\left(Z Z^{\top}\right)\end{array}$
$h_{i}^{(0)} \in \mathbb{R}^dikr8e4r4$ 通過下述方法計算:
$h_{i}^{(0)}=\left\{\begin{array}{ll}\operatorname{ReLU}\left(W \cdot\left[v_{1}, \ldots, v_{k}\right]\right), & \text { if } \operatorname{user}_{i} \notin G_{s} \\Z_{i}, & \text { if } \operatorname{user}_{i} \in G_{s}\end{array}\right.$
其中,$W_{i}$ 是全連接參數 , $v_{i} \in \mathbb{R}^{k}$ 是 user profiles 。
3.4 Rumour Classifier使用 comment tree、comment chain、user tree 分別生成的圖表示 $z_{c t}$、$z_{c c}$、$z_{u t}$ 進行謠言分類:
$\begin{array}{l}z=z_{c t} \oplus z_{c c} \oplus z_{u t} \\\hat{y}=\operatorname{softmax}\left(W_{c} z+b_{c}\right) \\\mathcal{L}=-\sum\limits _{i=1}^{n} y_{i} \log \left(\hat{y_{i}}\right)\end{array}$其中,$n$ 表示訓練實例數 。4 Experiments and Results4.1 Datasets數據集統計如下:

DUCK 謠言檢測《DUCK: Rumour Detection on Social Media by Modelling User and Comment Propagation Networks》

文章插圖
we report the average performance based on 5-fold cross-validation.
we reserve 20% data as test and split the rest in a ratio of 4:1 for training and development partitions and report the average test performance over 5 runs (initialised with different random seeds).
4.2 Results本文實驗主要回答如下問題: