PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》( 二 )

2026-05-10 生活百科

為了消除這些混雜的事件特異性相關性，本文建議研究一個更實際的問題，即 event-separated rumor detection，其中 $\mathcal{E}_{t r} \cap \mathcal{E}_{t e}=\varnothing$ 。由于潛在的事件分布轉移，這項任務具有挑戰性，因此它提供了一種評估去偏謠言檢測性能的方法。
3.2 Existing ApproachesPropagation-Based
(1) TD-RvNN(2) GLAN(3) BiGCN(4) SMAN
Content-Based
(1) BERT(2) XLNet(3) RoBERTa(4) DistilBERT
Data Splitting
對于所有三個數據集，我們抽取 10% 的實例進行驗證，然后將剩下的 3：1 分成訓練集和測試集。具體來說，分別根據 Twitter15、Twitter16、PHEME 上發布的公開事件 id 獲得了事件分離分割。
3.3 SOTA Models’Performance is Heavily OverestimatedFig.5 顯示了事件混合和事件分離的謠言檢測性能之間的鮮明對比。此外，盡管在所有三個數據集上具有最佳事件分離性能的一致性，但所有模型在 Twitter 15 和 Twitter16 上實現的事件混合性能都顯著高于 PHEME，前者采用事件級標記，后者采用后級標記（見第1.1節）。這一差距與我們的假設相一致，即直接的event-label 相關性會導致額外的偏差。

PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

文章插圖
結果表明，現有的方法嚴重依賴于虛假的事件特異性相關性。盡管在事件混合設置下表現良好，但這些模型不能推廣到看不見的事件，導致現實世界的適應性較差。
4 Proposed Method為了解決事件分離謠言檢測的挑戰，我們提出了 Publisher Style Aggregation（PSA），這是一種新的方法，可以根據每個出版商的聚合帖子來學習可推廣的 publisher 特征，如 Fig.6 所示。

PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

文章插圖
4.1 Consistency of Publisher Style源帖子發布者是非常有影響力的用戶。每個發布者獨特的可信度立場和寫作風格可以表現出獨特的特征，這有助于決定他們的帖子的真實性。為了獲得更直觀的觀點，我們在 Fig.7 中說明了Twitter15 發布者對每個類的傾向。
具體來說，對于發布者 $u$，我們定義了 $u$ 在class $c$ 下的 tendency score ：
$\frac{ \text{ (microblogs posted by u under class c)}}{\text{(microblogs posted by u)}} $
Fig.7 顯示，大多數發布者在一個特定類別上的得分要么接近 $0$ ，要么接近 $1$，即，大多數發布者傾向于在一個單一的真實性標簽下發布微博，這驗證了我們關于發布者風格一致性的假設。
4.2 Content-Based Microblog Encoding在每個數據集中，所有的源文章和評論構成了一個大小為 |V| 的詞匯表。在之后，我們將每個源特征特征 $\mathbf{r}_{i} \in \mathbb{R}^{|V|}$ 及其相關評論特征 $\mathbf{r}_{i}^{j} \in \mathbb{R}^{|V|}$ 表示為相應源特征或評論中所有 one-hot word vectors 的和。
RootText: Source post 是經過事實核查的，所以可以直接使用Souce Post 作為每個微博實例 $T_{i}$ 的表示—— $\mathbf{h}_{i}:=\mathbf{r}_{i}$
MeanText：我們還建議考慮用戶的評論，以更穩健的可信度測量。在這里，我們采用均值池法將源帖子和評論特征壓縮為微博表示：
$\mathbf{h}_{i}:=\frac{\mathbf{r}_{i}+\sum\limits _{j=1}^{k} \mathbf{r}_{i}^{j}}{k+1}$
我們獲得了基于 RootText 或Meant的微博 $T_{i}$ 編碼 $\mathbf{h}_{i} \in \mathbb{R}^{|V|}$，并通過具有 ReLU 激活函數的兩層全連接神經網絡提取高級特征 $\tilde{\mathbf{h}}_{i} \in \mathbb{R}^{n}$ 。然后，我們通過將 $\tilde{\mathbf{h}}_{i}$ 通過輸出維數 $|\mathcal{C}|$ 的最終全連接層，防止過擬合進行精度預測。
4.3 Publisher Style Aggregation如 4.1 節所示，在極具影響力的 source post 中，寫作立場和可信度在固定的時間框架內保持相對穩定。受此啟發，我們進一步提出了Publisher Style Aggregation（PSA），這是一種可推廣的方法，它聯合利用每個發布者產生的多個微博實例，并提取獨特的發布者特征，以增強在每個微博中學習到的本地特征。更具體地說，
(1) 查找每個發布者生成的一組微博實例；(2) 通過聚合這些源帖子的文本特征學習發布者的發布者風格表示；(3) 增強每個微博的表示$\tilde{\mathbf{h}}_{i}$；
Publisher Style Modeling
假設發布者 $u_{i}$ 已經產生了 $m_{i} \geq 1$ 微博實例，相應的源帖子表示為 $\mathcal{P}\left(u_{i}\right)= \left\{p_{k} \mid u_{k}=u_{i}, k=1, \ldots, N\right\}$ ；注意，在訓練期間只使用可訪問的數據。我們將第 $j$ 個帖子 $p_{i}^{j} \in \mathcal{P}\left(u_{i}\right)$ 視為一個最大長度為 $L$ 的詞標記序列。然后，我們構造了一個基于可訓練的 $d$ 維詞嵌入的嵌入矩陣 $\mathbf{W}_{i}^{j} \in \mathbb{R}^{L \times d}$ 。我們聚合 $u_{i}$ 的所有后嵌入矩陣 $\mathbf{H}_{i} \in \mathbb{R}^{L \times d}$，得到相應的 publisher matrix $\mathbf{H}_{i} \in \mathbb{R}^{L \times d}$ 如下：

推薦閱讀

上一篇：python及第三方庫交叉編譯

下一篇：水晶泥如何制作（10秒做一個仙女盲盒)