本文介紹來自北航彭浩團隊的最新科研成果 - SI2AF框架。這是一種建立在網絡結構信息理論(如結構熵、層次社區結構)基礎上針對虛假新聞檢測的對抗攻擊框架,用于評估基于圖神經網絡(GNN)的檢測模型的魯棒性。與 MARL、SGA 等十種基線攻擊算法相比,綜合實驗表明了SI2AF在攻擊有效性與提升檢測魯棒性等方面的顯著優勢。
論文名稱: Robustness Evaluation of Graph-based News Detection Using Network Structural Information 論文鏈接: https://arxiv.org/abs/2505.14453一、動機
近期研究指出,社交媒體的普及加速了虛假信息和假新聞的傳播。這一現象不僅破壞公眾信任,還對政治、經濟和公共安全等關鍵領域產生負面影響。與傳統新聞不同,社交平臺上的虛假內容因其故意誤導性、傳播迅速且專家驗證成本高,帶來了獨特挑戰,因此需要開發自動化檢測機制。傳統基于自然語言處理的機器學習檢測器[1] 試圖識別虛假內容,但在捕捉信息傳播的獨特結構和復雜行為方面存在效率局限 [2]。為此,基于圖神經網絡(GNN)的檢測器 [3] 應運而生,其通過分析謠言傳播的復雜結構模式顯著提升了檢測精度。
盡管 GNN 技術有所進步,當前基于圖的檢測器仍易受對抗性攻擊。盡管針對自然語言處理檢測器的魯棒性研究已較為廣泛,但圖檢測器的魯棒性研究仍不足。現有方法如 Malcom 框架[4]通過生成對抗性評論探測檢測系統漏洞,基于強化學習的攻擊策略[5]和梯度方法 GAFSI[6]分別針對圖檢測器的特定弱點和通用圖結構攻擊,但這些方法主要聚焦惡意賬戶與單個目標新聞的關聯,忽略了社交網絡中對信息傳播至關重要的底層結構關系,導致攻擊策略難以有效覆蓋復雜網絡傳播場景。
當前圖檢測器魯棒性評估面臨的 3 個主要挑戰:
挑戰 1:如何有效建模社交網絡的底層結構關系?
現有對抗攻擊方法多聚焦單一目標新聞與惡意賬戶的局部關聯,忽略了用戶與新聞之間的層次社區結構、動態互動模式等全局結構信息,導致攻擊無法捕捉網絡中信息傳播的復雜依賴關系,難以評估檢測器對真實社交網絡結構擾動的魯棒性。
挑戰 2:如何設計多模態協同的攻擊策略?
傳統方法僅通過單一類型惡意賬戶實施攻擊,缺乏對不同影響力賬戶(如低影響力 bots、高影響力 crowd workers)的差異化建模,且未考慮目標新聞與關聯新聞(如子圖內真實新聞、其他虛假新聞)的協同攻擊策略,導致攻擊的多樣性和有效性不足。
挑戰 3:如何提升對抗攻擊對黑箱檢測器的泛化能力?
現有攻擊多依賴梯度信息或特定圖結構假設,難以適應黑箱場景下檢測器的參數不可知性和圖結構多樣性,導致攻擊策略的通用性較差,無法全面評估不同 GNN 模型的魯棒性。
為了解決上述挑戰,作者提出了SI2AF,通過融入網絡結構信息評估圖檢測器魯棒性。構建用戶 - 新聞二分圖,利用結構熵量化互動不確定性。通過子圖內多智能體協作實施直接、間接、反饋三種子圖攻擊策略,最大化規避黑箱檢測器能力(詳見圖1)。
圖 1 傳統方法與本文框架的對比示意圖。SI2AF 通過最小化社交互動中的動態不確定性并識別關聯子圖,策略性地建立與目標和非目標帖子的連接,顯著提升攻擊有效性。 二、方法
如圖2所示,SI2AF框架包含三個主要模塊:層次結構識別、多智能體設計和目標子圖攻擊。在結構識別模塊中,需要從歷史互動中構建用戶 - 帖子二分圖,并生成其最優編碼樹,以表示所有用戶和帖子的層次社區結構。在智能體設計模塊中,需要使用結構熵提出影響力指標來評估用戶賬戶,將其分為不同類型的惡意賬戶和真實賬戶。作者為每個目標帖子協調多個智能體,以在相關子圖內與目標和非目標帖子建立新連接,旨在優化對基于 GNN 的檢測模型的規避能力。
圖 2 SI2AF 框架的詳細設計圖。 2.1 層次結構識別
與以往研究獨立分析單個目標新聞不同,作者通過最小化社交互動中的動態不確定性,識別用戶賬戶和新聞帖子的層次社區結構,從而在 SI2AF 框架內實現有效的子圖攻擊。
為此,首先提取用戶賬戶U和新聞帖子P之間的歷史互動數據,構建無向二分用戶 - 帖子圖 。與先前的工作一致,使用預訓練語言模型對用戶歷史帖子進行嵌入,得到用戶表示 ;同理,通過嵌入每條新聞帖子的內容生成帖子表示 。
對于每條邊 ,計算用戶表示 與帖子表示 的余弦相似度,以此捕獲嵌入空間中的語義相似性,并按如下公式計算邊權重 :
權重越高,表明用戶 與帖子 的相關性越強,反之則表示差異越大。
在二分圖 中,作者將社交互動建模為用戶和帖子頂點之間的隨機游走,利用結構熵量化這些互動的動態不確定性。該熵量化了隨機社交互動中確定可訪問用戶或帖子所需的最小信息量(以比特為單位)。通過最小化 的高維熵,可以生成其最優編碼樹,以捕獲用戶賬戶U和新聞帖子P的層次社區結構。具體來說,首先為 初始化單層編碼樹 ,其中每個葉節點ν的父節點為樹根λ(即 )。然后使用 HCSE 算法,通過 “拉伸” 和 “壓縮” 兩種操作,從單層到K層迭代貪婪優化編碼樹 ,最終得到K層最優編碼樹 。在 中,根節點λ對應用戶和帖子集合的并集 ,每個葉節點ν對應單個用戶或帖子,中間節點則對應不同層次的社區。
最后,對于每個目標帖子 ,提取其對應的k層社區 ,壓縮 中第k層的用戶子集 和帖子子集 。將用戶子集 擴展為整個用戶集合U,得到關聯的二分量子圖 。擴展后的頂點集包括整個用戶賬戶集U和帖子子集 ,邊集 捕獲了U中賬戶與 中帖子的局部結構關系,突出了子圖內的互動。在本研究中,高度參數k默認設置為 K?1,以便從根節點的直接子節點對應的頂點社區中導出所有目標子圖。
2.2 多智能體設計
基于上述層次社區結構,作者提出一種衡量用戶賬戶網絡影響力的指標,并設計多個協作智能體以管理不同影響力和預算的惡意賬戶。
在編碼樹 中,公式 賦予每個非根節點 α 的結構熵用于衡量,已知隨機游走進入到父社區 進一步確定其進入到子社區 的不確定性。對于任意用戶 ,隨機互動到達該用戶的概率受從根節點λ到葉節點ν( )路徑上所有節點 α 的累積熵影響。由此,定義影響力指標I以量化用戶賬戶參與 中隨機互動的可能性:
其中,c為調整參數,用于調節所有用戶賬戶的影響力分布。
現有研究基于賬戶分享新聞的數量劃分惡意群體(反映網絡影響力),但社交網絡的稀疏性(多數用戶僅關聯單個帖子)導致分享次數分布不均,造成基于影響力的分類失衡。作者提出的指標通過融合內容相關性和層次社區結構,實現了對相同分享次數用戶的精細化區分,提升了影響力衡量精度。定理 2.1 表明,即使在無向圖和單層網絡結構中,調整參數c可減少影響力值相同的賬戶數量,促進用戶影響力分布的均衡性。此時,用戶u的影響力指標僅依賴其頂點度數 (即用戶關聯的內容數量),公式簡化為:
定理 2.1:設 為具有概率密度函數 的正隨機變量。在變換 下,當條件 成立時,變量 隨x單調遞增,且其概率密度函數 滿足:
其中參數b表示所有用戶分享的帖子總數與這些帖子被分享的總次數之和。因此,每個用戶的個體分享次數x滿足范圍
針對虛假信息傳播中的多類型惡意群體,作者建模了三種不同影響力層級的惡意賬戶 —— 低影響力的 “機器人”(bots)、中等影響力的 “半機械人”(cyborgs)和高影響力的 “眾包工作者”(crowd workers),并基于預算 Δb、Δc、Δw 設計自適應分類算法:按影響力指標I升序排列所有用戶;根據預算比例劃分低、中、高影響力群體;從各群體中隨機抽樣生成 、 、 ,受控惡意賬戶集合為:
最后,為模擬不同群體的協作行為,設計三類智能體:管理低影響力機器人的 、管理中等影響力半機械人的 、管理高影響力眾包工作者的 。
2.3 目標子圖攻擊
針對目標帖子的攻擊(主要針對假新聞,也適用于真實新聞)被建模為關聯用戶 - 帖子子圖內的集體協作,所有智能體協同操縱基于 GNN 的黑箱檢測器的分類結果。
對于目標假新聞帖子 ,其關聯子圖 包含緊密相關的帖子集合 ,包括假新聞子集 (其中 )和真實新聞子集 。其中, 和 分別表示子圖內假新聞和真實新聞的數量。
SI2AF 框架將目標帖子攻擊建模為多智能體協作的馬爾可夫決策過程,由元組 描述,其中 , 為狀態空間, 為聯合動作空間, 為轉移函數, 為獎勵函數, 為折扣因子。在每個時間步 t,負責管理惡意賬戶 的智能體 觀測當前環境狀態 ,并根據其策略網絡 選擇動作 。策略網絡 決定每個受控賬戶在關聯用戶 - 帖子子圖 中與哪個帖子頂點互動,即 。類似地,智能體 和 過各自的策略網絡,遵循與 類似的決策流程選擇相應動作 和 。
對于每個惡意賬戶 ,根據該賬戶與目標帖子 的所有共同父節點的累積熵,定義其選擇動作 的采樣概率 如下:
如果 與目標帖子 p 之間的唯一共同父節點是根節點,需要將采樣概率 設置為預定義的較小隨機值 0.01,以表示低動作可能性。類似地,采用相同方法為 和 控制的賬戶定義采樣概率。基于這些概率,對 、 和 執行加權采樣,得到時間步t的單智能體動作 、 和 。
此外,根據每個智能體控制的惡意賬戶的網絡影響力總和對這些動作進行集中聚合,生成時間步t的最終動作 ,該動作指定被攻擊的帖子 和選定的惡意賬戶 。集體動作 通過在 和 之間建立新的分享關系來修改用戶 - 帖子圖 的結構,可能影響基于 GNN 的檢測器 對目標新聞 p 的分類結果。根據被攻擊帖子 的類型,作者提出的子圖攻擊包含三種不同的策略:
直接攻擊:直接與目標新聞互動 ,以影響基于 GNN 的檢測器對其的分類結果。
間接攻擊:與關聯子圖內的真實新聞互動 ,間接影響目標p的預測。
反饋攻擊:與關聯子圖內的其他假新聞互動
,旨在豐富環境反饋并解決決策過程中的獎勵稀疏問題。
在針對基于 GNN 的檢測器 進行對抗攻擊時,SI2AF 框架會考慮目標帖子及其他相關假新聞帖子的分類結果。這些帖子的預測值 作為獎勵信號,指導所有智能體 的策略網絡訓練和優化。具體來說, 表示目標帖子 的分類結果,而 (i>1)表示其他假新聞帖子 的分類結果。獎勵函數 定義如下:
其中 表示由動作 擾動后的更新結構關系。
對于基于策略 運行的智能體 ,使用Q學習估計其價值函數 并最小化優化損失:
其中 是智能體 的目標價值網絡,用于通過減少學習 Q 值的振蕩來穩定訓練過程。最優價值函數 由貝爾曼方程表示:
該方程描述了一種貪婪策略,即智能體 選擇使給定狀態下Q值最大化的動作:
智能體 和 的策略訓練遵循與 相同的Q學習方法,但會適配各自的動作空間。
2.4 檢測優化
通過利用訓練好的 SI2AF 框架,作者將各子圖中生成的擾動整合到用戶與帖子的結構關系更新中,從而優化基于圖的檢測器,提升其魯棒性。對于每個目標帖子 ,從關聯子圖 中提取假新聞 和真實新聞 。根據訓練好的策略 , , ,分別選擇多智能體動作 , 和 ,并通過加權采樣確定時間步t的集體動作 。該動作用于更新用戶 - 帖子圖 中的結構關系 。在完成對 中所有目標帖子的攻擊后,作者最小化公式中的交叉熵損失,優化基于圖的模型 ,從而增強其檢測魯棒性。
三、實驗結果與分析
為評估SI2AF框架性能,作者在 Politifact 和 Gossipcop 真實數據集上與五類 GNN 檢測器(GCN/GAT/GraphSAGE/GCAN/Bi-GCN)及多種基線方法(隨機、梯度、多智能體協作等)對比。實驗采用成功率(目標帖子誤分類比例)和預測概率變化為核心指標,結果經五組隨機種子取均值。
SI2AF 在攻擊效果上顯著優于所有基線:假新聞和真實新聞攻擊成功率均達最優(詳見表1),預測概率調整幅度更大(假帖平均降低、真帖平均提升幅度見圖 3)。多策略協同實驗表明,結合直接 / 間接 / 反饋攻擊的成功率顯著高于單一策略(詳見圖 4),驗證了子圖攻擊的策略優勢。通過將攻擊生成的結構擾動融入模型訓練,檢測模型魯棒性顯著提升(詳見表 2),且框架訓練 / 推理時間與基線 MARL 相當,隨攻擊預算增加保持穩定(詳見表 3)。在不同參與度帖子上,SI2AF 對高傳播度帖子的攻擊優勢更明顯(詳見表 4),適配不同影響力場景。
表 1 SI2AF 及其他基線方法在 Politifact 和 Gossipcop 數據集上針對假新聞與真實新聞的成功率("平均值 ± 標準差"):粗體:各列最佳性能,下劃線:次佳性能。表 2 基于圖的檢測器在 Gossipcop 假新聞攻擊前后的檢測性能。
表 3 SI2AF 與 MARL 在不同攻擊預算下的效率對比。
表 4 SI2AF 與三種性能最佳基線在不同參與度帖子上的攻擊性能對比。
圖 3 對抗攻擊前后假新聞與真實新聞的平均預測概率。圖 4 Gossipcop 數據集中不同攻擊策略對假新聞的成功率。
與此同時,案例研究顯示,SI2AF 通過多階段策略(初期直接連接目標、后期擴展關聯帖子)顯著改變 GNN 預測概率(詳見圖 5),其效果源于直接攻擊(連接高影響力賬戶)、間接攻擊(增強關聯真實新聞互動)和反饋攻擊(協同影響關聯假新聞)的協同作用。消融實驗表明,高影響力 worker 智能體性能最優,賬戶數量增加至閾值后攻擊效果趨穩(詳見圖 6)。參數敏感性分析顯示,子圖規模參數的最優值與網絡規模相關(詳見圖 7),過大子圖因納入無關內容導致效果下降。
圖 5 SI2AF 與 MARL 針對基于 GNN 的假新聞檢測器的攻擊過程可視化。圖 6 Politifact 數據集中不同智能體在假新聞檢測器(GAT、SAGE 和 GCAN)上的攻擊性能。
圖 7 SI2AF 采用不同高度參數時的成功率。 四、結論
本文提出了 SI2AF 對抗攻擊框架,該框架利用網絡結構信息識別賬戶與帖子間的層次社區結構,從而實現對各類基于 GNN 的檢測器的有效攻擊并評估其魯棒性。作者提出了一種惡意賬戶影響力度量方法,結合三種基于多智能體協作的子圖攻擊策略,以最大化目標新聞帖子的規避效果。在 Politifact 和 Gossipcop 兩個真實數據集上的大量實驗表明,SI2AF 持續提升了攻擊有效性,性能優于最先進的基線方法,并顯著增強了基于圖的檢測模型的魯棒性。未來研究將聚焦于擴展基于圖的檢測器范圍,并通過更全面地探索子圖攻擊來進一步提升其魯棒性。
篇幅原因,我們在本文中忽略了諸多細節,更多細節可以在論文中找到。感謝閱讀!
參考文獻
[1]Kai Shu, Limeng Cui, Suhang Wang, Dongwon Lee and Huan Liu. defend:Explainable fake news detection. In Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining, 2019.
[2]Tian Bian, Xi Xiao, Tingyang Xu, Peilin Zhao, Wenbing Huang, Yu Rong and Junzhou Huang. Rumor detection on social media with bi-directional graph convolutional networks. In Proceedings of the AAAI conference on artificial intelligence, 2020.
[3]Van-Hoang Nguyen, Kazunari Sugiyama, Preslav Nakov and Min-Yen Kan. Fang: Leveraging social context for fake news detection using graph representation. In Proceedings of the 29th ACM international conference on information & knowledge management, 2020.
[4]Thai Le, Suhang Wang and Dongwon Lee. Malcom: Generating malicious comments to attack neural fake news detection models. In 2020 IEEE International Conference on Data Mining (ICDM), 2020.
[5]Yuefei Lyu, Xiaoyu Yang, Jiaxin Liu, Sihong Xie, Philip Yu and Xi Zhang. Interpretable and effective reinforcement learning for attacking against graph-based rumor detection. In 2023 International Joint Conference on Neural Networks (IJCNN), 2023.
[6]Peican Zhu, Zechen Pan, Yang Liu, Jiwei Tian, Keke Tang and Zhen Wang. A general black-box adversarial attack on graph-based fake news detectors. arXiv preprint arXiv, 2023.
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.