有害模因檢測是一種防止有害模因在社交媒體平臺上擴散的技術。考慮到其對社交環(huán)境的影響,本文提出了模因木馬(Meme Trojan),旨在探索其在面對后門攻擊時所產生的潛在隱患。通過在模因樣本中注入設定的觸發(fā)器,攻擊者可以操縱檢測器來輸出指定的結果。
Meme Trojan涉及創(chuàng)建一種新穎的跨模態(tài)觸發(fā)器(Cross-Modal Trigger, CMT)和一個可學習的觸發(fā)器增強器(Trigger Augmentor),以根據(jù)每個輸入樣本增強其的觸發(fā)器模式。由于跨模態(tài)特性,所提出的跨模態(tài)觸發(fā)器可以在自動檢測框架下有效地發(fā)起后門攻擊。
此外,觸發(fā)器的注入位置和尺寸是自適應于模因樣本中的文本,這確保了觸發(fā)器與模因內容緊密結合。通過實驗證明,本文所提出的方法在有效性和隱蔽性方面顯著優(yōu)于已有方法。
論文題目: Meme Trojan: Backdoor Attacks Against Hateful Meme Detection via Cross-Modal Triggers 論文鏈接: https://arxiv.org/abs/2412.15503
一、背景與動機
隨著社交媒體平臺(例如 Twitter、Reddit 等)的興起,模因(一種多模態(tài)內容)已成為表達用戶想法和情感的流行媒介。由于模因可能傳達有害和諷刺信息,導致網(wǎng)絡辱罵和有害言論(見圖 1 (I)),因此提出了有害模因檢測來減輕這些社會風險。
盡管在有害模因檢測方面取得了重大成就,但已有實驗證明簡單的對抗性干擾可以在推理階段欺騙有害模因檢測器。這揭示了有害模因檢測模型存在潛在安全風險,強調了進一步探索的迫切需要。在有害模因檢測器的訓練階段,后門攻擊會造成更現(xiàn)實的威脅。
這種攻擊通常可能由使用包含中毒樣本的第三方數(shù)據(jù)集引起,具有極高的隱蔽性。攻擊者通過毒害訓練數(shù)據(jù)將后門注入受害者模型,從而在推理過程中操縱模型的預測行為。如圖 1(II)所示,受害者模型可以正確地分類良性樣本(第一行:沒有觸發(fā)器),而在遇到中毒模因時給出惡意結果(第二行:有觸發(fā)器)。這種攻擊使惡意用戶能夠繞過有害模因檢測器,從而促進有害模因的傳播。
圖 1 (I):將相同的文本(或圖像)與不同的圖像(或文本)組合在一起將傳達出不同的含義。(II):在后門攻擊下,有害模因檢測器可以準確識別良性樣本,但在遇到特定觸發(fā)器時會產生惡意結果。
二、方法
模因由圖像和嵌入其中的一段短文本組成,具有文本與圖像共存的獨特特征。這種特征限制了已有后門攻擊方法在該領域的應用。例如,現(xiàn)有的針對文本模態(tài)的后門攻擊需要事先獲取文本內容才能注入觸發(fā)器。然而,在自動檢測系統(tǒng)中,文本信息由模型自動提取,攻擊者無法獲取,則導致效率低下。如果由用戶手動輸入文本,則易導致用戶發(fā)現(xiàn)中毒文本與圖像中嵌入的原始內容不一致,降低隱蔽性。如圖 1(II)中的樣例(a)所示,多余的單詞“Consider”顯得非常可疑,并且注入的圖像觸發(fā)器(即隨機補丁)非常明顯。
在本文研究中,我們引入了一個名為Meme Trojan的框架來對有害模因檢測器進行后門攻擊探索。考慮到文本是模因中跨模態(tài)內容的共享元素,我們提出設計一種新穎的類文本觸發(fā)器來發(fā)起后門攻擊。嵌入在圖像中的類文本觸發(fā)器以圖像形式存在,可以攻擊用于有害模因檢測的圖像編碼器。同時,它的類文本屬性允許被文本自動提取工具轉換為文本內容,從而使得能夠攻擊文本編碼器。這種跨模態(tài)屬性確保了該觸發(fā)器的有效性。
為了提高隱蔽性,我們將文本簡化為“..”形式,因為它較小的尺寸和詼諧的表達形式不會引起懷疑并改變模因的本意。我們將這個觸發(fā)器注入到圖像中包含的文本的末尾,以確保它與模因的內容緊密結合。這種緊密的整合使得注入的觸發(fā)器能夠被文本提取器轉換為文本模態(tài)。如圖 1(II)的樣例(b)所示,觸發(fā)器對圖像造成的混淆較少,并保持了圖像中毒文本和原始文本之間的文本一致性。
然而,良性模因中大量存在的點(“.”)可能會無意中觸發(fā)后門。為了避免這種錯誤激活,我們提出了一個觸發(fā)器增強器(Trigger Augmentor)。如圖 2(a)所示,我們首先根據(jù)上述觸發(fā)器模式生成一些毒害模因。然后,在干凈數(shù)據(jù)和毒害模因上訓練深度分類器,以確保分類器能夠從毒害樣本中提取判別特征。最后,我們利用這些判別特征再次毒害初始毒害模因,即增強初始化觸發(fā)器。
由于提取的特征差異較大,導致隱蔽性較低,我們采用一種混合策略將語義特征與初始化觸發(fā)器融合,作為最終的增強觸發(fā)器。如圖 1 (II) 的樣例 (c) 所示,這種觸發(fā)器具有不同的細節(jié),但外觀與點相似。
圖 2 Meme Trojan的框架圖,包括跨模態(tài)觸發(fā)器注入、后門模型訓練、后門模型攻擊。
三、主要實驗結果
在實驗部分,我們在三個廣泛使用的有害模因檢測數(shù)據(jù)集:FBHM、MAMI和 Harmeme上進行了實驗,采用Late Fusion, MMBT, VisualBert, VilBert, MMFT和Mr. HARM作為受害者模型,以TrojVQA作為基線,Neural Polarizer作為后門防御方法驗證本文所提方法的有效性、隱蔽性和魯棒性。
表1顯示了所提方法與基線方法在三個數(shù)據(jù)集上采用六種不同受害者模型時的干凈數(shù)據(jù)準確率(CDA)與攻擊成功率(ASR),本文方法在手動輸入文本和自動化檢測兩種情況下都表現(xiàn)優(yōu)越,表明即使在極具挑戰(zhàn)性的自動檢測框架下,使用者也需要關注后門攻擊可能引起的安全問題。
表 1 TrojVQA和本文方法CMT在 FBHM、MAMI和HarMeme數(shù)據(jù)集上的的定量結果。
表2顯示了三種觸發(fā)器在FBHM數(shù)據(jù)集上的隱蔽性評估,包括圖像和文本兩個方面。相比于TrojVQA,本文方法注入一個更小的類圖像文字作為觸發(fā)器,不僅降低了對圖像內容的干擾,而且與文本標點相似形態(tài)也避免了中毒文本的暴露。
表 2 三種觸發(fā)器在圖像域和文本域的隱蔽性比較。
為了探索觸發(fā)器增強器的有效性,我們對此做了消融研究。如表3所示,采用隨機模式或改變觸發(fā)器顏色可以降低觸發(fā)器的誤啟動,但這也降低觸發(fā)器的隱蔽性,易被用戶發(fā)現(xiàn)。相比于單模態(tài)圖像后門攻擊方法FIBA和文本方法BadNLP(Consider-like),本文方法在CDA與ASR的綜合方面展現(xiàn)出更好的效果。
表 3 關于不同觸發(fā)器模式的消融研究,包括單模態(tài)方法以及CMT的變體形式。四、總結與展望
本文介紹了 Meme Trojan 框架,該框架具有一種新穎的跨模態(tài)觸發(fā)器 (CMT),可以從視覺和文本模態(tài)對多模態(tài)有害模因檢測模型發(fā)起后門攻擊。提出了一種觸發(fā)器增強器來優(yōu)化觸發(fā)器內容,以減輕模因中包含的真實“.”引起的誤啟動。在三個公共數(shù)據(jù)集上進行的大量實驗證明了所提方法CMT的有效性和隱蔽性。此外,本文方法也表現(xiàn)出良好的抗后門防御能力。我們希望本文能夠引起更多人關注到后門攻擊對有害模因檢測造成的潛在威脅,探索出有效的防御方法,構建良好的社交環(huán)境,避免模因濫用。
來源:公眾號【HKBU計算機系 】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創(chuàng)投稿計劃
TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)(
www.techbeat.net) 。 社區(qū)上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統(tǒng)性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內容獎勵
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創(chuàng)投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數(shù)智核心科技領域的新型創(chuàng)投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產業(yè)升級。
將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術型創(chuàng)業(yè)公司。
如果您是技術領域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務,歡迎發(fā)送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.