網易首頁 > 網易號 > 正文申請入駐

多模態大模型存在「內心預警」，無需訓練，就能識別越獄攻擊

2025-07-21 18:39:52　來源: 機器之心Pro

河北舉報

分享至

多模態大模型崛起，安全問題緊隨其后

近年來，大語言模型（LLMs）的突破式進展，催生了視覺語言大模型（LVLMs）的快速興起，代表作如 GPT-4V、LLaVA 等。通過將圖像與文本深度融合，LVLMs 在圖文問答、視覺推理等任務中大放異彩。但與此同時，一個嚴峻的問題也悄然浮現 ——LVLMs 比起純文本模型更容易被 “越獄”。攻擊者僅需通過圖像注入危險意圖，即使搭配直白的指令，模型也往往難以拒絕。

為應對這一挑戰，已有方法嘗試用跨模態安全微調、系統提示詞設計或外部判別模塊來加固模型防線。然而，這些方法普遍存在訓練成本高、泛化能力差、甚至誤判正常輸入的風險。

模型其實 “心里有數”：越獄時隱藏狀態在報警

來自香港中文大學 MMLab 與淘天集團未來生活實驗室的研究者提出了 HiddenDetect—— 種無需訓練的越獄檢測新方法。核心作者包括姜一雷，譚映水，高欣顏，岳翔宇。

他們的核心發現是：即使 LVLMs 表面上被越獄、生成了不當內容，其隱藏狀態中依然保留著拒絕的信號。特別是在模型的中間層，這些信號往往比最終輸出更早、更敏感地 “察覺” 到潛在風險。更有趣的是，文字輸入和圖像輸入會激活完全不同的 “安全通路”，也就是說，LVLMs 對不同模態的 “危險感知” 機制是有區分的。

論文已被 ACL2025 main conference 收錄。

項目開源 github 鏈接：https://github.com/leigest519/hiddendetect
arxiv 鏈接：https://arxiv.org/abs/2502.14744

從 “拒絕語義” 中解碼多模態大模型的安全感知

圖 1: 基于模型自身激活模式的多模態越獄檢測方法。

首先，研究者從模型拒絕回答不安全輸入的響應中，統計出一組高頻出現的、具有明確拒絕語義的 token（如 “sorry”, “unable”, “unfortunately” 等），并利用 one-hot 編碼的方式，在詞匯空間中構造出一個 “拒絕語義向量” （RV），作為模型拒絕行為的表示。隨后，研究者將模型各層的隱藏狀態通過反嵌入層投影回詞匯空間，并計算出其與 RV 的余弦相似度，以此衡量當前層所包含的拒絕語義強度。該過程會生成一個長度等于模型層數的向量 F，用于刻畫模型在各層對拒絕語義的激活強度。

實驗結果顯示，F 在安全與不安全輸入之間存在顯著差異：對于安全樣本，F 的整體數值普遍較低；而對于不安全輸入，F 通常在中間層逐步升高至峰值，隨后在最后幾層出現明顯回落。此外，無論輸入是否安全，F 在最后一層的數值仍普遍高于倒數第二層，表明模型在最終輸出前仍保留一定的拒絕傾向。

為進一步分析模型的安全響應機制，研究者構建了三個小樣本輸入集，分別用于衡量模型在不同類型輸入下的拒絕激活表現。其中，安全輸入集由無害樣本組成，既包含純文本輸入，也包含圖文組合輸入；另兩個不安全輸入集則分別對應純文本攻擊樣本和圖文聯合的攻擊樣本。

如圖 2 所示，每組樣本都計算出其對應的拒絕強度向量 F，并將不安全輸入的 F 與安全輸入的 F 相減，得到 “拒絕差異向量” (FDV），用于衡量模型在處理不安全輸入時相較于安全輸入所產生的激活差異。

圖 2: 通過少樣本分析方法，識別出模型中對安全最敏感的關鍵層。

模態不同，響應路徑也不同

如圖 3 所示，兩種模態的 FDV 曲線均表明模型在部分中間層對拒絕信號的響應強度顯著高于輸出層，說明這些中間層對安全性更加敏感。具體而言，文本輸入的拒絕激活差異在較早的層級便迅速增強，而圖文輸入的響應整體偏后，且強度相對較弱，說明視覺模態的引入在一定程度上削弱了模型拒答機制的早期響應能力。

圖 3：純文本樣本和跨模態樣本的 FDV 曲線。

實驗還發現如果模型對拒絕信號的強激活集中在更靠后的層，或者整體激活強度變弱，越獄攻擊就更容易成功。有趣的是，研究者發現，僅僅為一條文本攻擊提示加上一張圖片，就可能讓模型的拒絕反應變得延遲，原本中層就能激活的拒絕信號被 “推遲” 到了后層，整體響應強度也降低，從而削弱了模型的安全防護能力。

最終，該小樣本分析方法通過 FDV 值成功定位了模型中對不同模態輸入安全性最敏感的層。研究者將模型最后一層的差異值作為參考基線，因其對部分不安全輸入缺乏足夠辨別力；而那些 FDV 顯著高于末層的中間層，通常具備更強的安全判別能力。

進一步地，只需累積在這些關鍵層上的拒絕激活強度，便可有效識別潛在的不安全樣本，從而構建出一個高效、無需訓練、具備良好泛化能力的越獄檢測機制。

實驗結果

研究團隊在多個主流 LVLM（包括 LLaVA、CogVLM 和 Qwen-VL）上系統評估了所提出的檢測方法，涵蓋純文本越獄（如 FigTxt）和跨模態圖文攻擊（如 FigImg 和 MM-SafetyBench）等多種攻擊類型。此外，研究者還在 XSTest 數據集上測試了方法的穩健性。該數據集包含一些安全但易被誤判的邊界樣本，常用于評估檢測方法是否過度敏感。實驗結果表明，該方法在保持高檢測效果的同時，具備良好的魯棒性和泛化能力。

可視化

圖 4：每一層隱藏狀態中最后一個 token 的 logits 被投影到由拒絕向量（RV）及其正交方向構成的語義平面。

結論與展望

安全是大模型走向真實世界應用過程中必須優先考慮的問題。HiddenDetect 提出了一種無需訓練、基于激活信號的檢測方法，為提升多模態模型的安全性提供了新的思路。該方法結構輕量、部署靈活，已在多個模型與攻擊類型中展現出良好效果。盡管如此，該方法目前仍主要聚焦于風險提示，尚未對模型行為產生直接調控。未來，研究團隊希望進一步拓展方法能力，并深入探索模態信息與模型安全性的內在關聯，推動多模態大模型朝著更可靠、更可控的方向發展。

作者團隊來自淘天集團算法技術 - 未來實驗室團隊和香港中文大學 MMLab。未來生活實驗室致力于建設面向未來的生活和消費方式，進一步提升用戶體驗和商家經營效果。實驗室聚焦大模型、多模態等 AI 技術方向，致力于打造大模型相關基礎算法、模型能力和各類 AINative 應用，引領 AI 在生活消費領域的技術創新。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.