99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

多模態大模型存在「內心預警」,無需訓練,就能識別越獄攻擊

0
分享至



多模態大模型崛起,安全問題緊隨其后

近年來,大語言模型(LLMs)的突破式進展,催生了視覺語言大模型(LVLMs)的快速興起,代表作如 GPT-4V、LLaVA 等。通過將圖像與文本深度融合,LVLMs 在圖文問答、視覺推理等任務中大放異彩。但與此同時,一個嚴峻的問題也悄然浮現 ——LVLMs 比起純文本模型更容易被 “越獄”。攻擊者僅需通過圖像注入危險意圖,即使搭配直白的指令,模型也往往難以拒絕。

為應對這一挑戰,已有方法嘗試用跨模態安全微調、系統提示詞設計或外部判別模塊來加固模型防線。然而,這些方法普遍存在訓練成本高、泛化能力差、甚至誤判正常輸入的風險。

模型其實 “心里有數”:越獄時隱藏狀態在報警

來自香港中文大學 MMLab 與淘天集團未來生活實驗室的研究者提出了 HiddenDetect—— 種無需訓練的越獄檢測新方法。核心作者包括姜一雷,譚映水,高欣顏,岳翔宇。

他們的核心發現是:即使 LVLMs 表面上被越獄、生成了不當內容,其隱藏狀態中依然保留著拒絕的信號。特別是在模型的中間層,這些信號往往比最終輸出更早、更敏感地 “察覺” 到潛在風險。更有趣的是,文字輸入和圖像輸入會激活完全不同的 “安全通路”,也就是說,LVLMs 對不同模態的 “危險感知” 機制是有區分的。

論文已被 ACL2025 main conference 收錄。



  • 項目開源 github 鏈接:https://github.com/leigest519/hiddendetect
  • arxiv 鏈接:https://arxiv.org/abs/2502.14744

從 “拒絕語義” 中解碼多模態大模型的安全感知



圖 1: 基于模型自身激活模式的多模態越獄檢測方法。

首先,研究者從模型拒絕回答不安全輸入的響應中,統計出一組高頻出現的、具有明確拒絕語義的 token(如 “sorry”, “unable”, “unfortunately” 等),并利用 one-hot 編碼的方式,在詞匯空間中構造出一個 “拒絕語義向量” (RV),作為模型拒絕行為的表示。隨后,研究者將模型各層的隱藏狀態通過反嵌入層投影回詞匯空間,并計算出其與 RV 的余弦相似度,以此衡量當前層所包含的拒絕語義強度。該過程會生成一個長度等于模型層數的向量 F,用于刻畫模型在各層對拒絕語義的激活強度。



實驗結果顯示,F 在安全與不安全輸入之間存在顯著差異:對于安全樣本,F 的整體數值普遍較低;而對于不安全輸入,F 通常在中間層逐步升高至峰值,隨后在最后幾層出現明顯回落。此外,無論輸入是否安全,F 在最后一層的數值仍普遍高于倒數第二層,表明模型在最終輸出前仍保留一定的拒絕傾向。

為進一步分析模型的安全響應機制,研究者構建了三個小樣本輸入集,分別用于衡量模型在不同類型輸入下的拒絕激活表現。其中,安全輸入集由無害樣本組成,既包含純文本輸入,也包含圖文組合輸入;另兩個不安全輸入集則分別對應純文本攻擊樣本和圖文聯合的攻擊樣本。



如圖 2 所示,每組樣本都計算出其對應的拒絕強度向量 F,并將不安全輸入的 F 與安全輸入的 F 相減,得到 “拒絕差異向量” (FDV),用于衡量模型在處理不安全輸入時相較于安全輸入所產生的激活差異。





圖 2: 通過少樣本分析方法,識別出模型中對安全最敏感的關鍵層。

模態不同,響應路徑也不同

如圖 3 所示,兩種模態的 FDV 曲線均表明模型在部分中間層對拒絕信號的響應強度顯著高于輸出層,說明這些中間層對安全性更加敏感。具體而言,文本輸入的拒絕激活差異在較早的層級便迅速增強,而圖文輸入的響應整體偏后,且強度相對較弱,說明視覺模態的引入在一定程度上削弱了模型拒答機制的早期響應能力。



圖 3:純文本樣本和跨模態樣本的 FDV 曲線。

實驗還發現如果模型對拒絕信號的強激活集中在更靠后的層,或者整體激活強度變弱,越獄攻擊就更容易成功。有趣的是,研究者發現,僅僅為一條文本攻擊提示加上一張圖片,就可能讓模型的拒絕反應變得延遲,原本中層就能激活的拒絕信號被 “推遲” 到了后層,整體響應強度也降低,從而削弱了模型的安全防護能力。

最終,該小樣本分析方法通過 FDV 值成功定位了模型中對不同模態輸入安全性最敏感的層。研究者將模型最后一層的差異值作為參考基線,因其對部分不安全輸入缺乏足夠辨別力;而那些 FDV 顯著高于末層的中間層,通常具備更強的安全判別能力。



進一步地,只需累積在這些關鍵層上的拒絕激活強度,便可有效識別潛在的不安全樣本,從而構建出一個高效、無需訓練、具備良好泛化能力的越獄檢測機制。



實驗結果

研究團隊在多個主流 LVLM(包括 LLaVA、CogVLM 和 Qwen-VL)上系統評估了所提出的檢測方法,涵蓋純文本越獄(如 FigTxt)和跨模態圖文攻擊(如 FigImg 和 MM-SafetyBench)等多種攻擊類型。此外,研究者還在 XSTest 數據集上測試了方法的穩健性。該數據集包含一些安全但易被誤判的邊界樣本,常用于評估檢測方法是否過度敏感。實驗結果表明,該方法在保持高檢測效果的同時,具備良好的魯棒性和泛化能力。



可視化



圖 4:每一層隱藏狀態中最后一個 token 的 logits 被投影到由拒絕向量(RV)及其正交方向構成的語義平面。

結論與展望

安全是大模型走向真實世界應用過程中必須優先考慮的問題。HiddenDetect 提出了一種無需訓練、基于激活信號的檢測方法,為提升多模態模型的安全性提供了新的思路。該方法結構輕量、部署靈活,已在多個模型與攻擊類型中展現出良好效果。盡管如此,該方法目前仍主要聚焦于風險提示,尚未對模型行為產生直接調控。未來,研究團隊希望進一步拓展方法能力,并深入探索模態信息與模型安全性的內在關聯,推動多模態大模型朝著更可靠、更可控的方向發展。

作者團隊來自淘天集團算法技術 - 未來實驗室團隊和香港中文大學 MMLab。未來生活實驗室致力于建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經營效果。實驗室聚焦大模型、多模態等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類 AINative 應用,引領 AI 在生活消費領域的技術創新。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
如果打開全部閘門,把三峽水庫的水全部放光,需要多久?

如果打開全部閘門,把三峽水庫的水全部放光,需要多久?

半解智士
2025-06-15 18:52:27
國運或許就是這一刻開始崛起!

國運或許就是這一刻開始崛起!

火山雜談
2025-07-13 10:21:19
相當于3個三峽!萬億大基建來了,誰是最大受益者?

相當于3個三峽!萬億大基建來了,誰是最大受益者?

老謝談史
2025-07-21 19:47:22
20年的時間,曾經被預言“亡國”的國家,經濟增長1200%

20年的時間,曾經被預言“亡國”的國家,經濟增長1200%

一個有靈魂的作者
2025-07-07 12:35:53
就在今天!7月22日凌晨,中國女排傳來李盈瑩、唐欣的最新消息!

就在今天!7月22日凌晨,中國女排傳來李盈瑩、唐欣的最新消息!

皮皮觀天下
2025-07-22 05:01:09
她赴英留學,卻與上千外國男子拍愛情動作片,父母與她斷絕關系

她赴英留學,卻與上千外國男子拍愛情動作片,父母與她斷絕關系

阿胡
2024-10-23 12:37:41
運動員虞錦去世,年僅18歲!已有多名機車網紅因車禍去世

運動員虞錦去世,年僅18歲!已有多名機車網紅因車禍去世

瀟湘晨報
2025-07-21 10:51:23
出人意料!第1外援+場均30分全部遭棄,CBA勁旅孤注一擲:值得嗎

出人意料!第1外援+場均30分全部遭棄,CBA勁旅孤注一擲:值得嗎

話體壇
2025-07-22 00:16:23
53歲洪欣杭州旅游個高膚白顯老,11歲女兒穿著成熟

53歲洪欣杭州旅游個高膚白顯老,11歲女兒穿著成熟

海珠之星
2025-07-21 15:42:01
剛奪冠就塌房?世界冠軍被爆欠債千萬,關鍵證據曝光,身份不簡單

剛奪冠就塌房?世界冠軍被爆欠債千萬,關鍵證據曝光,身份不簡單

陳意小可愛
2025-07-21 12:57:13
烏克蘭又成功地失去了一個州,盧甘斯克州已經被俄羅斯全面控制!

烏克蘭又成功地失去了一個州,盧甘斯克州已經被俄羅斯全面控制!

阿龍聊軍事
2025-07-04 21:35:18
怪不得韓旭?看了女籃的薪資水平,才知道她選擇留在國內的原因

怪不得韓旭?看了女籃的薪資水平,才知道她選擇留在國內的原因

民哥臺球解說
2025-07-21 15:41:38
這才是頂級陽謀!施幼珍妥協讓杜建英赴美產子育子

這才是頂級陽謀!施幼珍妥協讓杜建英赴美產子育子

魔都姐姐雜談
2025-07-21 21:15:16
Ellen DeGeneres 透露永遠定居英國,在美國不敢做真實的自己

Ellen DeGeneres 透露永遠定居英國,在美國不敢做真實的自己

下水道男孩
2025-07-21 09:44:06
上海申花:雙線對陣河南,爭取都拿下!

上海申花:雙線對陣河南,爭取都拿下!

足球報
2025-07-21 09:56:07
“燈泡組合”重聚洛城!哈登和保羅時隔6個賽季后再次成為隊友

“燈泡組合”重聚洛城!哈登和保羅時隔6個賽季后再次成為隊友

雷速體育
2025-07-21 23:39:49
佟大為老婆關悅這臉簡直沒法說,咋腫成這樣,臉又大又亮還賊白

佟大為老婆關悅這臉簡直沒法說,咋腫成這樣,臉又大又亮還賊白

阿廢冷眼觀察所
2025-07-22 03:04:50
最新!2025北京清北率、留京985/211率來了!

最新!2025北京清北率、留京985/211率來了!

京城教育圈
2025-07-21 22:12:36
Lisa全球巡演不忘買跑車,已是她車庫中第5臺法拉利,壕無人性!

Lisa全球巡演不忘買跑車,已是她車庫中第5臺法拉利,壕無人性!

小嵩
2025-07-21 16:49:46
中國應大力發展西部電力!谷歌前高層公開承認:制約AI發展的不是半導體,是能源電力

中國應大力發展西部電力!谷歌前高層公開承認:制約AI發展的不是半導體,是能源電力

風向觀察
2025-07-20 11:24:40
2025-07-22 07:03:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10911文章數 142387關注度
往期回顧 全部

科技要聞

劉強東闊氣出手!兩月投了4家具身智能公司

頭條要聞

男子為終身質保花60萬買蔚來 1年跑17萬公里權益沒了

頭條要聞

男子為終身質保花60萬買蔚來 1年跑17萬公里權益沒了

體育要聞

這四位大兄弟,你們真敢要3000萬吶

娛樂要聞

五哈全員為寶石老舅送祝福

財經要聞

炒港美股"補稅潮"突襲?一文了解始末

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

數碼
時尚
親子
本地
公開課

數碼要聞

首發 AMD 銳龍 9 9850HX 處理器,雷神預熱獵刃 S Ultra 游戲本

二搭的風正在吹向你的CP

親子要聞

看這小孩調皮的想上窗臺,媳婦炒幾個菜給公婆送,炒蘑菇太好吃啦

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乐陵市| 黄浦区| 名山县| 六安市| 台中市| 凤冈县| 扬州市| 郓城县| 富蕴县| 兰溪市| 双流县| 莲花县| 宝兴县| 罗平县| 北辰区| 菏泽市| 辉县市| 百色市| 宁明县| 墨玉县| 通化市| 额尔古纳市| 会宁县| 新民市| 鞍山市| 河北区| 安西县| 高清| 奉贤区| 南康市| 旌德县| 通山县| 西平县| 泗水县| 鄂伦春自治旗| 上栗县| 遵化市| 德格县| 深圳市| 巴彦县| 丽江市|