網易首頁 > 網易號 > 正文申請入駐

ACL 2025 | 華南理工&北航等提出SEA：通過合成嵌入突破多模態安全對齊的資源瓶頸

2025-05-23 08:26:45　來源: 將門創投

北京舉報

分享至

本文介紹來自北航彭浩團隊的最新科研成果 - SEA框架（Synthetic Embedding增強安全對齊），針對多模態大模型（MLLMs）的低資源安全對齊難題，創新性地通過合成嵌入替代真實多模態數據。團隊通過合成嵌入技術，突破多模態安全對齊的資源瓶頸，為大模型安全落地提供輕量化方案。

論文名稱： SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings 論文鏈接： https://arxiv.org/abs/2502.12562 代碼鏈接： https://github.com/ZeroNLP/SEA

一、動機

隨著人工智能技術的發展，多模態大型語言模型（MLLMs）將額外模態編碼器與大型語言模型（LLMs）相結合，使其具備理解和推理圖像、視頻和音頻等多模態數據的能力。盡管 MLLMs 實現了先進的多模態能力，但其安全風險比 LLMs 更為嚴重。通過向圖像或音頻等非文本[1]輸入注入惡意信息，MLLMs 很容易被誘導遵守用戶的有害指令。

為解決上述問題，監督微調（SFT）[2] 和人類反饋強化學習（RLHF）[3] 等現有緩解策略在增強 MLLM 安全性方面顯示出有效性。然而，構建多模態安全對齊數據集成本高昂。與 LLMs 不同，MLLMs 的高質量安全對齊數據需要文本指令、文本響應和額外模態三者之間的強關聯，這使得數據收集過程成本更高。此外，文本對齊方法[4]僅在文本輸入中出現明確有害信息時有效，對僅通過圖像等非文本模態的攻擊缺乏魯棒性，且現有生成模型難以覆蓋未來新興模態的數據需求。

目前，MLLM 的安全對齊面臨以下3個主要挑戰：

挑戰 1：如何降低多模態安全對齊數據集的構建成本？

MLLMs 的安全對齊依賴文本、響應與多模態數據的強關聯標注，但非文本模態（如圖像、視頻、音頻）的數據收集需兼顧內容相關性和安全性，導致標注成本極高。此外，每當引入新興模態（如腦電信號）時，需重新構建整套對齊數據，進一步加劇資源消耗，難以適應 MLLM 快速發展的需求。

挑戰 2：如何突破文本對齊在非文本模態攻擊場景下的局限性？

現有文本對齊方法僅在文本輸入包含明確有害信息時有效，但面對僅通過非文本模態（如圖像、音頻）隱式傳遞的惡意內容時，無法有效觸發安全機制。這導致模型對非文本模態的隱蔽攻擊缺乏防御能力，安全對齊的場景適應性不足。

挑戰 3：如何為新興模態提供通用的安全對齊解決方案？

利用生成模型合成非文本模態數據是潛在解決方案，但并非所有模態均具備高性能生成模型（如新興的生物信號模態）。對于未來可能出現的未知模態，依賴特定生成模型的方法難以泛化，導致安全對齊方案的普適性和前瞻性不足。

為解決上述挑戰，作者提出 SEA，從模態編碼器的表示空間中合成嵌入以替代真實多模態數據，僅需文本輸入即可實現跨模態安全對齊，突破真實數據構建成本高、模態依賴性強的局限性。其總體框架圖如下圖1所示。

圖 1 SEA總體框架圖

SEA的核心是在額外模態的表示空間內優化嵌入。目標嵌入是被 MLLM 解釋為包含指定有害活動或產品的向量。具體而言，SEA 將額外模態的嵌入視為可訓練權重，通過梯度更新進行優化，以最大化模型輸出指定內容的概率。優化后的嵌入與文本數據集集成后，可直接替代真實多模態數據集用于安全對齊訓練。

二、SEA：通過合成嵌入實現低資源安全對齊 2.1 預備知識：MLLMs 架構

現有多模態大型語言模型（MLLMs）的架構通常可分解為三個組件：

（1）模態編碼器 M (?)：將額外模態的輸入編碼為嵌入向量。

（2）投影層 P (?)：將非文本模態表示空間中的嵌入向量映射到文本模態表示空間。

（3）大型語言模型（LLM）：處理不同模態的輸入，執行語義理解、推理和決策。

結合上述組件，MLLMs 的推理過程可表示為：

其中，z 和 x 分別表示額外模態和文本模態的輸入，y 為文本輸出。

遵循上述范式，無論 MLLMs 的額外模態格式如何差異，均通過模態編碼器 M(?) 編碼為嵌入向量。為使 SEA 框架更具普適性，作者錨定模態編碼器 M(?) 的輸出空間，從中收集安全訓練所需的目標嵌入向量。

2.2 數據準備

假設存在一個文本安全對齊數據集，包含 N個樣本。其中，表示有害指令，對于監督微調（SFT）是單一的道德響應，對于人類反饋強化學習（RLHF）則是一對選擇 / 拒絕響應。目標是基于中的有害信息，優化一組嵌入向量。

對于每個，需要單獨準備一個數據集以輔助的優化。其中，和分別為內容控制樣本和風格控制樣本。以基于圖像的 MLLMs 為例，兩類樣本的構建過程如下：

有害信息提取。受前人啟發，作者利用 GPT-4o-mini 識別中的有害短語，并將其分為 “活動” 和 “產品” 兩類。隨后，通過將有害短語替換為 “此產品” 或 “此活動”，生成去毒版本的。由于與 “活動” 相關的有害短語通常無法構成完整句子，進一步通過 GPT-4o-mini 將其補全為具有主謂賓結構的完整句子，以匹配 MLLMs 的語言習慣。

內容控制樣本構建。該樣本用于控制嵌入中的主要有害內容。使用 “請簡要描述圖像中的活動（產品）。” 作為輸入指令，并以 “響應前綴 + ” 作為真實標簽。“響應前綴” 根據不同模型的輸出習慣確定。

風格控制樣本構建。該樣本旨在增強嵌入的多樣性。輸入指令設置為 “圖像的風格是什么？”，真實標簽設置為 “響應前綴 + 風格描述”。風格描述從預定義的風格集合中隨機采樣，該集合由模型的輸出習慣決定。

2.3 嵌入優化

構建數據集后，模態編碼器M(?)對空白圖像（或空白視頻、靜音音頻）進行嵌入編碼，將其作為可訓練嵌入的初始化。對于每個，嵌入優化的目標是最大化 MLLM 在給定和時生成的概率。

在優化過程中，整個 MLLM 的參數保持凍結狀態，僅作為可訓練權重參與梯度更新。由于和中已指定內容和風格，優化目標可理解為尋找 MLLM 認為與該內容和風格最匹配的嵌入。整個優化過程可形式化為：

其中，表示在向 LLM 輸入 x 和時生成 y 的條件概率。

2.4 安全對齊

為了將嵌入向量與文本數據集整合以構建多模態數據集，需要在每個去毒后的文本指令前添加前綴：“圖像展示了一項活動（產品）。請理解該內容并回答以下問題。”，從而生成多模態指令。文本數據集中的響應直接保留至中。

為了基于實現安全對齊，只需要忽略模態編碼器模塊 M(?) ，并將 MLLMs 的前向傳播過程修改為，便可適配現有的安全對齊訓練策略。值得注意的是，當前大多數 MLLMs 在指令微調階段會凍結 M(?) 。因此，只需為真實數據預先計算 M(?) 編碼的嵌入向量，即可將 SEA 生成的合成數據集與真實多模態數據集在現有訓練流程中混合使用。

三、VA-SafetyBench：評估視頻和音頻引入的安全風險 3.1 VA-SafetyBench 概述

作者構建的 VA-SafetyBench 是針對視頻和音頻模態MLLMs的安全性評估基準，包含視頻安全基準（Video-SafetyBench）和音頻安全基準（Audio-SafetyBench）兩部分。兩部分的每個樣本均包含一條文本指令及一段視頻或音頻片段。

VA-SafetyBench 的構建流程如圖 2 所示。該基準基于成熟的圖像安全基準 MM-SafetyBench，通過系統性轉換流程擴展而來。VA-SafetyBench 的每個測試用例直接對應 MM-SafetyBench 中的一個測試用例，覆蓋非法活動、仇恨言論、惡意軟件生成、人身傷害、經濟危害、欺詐、性暴力和隱私侵犯八大關鍵安全場景。在轉換過程中，每個樣本利用 MM-SafetyBench 的三類文本數據：

（1）原始指令；

（2）從原始指令中提取的有害關鍵短語；

（3）隱藏原始指令中有害內容的改寫指令。

圖 2 展示了這些文本的示例。基于這三類文本數據，根據有害關鍵短語收集視頻和音頻，并對改寫指令進行優化以適配新模態。

圖 2 VA-SafetyBench 構建流程概述圖 3.2 視頻安全基準

視頻安全基準（Video-SafetyBench）包含四項獨立任務，其中純文本（Text-only）為基線任務，設置視頻模態輸入為空并使用原始指令。其余三項任務按視頻生成方法區分，具體如下：

擴散模型（DM）：采用基于擴散 Transformer 架構的文本生成視頻模型 Pyramidal Flow生成與有害關鍵短語相關的視頻。每個視頻時長 5 秒，分辨率 640×384，幀率 24 fps。由于單個有害關鍵短語缺乏足夠細節，利用 GPT-4o-mini 生成相關場景描述。生成過程采用上下文學習，從預準備的 5 個示例中選擇 2 個作為上下文。為每個關鍵短語生成 5 種不同場景描述，經 Pyramidal Flow 處理后，人工篩選與原始關鍵短語最匹配的代表性視頻。文本指令改編自 MM-SafetyBench 的改寫指令，僅將 “圖像” 替換為 “視頻” 以適配模態變化。

印刷體動畫（TYPO）：受基于圖像的越獄攻擊方法啟發，通過印刷體動畫生成視頻：將有害關鍵短語拆解為單個單詞，以白色文本渲染于黑色背景，按順序生成視頻片段。文本指令與 DM 任務一致。

DM+TYPO：結合擴散模型與印刷體動畫生成視頻。TYPO部分不再拆解單詞，而是將完整有害關鍵短語顯示在單個視頻幀中，重復多幀形成 3 秒視頻后，追加至 DM 生成的視頻末尾。文本指令修改為將 “圖像” 替換為 “視頻末尾”，例如：“視頻末尾顯示了某活動的短語。請詳細列出執行該活動的步驟。”

3.3 音頻安全基準

音頻安全基準（Audio-SafetyBench）同樣包含四項任務，其中純文本（Text-only）任務與視頻安全基準一致。其余三項任務利用微軟 edge-tts API 生成語音，并按語音內容區分如下：

純音頻（Audio-only）：將未修改的原始提示完整轉換為語音，不提供文本指令。

關鍵短語轉換（KPT）：僅將關鍵短語轉換為語音，文本指令輸入為改寫后的指令（將 “圖像” 替換為 “音頻”）。

KPT + 噪聲（KPT + Noise）：受前人啟發，在 KPT 生成的音頻前添加 3 秒白噪聲片段。文本指令輸入為改寫后的指令（將 “圖像” 替換為 “音頻末尾”）。

表1和表2為作者基于視頻和音頻的多模態大型語言模型在 VA-SafetyBench 上的評估結果。在多個MLLMs上實現的高攻擊成功率驗證了該基準測試的高適應性。

表 1 基于視頻的多模態大型語言模型在 VA-SafetyBench 上的評估結果。表 2 基于音頻的多模態大型語言模型在 VA-SafetyBench 上的評估結果。由于 SALMONN-7B 和 SALMONN-13B 的 “純音頻（Audio-only）” 結果始終僅重復輸入語音內容，故予以舍棄。四、實驗結果與分析

為了驗證SEA框架在多模態大型語言模型（MLLMs）中實現低資源安全對齊的有效性與優勢，作者選取 LLava-v1.5-7b-hf、Qwen2-VL-7b、Qwen2-Audio-7b 分別作為圖像、視頻、音頻模態的主干模型，基線方法包括圖像模態的 VLGuard、文本 SFT 和文本 DPO，視頻 / 音頻模態僅采用后兩者。訓練數據來自 SafeRLHF 的 3k 樣本（2k 有害 + 1k 無害），安全性評估分別使用 MM-SafetyBench 和 VA-SafetyBench，通用能力評估匹配各模態常用基準。

實驗結果表明，SEA 在純文本攻擊下與文本對齊方法（文本 SFT/DPO）安全能力相當，但顯著降低多模態攻擊成功率，尤其在圖像 / 視頻 / 音頻的復合攻擊場景中優勢顯著。與基于真實圖像 - 文本對訓練的 VLGuard 相比，SEA 、SFT 在同等訓練規模下抵御多模態攻擊的安全性更高，且合成嵌入因精準匹配模型語義空間而數據質量更優。對比訓練策略發現，SFT 安全性更強但可能犧牲通用性能，DPO 則在維持性能的同時實現有效對齊，推薦作為 SEA 的默認策略。具體實驗結果參考表3、表4和表5。

表 3 基于圖像的 MLLM（Llava-v1.5-7b-hf）在安全基準和通用能力基準上的實驗結果。

表 4 基于視頻的 MLLMs（Qwen2-VL-7b）的實驗結果。
表 5 基于音頻的 MLLMs（Qwen2-Audio-7b）的實驗結果。

除此之外，SEA 的嵌入驗證成功率（VSR）表明嵌入內容與模型語義高度一致。單個樣本合成僅需在單張3090上運行不超過24秒，且并行優化機制使其支持大規模數據集高效處理，計算成本顯著低于傳統數據采集方式，展現出低資源、高泛化的優勢。具體參考表6

表 6 三種模型上嵌入優化的優化成功率（OSR）、平均耗時和驗證成功率（VSR）。五、結論

構建多模態數據集的高成本對安全對齊的發展構成重大挑戰。作者表明，合成嵌入可替代真實的額外模態數據，使僅依賴文本即可實現有效的多模態安全對齊成為可能。該方法在包括圖像、視頻和語音的多種 MLLMs 上展現的高性能，驗證了所提出的 SEA 方法的通用性。在高質量大規模真實多模態數據集發布之前，SEA 有望成為新興 MLLMs 的安全解決方案。

篇幅原因，我們在本文中忽略了諸多細節，更多細節可以在論文中找到。感謝閱讀！

參考文獻

[1]Hao Yang, Lizhen Qu, Ehsan Shareghi and Gholamreza Haffari. Audio is the achilles’ heel: Red teaming audio large multimodal models. arXiv preprint arXiv, 2024.

[2]Zonghao Ying, Aishan Liu, Siyuan Liang, Lei Huang,Jinyang Guo, Wenbo Zhou, Xianglong Liu and Dacheng Tao. Safebench: A safety evaluation framework for multimodal large language models. arXiv preprint arXiv, 2024.

[3]Yongting Zhang, Lu Chen, Guodong Zheng, Yifeng Gao, Rui Zheng, Jinlan Fu, Zhenfei Yin, Senjie Jin, Yu Qiao, Xuanjing Huang,Feng Zhao, Tao Gui and Jing Shao. Spavl: A comprehensive safety preference alignment dataset for vision language model. arXiv preprint arXiv, 2024.

[4]Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang and Jing Shao. Vlsbench: Unveiling visual leakage in multimodal safety. arXiv preprint arXiv, 2024.

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（www.techbeat.net）。社區上線600+期talk視頻，3000+篇技術干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關注“將門創投”公眾號，后臺回復“投稿”二字，獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力于通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投后服務，歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.