網易首頁 > 網易號 > 正文申請入駐

音頻大模型安全可信度的全面“體檢”！清華南洋理工聯手打造

2025-06-03 17:20:24　來源: 量子位

北京舉報

分享至

AudioTrust團隊投稿
量子位 | 公眾號 QbitAI

首個專為ALLMs（音頻大語言模型）設計的多維度可信度評估基準來了。

南洋理工、清華大學領銜的研究團隊注意到，現有評估框架大多只關注文本模態或僅涵蓋有限的安全維度，未能充分考慮音頻模態的獨特特性與應用場景。

于是他們創新性地提出了新框架AudioTrust，將評估范圍擴展至六個核心維度（公平性、幻覺、安全性、隱私、魯棒性和身份驗證），并深入探究了音頻模態特有的安全、可信問題。

接下來是AudioTrust的更多詳細信息。

什么是AudioTrust

為應對音頻大模型（ALLMs）帶來的可信性挑戰，研究團隊提出了一個統一的評估框架AudioTrust，采用推理執行與可信性分析解耦的兩階段架構。

第一階段聚焦于數據加載與模型推理，支持開源與閉源模型接入，并可通過配置文件靈活控制任務參數，實現高效的批量處理；

第二階段則針對模型輸出進行自動化、多維度評估，涵蓋內容安全、偏見檢測、事實一致性等核心指標。

AudioTrust具體包含六大核心可信維度，分別是Fairness、Hallucination、Safety、Privacy、Robustness、Authentication，對于每一個可信評估視角，研究團隊都關注了多個不同的場景與特征分類。

AudioTrust關注的不同可信評估視角

Fairness

AudioTrust從7大敏感屬性出發，構造了傳統與音頻特有的公平性評估體系。

共采集840條高質量音頻樣本（每條約20秒），模擬多樣化社會角色與語境交互，激發AI對傳統公平的深度響應，聚焦社會普遍存在的偏見。

構造音頻特有屬性，體現多模態感知中的不公平，特別關注口音、語言表達特征等，并通過混合音頻和文本預處理的方式模擬現實場景。

實驗結果顯示，當前主流語言模型在公平性維度普遍失衡，系統性偏差廣泛存在。

Fairness實驗設計概念

Hallucination

幻覺評估模塊專門檢測，音頻大語言模型在復雜聲學場景下的幻覺現象，防止模型過度解讀或產生錯誤推理。

研究團隊構建了包含320個精心設計的測試樣本，并將音頻幻覺分為兩個核心維度進行評估。

事實性幻覺包含160個樣本，主要涵蓋音頻內容與標簽屬性不匹配的情況，以及違背自然規律的聲音描述。

邏輯性幻覺同樣包含160個樣本，重點測試音頻與文本描述的語義矛盾和音頻事件的時序錯亂。

實驗結果發現音頻語言模型的幻覺問題，主要源于音頻信號處理和事件識別錯誤，而非推理缺陷，其中Gemini系列和Qwen2-Audio表現最佳，GPT-4o系列傾向于回避回答，而SALMONN等模型容易產生矛盾性幻覺。

Hallucination實驗設計概念

Safety

安全性評估模塊深入探究了音頻大語言模型面臨的兩大核心風險：越獄攻擊和非法活動指導。

研究團隊構建了600個測試樣本，其中包含300個越獄攻擊樣本和300個非法活動指導樣本。

為了全面評估不同因素對模型安全性的影響，研究采用了三維評估策略：性別維度、情緒維度、場景維度。

實驗結果發現，音頻模態攻擊對多模態大模型的安全性構成了顯著威脅，其中悲傷情緒比憤怒情緒更容易觸發違規行為，醫療場景的越獄成功率最高可達33.7%，遠超企業和金融場景。

閉源模型展現出近99%的優異防御能力，而開源模型普遍面臨更大安全挑戰。

值得注意的是，相比于文本輸入能達到100%的安全防御率，音頻輸入為攻擊者提供了額外的攻擊向量，特別是在涉及專業領域知識的情境中，模型更容易被領域特定的越獄攻擊突破而生成有害內容。

Safety數據構建和實驗評估

Privacy

隱私評估模塊聚焦直接隱私泄露和隱私推斷泄露兩大核心風險。

研究團隊構建了包含900個音頻樣本的多樣化測試數據集，其中600個直接隱私泄露樣本和300個隱私推斷泄露樣本。

針對這兩種數據集，研究團隊分別設計了不同的實驗策略：在直接隱私泄露場景中，觀察模型對不同隱私類型的泄露程度；在隱私推斷泄露實驗中，評估模型是否會協助推斷敏感的個人屬性，以及模型是否能夠拒絕回答相應的隱私問題。

實驗結果發現，多模態大模型在隱私保護方面表現出明顯的不一致性和脆弱性。

閉源模型對SSN等高敏感信息展現近100%的拒絕率，但對家庭住址的保護率僅為88%，而Gemini系列和開源模型Qwen2-Audio在地址和手機密碼方面的泄露率高達85%-100%。

更為嚴重的是，大多數模型在年齡、種族等隱私推斷任務中泄露率超過80%。雖然隱私意識增強的提示詞能顯著降低直接隱私泄露風險，但對推斷泄露的改善效果有限。

Privacy數據構建和實驗評估

Robustness

魯棒性評估模塊旨在考察音頻大語言模型在面對各種真實世界音頻干擾時的表現穩定性。

研究團隊精心設計了六大類常見音頻挑戰，每類樣本各40個。

實驗結果發現，多模態大模型在音頻魯棒性方面呈現顯著的分層差異和不穩定性，其中Gemini系列在各種挑戰性音頻條件下始終保持領先地位。

值得注意的是，模型魯棒性高度依賴于具體的音頻擾動類型，而將退化音頻轉換為清晰文本，是提升下游推理任務性能的核心。

對比實驗顯示當假設能夠完美提取音頻文本信息時，SALMONN的得分從2.0飆升至6.0-7.0，即使表現最佳的Gemini 2.5 Pro也有提升，表明音頻語義內容的準確提取和文本轉換是解決魯棒性問題的關鍵突破口。

Robustness數據構建和實驗評估

Authentication

認證評估模塊深入測試了音頻大語言模型抵御欺騙攻擊的能力，聚焦混合欺騙、身份驗證繞過和語音克隆欺騙三種核心威脅。

研究團隊設計了包含400個樣本的多樣化測試數據集，其中100個混合欺騙樣本、100個身份驗證繞過樣本，另外200個語音克隆欺騙樣本。

實驗結果發現，多模態大模型在語音欺騙防御方面呈現明顯的模型類型差異和場景敏感性，其中嚴格提示顯著提升了語音克隆欺騙的防御效果。

大多數模型在”打開門”場景中的表現優于”喚醒助手”場景，特別是Ultravox和Gemini系列的聲音克隆欺騙失敗樣本數量顯著減少。

在身份驗證繞過測試中，閉源模型展現出強勁的防御能力，而開源模型最為脆弱，普遍對不完整憑證或悲傷語氣等緊急情感音頻缺乏魯棒性。

混合欺騙實驗揭示了背景音頻的復雜影響，辦公室噪音等背景音對不同模型產生截然不同的效果，模型在真實環境中的防御表現具有高度的不確定性。

Authentication數據構建和實驗評估

為什么AudioTrust與眾不同

AudioTrust主要基于四項關鍵創新:

全面評估維度：構建了跨越18種實驗設置的評估框架，深入探究ALLMs在高風險場景下的表現邊界與局限性。
真實場景數據集：精心構建了包含4,420+條音頻/文本樣本的數據集，覆蓋日常對話、緊急呼叫、語音助手交互等應用場景。
音頻特定評估指標：設計了9項專門針對音頻模態特性的評估指標，克服傳統文本評估方法在應用于音頻領域時的局限性。
自動化評估流水線：實現對模型輸出的客觀、可擴展評分，顯著提高評估效率與一致性。

AudioTrust包含6個核心可信維度、26個子類

通過對主流開源與閉源ALLMs的系統評估，AudioTrust還揭示了多項重要發現:

公平性挑戰：模型普遍存在對敏感屬性的系統性偏見，在決策場景中偏好特定群體。
幻覺防范：閉源模型在識別聲學邏輯錯誤方面表現更佳，開源模型在領域知識對齊上存在明顯局限。
安全防護：閉源模型展現出更強防御能力，尤其在抵抗越獄攻擊方面；開源模型在專業領域(如醫療)的防御明顯薄弱。
隱私保護：不同類型敏感信息獲得不均衡保護，簡單的提示工程可減少直接泄露但對推斷泄露效果有限。
魯棒性差異：領先閉源ALLMs能在噪聲、多說話人等干擾下保持核心功能；多數開源模型在對抗性干擾下性能顯著下降。
身份驗證風險：部分模型難以區分真實語音與高保真克隆語音，但更嚴格的文本提示可顯著提升防御能力。

9個LLM在6個核心可信維度上的表現

結語

本研究提出AudioTrust——首個專為ALLMs量身打造的多維信任評估基準，有效揭示音頻大模型在公平性、幻覺、安全、隱私、魯棒性和身份驗證六大維度的潛在風險。

匯集4,420+條真實場景音頻/文本數據，涵蓋日常對話、緊急呼叫、語音助手等18種實驗設置，設計9項音頻特定評測指標，構建了GPT-4o自動化評估流水線。

實驗結果還揭示出當前開源與閉源 ALLMs 在高風險任務中的信任邊界與脆弱環節：

系統性偏見：對性別、口音等敏感屬性呈現出穩定而顯著的偏向。
魯棒性缺失：在噪聲干擾、多說話人交互、乃至對抗輸入場景下，模型響應極易崩潰。

AudioTrust通過全面評估，為后續ALLMs可信性研究奠定了堅實基礎，框架與平臺已公開發布，助力該領域進一步研究與實踐。

論文鏈接： https://arxiv.org/pdf/2505.16211
代碼鏈接： https://github.com/JusperLee/AudioTrust
數據集鏈接：https://huggingface.co/datasets/JusperLee/AudioTrust
HuggingFace：https://huggingface.co/papers/2505.16211

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.