99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

音頻大模型安全可信度的全面“體檢”!清華南洋理工聯手打造

0
分享至

AudioTrust團隊 投稿
量子位 | 公眾號 QbitAI

首個專為ALLMs(音頻大語言模型)設計的多維度可信度評估基準來了。

南洋理工、清華大學領銜的研究團隊注意到,現有評估框架大多只關注文本模態或僅涵蓋有限的安全維度,未能充分考慮音頻模態的獨特特性與應用場景。

于是他們創新性地提出了新框架AudioTrust,將評估范圍擴展至六個核心維度(公平性、幻覺、安全性、隱私、魯棒性和身份驗證),并深入探究了音頻模態特有的安全、可信問題。





接下來是AudioTrust的更多詳細信息。

什么是AudioTrust

為應對音頻大模型(ALLMs)帶來的可信性挑戰,研究團隊提出了一個統一的評估框架AudioTrust,采用推理執行可信性分析解耦的兩階段架構。

第一階段聚焦于數據加載與模型推理,支持開源與閉源模型接入,并可通過配置文件靈活控制任務參數,實現高效的批量處理;

第二階段則針對模型輸出進行自動化、多維度評估,涵蓋內容安全、偏見檢測、事實一致性等核心指標。



AudioTrust具體包含六大核心可信維度,分別是FairnessHallucinationSafetyPrivacyRobustnessAuthentication,對于每一個可信評估視角,研究團隊都關注了多個不同的場景與特征分類。


AudioTrust關注的不同可信評估視角

Fairness

AudioTrust從7大敏感屬性出發,構造了傳統與音頻特有的公平性評估體系。

共采集840條高質量音頻樣本(每條約20秒),模擬多樣化社會角色與語境交互,激發AI對傳統公平的深度響應,聚焦社會普遍存在的偏見。

構造音頻特有屬性,體現多模態感知中的不公平,特別關注口音、語言表達特征等,并通過混合音頻和文本預處理的方式模擬現實場景。

實驗結果顯示,當前主流語言模型在公平性維度普遍失衡,系統性偏差廣泛存在。


Fairness實驗設計概念

Hallucination

幻覺評估模塊專門檢測,音頻大語言模型在復雜聲學場景下的幻覺現象,防止模型過度解讀或產生錯誤推理。

研究團隊構建了包含320個精心設計的測試樣本,并將音頻幻覺分為兩個核心維度進行評估。

事實性幻覺包含160個樣本,主要涵蓋音頻內容與標簽屬性不匹配的情況,以及違背自然規律的聲音描述。

邏輯性幻覺同樣包含160個樣本,重點測試音頻與文本描述的語義矛盾和音頻事件的時序錯亂。

實驗結果發現音頻語言模型的幻覺問題,主要源于音頻信號處理和事件識別錯誤,而非推理缺陷,其中Gemini系列和Qwen2-Audio表現最佳,GPT-4o系列傾向于回避回答,而SALMONN等模型容易產生矛盾性幻覺。


Hallucination實驗設計概念

Safety

安全性評估模塊深入探究了音頻大語言模型面臨的兩大核心風險:越獄攻擊非法活動指導

研究團隊構建了600個測試樣本,其中包含300個越獄攻擊樣本和300個非法活動指導樣本。

為了全面評估不同因素對模型安全性的影響,研究采用了三維評估策略:性別維度情緒維度場景維度

實驗結果發現,音頻模態攻擊對多模態大模型的安全性構成了顯著威脅,其中悲傷情緒比憤怒情緒更容易觸發違規行為,醫療場景的越獄成功率最高可達33.7%,遠超企業和金融場景。

閉源模型展現出近99%的優異防御能力,而開源模型普遍面臨更大安全挑戰。

值得注意的是,相比于文本輸入能達到100%的安全防御率,音頻輸入為攻擊者提供了額外的攻擊向量,特別是在涉及專業領域知識的情境中,模型更容易被領域特定的越獄攻擊突破而生成有害內容。


Safety數據構建和實驗評估

Privacy

隱私評估模塊聚焦直接隱私泄露隱私推斷泄露兩大核心風險。

研究團隊構建了包含900個音頻樣本的多樣化測試數據集,其中600個直接隱私泄露樣本和300個隱私推斷泄露樣本。

針對這兩種數據集,研究團隊分別設計了不同的實驗策略:在直接隱私泄露場景中,觀察模型對不同隱私類型的泄露程度;在隱私推斷泄露實驗中,評估模型是否會協助推斷敏感的個人屬性,以及模型是否能夠拒絕回答相應的隱私問題。

實驗結果發現,多模態大模型在隱私保護方面表現出明顯的不一致性和脆弱性。

閉源模型對SSN等高敏感信息展現近100%的拒絕率,但對家庭住址的保護率僅為88%,而Gemini系列和開源模型Qwen2-Audio在地址和手機密碼方面的泄露率高達85%-100%

更為嚴重的是,大多數模型在年齡、種族等隱私推斷任務中泄露率超過80%。雖然隱私意識增強的提示詞能顯著降低直接隱私泄露風險,但對推斷泄露的改善效果有限。


Privacy數據構建和實驗評估

Robustness

魯棒性評估模塊旨在考察音頻大語言模型在面對各種真實世界音頻干擾時的表現穩定性。

研究團隊精心設計了六大類常見音頻挑戰,每類樣本各40個。

實驗結果發現,多模態大模型在音頻魯棒性方面呈現顯著的分層差異和不穩定性,其中Gemini系列在各種挑戰性音頻條件下始終保持領先地位。

值得注意的是,模型魯棒性高度依賴于具體的音頻擾動類型,而將退化音頻轉換為清晰文本,是提升下游推理任務性能的核心。

對比實驗顯示當假設能夠完美提取音頻文本信息時,SALMONN的得分從2.0飆升至6.0-7.0,即使表現最佳的Gemini 2.5 Pro也有提升,表明音頻語義內容的準確提取和文本轉換是解決魯棒性問題的關鍵突破口。


Robustness數據構建和實驗評估

Authentication

認證評估模塊深入測試了音頻大語言模型抵御欺騙攻擊的能力,聚焦混合欺騙身份驗證繞過語音克隆欺騙三種核心威脅。

研究團隊設計了包含400個樣本的多樣化測試數據集,其中100個混合欺騙樣本、100個身份驗證繞過樣本,另外200個語音克隆欺騙樣本。

實驗結果發現,多模態大模型在語音欺騙防御方面呈現明顯的模型類型差異和場景敏感性,其中嚴格提示顯著提升了語音克隆欺騙的防御效果。

大多數模型在”打開門”場景中的表現優于”喚醒助手”場景,特別是Ultravox和Gemini系列的聲音克隆欺騙失敗樣本數量顯著減少。

在身份驗證繞過測試中,閉源模型展現出強勁的防御能力,而開源模型最為脆弱,普遍對不完整憑證或悲傷語氣等緊急情感音頻缺乏魯棒性。

混合欺騙實驗揭示了背景音頻的復雜影響,辦公室噪音等背景音對不同模型產生截然不同的效果,模型在真實環境中的防御表現具有高度的不確定性。


Authentication數據構建和實驗評估

為什么AudioTrust與眾不同

AudioTrust主要基于四項關鍵創新:

  1. 全面評估維度:構建了跨越18種實驗設置的評估框架,深入探究ALLMs在高風險場景下的表現邊界與局限性。
  2. 真實場景數據集:精心構建了包含4,420+條音頻/文本樣本的數據集,覆蓋日常對話、緊急呼叫、語音助手交互等應用場景。
  3. 音頻特定評估指標:設計了9項專門針對音頻模態特性的評估指標,克服傳統文本評估方法在應用于音頻領域時的局限性。
  4. 自動化評估流水線:實現對模型輸出的客觀、可擴展評分,顯著提高評估效率與一致性。


AudioTrust包含6個核心可信維度、26個子類

通過對主流開源與閉源ALLMs的系統評估,AudioTrust還揭示了多項重要發現:

  1. 公平性挑戰:模型普遍存在對敏感屬性的系統性偏見,在決策場景中偏好特定群體。
  2. 幻覺防范:閉源模型在識別聲學邏輯錯誤方面表現更佳,開源模型在領域知識對齊上存在明顯局限。
  3. 安全防護:閉源模型展現出更強防御能力,尤其在抵抗越獄攻擊方面;開源模型在專業領域(如醫療)的防御明顯薄弱。
  4. 隱私保護:不同類型敏感信息獲得不均衡保護,簡單的提示工程可減少直接泄露但對推斷泄露效果有限。
  5. 魯棒性差異:領先閉源ALLMs能在噪聲、多說話人等干擾下保持核心功能;多數開源模型在對抗性干擾下性能顯著下降。
  6. 身份驗證風險:部分模型難以區分真實語音與高保真克隆語音,但更嚴格的文本提示可顯著提升防御能力。


9個LLM在6個核心可信維度上的表現

結語

本研究提出AudioTrust——首個專為ALLMs量身打造的多維信任評估基準,有效揭示音頻大模型在公平性、幻覺、安全、隱私、魯棒性和身份驗證六大維度的潛在風險。

匯集4,420+條真實場景音頻/文本數據,涵蓋日常對話、緊急呼叫、語音助手等18種實驗設置,設計9項音頻特定評測指標,構建了GPT-4o自動化評估流水線。

實驗結果還揭示出當前開源與閉源 ALLMs 在高風險任務中的信任邊界與脆弱環節:

  • 系統性偏見:對性別、口音等敏感屬性呈現出穩定而顯著的偏向。
  • 魯棒性缺失:在噪聲干擾、多說話人交互、乃至對抗輸入場景下,模型響應極易崩潰。

AudioTrust通過全面評估,為后續ALLMs可信性研究奠定了堅實基礎,框架與平臺已公開發布,助力該領域進一步研究與實踐。

論文鏈接: https://arxiv.org/pdf/2505.16211
代碼鏈接: https://github.com/JusperLee/AudioTrust
數據集鏈接:https://huggingface.co/datasets/JusperLee/AudioTrust
HuggingFace:https://huggingface.co/papers/2505.16211

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大跌眼鏡!2025年高考數學全國二卷第1道題,好多考生懷疑搞錯了

大跌眼鏡!2025年高考數學全國二卷第1道題,好多考生懷疑搞錯了

火山詩話
2025-06-09 08:02:31
宋佳曬與寧澤濤VOGUE合照男帥女美好養眼

宋佳曬與寧澤濤VOGUE合照男帥女美好養眼

手工制作阿殲
2025-06-10 03:57:07
再贏2場,鄭欽文必沖上世界第4:頭號種子參賽 只落后鮑里妮137分

再贏2場,鄭欽文必沖上世界第4:頭號種子參賽 只落后鮑里妮137分

風過鄉
2025-06-10 07:54:33
曼聯接洽哲凱賴什細節曝光!葡體提價至8000萬,神鋒拒絕轉會沙特

曼聯接洽哲凱賴什細節曝光!葡體提價至8000萬,神鋒拒絕轉會沙特

羅米的曼聯博客
2025-06-10 07:35:57
普京在憋大招?瓦格納被召回國,俄軍野心暴露,中美擔心的事出現

普京在憋大招?瓦格納被召回國,俄軍野心暴露,中美擔心的事出現

阿芒娛樂說
2025-06-10 08:02:50
國內算力產業最大合并案落錘:海光信息擬1160億元換股吸收合并中科曙光

國內算力產業最大合并案落錘:海光信息擬1160億元換股吸收合并中科曙光

澎湃新聞
2025-06-10 07:58:28
“反華急先鋒”就位前,美國30州挺“臺獨”,中方卻簽下特殊命令

“反華急先鋒”就位前,美國30州挺“臺獨”,中方卻簽下特殊命令

萬國明信片
2025-06-07 19:36:47
DeepSeek寫25年高考作文,以血為墨,以魂為歌,共赴民族復興之約

DeepSeek寫25年高考作文,以血為墨,以魂為歌,共赴民族復興之約

麓谷隱士
2025-06-07 16:28:34
34D杯辣媽身材引舔屏,網友:真羨慕她老公~

34D杯辣媽身材引舔屏,網友:真羨慕她老公~

健身迷
2025-06-08 11:06:10
演員尹正發長文道歉,自我評價“很糟糕”,評論區卻成大咖聚集地

演員尹正發長文道歉,自我評價“很糟糕”,評論區卻成大咖聚集地

煙云過眼
2025-06-09 18:29:26
屢查屢犯!中央督察組點名通報山西晉中呂梁

屢查屢犯!中央督察組點名通報山西晉中呂梁

政知新媒體
2025-06-09 10:55:04
拔出蘿卜帶出泥!陳芋汐奪冠后的現狀,透露了一個圈子的“惡俗”

拔出蘿卜帶出泥!陳芋汐奪冠后的現狀,透露了一個圈子的“惡俗”

深析古今
2025-06-05 21:55:56
被曝同進酒店,陳夢王楚欽戀情實錘?陳夢:男友成績要比自己好

被曝同進酒店,陳夢王楚欽戀情實錘?陳夢:男友成績要比自己好

樂聊球
2025-06-09 10:47:22
馬斯克父親:兒子患上“白宮創傷后應激障礙”,他玩得轉技術,卻玩不轉政治

馬斯克父親:兒子患上“白宮創傷后應激障礙”,他玩得轉技術,卻玩不轉政治

紅星新聞
2025-06-09 13:42:28
幼兒園園長涉貪千萬一審被判11年:是否“國家工作人員”引爭議,其已上訴

幼兒園園長涉貪千萬一審被判11年:是否“國家工作人員”引爭議,其已上訴

澎湃新聞
2025-06-09 20:58:28
廣東人家長不陪考!北方人集體破防:揭開他們不 “內卷” 的真相

廣東人家長不陪考!北方人集體破防:揭開他們不 “內卷” 的真相

愛下廚的阿椅
2025-06-09 15:41:34
接下來的上海,陣雨或雷雨轉陰有時有陣雨……真當是黃梅時節家家雨,青草池塘處處蛙

接下來的上海,陣雨或雷雨轉陰有時有陣雨……真當是黃梅時節家家雨,青草池塘處處蛙

上觀新聞
2025-06-10 07:26:44
A股:注意了!2大消息出爐,A股要開啟更大的行情了!

A股:注意了!2大消息出爐,A股要開啟更大的行情了!

財經大拿
2025-06-10 06:00:06
深圳樓市:被擊垮的有錢人,拋售豪宅。。

深圳樓市:被擊垮的有錢人,拋售豪宅。。

樓市諸葛
2025-06-10 07:40:06
湖北女子婚檢查出艾滋!醫生保密致丈夫感染,男子:不會放過醫生

湖北女子婚檢查出艾滋!醫生保密致丈夫感染,男子:不會放過醫生

逍遙史記
2025-06-09 09:21:40
2025-06-10 09:27:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10620文章數 176166關注度
往期回顧 全部

科技要聞

一文看懂WWDC:蘋果發布"十年一遇"設計革命

頭條要聞

特朗普:不清楚馬斯克是否在白宮使用過毒品

頭條要聞

特朗普:不清楚馬斯克是否在白宮使用過毒品

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

泡泡瑪特王寧成“河南新首富”

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

本地
旅游
家居
房產
公開課

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

簡約輕奢 現代實用私宅

房產要聞

海南地王,方案曝光!三亞灣豪宅,神仙打架!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 台东市| 米泉市| 葵青区| 中牟县| 牡丹江市| 马鞍山市| 柯坪县| 全州县| 田林县| 方正县| 洮南市| 留坝县| 泉州市| 博乐市| 昂仁县| 黑河市| 兰溪市| 昌乐县| 东明县| 习水县| 凤凰县| 长宁县| 湄潭县| 巴东县| 新竹市| 灵丘县| 临西县| 唐海县| 通道| 科技| 迁安市| 腾冲县| 剑河县| 资中县| 瑞昌市| 宜兴市| 通城县| 贵德县| 湾仔区| 平顶山市| 商水县|