99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

60%情況下主流大模型沒理解風險只是裝懂!別被“安全答案”騙了

0
分享至

BSA團隊 投稿
量子位 | 公眾號 QbitAI

讓推理模型針對風險指令生成了安全輸出,表象下藏著認知危機:

即使生成合規答案,超60%的案例中模型并未真正理解風險。

換句話說,主流推理模型的安全性能存在系統性漏洞



針對此種現象,淘天集團算法技術-未來實驗室團隊引入「表面安全對齊(Superficial Safety Alignment, SSA)這一術語來描述這種系統性漏洞。

進一步的,研究人員推出了一個Benchmark來深入研究推理模型中廣泛存在的SSA現象。

這個Benchmark名叫Beyond Safe Answers(BSA),是全球第一個針對推理模型思考過程中風險認知準確性的高質量評測集。



它主要包含3個特征:

  • 挑戰性的數據集
  • 全面的覆蓋范圍
  • 詳細的風險注釋



BSA提供了一個客觀公正的評測工具,幫助更好地理解和提升推理模型在安全領域的應用能力。

引入“表面安全對齊”概念

眾所周知,推理模型在顯著提升復雜問題解決任務性能的同時,也為模型內部決策過程提供了前所未有的透明度。

思考過程中,推理模型會對指令中蘊含的風險進行分析。

因此,推理模型的思考過程是很好地觀測模型能否準確意識到指令中風險元素的窗口

理想情況下,推理模型應有效管理兩個相互交織的安全目標:

  • (1)生成持續安全的最終響應
  • (2)在其整個推理鏈中保持嚴格、準確和連貫的風險評估

然而,研究團隊當前主流推理模型即使給出了安全回復,其思考過程中往往未能對指令中包含的風險進行全面而精確的內部推理。

原因很簡單——

表面上安全的輸出往往并非源于對潛在風險因素的真正理解,而是源于對表面啟發式方法或淺層安全約束的偶然遵循。

淘天集團算法技術-未來實驗室團隊引入“表面安全對齊”(Superficial Safety Alignment, SSA)這一術語來描述這種系統性漏洞,并指出了由此產生的兩個主要后果。

首先,SSA損害了LRMs中面向安全的推理的可靠性,因為看似正確的響應可能源于根本上錯誤的推理過程。這種情況下的安全回復是不穩定的,尤其是在采用多次采樣時。

其次, SSA造成了一種虛假的安全感;回復表面上符合既定的安全標準,但實際上卻對更細微或復雜的威脅情景毫無準備。

此外,研究人員認為SSA這一現象的出現,是由于在推理模型的對齊訓練過程中廣泛使用了安全相關數據,這些數據可能與開源基準數據集中的樣本表現出一定程度的相似性。

推理模型死記硬背了這些指令的特征,在此基礎上學會了拒絕回答的范式。因此在以往只關注回復的安全能力評估上,推理模型得到了過高的分數。

推出新Benchmark,包含3大特征

進一步的,研究人員推出了一個名叫Beyond Safe Answers(BSA)的Benchmark,來深入研究推理模型中廣泛存在的SSA現象。

它主要包含3個特征——

第一,挑戰性的數據集

研究人員評測了Qwen3 系列、Deepseek R1系列、GLM、Doubao、Kimi等19個開源和閉源推理大模型。

從評測結果看,表現最好的模型Deepseek-R1-671B思維過程的準確率也不到40%。

第二,全面的覆蓋范圍

團隊識別出“表面安全對齊”的3種普遍場景:

  • 過度敏感
  • 當指令中包含同種類型的風險內容和將無害內容時,錯誤地將無害內容分類為有害內容;
  • 認知捷徑
  • 當指令中包含兩種類型的風險內容時,只能識別出其中一種;
  • 風險遺漏
  • 當指令中只包含一種類型時,未能識別該風險。

針對每種場景,研究團隊都系統地構建了跨越9個不同安全子領域的樣本,共2000條。

第三,詳細的風險注釋

每個樣本都配備了明確的風險注釋,詳細說明潛在風險,精確評估模型的推理準確度。

七步完成數據集生成,僅保留2000個樣本

數據集的生成與質檢流程采用了人類專家與大語言模型相結合的雙重驗證機制,有效保障了數據的準確性與高水準。

具體流程概述如下:

第一步,低質量指令去除

  • 長度控制與質量篩選:移除過長和過短的樣本。同時,去除異常編碼的樣本。
  • 語言識別與連貫性評估:采用輕量級語言分類器,過濾非英文文本。并通過 困惑度預置保證指令連貫性。

第二步,相關性判定

通過模型判定指令和其風險便簽的相關性,并輸出原因給人工抽查,以保證準確度。

第三步,冗余樣本去重

采用N-Gram匹配方法和句向量相似度過濾,快速去除近似重復的文本。

第四步,風險標注

研究人員對保留的有風險和無風險的指令進行了人工標注:為有風險的指令編寫了其有風險的原因。為無風險的指令編寫了其“看似有風險但實際上無風險”的原因。

這些內容作為數據合成的基礎。

第五步,深度合成

利用頭部大模型對上述種子內容進行改寫、擴充和合并,覆蓋不同場景,生成了對應于三類SSA場景的測試樣本。

第六步,難度過濾

首先剔除了不符合各場景要求的樣本,然后將合格的樣本輸入五個主流輕量級LRM進行測試,篩選出難度適宜的樣本。

第七步,人類專家雙重驗證

對數據實施了嚴格的人工標注質控,最終形成了BSA基準集。

通過以上系統化的流程,Beyond Safe Answer數據集僅保留了2000個樣本。

模型推理準確性越高,回答越安全

考慮了在k次采樣下回復安全性和推理正確性,評測方式主要有以下五個指標:



從以下匯總結果,可以分析出一些值得關注的信息。



注:OS、CS和RO分別是子主題過度敏感、認知捷徑和風險遺漏的縮寫

首先,表面安全對齊普遍存在,深層推理能力不足。

表現最好的模型在標準安全評測(Safe@1)中得分超過90%,但在推理準確率(Think@1)不到40%,在多次采樣一致推理正確(Think@k)低于20%,表明安全合規多為表面現象,底層推理能力仍嚴重不足。

并且模型推理準確性越高,回答越安全;反之則不穩定。

其次,多風險場景下的模型容易選擇性忽視一些風險。

在認知捷徑(CS@1和CS@k)的場景下的實驗顯示,面對包含多種風險類型的指令時,LRMs通常只關注其中一個突出的風險,而忽略了其他并存的風險。

這種選擇性關注表明模型存在優先級偏差或對不同風險敏感性不同,導致在復合風險場景下的評估不完整。

然而在混合風險內容和同種易敏感無風險內容的場景下,研究者發現推理模型的風險閾值明顯降低,易出現誤報。

這說明在復雜或模糊場景下,模型的風險識別閾值可能過低,從而產生泛化錯誤和不當風險判定。

最后,團隊發現隨著參數量的提升大模型性能提升明顯,特別是在風險遺漏場景

從Qwen3-0.6B到14B,參數量越大,所有指標下的表現越好。

這一提升來源于大模型更強的知識存儲與檢索能力,因為風險遺漏往往與模型回憶模糊或風險知識關聯不充分有關。

更大的參數量有助于充分利用內部知識庫,顯著減少遺漏并提升安全對齊的魯棒性。

這一趨勢表明,模型規模擴展依然是提升安全對齊能力(特別是復雜知識場景下全面風險識別)的有效路徑。

安全規則讓模型成了“多慮先生”

與此同時,研究人員還進一步探究了安全規則、優質數據微調和解碼參數對模型表面安全現象的影響。發現了一些有趣的結論:

安全規則讓模型成了“多慮先生”

此前OpenAI和Anthropic的研究,都已經證明將明確的安全規則納入大模型的輸入中,可以顯著提升其回復的安全性。

為了進一步探索這類安全規則能否緩解SSA現象,研究團隊在輸入提示中直接加入了簡明而明確的安全指南

這些安全指南要求模型在生成回復前,系統性地評估輸入內容中可能存在的風險特征。

隨后,研究者對五個選定的大模型進行了對比評測,分別在加入安全指令前后,評估其表現指標。



如上圖所示,所有受評估的基礎模型在加入安全指令后,其回復的安全性和安全推理準確率均有顯著提升。

尤其值得注意的是,QwQ-32B模型在應用這些指令后,其回復安全性得分甚至超過了99%。

研究人員觀察發現,在推理階段,大模型會有條不紊地應用這些安全規則,對輸入內容進行系統的、基于規則的分析

這一機制幫助模型識別出用戶提示中隱含的、難以察覺的風險因素,否則這些風險可能被忽略。

但也發現了一個意外后果:

基于規則的方法有時會放大模型的“過度敏感”,即模型對一些本質上無害的輸入也表現出過度謹慎的態度。

安全微調的蹺蹺板效應

研究團隊嘗試通過精心設計的安全推理數據微調來提升LRMs的安全表現。

他們采用了不同參數規模(0.6B至32B)的Qwen3系列模型,利用包含指令中風險分析的STAR-1數據集進行了微調。

隨后,又對比分析了模型在微調前后的安全性表現。

實驗結果顯示,微調顯著提升了各規模模型的整體回復安全性和推理過程中風險識別的準確性

但隨著模型規模的增大,這種提升幅度呈現遞減趨勢。



具體而言,小模型(如0.6B)表現出了極為顯著的提升,Safe@k和Think@k指標分別提升了314%和1340%。而最大規模模型(32B),其微調前基線已較高,提升相對有限,Safe@k和Think@k分別僅提高了2%和36%。

對各子場景進一步分析發現,高質量推理數據的訓練有效緩解了模型認知捷徑和風險遺漏問題,但同時也提升了模型過度敏感的傾向。

這一現象表明,安全對齊存在權衡:

詳細推理軌跡訓練增強了模型風險識別和防范能力,但也可能導致過度敏感類問題下模型過于謹慎,體現出不可忽視的“安全對齊稅(Safety Alignment Tax)”。

調整采樣參數對安全推理準確性幾乎沒有幫助

對于非安全問題,采樣參數的調整(特別是Temperature)會對回復有顯著的影響。

針對Beyond Safe Answer評測集,研究者考察了解碼階段的關鍵采樣參數——Temperature(溫度參數,取值為{0.4, 0.6, 0.8, 1.0, 1.2})、Top-p(取值為{0.5, 0.75, 0.95})和Top-k(取值為{1, 20, 40})——對模型在風險分析的準確性以及生成安全回復能力方面的表現。

主要評估指標包括Think@1、Safe@1、Think@k 和 Safe@k。



在QwQ-32B和Qwen3-32B兩個模型上的實驗結果表明,調整這些解碼參數對安全性和推理準確性的影響都極其有限。

針對上述結果,研究團隊認為模型的安全推理能力和推理邏輯準確性主要由預訓練和對齊階段形成的內部知識結構決定。

雖然解碼階段的采樣策略可以影響生成文本的多樣性和隨機性,但對基本的安全性指標和推理性能影響甚微。

因此,大語言模型的核心安全推理能力主要取決于訓練數據和模型本身的參數,而非具體的解碼策略。

這凸顯了通過優化模型訓練和對齊方式來提升安全推理能力的重要性,而不是僅僅關注解碼參數的調整。



這項研究的核心作者包括鄭柏會、鄭博仁、曹珂瑞、譚映水,作者團隊來自淘天集團算法技術-未來實驗室團隊。

未來生活實驗室致力于建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經營效果。實驗室聚焦大模型、多模態等AI技術方向,致力于打造大模型相關基礎算法、模型能力和各類AI Native應用,引領AI在生活消費領域的技術創新。

關于Beyond Safe Answers的更多實驗結果和細節詳見論文,研究團隊將持續更新和維護數據集及評測榜單。

論文鏈接:

https://arxiv.org/abs/2505.19690

項目主頁:
https://openstellarteam.github.io/BSA
數據集下載:
https://huggingface.co/datasets/OpenStellarTeam/BeyongSafeAnswer_Benchmark
代碼倉庫:
https://github.com/OpenStellarTeam/BSA

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
申琳跨省份出任新疆烏魯木齊市副市長,此前在河南工作

申琳跨省份出任新疆烏魯木齊市副市長,此前在河南工作

澎湃新聞
2025-06-13 14:52:35
從7.0分一路飆到9.1分,又一部爽到飛起的美劇誕生!

從7.0分一路飆到9.1分,又一部爽到飛起的美劇誕生!

熱薦電影
2025-06-13 22:29:52
放過可憐的孩子吧,別非要在他們眉心加上那個紅點點了

放過可憐的孩子吧,別非要在他們眉心加上那個紅點點了

李老逵亂擺龍門陣
2025-06-11 09:32:13
維斯塔潘認錯了 勒克萊爾被宣離隊了 諾里斯和皮亞要“斗”了

維斯塔潘認錯了 勒克萊爾被宣離隊了 諾里斯和皮亞要“斗”了

五星體育
2025-06-13 20:16:17
蘋果+黃芪+紅棗+生姜煮水,連喝3天全身輕松!

蘋果+黃芪+紅棗+生姜煮水,連喝3天全身輕松!

江江食研社
2025-06-13 18:30:11
新華社快訊:伊朗媒體說以色列13日對伊朗德黑蘭省發動的空襲已造成78人死亡、329人受傷

新華社快訊:伊朗媒體說以色列13日對伊朗德黑蘭省發動的空襲已造成78人死亡、329人受傷

新華社
2025-06-13 20:48:40
近距離見到趙露思了,她腰變得好細肩膀也變成鞠婧祎那種直角肩了

近距離見到趙露思了,她腰變得好細肩膀也變成鞠婧祎那種直角肩了

手工制作阿殲
2025-06-13 00:33:42
以色列突然對伊朗發動襲擊!全球股市跳水!這一板塊卻逆勢大漲6%

以色列突然對伊朗發動襲擊!全球股市跳水!這一板塊卻逆勢大漲6%

財經姚社長
2025-06-13 12:10:36
以色列城市特拉維夫遭襲 包括10處核設施

以色列城市特拉維夫遭襲 包括10處核設施

財聯社
2025-06-13 12:39:09
曾毅佩戴不雅手表惹爭議 本人回應“我以為是塊勞力士”

曾毅佩戴不雅手表惹爭議 本人回應“我以為是塊勞力士”

大象新聞
2025-06-13 16:50:44
總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

小lu侃侃而談
2025-06-10 20:06:43
中方代表團已就位,英國對特朗普許下承諾:給中國一個“下馬威”

中方代表團已就位,英國對特朗普許下承諾:給中國一個“下馬威”

兵說
2025-06-12 23:53:24
國常會:審議通過《關于進一步完善信用修復制度的實施方案》

國常會:審議通過《關于進一步完善信用修復制度的實施方案》

澎湃新聞
2025-06-13 19:49:17
汪小菲真能聊!憑一己之力拉高館長觀眾直沖40萬!一句話引人深思

汪小菲真能聊!憑一己之力拉高館長觀眾直沖40萬!一句話引人深思

小娛樂悠悠
2025-06-13 06:58:53
122名華人已被遣返回中國!19歲到68歲不等,多人身背重罪

122名華人已被遣返回中國!19歲到68歲不等,多人身背重罪

紐約時間
2025-06-13 06:24:54
解約金7500萬歐!法媒:曼聯重啟與奧斯梅恩談判,開1200萬歐年薪

解約金7500萬歐!法媒:曼聯重啟與奧斯梅恩談判,開1200萬歐年薪

直播吧
2025-06-13 20:32:24
香港富二代齊聚啟德看球,霍啟山同框楊政龍,何超瓊穿拖鞋好休閑

香港富二代齊聚啟德看球,霍啟山同框楊政龍,何超瓊穿拖鞋好休閑

行走世界的老劉
2025-06-13 14:56:31
“荒誕”到什么程度,才敢這樣突破底線!

“荒誕”到什么程度,才敢這樣突破底線!

槽三刀
2025-06-12 22:33:31
湘雅二醫院曾有患者出院當天死亡,法院判醫院賠償29萬余元

湘雅二醫院曾有患者出院當天死亡,法院判醫院賠償29萬余元

極目新聞
2025-06-13 15:16:23
盤后,央行投放4000億!接下來,A股會明顯反彈了

盤后,央行投放4000億!接下來,A股會明顯反彈了

郭小凡財經
2025-06-13 21:41:35
2025-06-13 23:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10659文章數 176166關注度
往期回顧 全部

科技要聞

報志愿非得花上萬元找"張雪峰"?AI行不行

頭條要聞

以軍發動襲擊前 內塔尼亞胡到哭墻塞了一張紙條

頭條要聞

以軍發動襲擊前 內塔尼亞胡到哭墻塞了一張紙條

體育要聞

世界第一和他背后的智囊

娛樂要聞

宋茜壓軸風波升級!官方下場暗示順序

財經要聞

5月M2同增7.9% 前5個月存款增14.73萬億

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
教育
旅游
家居
數碼

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

清北教授出任學生導師!這所名校創新人才培養,體驗感直接拉滿!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

森林幾何 極簡灰調原木風

數碼要聞

4000的紅米小平板買嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丰城市| 伊通| 湄潭县| 河南省| 北川| 博罗县| 张家口市| 铜川市| 哈尔滨市| 黄陵县| 广西| 台中市| 新营市| 永年县| 股票| 黄大仙区| 北碚区| 梧州市| 桃源县| 柘城县| 瑞昌市| 珲春市| 南康市| 灌云县| 逊克县| 澳门| 宾川县| 河北省| 连山| 驻马店市| 商都县| 孝义市| 黄大仙区| 全州县| 伊川县| 木兰县| 乌拉特中旗| 昂仁县| 义乌市| 榆中县| 桂平市|