99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

「淺對齊」到「深思熟慮」,清華牽頭搭起大模型安全的下一級階梯

0
分享至



本工作共同第一作者包括:張亦弛,清華大學計算機系三年級博士生,師從朱軍教授,研究方向是多模態大模型和大模型安全,在CVPR、NeurIPS、ICML等頂會發表多篇論文,曾主導開發了首個多模態大模型可信度全面評測基準MultiTrust;張思源,清華大學計算機系一年級碩士生,導師是蘇航副研究員,研究方向是大模型安全與對齊算法。本文通訊作者是清華大學人工智能學院董胤蓬助理教授和計算機系朱軍教授。其他合作者來自北航、瑞萊智慧、阿里安全、百川智能等單位。

在大語言模型(LLM)加速進入法律、醫療、金融等高風險應用場景的當下,“安全對齊”不再只是一個選項,而是每一位模型開發者與AI落地者都必須正面應對的挑戰。然而,如今廣泛采用的對齊方式,往往只是讓模型在檢測到風險提示時機械地回復一句“很抱歉,我無法滿足你的請求”——這種表面看似“安全”的機制,實則脆弱不堪。ICLR 2025 杰出論文首次將這類方法命名為“淺對齊(Shallow Alignment)”[1]:模型的預測分布僅在回復開頭做出了有效偏移,卻從未真正理解潛在的風險語義。一旦越獄提示換個包裝,模型就輕易“破防”;而過度依賴這類簡單訓練,也往往會犧牲模型在通用任務中的語言能力與響應質量,帶來“安全 vs. 能力”的兩難局面。



越獄攻擊可以繞過大模型安全護欄[2]

在這一背景下,清華團隊突破了這一范式,率先將系統2思考引入大模型對齊,提出了融合自省推理的安全對齊框架STAIR。與其讓模型學會“條件反射式的閉嘴”,不如讓它真正學會思考之后再開口。STAIR通過三步走增強了對齊流程,驗證了測試時擴展(Test-Time Scaling)對模型安全的貢獻。在不降低通用能力的前提下,STAIR可以顯著提升開源模型在越獄攻擊下的魯棒性,在StrongReject上超越了以安全著稱的Claude3.5。它不止教模型“閉嘴”,而是教模型深入分析風險。它不再是安全與性能的零和博弈,而是將二者在推理下有機統一。STAIR的階梯引領大模型安全對齊從本能拒答走向深度自省,從格式安全邁向思維安全。

這篇題為ImprovingSafeTyAlignment withIntrospectiveReasoning的工作剛剛被ICML2025收錄為Oral論文(錄用率~1%)。而在STAIR的理論實踐基礎上,研究團隊進一步推出了RealSafe-R1模型,率先針對開源的DeepSeek-R1模型進行安全對齊,可以在不犧牲模型推理能力的前提下大幅提升安全性。相關代碼、訓練數據、模型均已開源,詳細算法和實驗細節請參考原始論文。



  • 論文標題:
  • STAIR: Improving Safety Alignment with Introspective Reasoning
  • 論文鏈接:
  • https://arxiv.org/abs/2502.02384
  • 開源鏈接:
  • https://github.com/thu-ml/STAIR



  • 論文標題:
  • RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
  • 論文鏈接:
  • https://arxiv.org/abs/2504.10081
  • 開源鏈接:
  • https://huggingface.co/RealSafe

接下來,讓我們一起“登梯”...

向安全對齊引入系統2思考

當前安全對齊方法大多基于簡短拒答的數據形式訓練模型,使得模型隱式建立了危險輸入到直接拒答的直覺性映射,類似于系統1快思考(System 1 Thinking)。研究者們受系統2慢思維(System 2 Thinking)提升模型推理能力的技術路線啟發,設計了STAIR對齊框架,力求幫助大模型真正理解風險指令,進行系統化的自我思考和風險評估,而不是條件反射式地拒絕回答。



從“本能拒絕”到“理性分析”的三步走

STAIR框架共包含三個階段:結構化思維鏈格式對齊、基于安全感知蒙特卡洛樹搜索的自提升、測試時擴展,能夠在不具備推理能力的模型上,實現性能與安全的雙效提升。



階段 1:結構化推理對齊

第一階段通過少量的結構化思維鏈數據進行有監督微調,使模型初步獲得推理能力。研究者設計了一個分步式的輸出格式,每一步推理都包括一個總結標題和詳細描述,從而幫助模型在應對風險時能夠逐步分析問題,并調用GPT-4o對安全和通用問題進行回復生成。模型在分步的內省深思后再正式輸出明確的回答,該回答需要經過風險識別后,作出合理拒絕或給出無害信息。這一階段的訓練也為后續按步驟切分回答,進行樹搜索和推理時搜索提供了基礎。

階段 2:基于安全感知蒙特卡洛樹搜索的自提升

第二階段使用蒙特卡洛樹搜索的方式構造自采樣的step-level偏序數據對,并使用DPO損失微調模型。研究者以每一個推理步驟/最終回答步驟作為一次動作,但與傳統蒙特卡洛樹搜索不同的是,為了同時優化模型的安全性和通用能力,在搜索過程中獎勵信號由安全分數和有用性分數兩個維度共同提供,即安全感知的蒙特卡洛搜索(Safety-Informed MCTS)。獎勵函數的設計一共包括3個條件:安全優先條件,有用性雙向條件,以及在僅考慮一個維度時能退化為原始蒙特卡洛搜索的條件。





  • 有用性雙向條件:當回復是安全時,越詳細越有用則分數越高;當回復存在風險時,越能幫助解決問題則分數越低。



  • 單一維度退化條件:當只考慮安全性或有用性中的一個維度時,蒙特卡洛搜索的過程退化為使用對應分數的搜索。這可以保證多元評分不影響原有搜索框架的效果。

基于以上條件,研究者通過理論推導,給出了一個滿足要求的最簡單形式的獎勵函數:R(H, S) = S·H + 2S,其中分數由模型進行自我打分。在經過足夠多輪的樹搜索后,研究者使用閾值控制策略來采樣step-level的偏序數據對,來提供細粒度的微調信號。整個采樣-微調過程將進行多輪,每一輪使用不同的訓練問題,以不斷強化模型的推理能力和安全對齊程度。



實驗選用了Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型,利用從PKU-SafeRLHF(安全問答)、JailbreakV(越獄數據)和UltraFeedback(通用數據)三個主流數據集中采樣的問題,對模型進行訓練。在StrongReject、WildChat等安全評估和GSM8k、AlpacaEval等通用測試上的實驗結果顯示,經過前兩階段的微調,模型在安全性能上相比訓練前獲得了顯著提升,同時更好地平衡了安全性能和通用性能。



階段 3:測試時擴展



第三階段是訓練一個獎勵模型,并指導語言模型進行測試時搜索。用于訓練獎勵模型的數據同樣采自第二階段的蒙特卡洛搜索樹中,采樣step-level數據和全程軌跡數據,并通過Bradley-Terry模型的優化目標微調過程獎勵模型(process reward model)。后續基于該獎勵模型給出的信號進行Best-of-N搜索或束搜索,實現錦上添花的效果。在Llama-3.1-8B模型上,結合束搜索,在StrongReject上達到了0.94的分數,顯著超過多個主流商用模型,達到了與Claude-3.5相當的安全性能。



這意味著推理增強的技術手段也可以在安全對齊上取得可靠的效果。安全與推理的有機統一,可以推動模型真正理解、分析并應對風險,在保障安全的同時保留語言能力與實用性。

RealSafe-R1的安全對齊實踐

在STAIR的理論基礎上,研究團隊進一步推出了RealSafe-R1模型,針對開源的DeepSeek-R1模型進行安全對齊。通過構建15,000條安全感知的推理軌跡,RealSafe-R1在提升模型安全性的同時,保持了其強大的推理能力,避免了傳統方法中常見的性能損失問題[3]。



具體地,研究者通過提示DeepSeek-R1在推理過程中注意安全風險,加強安全護欄,提升模型推理過程的安全性。經過一輪的有監督微調,各尺寸推理模型的安全性都得到了大幅提升,同時在數學、代碼等推理任務上的表現不受影響,甚至在事實性方面也有一定改進。



隨著推理模型成為主流,已有不少工作研究推理模型的安全風險,也使其安全加固成為一個重要研究問題。STAIR框架提供了一條可行路徑來賦能模型的深度安全對齊,以及在安全對齊時更好地維持其通用能力。期待相關領域未來進一步的研究與突破。

參考文獻

[1]Safety Alignment Should Be Made More Than Just a Few Tokens Deep

[2]Jailbreaking Black Box Large Language Models in Twenty Queries

[3]Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
訃告!他于2025年6月20日晚不幸離世

訃告!他于2025年6月20日晚不幸離世

鄉野小珥
2025-06-25 03:03:46
Shams:綠軍不太想交易布朗和懷特,但送上的報價讓他們不得不開啟談判

Shams:綠軍不太想交易布朗和懷特,但送上的報價讓他們不得不開啟談判

懂球帝
2025-06-25 09:12:16
緊 急 通 知,家里有老人和小孩的,現在馬上告訴他們!

緊 急 通 知,家里有老人和小孩的,現在馬上告訴他們!

小鹿姐姐情感說
2025-06-25 12:35:29
一天股價暴漲195%!牛市旗手狂舞,要放開了嗎?

一天股價暴漲195%!牛市旗手狂舞,要放開了嗎?

說財貓
2025-06-25 19:35:57
劉強東喊話“必須去看蘇超”!去年曾陪章澤天看歐洲杯,京東頻頻成蘇超焦點,剛剛襯托最小牌燒烤贊助商走紅

劉強東喊話“必須去看蘇超”!去年曾陪章澤天看歐洲杯,京東頻頻成蘇超焦點,剛剛襯托最小牌燒烤贊助商走紅

金融界
2025-06-25 19:47:25
Here We Go!羅馬諾:32歲博格巴加盟摩納哥,時隔兩年重返賽場!

Here We Go!羅馬諾:32歲博格巴加盟摩納哥,時隔兩年重返賽場!

直播吧
2025-06-25 05:51:09
日本一島嶼3天地震300余次,有學生戴頭盔上學!“7月5日大災難”傳言引恐慌

日本一島嶼3天地震300余次,有學生戴頭盔上學!“7月5日大災難”傳言引恐慌

紅星新聞
2025-06-25 13:52:20
官方:利雅得勝利主帥皮奧利下課;執教不到1年

官方:利雅得勝利主帥皮奧利下課;執教不到1年

懂球帝
2025-06-25 17:08:16
63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

TVB的四小花
2025-06-16 02:57:47
突發!6月25日清晨,全紅嬋重磅消息來襲,體育迷們速看

突發!6月25日清晨,全紅嬋重磅消息來襲,體育迷們速看

做一個合格的吃瓜群眾
2025-06-25 20:44:04
痛心!他走了,年僅38歲……

痛心!他走了,年僅38歲……

中國日報
2025-06-24 11:36:05
江蘇一男子飆車致女友死亡后,堅持改姓替女友盡孝,哄得二老贈與房產,20年后卻對簿公堂……

江蘇一男子飆車致女友死亡后,堅持改姓替女友盡孝,哄得二老贈與房產,20年后卻對簿公堂……

二胡的歲月如歌
2025-06-24 19:20:08
王晶不再隱瞞!曝料17年前“艷照門”內幕,原來陳冠希竟是受害者

王晶不再隱瞞!曝料17年前“艷照門”內幕,原來陳冠希竟是受害者

清游說娛
2025-06-17 09:46:07
46歲女子因糖尿病走了,生前不吃甜食,醫生:飲食上仍忽略了2點

46歲女子因糖尿病走了,生前不吃甜食,醫生:飲食上仍忽略了2點

黃家湖的憂傷
2025-06-23 16:56:18
伊朗重啟防空系統,以色列開始賣慘,海灣國家倒戈,特朗普再改口

伊朗重啟防空系統,以色列開始賣慘,海灣國家倒戈,特朗普再改口

歷史求知所
2025-06-24 21:25:04
總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

小lu侃侃而談
2025-06-10 20:06:43
“我簡直不敢相信!”女子31年前投出的漂流瓶收到了回應

“我簡直不敢相信!”女子31年前投出的漂流瓶收到了回應

新歐洲
2025-06-24 20:47:59
亞朵開始降價,想穩住加盟商

亞朵開始降價,想穩住加盟商

源Sight
2025-06-25 19:06:03
熬出頭了!跳水總教練定了,農民出身的全紅嬋,不用再卑微求出路

熬出頭了!跳水總教練定了,農民出身的全紅嬋,不用再卑微求出路

老吳教育課堂
2025-06-24 15:03:40
財聯社6月25日電,據新華社,伊朗議會25日通過法案,暫停伊朗與國際原子能機構的合作。

財聯社6月25日電,據新華社,伊朗議會25日通過法案,暫停伊朗與國際原子能機構的合作。

財聯社
2025-06-25 15:00:13
2025-06-25 23:07:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10717文章數 142346關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

歐盟威脅美國:既然你們堅持加征關稅 我們也不客氣了

頭條要聞

歐盟威脅美國:既然你們堅持加征關稅 我們也不客氣了

體育要聞

驚艷世俱杯的39歲少帥,一個另類的巴西人

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

對話王媛:在世界的游樂場,一起龐巴迪

態度原創

健康
本地
時尚
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

古希臘掌管腿細的神!今夏最火的4雙鞋子,拯救短粗腿!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗總統:12天戰爭結束 重建工作開啟

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 合肥市| 株洲市| 北辰区| 南安市| 余庆县| 宜宾市| 株洲市| 定南县| 武穴市| 江津市| 五原县| 中牟县| 凤翔县| 迭部县| 化州市| 高邑县| 曲水县| 民乐县| 陕西省| 棋牌| 寻乌县| 英德市| 长岛县| 洛隆县| 屏东市| 恭城| 蒲城县| 上杭县| 新田县| 城步| 建湖县| 汉沽区| 始兴县| 华安县| 临江市| 五常市| 山西省| 博湖县| 金堂县| 偃师市| 韩城市|