網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI僅憑“自信”學(xué)會推理，浙大校友復(fù)刻DeepSeek長思維鏈涌現(xiàn)

2025-05-29 14:06:14　來源: 量子位

北京舉報

分享至

夢晨鷺羽發(fā)自凹非寺
量子位 | 公眾號 QbitAI

復(fù)刻DeepSeek-R1的長思維鏈推理，大模型強化學(xué)習(xí)新范式RLIF成熱門話題。

UC Berkeley團隊共同一作Xuandong Zhao把這項成果稱為：

大模型無需接觸真實答案，僅通過優(yōu)化自己的信心，就能學(xué)會復(fù)雜推理。

具體來說，新方法完全不需要外部獎勵信號或標注數(shù)據(jù)，只需使用模型自身的置信程度作為內(nèi)在獎勵信號。

與使用外部獎勵信號GRPO相比，新方法在數(shù)學(xué)任務(wù)上不需要標準答案也能提升基礎(chǔ)模型性能，在代碼任務(wù)上表現(xiàn)得更好。

幾乎同一時間，另外一篇論文《RENT: Reinforcement Learning via Entropy Minimization》也驗證了相似的結(jié)論。

作者表示兩者的主要區(qū)別在于使用KL散度和最小化熵衡量自信程度。

Dropbox工程副總裁看后表示：Confidence is all you need。

“自信”驅(qū)動的強化學(xué)習(xí)

長期以來，訓(xùn)練大模型主要依賴兩種方式：

要么需要大量人工標注（如ChatGPT的RLHF），要么需要可驗證的標準答案（如DeepSeek的RLVR）。

前者成本高昂且可能引入偏見，后者則局限于數(shù)學(xué)、編程等有明確答案的領(lǐng)域。

那么當(dāng)AI能力逐漸接近甚至超越人類時，能否讓模型僅憑自身產(chǎn)生的內(nèi)在信號，擺脫對外部監(jiān)督的依賴？

針對這個問題，UC Berkeley團隊提出新訓(xùn)練方法Intuitor，計算模型預(yù)測分布與均勻分布之間的KL散度作為“自信程度”。

相當(dāng)于人類做題時，如果對答案有把握思路也會更清晰，當(dāng)自信不足的時候往往需要重新思考。

通過優(yōu)化這個內(nèi)在信號，INTUITOR鼓勵模型生成它自己”更有把握”的回答，也能促使模型生成更結(jié)構(gòu)化的推理過程。

在實驗中，1.5B和3B的小模型也涌現(xiàn)出與DeepSeek-R1類似的長思維鏈推理行為。

論文還指出，內(nèi)在獎勵信號還獲得一個額外的好處：從機制上降低了“獎勵黑客”的風(fēng)險。

傳統(tǒng)外部獎勵信號的強化學(xué)習(xí)容易被“鉆空子”，如模型可能生成語法正確但邏輯錯誤的代碼來匹配測試用例，或在數(shù)學(xué)題中直接背答案而非推理。

在INTUITOR中，團隊發(fā)現(xiàn)如果使用離線學(xué)習(xí)，在訓(xùn)練約100步的時候模型也學(xué)會了作弊：在回答中附加一個已經(jīng)解決的簡單問題來提高自信度分數(shù)。

但使用在線學(xué)習(xí)就可以避免這個問題，評估標準隨著模型能力一起進化，作弊策略變得無效。

實驗結(jié)果：不僅會做題，還會舉一反三

團隊首先實證研究了INTUITOR框架對LLMs數(shù)學(xué)推理能力的提升。

實驗選取Qwen2.5-1.5B/3B作為基礎(chǔ)模型，使用自我確定度作為唯一的獎勵信號，并將其分別置于INTUITOR和兩個基線方法（GRPO、GRPO-PV）在MATH數(shù)據(jù)集的預(yù)訓(xùn)練中。

使用對話提示，每次處理128道題目并各生成7個候選解決方案，KL懲罰系數(shù)設(shè)置為0.005。

在數(shù)學(xué)推理、代碼生成、指令遵循的基準測試中進行性能評估，結(jié)果如圖所示：

實驗表明，在通過INTUITOR進行微調(diào)后，Qwen2.5-1.5B從最初只會輸出重復(fù)的無意義內(nèi)容且對話任務(wù)得分均低于10%，轉(zhuǎn)變?yōu)闊o效輸出大幅減少、響應(yīng)長度有效增加。

在結(jié)構(gòu)化推理能力上，團隊還發(fā)現(xiàn)INTUITOR早期學(xué)習(xí)速度更快，如Qwen2.5-3B在GSM8K基準測試上INTUITOR（0.811）始終優(yōu)于GRPO（0.758）。

此外，INTUITOR在多任務(wù)泛化上也表現(xiàn)優(yōu)秀，例如當(dāng)Qwen2.5-3B在代碼生成任務(wù)上，雖然相對滯后但持續(xù)增長，最終性能比GRPO高8%，相對提升65%。

同時團隊還觀察到，在進行長鏈推理時，INTUITOR模型在生成完整代碼前，都會添加自然語言推理（如“為解決X問題，需先執(zhí)行Y步驟”），據(jù)推測也許這就是INTUITOR能夠在測試中始終表現(xiàn)出色的原因之一。

它的演進過程大概可以描述為三個階段：

模型學(xué)會生成代碼，實現(xiàn)準確率提升和無效響應(yīng)減少。
進行代碼前推理以促進自我理解。
逐步細化生成帶詳細推理的有效代碼。

為了評估自我確定度作為獎勵的魯棒性，研究人員還將離線自我確定度（來自固定基礎(chǔ)模型的獎勵）與在線自我確定度（來自不斷進化的策略模型的獎勵）進行了比較。

另外為進一步評估自我確定度作為獎勵信號的質(zhì)量，研究人員還分析了模型在MATH500響應(yīng)中生成的自我確定度分數(shù)分布。

值得注意的是，INTUITOR模型對正確答案的self-certainty顯著更高，而GRPO雖提升了模型自評能力，但區(qū)分度明顯低于INTUITOR。

由于受計算資源限制，實驗只在相對較小的無監(jiān)督語料庫上進行訓(xùn)練，未來可在更大規(guī)模的基礎(chǔ)模型和更多樣化的真實世界數(shù)據(jù)集上進一步研究INTUITOR的優(yōu)勢。

團隊介紹

本項研究來自UC Berkeley的Sergey Levine、宋曉東團隊，作者一共有五位，分別是第一作者博士后研究員Xuandong Zhao、共同一作本科生Zhewei Kang、來自耶魯大學(xué)的Aosong Feng，以及Sergey Levine和Dawn Song。

2019年，Xuandong Zhao從浙江大學(xué)畢業(yè)后，就進入了加州大學(xué)圣塔芭芭拉分校攻讀計算機科學(xué)博士學(xué)位，期間還曾在阿里巴巴、Microsoft和Google等公司實習(xí)。

自2024年他進入UC Berkeley后，除本次的新成果外，至今一共還發(fā)表過十多篇論文，并先后被ICLR 2025、ICML 2025等接收。

另外在今年2月，Xuandong Zhao和Zhewei Kang還合作發(fā)表了一篇論文，描述了基于自我確定性的LLMs推理能力提升新策略Best-of-N，可以看作是本篇論文的一次先驗嘗試。

論文鏈接：https://arxiv.org/abs/2505.19590
代碼鏈接：https://github.com/sunblaze-ucb/Intuitor

參考鏈接：
[1]https://x.com/joshclemm/status/1927400772817285264
[2]https://x.com/xuandongzhao/status/1927270931874910259

[3]https://x.com/xuandongzhao/status/192778163679341780
[4]https://arxiv.org/abs/2502.18581

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

UC伯克利新作顛覆認知：LLM靠「自信爆表」學(xué)會推理？無需外部獎勵超進化

新智元 2025-05-31 16:07:22
1 跟貼 1
揭示顯式CoT訓(xùn)練機制：思維鏈如何增強推理泛化能力

機器之心Pro 2025-03-12 10:44:56
2 跟貼 2

可信大模型新挑戰(zhàn)：噪聲思維鏈提示下的魯棒推理，準確率直降40%

機器之心Pro 2024-12-12 20:41:08
0 跟貼 0

o3崛起，但推理模型離「撞墻」只剩一年？

新智元 2025-05-31 12:14:36
1 跟貼 1
AI輔助編碼帶來思維方式轉(zhuǎn)變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0

DeepSeek開口說話了反應(yīng)超神無限打斷只要兩行代碼15分鐘

量子位 2025-03-07 14:20:34
0 跟貼 0

多模態(tài)擴散模型開始爆發(fā)，這次是高速可控還能學(xué)習(xí)推理的LaViDa

機器之心Pro 2025-05-30 21:15:03
5 跟貼 5
美團開放AI代碼工具,零代碼實現(xiàn)全棧能力,項目負責(zé)人揭秘架構(gòu)細節(jié)

機器之心Pro 2025-05-30 14:19:26
0 跟貼 0

小模型媲美大模型，阿里通義開源「推理+搜索」預(yù)訓(xùn)練新框架

量子位 2025-05-31 12:05:19
2 跟貼 2
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
一周兩破18年數(shù)學(xué)紀錄！陶哲軒驚嘆：AlphaEvolve帶來久違「加速度」

新智元 2025-05-31 17:39:44
3 跟貼 3
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
“印度電詐”就離譜！整整八年，AI全靠人、收入全靠刷，微軟納德拉被老鄉(xiāng)“殺豬盤”了

華爾街見聞官方 2025-05-31 17:45:35
0 跟貼 0
世界模型新成果！視頻實時生成交互，速度達40毫秒/幀

量子位 2025-05-30 18:21:45
0 跟貼 0
DeepSeek的橫空出世，讓AI+騰訊云數(shù)據(jù)庫產(chǎn)生了什么化學(xué)反應(yīng)？

量子位 2025-03-04 20:07:47
0 跟貼 0
SSM+擴散模型，竟造出一種全新的「視頻世界模型」

機器之心Pro 2025-05-31 18:23:21
1 跟貼 1
剛剛，“互聯(lián)網(wǎng)女皇”發(fā)布首份“AI趨勢報告”，長達340頁，引發(fā)業(yè)界圍觀

華爾街見聞官方 2025-05-31 19:55:36
0 跟貼 0
大模型平權(quán)時代：企業(yè)AI決戰(zhàn)“數(shù)據(jù)就緒”新戰(zhàn)場

智東西 2025-05-30 13:23:53
0 跟貼 0
DeepSeek引爆AI革命，誰能笑到最后？

量子位 2025-03-11 17:16:22
0 跟貼 0
DeepSeek開口說話了：只要15分鐘就能讓DeepSeek開口說話

量子位 2025-03-10 18:03:15
0 跟貼 0
DeepSeek應(yīng)用如何落地？解鎖性能釋放x多模態(tài)融合xRAG增強

量子位 2025-03-07 22:58:40
0 跟貼 0
實測訊飛曉醫(yī)VS DeepSeek-R1，誰是更懂你的家庭健康助手？

量子位 2025-03-08 19:20:56
0 跟貼 0
國科大、上交、復(fù)旦、浙大怎么去選擇？

玉辭心 2025-05-30 07:10:22
0 跟貼 0
不只是“小升級”！DeepSeek-R1新版獲海外盛贊，每經(jīng)記者親測挑戰(zhàn)三大編程任務(wù)

每日經(jīng)濟新聞 2025-05-29 18:53:11
20 跟貼 20
世界上持續(xù)時間最長的實驗

科普森林 2025-05-30 12:56:16
2 跟貼 2
徐州家長注意，時間公布！具體日程來了

無線徐州 2025-05-30 16:36:32
0 跟貼 0
小學(xué)數(shù)學(xué)課外拓展-5年級-第39講蝴蝶模型（1）

維七的教育分享圈 2025-05-31 08:30:30
4 跟貼 4
這老師火到人民日報了！高考誓師大會上，數(shù)學(xué)老師祝福語驚艷全場

鹿與悠 2025-05-30 11:10:53
0 跟貼 0
史上最強數(shù)學(xué)天才，北大韋神韋東奕

左蘊新鮮事 2025-05-30 02:45:34
0 跟貼 0
小學(xué)語文數(shù)學(xué)公式臺歷！

卡卡西藝術(shù) 2025-05-30 08:45:00
0 跟貼 0
太原理工80后副校長楊翼卸任，其結(jié)束掛職期，重返浙江大學(xué)工作

晉圈 2025-05-31 11:26:11
3 跟貼 3
站在女性角度告訴你，夫妻越過越累的底層邏輯！

周小鵬情感專家 2025-05-31 19:00:00
0 跟貼 0
2024年中國內(nèi)地高校捐贈收入TOP50一覽！你的高校上榜了嗎？

誰為錦年織彩衣 2025-05-31 07:05:03
0 跟貼 0
谷歌之后,英偉達入局擴散大語言模型,Fast-dLLM推理速度飆27.6倍

機器之心Pro 2025-05-30 14:06:34
0 跟貼 0
獨家揭秘：河北騎行案，律師用一張腦圖拆解全案邏輯

周兆成律師 2025-05-30 19:34:06
1 跟貼 1
數(shù)學(xué)思維小學(xué)數(shù)學(xué)

言西早老師 2025-05-29 18:48:05
0 跟貼 0
女孩總分710分，說數(shù)學(xué)非常差，結(jié)果一問數(shù)學(xué)140多，張雪峰

天帝殺神 2025-05-30 10:10:53
0 跟貼 0
中考數(shù)學(xué)題，能做出這道題的學(xué)生，數(shù)學(xué)成績不會太差

三樂大掌柜 2025-05-28 22:23:14
1 跟貼 1
一道數(shù)學(xué)思維題，你試試最快多久，能解出答案

三樂大掌柜 2025-05-28 22:22:44
1 跟貼 1
小朋友練習(xí)讀拼音，意料之外的“波二逼”，網(wǎng)友：偏科嚴重數(shù)學(xué)太好

奇妙觀探 2025-05-30 14:55:25
0 跟貼 0

量子位

追蹤人工智能動態(tài)

10599文章數(shù) 176159關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

數(shù)碼

本地

游戲

公開課

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

AI僅憑“自信”學(xué)會推理，浙大校友復(fù)刻DeepSeek長思維鏈涌現(xiàn)

“自信”驅(qū)動的強化學(xué)習(xí)

實驗結(jié)果：不僅會做題，還會舉一反三

團隊介紹

1小時大定破千，余承東：尊界S800是個開端

老人把3600萬豪宅堆滿垃圾"逼瘋"鄰居 有人已賣房搬離

老人把3600萬豪宅堆滿垃圾"逼瘋"鄰居 有人已賣房搬離

亞錦賽女子200米:16歲陳妤頡22秒97奪金

54歲的于和偉再度提名白玉蘭獎視帝

中汽協(xié)倡議：反對“內(nèi)卷式”惡性競爭

態(tài)度原創(chuàng)

原木純白 邂逅自然本真

小米 REDMI 顯示器 G27 開售：200Hz 刷新率，669 元

云游中國 |來仰天湖大草原，一起策馬奔騰

《戰(zhàn)地》新作要有大動作了？或于6月開啟大規(guī)模測試

老人把3600萬豪宅堆滿垃圾"逼瘋"鄰居有人已賣房搬離

老人把3600萬豪宅堆滿垃圾"逼瘋"鄰居有人已賣房搬離

原木純白邂逅自然本真