網易首頁 > 網易號 > 正文申請入駐

AI僅憑“自信”學會推理，浙大校友復刻DeepSeek長思維鏈涌現

2025-05-29 14:06:14　來源: 量子位

北京舉報

分享至

夢晨鷺羽發自凹非寺
量子位 | 公眾號 QbitAI

復刻DeepSeek-R1的長思維鏈推理，大模型強化學習新范式RLIF成熱門話題。

UC Berkeley團隊共同一作Xuandong Zhao把這項成果稱為：

大模型無需接觸真實答案，僅通過優化自己的信心，就能學會復雜推理。

具體來說，新方法完全不需要外部獎勵信號或標注數據，只需使用模型自身的置信程度作為內在獎勵信號。

與使用外部獎勵信號GRPO相比，新方法在數學任務上不需要標準答案也能提升基礎模型性能，在代碼任務上表現得更好。

幾乎同一時間，另外一篇論文《RENT: Reinforcement Learning via Entropy Minimization》也驗證了相似的結論。

作者表示兩者的主要區別在于使用KL散度和最小化熵衡量自信程度。

Dropbox工程副總裁看后表示：Confidence is all you need。

“自信”驅動的強化學習

長期以來，訓練大模型主要依賴兩種方式：

要么需要大量人工標注（如ChatGPT的RLHF），要么需要可驗證的標準答案（如DeepSeek的RLVR）。

前者成本高昂且可能引入偏見，后者則局限于數學、編程等有明確答案的領域。

那么當AI能力逐漸接近甚至超越人類時，能否讓模型僅憑自身產生的內在信號，擺脫對外部監督的依賴？

針對這個問題，UC Berkeley團隊提出新訓練方法Intuitor，計算模型預測分布與均勻分布之間的KL散度作為“自信程度”。

相當于人類做題時，如果對答案有把握思路也會更清晰，當自信不足的時候往往需要重新思考。

通過優化這個內在信號，INTUITOR鼓勵模型生成它自己”更有把握”的回答，也能促使模型生成更結構化的推理過程。

在實驗中，1.5B和3B的小模型也涌現出與DeepSeek-R1類似的長思維鏈推理行為。

論文還指出，內在獎勵信號還獲得一個額外的好處：從機制上降低了“獎勵黑客”的風險。

傳統外部獎勵信號的強化學習容易被“鉆空子”，如模型可能生成語法正確但邏輯錯誤的代碼來匹配測試用例，或在數學題中直接背答案而非推理。

在INTUITOR中，團隊發現如果使用離線學習，在訓練約100步的時候模型也學會了作弊：在回答中附加一個已經解決的簡單問題來提高自信度分數。

但使用在線學習就可以避免這個問題，評估標準隨著模型能力一起進化，作弊策略變得無效。

實驗結果：不僅會做題，還會舉一反三

團隊首先實證研究了INTUITOR框架對LLMs數學推理能力的提升。

實驗選取Qwen2.5-1.5B/3B作為基礎模型，使用自我確定度作為唯一的獎勵信號，并將其分別置于INTUITOR和兩個基線方法（GRPO、GRPO-PV）在MATH數據集的預訓練中。

使用對話提示，每次處理128道題目并各生成7個候選解決方案，KL懲罰系數設置為0.005。

在數學推理、代碼生成、指令遵循的基準測試中進行性能評估，結果如圖所示：

實驗表明，在通過INTUITOR進行微調后，Qwen2.5-1.5B從最初只會輸出重復的無意義內容且對話任務得分均低于10%，轉變為無效輸出大幅減少、響應長度有效增加。

在結構化推理能力上，團隊還發現INTUITOR早期學習速度更快，如Qwen2.5-3B在GSM8K基準測試上INTUITOR（0.811）始終優于GRPO（0.758）。

此外，INTUITOR在多任務泛化上也表現優秀，例如當Qwen2.5-3B在代碼生成任務上，雖然相對滯后但持續增長，最終性能比GRPO高8%，相對提升65%。

同時團隊還觀察到，在進行長鏈推理時，INTUITOR模型在生成完整代碼前，都會添加自然語言推理（如“為解決X問題，需先執行Y步驟”），據推測也許這就是INTUITOR能夠在測試中始終表現出色的原因之一。

它的演進過程大概可以描述為三個階段：

模型學會生成代碼，實現準確率提升和無效響應減少。
進行代碼前推理以促進自我理解。
逐步細化生成帶詳細推理的有效代碼。

為了評估自我確定度作為獎勵的魯棒性，研究人員還將離線自我確定度（來自固定基礎模型的獎勵）與在線自我確定度（來自不斷進化的策略模型的獎勵）進行了比較。

另外為進一步評估自我確定度作為獎勵信號的質量，研究人員還分析了模型在MATH500響應中生成的自我確定度分數分布。

值得注意的是，INTUITOR模型對正確答案的self-certainty顯著更高，而GRPO雖提升了模型自評能力，但區分度明顯低于INTUITOR。

由于受計算資源限制，實驗只在相對較小的無監督語料庫上進行訓練，未來可在更大規模的基礎模型和更多樣化的真實世界數據集上進一步研究INTUITOR的優勢。

團隊介紹

本項研究來自UC Berkeley的Sergey Levine、宋曉東團隊，作者一共有五位，分別是第一作者博士后研究員Xuandong Zhao、共同一作本科生Zhewei Kang、來自耶魯大學的Aosong Feng，以及Sergey Levine和Dawn Song。

2019年，Xuandong Zhao從浙江大學畢業后，就進入了加州大學圣塔芭芭拉分校攻讀計算機科學博士學位，期間還曾在阿里巴巴、Microsoft和Google等公司實習。

自2024年他進入UC Berkeley后，除本次的新成果外，至今一共還發表過十多篇論文，并先后被ICLR 2025、ICML 2025等接收。

另外在今年2月，Xuandong Zhao和Zhewei Kang還合作發表了一篇論文，描述了基于自我確定性的LLMs推理能力提升新策略Best-of-N，可以看作是本篇論文的一次先驗嘗試。

論文鏈接：https://arxiv.org/abs/2505.19590
代碼鏈接：https://github.com/sunblaze-ucb/Intuitor

參考鏈接：
[1]https://x.com/joshclemm/status/1927400772817285264
[2]https://x.com/xuandongzhao/status/1927270931874910259

[3]https://x.com/xuandongzhao/status/192778163679341780
[4]https://arxiv.org/abs/2502.18581

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

揭示顯式CoT訓練機制：思維鏈如何增強推理泛化能力

機器之心Pro 2025-03-12 10:44:56
2 跟貼 2
蘋果拆解AI大腦，推理模型全是「裝」的？Bengio兄弟合著

新智元 2025-06-06 13:16:46
3 跟貼 3

類R1訓練不再只看結果對錯！港中文推出SophiaVL-R1模型

機器之心Pro 2025-06-06 18:13:26
0 跟貼 0

可信大模型新挑戰：噪聲思維鏈提示下的魯棒推理，準確率直降40%

機器之心Pro 2024-12-12 20:41:08
1 跟貼 1
全球30名頂尖數學家秘密集會圍剿AI，當場破防！驚呼已接近數學天才

新智元 2025-06-07 16:04:37
97 跟貼 97

RLHF已死，RLVR引爆AGI革命！Claude 4核心成員萬字對談

新智元 2025-06-07 09:04:24
26 跟貼 26

AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
MoE推理「王炸」組合：昇騰×盤古讓推理性能狂飆6-8倍

機器之心Pro 2025-06-06 15:15:44
0 跟貼 0

創辦三年估值近百億美元，AI編程工具Cursor再獲9億美元融資

DeepTech深科技 2025-06-06 22:52:34
4 跟貼 4
算力終結者來了！華人天團「降維打擊」注意力瓶頸，AI狂飆進對數時代

新智元 2025-06-08 12:51:58
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
全球圈粉6000萬，被國內粉絲催著上線，PixVerse國內版一手實測

機器之心Pro 2025-06-08 11:21:55
0 跟貼 0
生數科技CEO駱怡航：從模型到生產，多模態AI如何推動視頻創作更高效

華爾街見聞官方 2025-06-08 12:51:16
0 跟貼 0
DeepSeek應用如何落地？解鎖性能釋放x多模態融合xRAG增強

量子位 2025-03-07 22:58:40
0 跟貼 0
DeepSeek引爆AI革命，誰能笑到最后？

量子位 2025-03-11 17:16:22
0 跟貼 0
DeepSeek開口說話了：只要15分鐘就能讓DeepSeek開口說話

量子位 2025-03-10 18:03:15
0 跟貼 0
DeepSeek應用如何落地？解鎖“性能x多模態xRAG”技術組合密碼！

量子位 2025-03-07 22:29:18
0 跟貼 0
AI轉型的認知躍遷

經濟觀察報 2025-06-08 11:39:12
0 跟貼 0
實測訊飛曉醫VS DeepSeek-R1，誰是更懂你的家庭健康助手？

量子位 2025-03-08 19:20:56
0 跟貼 0
數學老師體驗高考預估能考140 考題區分度較大，考滿分不太容易

橙薪視頻 2025-06-07 18:41:06
99 跟貼 99
被浙大提前錄??！重慶一啦啦操隊女孩驚艷亮相，網友直呼?；ㄕQ生

火山詩話 2025-06-08 14:37:06
39 跟貼 39
最社牛家長出現了：該干嘛干嘛！保持平常心，反正目標浙大！

看曉天下事 2025-06-08 10:11:51
1 跟貼 1
高考作文“抽象”沖上熱搜，ChatGPT、DeepSeek等推理大模型集體上場，實測來了！

CSDN 2025-06-07 17:57:10
3 跟貼 3
女兒高考只差浙大0.5分，父親托人查卷，卷上10字讓他淚灑當場

故事秘棧 2025-06-07 19:47:21
0 跟貼 0
公開即威懾！東方哲學的止戈智慧，苑舉正：東風-5亮劍背后的邏輯

華山論舌 2025-06-07 08:32:58
0 跟貼 0
學數學就是要靠一點點零碎的知識，不斷的積累起來

三樂大掌柜 2025-06-05 22:18:10
1 跟貼 1
河南周口，農機夫婦夜間偶遇8旬獨居老人，幫其收割麥子！

大象新聞 2025-06-08 12:21:07
63 跟貼 63
最強數學天才韋東奕，只有對數學的渴望

三烊娛樂ou 2025-06-06 18:05:43
0 跟貼 0
紐約挖烏杜卡啥邏輯？尼克斯能否把他換來？

籃視角 2025-06-06 23:41:26
9 跟貼 9
高考數學結束考生自信滿滿！這是我高三做過最簡單的數學卷子

薪點看看 2025-06-07 18:16:59
10 跟貼 10
數學考試結束，考生爭相奔出考場，有難度

國+社區 2025-06-07 21:15:45
0 跟貼 0
美國數學競賽題，因式分解的利用，可不能固定思維了

三樂大掌柜 2025-06-03 23:24:58
1 跟貼 1
高三最后一節數學課，學生們給老師出了一道題，答案是“我們永遠愛您老師”

視聽絲路 2025-06-07 16:00:24
0 跟貼 0
兩代數學老師溫馨合影，育人情懷薪火相傳

江西都市現場 2025-06-07 15:55:53
0 跟貼 0
5年級“小孩哥”在考場外寫作業，等待姐姐結束數學考試，竟提前給出作文思路“家國情懷”

河南都市頻道 2025-06-07 18:40:19
0 跟貼 0
端側模型又“瘦身成功”！220倍極限提速、8B模型超過Gemma3-12B，面壁智能甩出“性能大小王”

智東西 2025-06-07 20:59:29
1 跟貼 1
六安市數學競賽題，難度很大，除非你找到合適的方法

三樂大掌柜 2025-06-06 23:28:13
1 跟貼 1
還有人說，學好數學沒有用？

大頭是只貓 2025-06-07 16:35:02
1 跟貼 1
數學競賽題，X、y是整數，求x+y的值

三樂大掌柜 2025-06-07 23:09:43
1 跟貼 1

量子位

追蹤人工智能動態

10613文章數 176163關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

教育

藝術

房產

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

AI僅憑“自信”學會推理，浙大校友復刻DeepSeek長思維鏈涌現

“自信”驅動的強化學習

實驗結果：不僅會做題，還會舉一反三

團隊介紹

馬斯克"越紅線"，美政府急尋SpaceX替代品

24歲頻繁改名小伙參加高考 稱猜對作文題預估可得40分

24歲頻繁改名小伙參加高考 稱猜對作文題預估可得40分

冠軍高芙：只要專注自己 太陽就會照常升起

結婚15年紀念！孫儷發長文談夫妻感情

暴漲超9%！白銀狂飆，“搶奪”黃金光環！

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

熱聞|清明假期將至，熱門目的地有哪些?

2025年河南高考數學考試結束考生：發揮正常水平 不對自己要求太高

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

與亞沙共鑒，新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發

實驗結果：不僅會做題，還會舉一反三

馬斯克"越紅線"，美政府急尋SpaceX替代品

24歲頻繁改名小伙參加高考稱猜對作文題預估可得40分

24歲頻繁改名小伙參加高考稱猜對作文題預估可得40分

冠軍高芙：只要專注自己太陽就會照常升起

結婚15年紀念！孫儷發長文談夫妻感情

暴漲超9%！白銀狂飆，“搶奪”黃金光環！

復古造型樂趣依舊寶馬R12 nineT又帥又好騎

熱聞|清明假期將至，熱門目的地有哪些?

2025年河南高考數學考試結束考生：發揮正常水平不對自己要求太高

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

與亞沙共鑒，新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發