夢晨 鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
復(fù)刻DeepSeek-R1的長思維鏈推理,大模型強化學(xué)習(xí)新范式RLIF成熱門話題。
UC Berkeley團隊共同一作Xuandong Zhao把這項成果稱為:
大模型無需接觸真實答案,僅通過優(yōu)化自己的信心,就能學(xué)會復(fù)雜推理。
具體來說,新方法完全不需要外部獎勵信號或標注數(shù)據(jù),只需使用模型自身的置信程度作為內(nèi)在獎勵信號。
與使用外部獎勵信號GRPO相比,新方法在數(shù)學(xué)任務(wù)上不需要標準答案也能提升基礎(chǔ)模型性能,在代碼任務(wù)上表現(xiàn)得更好。
幾乎同一時間,另外一篇論文《RENT: Reinforcement Learning via Entropy Minimization》也驗證了相似的結(jié)論。
作者表示兩者的主要區(qū)別在于使用KL散度和最小化熵衡量自信程度。
Dropbox工程副總裁看后表示:Confidence is all you need。
“自信”驅(qū)動的強化學(xué)習(xí)
長期以來,訓(xùn)練大模型主要依賴兩種方式:
要么需要大量人工標注(如ChatGPT的RLHF),要么需要可驗證的標準答案(如DeepSeek的RLVR)。
前者成本高昂且可能引入偏見,后者則局限于數(shù)學(xué)、編程等有明確答案的領(lǐng)域。
那么當(dāng)AI能力逐漸接近甚至超越人類時,能否讓模型僅憑自身產(chǎn)生的內(nèi)在信號,擺脫對外部監(jiān)督的依賴?
針對這個問題,UC Berkeley團隊提出新訓(xùn)練方法Intuitor,計算模型預(yù)測分布與均勻分布之間的KL散度作為“自信程度”。
相當(dāng)于人類做題時,如果對答案有把握思路也會更清晰,當(dāng)自信不足的時候往往需要重新思考。
通過優(yōu)化這個內(nèi)在信號,INTUITOR鼓勵模型生成它自己”更有把握”的回答,也能促使模型生成更結(jié)構(gòu)化的推理過程。
在實驗中,1.5B和3B的小模型也涌現(xiàn)出與DeepSeek-R1類似的長思維鏈推理行為。
論文還指出,內(nèi)在獎勵信號還獲得一個額外的好處:從機制上降低了“獎勵黑客”的風(fēng)險。
傳統(tǒng)外部獎勵信號的強化學(xué)習(xí)容易被“鉆空子”,如模型可能生成語法正確但邏輯錯誤的代碼來匹配測試用例,或在數(shù)學(xué)題中直接背答案而非推理。
在INTUITOR中,團隊發(fā)現(xiàn)如果使用離線學(xué)習(xí),在訓(xùn)練約100步的時候模型也學(xué)會了作弊:在回答中附加一個已經(jīng)解決的簡單問題來提高自信度分數(shù)。
但使用在線學(xué)習(xí)就可以避免這個問題,評估標準隨著模型能力一起進化,作弊策略變得無效。
實驗結(jié)果:不僅會做題,還會舉一反三
團隊首先實證研究了INTUITOR框架對LLMs數(shù)學(xué)推理能力的提升。
實驗選取Qwen2.5-1.5B/3B作為基礎(chǔ)模型,使用自我確定度作為唯一的獎勵信號,并將其分別置于INTUITOR和兩個基線方法(GRPO、GRPO-PV)在MATH數(shù)據(jù)集的預(yù)訓(xùn)練中。
使用對話提示,每次處理128道題目并各生成7個候選解決方案,KL懲罰系數(shù)設(shè)置為0.005。
在數(shù)學(xué)推理、代碼生成、指令遵循的基準測試中進行性能評估,結(jié)果如圖所示:
實驗表明,在通過INTUITOR進行微調(diào)后,Qwen2.5-1.5B從最初只會輸出重復(fù)的無意義內(nèi)容且對話任務(wù)得分均低于10%,轉(zhuǎn)變?yōu)闊o效輸出大幅減少、響應(yīng)長度有效增加。
在結(jié)構(gòu)化推理能力上,團隊還發(fā)現(xiàn)INTUITOR早期學(xué)習(xí)速度更快,如Qwen2.5-3B在GSM8K基準測試上INTUITOR(0.811)始終優(yōu)于GRPO(0.758)。
此外,INTUITOR在多任務(wù)泛化上也表現(xiàn)優(yōu)秀,例如當(dāng)Qwen2.5-3B在代碼生成任務(wù)上,雖然相對滯后但持續(xù)增長,最終性能比GRPO高8%,相對提升65%。
同時團隊還觀察到,在進行長鏈推理時,INTUITOR模型在生成完整代碼前,都會添加自然語言推理(如“為解決X問題,需先執(zhí)行Y步驟”),據(jù)推測也許這就是INTUITOR能夠在測試中始終表現(xiàn)出色的原因之一。
它的演進過程大概可以描述為三個階段:
- 模型學(xué)會生成代碼,實現(xiàn)準確率提升和無效響應(yīng)減少。
- 進行代碼前推理以促進自我理解。
- 逐步細化生成帶詳細推理的有效代碼。
為了評估自我確定度作為獎勵的魯棒性,研究人員還將離線自我確定度(來自固定基礎(chǔ)模型的獎勵)與在線自我確定度(來自不斷進化的策略模型的獎勵)進行了比較。
另外為進一步評估自我確定度作為獎勵信號的質(zhì)量,研究人員還分析了模型在MATH500響應(yīng)中生成的自我確定度分數(shù)分布。
值得注意的是,INTUITOR模型對正確答案的self-certainty顯著更高,而GRPO雖提升了模型自評能力,但區(qū)分度明顯低于INTUITOR。
由于受計算資源限制,實驗只在相對較小的無監(jiān)督語料庫上進行訓(xùn)練,未來可在更大規(guī)模的基礎(chǔ)模型和更多樣化的真實世界數(shù)據(jù)集上進一步研究INTUITOR的優(yōu)勢。
團隊介紹
本項研究來自UC Berkeley的Sergey Levine、宋曉東團隊,作者一共有五位,分別是第一作者博士后研究員Xuandong Zhao、共同一作本科生Zhewei Kang、來自耶魯大學(xué)的Aosong Feng,以及Sergey Levine和Dawn Song。
2019年,Xuandong Zhao從浙江大學(xué)畢業(yè)后,就進入了加州大學(xué)圣塔芭芭拉分校攻讀計算機科學(xué)博士學(xué)位,期間還曾在阿里巴巴、Microsoft和Google等公司實習(xí)。
自2024年他進入UC Berkeley后,除本次的新成果外,至今一共還發(fā)表過十多篇論文,并先后被ICLR 2025、ICML 2025等接收。
另外在今年2月,Xuandong Zhao和Zhewei Kang還合作發(fā)表了一篇論文,描述了基于自我確定性的LLMs推理能力提升新策略Best-of-N,可以看作是本篇論文的一次先驗嘗試。
論文鏈接:https://arxiv.org/abs/2505.19590
代碼鏈接:https://github.com/sunblaze-ucb/Intuitor
參考鏈接:
[1]https://x.com/joshclemm/status/1927400772817285264
[2]https://x.com/xuandongzhao/status/1927270931874910259
[3]https://x.com/xuandongzhao/status/192778163679341780
[4]https://arxiv.org/abs/2502.18581
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.