網易首頁 > 網易號 > 正文申請入駐

UCB提出無需外部獎勵的強化學習方法，只靠自信就能學習復雜推理

2025-05-28 19:53:40　來源: DeepTech深科技

北京舉報

分享至

最近幾個月來，可驗證獎勵強化學習（RLVR，Reinforcement Learning with Verifiable Rewards）愈發受到學界關注。相比起傳統的基于人類反饋的強化學習（RLHF，Reinforcement Learning from Human Feedback,）帶來的高昂成本和人類偏見，RLVR 通過引入可自動驗證的獎勵信號（如數學問題的標準答案、代碼測試用例的通過情況）在一定程度上降低了對人工標注的依賴，但是，其應用范圍又受限于那些能夠提供清晰、可驗證獎勵的特定領域，因此限制了模型在更廣泛、更開放場景中的應用。

近日，來自美國加州大學伯克利分校（UCB，University of California，Berkeley）的一支研究團隊給這個問題帶來了新的解法，他們提出了一種名為 INTUITOR 的方法，使大模型能夠僅憑其“內在信心”進行學習和推理，無需外部獎勵或真值答案的指引。相關論文以《無需外部獎勵的學習推理》（Learning to Reason without External Rewards）為題發表在預印本網站arXiv上，迅速引發了廣泛關注。

圖丨相關論文（來源：arXiv）

掙脫外部獎勵的枷鎖——RLIF 與 INTUITOR 的誕生

我們知道，盡管 RLHF 在提升模型表現方面卓有成效，但由于它需要大量的人工標注，就導致其成本高昂且可能引入偏見。最近這段時間以來，研究者們轉向了基于可驗證獎勵的強化學習，這種方法在數學問題解決和代碼生成等任務中，使用可自動驗證的信號（如精確答案匹配）作為獎勵。RLVR 避免了學習獎勵模型的復雜性，并在 DeepSeek-R1 等模型上展現了強大的推理能力。

然而，RLVR 同樣也有一定的局限，它需要領域特定的驗證器和“黃金標準”解決方案，例如數學問題需要專家標注答案，代碼生成則需要全面的測試用例和執行環境。這些要求將 RLVR 的應用限制在精心策劃的領域內，并且其以結果為導向的獎勵機制也限制了模型向其他領域的遷移能力。

那么，有沒有可能大模型在沒有外部驗證器或領域特定真值的情況下，僅僅依靠其內在信號來提升推理能力呢？

正是基于這一問題，UCB 的研究團隊提出了“基于內部反饋的強化學習”（RLIF，Reinforcement Learning from Internal Feedback）這一全新框架。RLIF 的核心思想是，模型可以通過優化其自身產生的內在信號來提升性能，而無需依賴外部獎勵或監督信息。這為模型在未來可能發展出超越人類評估能力的場景提供了自洽的改進機制。

在 RLIF 框架下，團隊進一步提出了具體的實現方法——INTUITOR。INTUITOR 巧妙地將模型自身的“信心”（confidence），更準確地說是“自我確定性”（self-certainty），作為唯一的獎勵信號。這一想法源于一個直觀的觀察：無論是人類還是大模型，在面對難題或缺乏相關知識時，通常會表現出較低的信心；反之，當其對某個答案或推理過程更有把握時，信心水平會更高，并且這種高信心往往與正確性相關聯。

那么，如何量化模型的“自我確定性”呢？研究團隊借鑒了他們在 2025 年 2 月發表的另一篇重要工作《通過自我確定性為大型語言模型提供可擴展的 N 次最佳選擇》（Scalable Best-of-N Selection for Large Language Models via Self-Certainty）。在該工作中，他們提出使用模型輸出 Token 的概率分布與均勻分布之間的平均 KL 散度（Kullback-Leibler divergence）來度量自我確定性。

圖丨相關論文（來源：arXiv）

簡單來說，如果模型對其預測的下一個 Token 非常確定（即概率高度集中在少數幾個 Token 上），那么其輸出分布會遠離均勻分布，KL 散度值會較大，代表自我確定性高。這種度量方式被證明在從多個候選答案中挑選高質量答案時非常有效，并且相比于困惑度（perplexity）或熵（entropy）等其他啟發式方法，更不容易受到輸出長度等因素的干擾，也更能隨著候選答案數量的增加而提升其效用。

INTUITOR 將這種自我確定性評分直接作為強化學習過程中的獎勵信號，并結合了現有成熟的強化學習算法，如“組相對策略優化”（Group Relative Policy Optimization, GRPO），來指導模型的策略更新。在 GRPO 算法中，通常需要外部獎勵來評估一組候選輸出的優劣；而在 INTUITOR 中，外部獎勵被完全替換為模型自身計算出的自我確定性分數。通過這種方式，模型被激勵去生成那些能讓自己“更自信”的輸出序列，從而在沒有外部監督的情況下實現學習和推理能力的提升。

“自信”就能學會復雜推理

為了驗證 INTUITOR 的有效性，研究團隊進行了一系列實驗。他們使用 Qwen2.5-1.5B 和 Qwen2.5-3B 作為基礎模型，在 MATH 數據集上進行訓練。實驗結果發現，在領域內的數學基準測試（如 GSM8K 和 MATH500）中，INTUITOR 的表現與使用外部獎勵的 GRPO 相當，甚至在某些情況下（如使用 Qwen2.5-3B 模型），INTUITOR 在 GSM8K 上的準確率達到了 79.2%，略低于 GRPO 的 82.6%，但在 MATH500 上達到了 61.2%，也略低于 GRPO 的 63.6%。

（來源：arXiv）

研究團隊還對比了一種稱為 GRPO-PV 的變體方法，該方法使用多數投票（plurality voting）作為一種弱監督信號，模擬了不依賴真值答案的場景。結果顯示，INTUITOR 的表現與 GRPO-PV 相當，進一步證明了其在無監督環境下的學習能力。

INTUITOR 最大的優勢在于其跨任務泛化能力。當將在 MATH 數據集上訓練的 Qwen2.5-3B 模型應用于代碼生成任務 LiveCodeBench 時，INTUITOR 展現出了高達 65% 的相對性能提升；而在 CRUXEval-O 代碼任務上，INTUITOR 也取得了 76% 的增益，顯著優于僅獲得 44% 增益的 GRPO 方法，后者在代碼生成任務上甚至沒有表現出明顯提升。這或許表明，通過優化內在的自我確定性信號，模型不僅能在訓練領域內取得進步，還能將學到的“元認知”能力遷移到全新的、結構迥異的任務上。

（來源：arXiv）

除了在具體任務上的性能提升，研究還揭示了 INTUITOR 對模型行為的一些深層影響。例如，INTUITOR 能夠顯著提升模型的指令遵循能力，在 AlpacaEval 這類評估指令遵循度的基準上取得了比 GRPO 更好的成績。這意味著模型不僅學會了如何“自信地”解決問題，還學會了如何更好地理解和執行指令。

更有意思的是，研究團隊觀察到，經過 INTUITOR 訓練的模型，即使在沒有明確要求的情況下，也會自發地生成更長的、更具結構化的推理鏈條。例如，在處理 CRUXEval-O 任務時，模型會先進行一番自然語言形式的“自由思考”，然后才將最終答案組織成指令所要求的 JSON 格式。

在代碼生成任務中，也觀察到了類似的“代碼前自然語言推理”現象。這種行為表明，為了提升自身的“確定感”，模型傾向于將復雜問題分解，并進行更詳盡的思考，這恰恰是復雜推理能力的重要體現。此外，INTUITOR 訓練的模型在學習初期就展現出比 GRPO 更快的學習速度，這可能得益于自我確定性這種連續且過程感知的內在獎勵信號，它能引導模型探索更有效的學習軌跡。

另一個重要的發現是，INTUITOR 所采用的在線自我確定性機制（即獎勵信號隨著模型策略的進化而動態調整）能夠有效防止“獎勵利用”（reward hacking）問題。在強化學習中，如果獎勵模型是靜態的，策略模型很容易找到獎勵模型的漏洞，并生成一些表面上得分很高但實際質量很差的輸出。實驗對比顯示，如果使用一個固定的（離線的）自我確定性打分器，模型很快就會學會通過生成冗余內容等方式來“欺騙”打分器，導致性能崩潰。而 INTUITOR 的在線機制則避免了這一問題，保證了訓練的穩定性和魯棒性。

邁向更自主的 AI

論文作者之一、UCB 博士后研究員 Xuandong Zhao 在其社交媒體上分享了這項研究的歷程。

Zhao 在其推文中提到，這項研究的種子始于去年秋天，當時本科生 Zhewei Kang 主動聯系他希望合作開展研究。他們從兩個關鍵觀察出發：一是在考試中，人們對自己有信心的題目往往回答得更準確；二是大模型是否也能展現出這種“信心約等于正確性”的模式？這啟發了他們對“自我確定性”這一概念的探索。

圖丨相關推文（來源：X）

他們發現，現有的啟發式方法如熵和困惑度在衡量模型信心方面存在輸出長度敏感、存在偏見以及隨樣本量增加擴展性差等問題。于是，他們提出了一個關鍵洞見：衡量每個 Token 的輸出分布與均勻分布的距離，即前述的 KL 散度，這構成了“自我確定性”度量的基礎，并催生了他們 2 月份關于“通過自我確定性實現可擴展的 Best-of-N 選擇”的論文。INTUITOR 正是這一系列研究思路的自然延伸和深化，將自我確定性從答案選擇標準提升為驅動整個強化學習過程的內在獎勵。

如果這一方法確實有效，它或將為訓練更自主、更通用的 AI 系統提供一條極具潛力的新路徑。通過擺脫對外部獎勵和人類監督的強依賴，INTUITOR 有望大幅降低訓練成本，并使 AI 能夠在缺乏先驗知識或難以獲得反饋的新領域中進行探索和學習。有網友就評論道：“如果這行得通，我們將在其他領域看到與編程和數學中相同類型的進步。”

圖丨相關評論（來源：X）

其次，INTUITOR 的成功表明，預訓練的大模型可能擁有比我們先前認知中更為豐富的隱性行為先驗。這些先驗知識和能力可以通過恰當的內在激勵機制被“解鎖”和“塑造”，從而展現出驚人的推理和泛化能力。

再者，該研究提出的 RLIF 框架和自我確定性作為內在獎勵的思路，也可能對于未來構建能夠進行自我改進、甚至可能超越人類能力的 AI 系統具有重要啟示。當 AI 系統發展到其能力邊界超出人類評估范圍時，基于內在一致性和自我確定性的學習機制將變得至關重要。

不過，目前的實驗主要集中在相對較小的模型和數據集上，未來需要將 INTUITOR 擴展到更大規模的基礎模型和更多樣化的真實世界數據上進行驗證。例如，有研究者擔心“獎勵利用”和“模型崩潰”或許會在更大規模模型上可能成為潛在的障礙。

圖丨相關評論（來源：X）

事實上，團隊在研究中就發現了將 INTUITOR 擴展到更大模型（Qwen2.5-7B 和 Qwen2.5-14B）時會遇到新的問題。他們提到，最初的訓練方案在較大模型上會引發嚴重的行為崩潰。通過簡化系統提示、調整學習率和增加采樣響應數量等方式，學習過程方得到了初步的穩定（團隊強調這些設置是“首次的、未經調整的嘗試”，而非全面的超參數優化）。

但如果為了防止更大模型的獎勵利用，最終仍需依賴帶有真值驗證的復雜超參數調整，那么 INTUITOR 方法在“無需外部獎勵”方面的核心優勢就可能會被削弱。

因此，如何在擴展到更大模型時，繼續保持這種內在獎勵機制的有效性和免監督特性，將是未來研究中一個值得關注的重要方向。

參考資料：

1.https://www.arxiv.org/pdf/2505.19590

2.https://x.com/xuandongzhao/status/1927270931874910259

3.https://arxiv.org/pdf/2502.18581

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.