網易首頁 > 網易號 > 正文申請入駐

清華團隊深度實證：RL 真能讓大模型進化嗎？能力邊界仍被基座“鎖死”！

2025-04-23 12:09:21　來源: 大數據文摘

北京舉報

分享至

大數據文摘出品

強化學習（RL）真的能讓大模型獲得超越基礎模型的新推理能力嗎？

近日，清華大學LeapLab團隊聯合上海交大，發布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文，給最近火熱的RLVR（帶可驗證獎勵的強化學習）又“潑了一盆冷水”。

論文地址：https://arxiv.org/pdf/2504.13837

論文標題翻譯過來是：強化學習（RL）真的能讓大模型獲得推理能力上的躍遷嗎？

論文結論是：RLVR提升的，其實只是采樣效率，而不是讓模型學會了真正全新的推理能力。

換句話說：RLVR只是把基礎模型本來就會的東西，采樣采得更有效率了。

這份研究直接打破了AI圈子里的“先驗知識”，大家都覺得RLVR是讓大模型變聰明的“加速器”，特別是在數學、代碼等需要推理的任務上。

比如OpenAI的o1、DeepSeek-R1、Kimi-1.5，都是靠RLVR后處理，成績一騎絕塵。原理很簡單：先有個基礎大模型→ 用RLVR強化一下→ 通過自動判分（比如答案對不對、代碼測不測得過）給獎勵。

理論上，它能自我提升，學到以前沒見過的新解題套路。于是，這幾年，大家都在說，RLVR能讓大模型“自我進化”，推理能力突破天花板。

清華團隊的“靈魂拷問”：RLVR，真能越過基座嗎？

清華團隊這篇論文，直接拋出了“靈魂三問”：

RLVR強化訓練，究竟有沒有讓大模型獲得“超越基座模型”的全新推理能力？
模型的推理邊界到底被RLVR拓寬了嗎？還是只是換了一種方式采樣？
我們是否過于高估了RLVR的“自我進化”魔力？

對于上述三個問題，作者用pass@k作為研究方法的核心。因為傳統的模型評測，大多用“平均準確率”或“單次采樣成功率”來衡量模型能否解題。但作者敏銳地意識到，這種評估方式其實低估”了模型的潛力。原因是：有些難題，模型可能前幾次都答錯，但多采樣幾次，或許就能“撞”出正確答案。

于是，論文采用了 pass@k 這個指標：對于每道題，采樣k次，只要有一次答對，就算成功。 k越大，越能“榨干”模型內在的推理極限。

核心邏輯是：如果RLVR真能帶來新能力，那在k再大時，它也應該比基座模型更能解出難題。

實驗結果有點顛覆大家認知——

RLVR訓練的模型，在k小的時候表現更好，但k大了以后，基礎模型能超過它！

也就是： RLVR訓練讓模型更高效采樣出正確答案，但沒有帶來全新的推理能力，能力邊界始終被基座模型“鎖死”。

案例1：數學推理

以AIME24數學競賽題為例，RLVR模型一開始比基座模型高出30%的準確率，但多采樣后，基座模型最終能解出更多題目，RLVR的“能力天花板”反而更低。

案例2：代碼生成

在LiveCodeBench等編程基準上，RLVR模型單采樣表現亮眼，但當k采樣數提升到128時，基座模型解題覆蓋率反超RLVR。

案例3：視覺推理

多模態視覺推理同樣復現上述現象——RLVR提升了采樣效率，卻沒讓模型產生全新的多模態推理路徑。

RLVR的“聰明”，其實是把基礎模型會的東西，輸出概率調高了，真正的新推理路徑？并沒有，基礎模型多采樣就能覆蓋所有RLVR模型能做的題

甚至，RLVR還收窄了模型的探索能力——它會更集中在“能得分的套路”上，但反而失去一些“歪打正著”的能力，導致極限覆蓋沒基礎模型廣。

無論是代碼生成（LiveCodeBench、HumanEval+），還是視覺推理（MathVista、MathVision），趨勢都是一樣：RLVR提升了單次成功率，但大采樣下基礎模型能覆蓋更多難題。

為什么會這樣？

清華的這篇論文認為有兩點原因：

一是大模型的“先驗”太強了。RLVR本質上是在基礎模型原有輸出分布里找高分的“套路”，不走新路；RL算法本身不適合探索超大動作空間（語言的組合爆炸），靠獎勵信號很難跳出原有思路。

二是探索能力反而被抑制。RLVR讓模型更“穩”，但也更“保守”，輸出熵降低，探索新解法的能力變弱。

RLVR在大模型推理這件事上，和AlphaGo那種“純RL自我進化”完全不是一回事。大模型的RLVR只是“采樣分布微調”，不是“能力進化”。

怎么解決？

論文做了一個實驗，把更強的模型的推理鏈條喂給小模型，小模型能真的學到新花樣，推理上限突破原有格局。

所以，如果真想讓模型能力更進一步，靠RLVR遠遠不夠，得靠知識蒸餾“老師帶學生”那一套。

即“讓模型變聰明”的關鍵，或許在于“注入新知識”（如蒸餾），而不是單純靠獎勵強化。

或者探索“更強的探索范式”，比如結合RL和生成式探索、提升模型對“低概率創新路徑”的容忍度等。

圖源：清華大學LeapLab實驗室官網

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級計費，平均節省開支30%以上！

掃碼了解詳情?

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.