大數據文摘出品
強化學習(RL)真的能讓大模型獲得超越基礎模型的新推理能力嗎?
近日,清華大學LeapLab團隊聯合上海交大,發布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文,給最近火熱的RLVR(帶可驗證獎勵的強化學習)又“潑了一盆冷水”。
論文地址:https://arxiv.org/pdf/2504.13837
論文標題翻譯過來是:強化學習(RL)真的能讓大模型獲得推理能力上的躍遷嗎?
論文結論是:RLVR提升的,其實只是采樣效率,而不是讓模型學會了真正全新的推理能力。
換句話說:RLVR只是把基礎模型本來就會的東西,采樣采得更有效率了。
這份研究直接打破了AI圈子里的“先驗知識”,大家都覺得RLVR是讓大模型變聰明的“加速器”,特別是在數學、代碼等需要推理的任務上。
比如OpenAI的o1、DeepSeek-R1、Kimi-1.5,都是靠RLVR后處理,成績一騎絕塵。 原理很簡單: 先有個基礎大模型→ 用RLVR強化一下→ 通過自動判分(比如答案對不對、代碼測不測得過)給獎勵。
理論上,它能自我提升,學到以前沒見過的新解題套路。于是, 這幾年,大家都在說,RLVR能讓大模型“自我進化”,推理能力突破天花板。
清華團隊的“靈魂拷問”:RLVR,真能越過基座嗎?
清華團隊這篇論文,直接拋出了“靈魂三問”:
RLVR強化訓練,究竟有沒有讓大模型獲得“超越基座模型”的全新推理能力?
模型的推理邊界到底被RLVR拓寬了嗎?還是只是換了一種方式采樣?
我們是否過于高估了RLVR的“自我進化”魔力?
對于上述三個問題,作者用pass@k作為研究方法的核心。因為傳統的模型評測,大多用“平均準確率”或“單次采樣成功率”來衡量模型能否解題。但作者敏銳地意識到,這種評估方式其實低估”了模型的潛力。 原因是: 有些難題,模型可能前幾次都答錯,但多采樣幾次,或許就能“撞”出正確答案。
于是,論文采用了 pass@k 這個指標: 對于每道題,采樣k次,只要有一次答對,就算成功。 k越大,越能“榨干”模型內在的推理極限。
核心邏輯是:如果RLVR真能帶來新能力,那在k再大時,它也應該比基座模型更能解出難題。
實驗結果有點顛覆大家認知——
RLVR訓練的模型,在k小的時候表現更好,但k大了以后,基礎模型能超過它!
也就是: RLVR訓練讓模型更高效采樣出正確答案,但沒有帶來全新的推理能力,能力邊界始終被基座模型“鎖死”。
案例1:數學推理
以AIME24數學競賽題為例,RLVR模型一開始比基座模型高出30%的準確率,但多采樣后,基座模型最終能解出更多題目,RLVR的“能力天花板”反而更低。
案例2:代碼生成
在LiveCodeBench等編程基準上,RLVR模型單采樣表現亮眼,但當k采樣數提升到128時,基座模型解題覆蓋率反超RLVR。
案例3:視覺推理
多模態視覺推理同樣復現上述現象——RLVR提升了采樣效率,卻沒讓模型產生全新的多模態推理路徑。
RLVR的“聰明”,其實是把基礎模型會的東西,輸出概率調高了,真正的新推理路徑?并沒有,基礎模型多采樣就能覆蓋所有RLVR模型能做的題
甚至,RLVR還收窄了模型的探索能力——它會更集中在“能得分的套路”上,但反而失去一些“歪打正著”的能力,導致極限覆蓋沒基礎模型廣。
無論是代碼生成(LiveCodeBench、HumanEval+),還是視覺推理(MathVista、MathVision),趨勢都是一樣:RLVR提升了單次成功率,但大采樣下基礎模型能覆蓋更多難題。
為什么會這樣?
清華的這篇論文認為有兩點原因:
一是大模型的“先驗”太強了。RLVR本質上是在基礎模型原有輸出分布里找高分的“套路”,不走新路;RL算法本身不適合探索超大動作空間(語言的組合爆炸),靠獎勵信號很難跳出原有思路。
二是探索能力反而被抑制。RLVR讓模型更“穩”,但也更“保守”,輸出熵降低,探索新解法的能力變弱。
RLVR在大模型推理這件事上,和AlphaGo那種“純RL自我進化”完全不是一回事。大模型的RLVR只是“采樣分布微調”,不是“能力進化”。
怎么解決?
論文做了一個實驗,把更強的模型的推理鏈條喂給小模型,小模型能真的學到新花樣,推理上限突破原有格局。
所以,如果真想讓模型能力更進一步,靠RLVR遠遠不夠,得靠知識蒸餾“老師帶學生”那一套。
即“讓模型變聰明”的關鍵,或許在于“注入新知識”(如蒸餾),而不是單純靠獎勵強化。
或者探索“更強的探索范式”,比如結合RL和生成式探索、提升模型對“低概率創新路徑”的容忍度等。
圖源:清華大學LeapLab實驗室官網
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.