99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華團隊深度實證:RL 真能讓大模型進化嗎?能力邊界仍被基座“鎖死”!

0
分享至


大數據文摘出品

強化學習(RL)真的能讓大模型獲得超越基礎模型的新推理能力嗎?

近日,清華大學LeapLab團隊聯合上海交大,發布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文,給最近火熱的RLVR(帶可驗證獎勵的強化學習)又“潑了一盆冷水”。


論文地址:https://arxiv.org/pdf/2504.13837

論文標題翻譯過來是:強化學習(RL)真的能讓大模型獲得推理能力上的躍遷嗎?

論文結論是:RLVR提升的,其實只是采樣效率,而不是讓模型學會了真正全新的推理能力。

換句話說:RLVR只是把基礎模型本來就會的東西,采樣采得更有效率了。

這份研究直接打破了AI圈子里的“先驗知識”,大家都覺得RLVR是讓大模型變聰明的“加速器”,特別是在數學、代碼等需要推理的任務上。

比如OpenAI的o1、DeepSeek-R1、Kimi-1.5,都是靠RLVR后處理,成績一騎絕塵。 原理很簡單: 先有個基礎大模型→ 用RLVR強化一下→ 通過自動判分(比如答案對不對、代碼測不測得過)給獎勵。

理論上,它能自我提升,學到以前沒見過的新解題套路。于是, 這幾年,大家都在說,RLVR能讓大模型“自我進化”,推理能力突破天花板。

清華團隊的“靈魂拷問”:RLVR,真能越過基座嗎?

清華團隊這篇論文,直接拋出了“靈魂三問”:

  • RLVR強化訓練,究竟有沒有讓大模型獲得“超越基座模型”的全新推理能力?

  • 模型的推理邊界到底被RLVR拓寬了嗎?還是只是換了一種方式采樣?

  • 我們是否過于高估了RLVR的“自我進化”魔力?

對于上述三個問題,作者用pass@k作為研究方法的核心。因為傳統的模型評測,大多用“平均準確率”或“單次采樣成功率”來衡量模型能否解題。但作者敏銳地意識到,這種評估方式其實低估”了模型的潛力。 原因是: 有些難題,模型可能前幾次都答錯,但多采樣幾次,或許就能“撞”出正確答案。

于是,論文采用了 pass@k 這個指標: 對于每道題,采樣k次,只要有一次答對,就算成功。 k越大,越能“榨干”模型內在的推理極限。

核心邏輯是:如果RLVR真能帶來新能力,那在k再大時,它也應該比基座模型更能解出難題。

實驗結果有點顛覆大家認知——

RLVR訓練的模型,在k小的時候表現更好,但k大了以后,基礎模型能超過它!

也就是: RLVR訓練讓模型更高效采樣出正確答案,但沒有帶來全新的推理能力,能力邊界始終被基座模型“鎖死”。

案例1:數學推理

以AIME24數學競賽題為例,RLVR模型一開始比基座模型高出30%的準確率,但多采樣后,基座模型最終能解出更多題目,RLVR的“能力天花板”反而更低。



案例2:代碼生成

在LiveCodeBench等編程基準上,RLVR模型單采樣表現亮眼,但當k采樣數提升到128時,基座模型解題覆蓋率反超RLVR。



案例3:視覺推理

多模態視覺推理同樣復現上述現象——RLVR提升了采樣效率,卻沒讓模型產生全新的多模態推理路徑。


RLVR的“聰明”,其實是把基礎模型會的東西,輸出概率調高了,真正的新推理路徑?并沒有,基礎模型多采樣就能覆蓋所有RLVR模型能做的題

甚至,RLVR還收窄了模型的探索能力——它會更集中在“能得分的套路”上,但反而失去一些“歪打正著”的能力,導致極限覆蓋沒基礎模型廣。

無論是代碼生成(LiveCodeBench、HumanEval+),還是視覺推理(MathVista、MathVision),趨勢都是一樣:RLVR提升了單次成功率,但大采樣下基礎模型能覆蓋更多難題。

為什么會這樣?

清華的這篇論文認為有兩點原因:

一是大模型的“先驗”太強了。RLVR本質上是在基礎模型原有輸出分布里找高分的“套路”,不走新路;RL算法本身不適合探索超大動作空間(語言的組合爆炸),靠獎勵信號很難跳出原有思路。

二是探索能力反而被抑制。RLVR讓模型更“穩”,但也更“保守”,輸出熵降低,探索新解法的能力變弱。

RLVR在大模型推理這件事上,和AlphaGo那種“純RL自我進化”完全不是一回事。大模型的RLVR只是“采樣分布微調”,不是“能力進化”。

怎么解決?

論文做了一個實驗,把更強的模型的推理鏈條喂給小模型,小模型能真的學到新花樣,推理上限突破原有格局。

所以,如果真想讓模型能力更進一步,靠RLVR遠遠不夠,得靠知識蒸餾“老師帶學生”那一套。

即“讓模型變聰明”的關鍵,或許在于“注入新知識”(如蒸餾),而不是單純靠獎勵強化。

或者探索“更強的探索范式”,比如結合RL和生成式探索、提升模型對“低概率創新路徑”的容忍度等。

圖源:清華大學LeapLab實驗室官網

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
騎行健身?別再“假裝”鍛煉了!

騎行健身?別再“假裝”鍛煉了!

騎行村
2025-05-01 12:02:39
邱麗蘇查出腦瘤,臨終求見薛曉舟慘被拒,丁致遠怒吼她是你親媽

邱麗蘇查出腦瘤,臨終求見薛曉舟慘被拒,丁致遠怒吼她是你親媽

小邵說劇
2025-04-30 21:12:31
道歉風波2天后,曾黎首現身,翻白眼的她把沒教養體現的淋漓盡致

道歉風波2天后,曾黎首現身,翻白眼的她把沒教養體現的淋漓盡致

玫瑰講娛
2025-05-01 17:45:23
為什么打麻將的人越來越少?四個原因點出其中問題!

為什么打麻將的人越來越少?四個原因點出其中問題!

平說財經
2025-04-29 20:56:13
三版武松扮演者,哪一個最具男子漢氣概?

三版武松扮演者,哪一個最具男子漢氣概?

小李大俠
2025-05-01 13:33:17
美國航天服造價5億美元能用15年,中國航天服3000萬,能用多久?

美國航天服造價5億美元能用15年,中國航天服3000萬,能用多久?

容景談
2025-04-30 18:46:02
百萬大V醫生力挺董某,稱其能力沒問題,網友:讓她給你做手術

百萬大V醫生力挺董某,稱其能力沒問題,網友:讓她給你做手術

蜜桔娛樂
2025-04-29 16:37:19
巴基斯坦掛出免戰牌,印度專家:不是不想打,是打不起

巴基斯坦掛出免戰牌,印度專家:不是不想打,是打不起

今日小推
2025-04-29 13:10:26
錫伯杜的風格!尼克斯替補僅得6分仍贏球 活塞替補31分

錫伯杜的風格!尼克斯替補僅得6分仍贏球 活塞替補31分

直播吧
2025-05-02 10:58:14
師徒之戰!趙心童此前和奧沙利文交手2次,獲勝的都是奧沙利文

師徒之戰!趙心童此前和奧沙利文交手2次,獲勝的都是奧沙利文

直播吧
2025-05-01 18:52:06
震驚!曝董襲瑩竟為膀胱癌指南第一作者!沒有臨床經驗怎么指導?

震驚!曝董襲瑩竟為膀胱癌指南第一作者!沒有臨床經驗怎么指導?

小人物看盡人間百態
2025-04-30 10:16:57
在孩子心里,親人的“排序”是這樣的,和誰帶娃無關

在孩子心里,親人的“排序”是這樣的,和誰帶娃無關

C媽學堂
2025-04-29 14:11:21
女子為蹭高速免費,提前15天上高速,已行駛3000公里,網友吵翻了

女子為蹭高速免費,提前15天上高速,已行駛3000公里,網友吵翻了

毒舌說歷史1
2025-05-01 16:35:09
曾凡博母親:他說“如果是總決賽,我還要打”,想幫球隊奪冠

曾凡博母親:他說“如果是總決賽,我還要打”,想幫球隊奪冠

懂球帝
2025-05-01 15:29:19
女子每次回婆家都丟首飾,今年她直接戴假金鐲,成功揪出“黑手”

女子每次回婆家都丟首飾,今年她直接戴假金鐲,成功揪出“黑手”

林林故事揭秘
2025-04-30 13:42:39
土媒:曼城有意簽下薩拉,加拉塔薩雷希望費用打破轉會紀錄

土媒:曼城有意簽下薩拉,加拉塔薩雷希望費用打破轉會紀錄

懂球帝
2025-05-02 10:48:10
廣東令人意外的無人村,環境優美現代豪華,為何被廢原因有些蹊蹺

廣東令人意外的無人村,環境優美現代豪華,為何被廢原因有些蹊蹺

旅游探秘行者
2025-05-01 23:54:50
董襲瑩讓北京科大深受其害,北京科大默默關閉評論區

董襲瑩讓北京科大深受其害,北京科大默默關閉評論區

微光年
2025-05-02 07:47:07
美烏礦產協議“靴子”落地:烏克蘭真能“松一口氣”?

美烏礦產協議“靴子”落地:烏克蘭真能“松一口氣”?

上觀新聞
2025-05-01 19:29:13
肖飛的驚天計劃

肖飛的驚天計劃

量子派
2025-04-30 13:20:23
2025-05-02 11:23:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6610文章數 94407關注度
往期回顧 全部

科技要聞

在華不及預期!蘋果稱關稅將增9億美元成本

頭條要聞

山姆員工疑代搶大疆"pocket3" 顧客求真相被踢出群

頭條要聞

山姆員工疑代搶大疆"pocket3" 顧客求真相被踢出群

體育要聞

為了湖人的28號秀,森林狼差點沒換來戈貝爾

娛樂要聞

霍啟剛郭晶晶夫婦現身馬麗新片首映

財經要聞

黃仁勛在美國又穿西裝表態,怎么看?

汽車要聞

預售32.98萬起 魏牌高山家族將于5月13日上市

態度原創

健康
教育
手機
數碼
時尚

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

中國乘法VS日本乘法,你更喜歡哪種算法呢?漲知識了

手機要聞

小米手機五一8折換電池:79.2元起 覆蓋37款機型

數碼要聞

StikDebug 突破限制,讓iPhone/iPad可模擬 GameCube 和 Wii 游戲

今年夏天一定要擁有這5件衣服,減齡又好看!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 清徐县| 明溪县| 德江县| 巩义市| 花垣县| 金平| 象州县| 余庆县| 蒙自县| 德化县| 平江县| 芷江| 鄂托克前旗| 洪雅县| 衡水市| 宿迁市| 吴江市| 新余市| 潍坊市| 吐鲁番市| 兴宁市| 微博| 信丰县| 南安市| 延寿县| 成安县| 波密县| 宜阳县| 长宁区| 乌兰县| 长宁县| 乌兰察布市| 交口县| 江口县| 虹口区| 陆河县| 旬邑县| 商丘市| 健康| 桂平市| 洛阳市|