99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

獎勵是假的,能讓Qwen提升25%性能卻是真的!

0
分享至

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

即使RLVR(可驗證獎勵強化學習)使用錯誤的獎勵信號,Qwen性能也能得到顯著提升?

甚至還和真實獎勵相差無幾。



自從RLVR被DeepSeek-R1帶火,RL推理研究層出不窮,走進了蜜月期。

這不,來自華盛頓大學的一群博士生來火上澆油了——

使用Qwen模型(尤其是數學版本),對虛假獎勵進行RLVR,仍然可以將MATH-500的絕對準確率顯著提升約25%。

團隊實驗發現:

  • RLVR通過激活預訓練中的推理能力來提升性能,但不考慮獎勵信號的正確性。



這徹底顛覆了既往大家對RLVR的認知,原來那些年在虛假獎勵上踩過的坑,還真能實現彎道超車?

X上的網友們紛紛表示,強烈建議每位RLVR研究員都來讀一讀,尤其是那些圍繞Qwen模型精心構造獎勵函數的研究員們,該瑟瑟發抖了……



Qwen自家的研究員Binyuan Hui也在評論區現身:

  • 也許是預訓練數據混合以某種方式意外導致了一些有用的行為,又一次側面印證了代碼推理的重要性。



具體啥情況?下面我們娓娓道來。

虛假獎勵帶來顯著的RLVR增益

此前已有研究證明,RLVR在提升語言模型推理能力上非常有效,核心思想是利用可自動驗證的獎勵信號優化。

普遍研究都默認優化效果依賴獎勵的正確性,但研究團隊反直覺地認為其中必有蹊蹺——虛假獎勵或許也能“變廢為寶”?



于是說干就干,開始大膽假設,小心求證。

從實驗出發

為測試RLVR提升數學推理能力所需的最低監督下限,團隊設計了一系列逐步簡化的獎勵函數替代標準真實獎勵:

  1. 真實獎勵:使用真實標簽對可驗證正確的回答給予獎勵,將其作為獎勵監督質量的上限。
  2. 多數投票獎勵:在微調前利用模型對訓練集進行偽標注,即對每個提示采樣64個響應并選取多數答案,再基于這些(可能錯誤的)標簽進行獎勵。
  3. 格式獎勵:進一步弱化獎勵信號,獎勵所有包含至少一個非空\boxed {}表達式的響應,完全忽略回答的數學正確性。
  4. 隨機獎勵:在獎勵過程中不提供任何指導,直接給定一個固定概率超參數隨機分配獎勵,其中1的概率為,0為,主實驗中設置。
  5. 錯誤獎勵:故意提供錯誤的監督,只獎勵錯誤答案,即先用多數投票法標注所有訓練數據,選擇錯誤標簽的子集進行訓練,并給予對應的響應獎勵。



基于GRPO方法微調Qwen2.5-Math模型,再使用不同獎勵函數進行RLVR訓練。

實驗結果表明,與未調優的基線模型相比,所有獎勵函數(即使是設計上存在問題的函數),均能在所有基準測試的前50步內顯著提升數學推理性能。

值得注意的是,虛假獎勵帶來的性能提升,與基于真實標簽的RLVR提升幅度,相差只有幾個百分點

例如,在MATH500基準上,使用錯誤標簽獎勵進行訓練可提升24.6%,而基于真實答案的RLVR提升幅度只有28.8%,即使是提供純噪音的隨機獎勵,也仍能帶來 21.4%的性能提升。

因此團隊證明,即使是完全錯誤的獎勵或隨機獎勵,也能在Qwen2.5-Math模型中激發性能提升。

但在進一步的研究中,他們發現這種奇怪的增益只有利于Qwen2.5系列模型,其余非 Qwen模型的性能在虛假獎勵下幾乎無變化,甚至還會出現下降的趨勢。



這又是怎么一回事呢?研究團隊只好又開始挖掘模型差異的根源。

為什么虛假獎勵有效

通過分析Qwen2.5-Math-7B和OLMo2-7B的推理軌跡,團隊發現預訓練期間,模型學習到的特定推理策略差異是關鍵。

Qwen2.5-Math-7B頻繁生成Python代碼輔助思考過程(占所有回答的 65.0%),盡管無法執行,但這種代碼推理行為在一定程度上,與答案準確率高度正相關。



但該模式在其他模型中并未有所發現,例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代碼,無法從此推理策略中獲益。

OLMo2-7B-SFT和Qwen2.5-7B雖然也頻繁嘗試使用代碼推理,但該策略反而會降低模型性能。



而基于虛假獎勵的RLVR可以有效增強代碼推理頻率,如Qwen2.5-Math-7B在進行RLVR訓練后,代碼推理頻率在最初15步內,迅速從65%提升至約90%。



此外,通過分析隨機獎勵也能提升性能的特殊情況,研究人員還發現一個有趣的結論:GRPO的裁剪偏差可能會誘導隨機獎勵生成有益的訓練信號,增加代碼推理行為,從而實現性能提升。



One More Thing

本項目是由多位華人學者共同完成的,他們目前都在華盛頓大學的NLP小組讀博。



而當論文作者Stella Li在X上發帖介紹自己的論文時,我們注意到評論區有這樣一位網友的留言,他指出在模型改進中,也許「結果不重要,推理過程才重要」



Stella Li的回復也提出了另外一種可能,也許錯誤推理+正確答案或者正確推理+錯誤答案,可能也會幫助OLMo2-7B-SFT實現類似Qwen在虛假獎勵下的性能增益。



另外,作者也溫馨提示,現有的以Qwen為中心的RLVR研究可能需要在非Qwen模型上做進一步驗證,不要只盯著單一模型做漂亮數值提升的工作,因為那可能意義并不大。

項目鏈接:https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代碼鏈接:https://github.com/ruixin31/Rethink_RLVR
論文鏈接:https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

參考鏈接:
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
事業編和公務員的區別到底是什么?區別可大了,很多人不知道!

事業編和公務員的區別到底是什么?區別可大了,很多人不知道!

CG說科技
2025-06-04 23:05:19
中國女子揮刀砍死55歲日本兒童福利院員工,只因探視孩子被拒

中國女子揮刀砍死55歲日本兒童福利院員工,只因探視孩子被拒

東京在線
2025-06-05 23:59:42
為什么華人很少跟白種女人交往?網友:五大三粗,毛長體臭!

為什么華人很少跟白種女人交往?網友:五大三粗,毛長體臭!

特約前排觀眾
2025-06-02 00:05:12
新華時評·鍥而不舍落實中央八項規定精神|假調研解決不了真問題

新華時評·鍥而不舍落實中央八項規定精神|假調研解決不了真問題

新華社
2025-06-05 18:41:10
博主稱2萬元的華為Mate XT賣得非常好:比大部分國內廠商的大折疊還好

博主稱2萬元的華為Mate XT賣得非常好:比大部分國內廠商的大折疊還好

快科技
2025-06-05 17:12:51
服務員!服務員!內個戴眼鏡的,把胡椒面瓶子拿走了!

服務員!服務員!內個戴眼鏡的,把胡椒面瓶子拿走了!

熊太行
2025-06-05 14:56:06
王思聰帶懶懶坐私人飛機,懶懶曬的合照有意思,原來他也是這待遇

王思聰帶懶懶坐私人飛機,懶懶曬的合照有意思,原來他也是這待遇

凌薇看電影
2025-06-05 15:58:38
美空軍部長:希望中國永遠不要武統臺島,因為美軍已做好戰爭準備

美空軍部長:希望中國永遠不要武統臺島,因為美軍已做好戰爭準備

荷蘭豆愛健康
2025-06-05 09:31:51
弟弟失業帶一家來投靠我,我假裝出差逃避,5天后老公打來電話

弟弟失業帶一家來投靠我,我假裝出差逃避,5天后老公打來電話

白云故事
2025-06-04 12:30:08
北、上、深等地保時捷大降價!深圳地區卡宴打6.5折,帕拉梅拉優惠30多萬

北、上、深等地保時捷大降價!深圳地區卡宴打6.5折,帕拉梅拉優惠30多萬

紅星資本局
2025-06-03 19:09:07
陳赫陪老婆逛香奈兒,42歲張子萱一頭黃發好洋氣,身高170瘦又美

陳赫陪老婆逛香奈兒,42歲張子萱一頭黃發好洋氣,身高170瘦又美

阿纂看事
2025-06-05 16:30:31
女演員的身材很重要,《藏海傳》39歲白冰與47歲余男站一起很明顯

女演員的身材很重要,《藏海傳》39歲白冰與47歲余男站一起很明顯

草莓解說體育
2025-06-06 09:49:57
烏克蘭到底需要什么?

烏克蘭到底需要什么?

西樓飲月
2025-06-04 22:33:08
狂野5換4交易方案:布克聯手濃眉,獨行俠豪賭,籌碼令太陽難拒絕

狂野5換4交易方案:布克聯手濃眉,獨行俠豪賭,籌碼令太陽難拒絕

毒舌NBA
2025-06-06 08:59:09
把女兒養得自私又叛逆,我醒悟:最愚蠢的教育,就是過度尊重孩子

把女兒養得自私又叛逆,我醒悟:最愚蠢的教育,就是過度尊重孩子

詩詞中國
2025-06-04 12:56:48
機構熱捧!600104,最高暴增超5倍

機構熱捧!600104,最高暴增超5倍

數據寶
2025-06-06 07:40:22
中老年人,懇求您停止這6種運動,它們正在一點一滴毀掉您的心臟

中老年人,懇求您停止這6種運動,它們正在一點一滴毀掉您的心臟

墜入二次元的海洋
2025-06-02 15:10:15
住建部已發聲?房齡滿24年,房子一律按新規處理,老業主要發財了

住建部已發聲?房齡滿24年,房子一律按新規處理,老業主要發財了

巢客HOME
2025-06-04 06:25:02
烏克蘭到底摧毀了多少俄戰略轟炸機?是否俄“珍珠港時刻”?

烏克蘭到底摧毀了多少俄戰略轟炸機?是否俄“珍珠港時刻”?

新民晚報
2025-06-03 09:15:01
沒想到,睡遍京圈、定居美國7年,丁克半輩子的徐靜蕾成人生贏家

沒想到,睡遍京圈、定居美國7年,丁克半輩子的徐靜蕾成人生贏家

墨印齋
2025-06-05 15:34:38
2025-06-06 11:31:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10613文章數 176162關注度
往期回顧 全部

科技要聞

特朗普怒噴馬斯克"瘋了" 特斯拉暴跌14%!

頭條要聞

連續29年參加高考 58歲梁實自稱無奈:沒浪費公共資源

頭條要聞

連續29年參加高考 58歲梁實自稱無奈:沒浪費公共資源

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

段奧娟:告別舒適圈,擁抱無限可能

財經要聞

娃哈哈“體外”迷局待解

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

數碼
家居
親子
公開課
軍事航空

數碼要聞

華為智慧屏 S6 開啟預售,入門級 MiniLED 電視首選

家居要聞

現代風格 意式奢華空間

親子要聞

公園里的碗狀轉椅,為什么一坐上就停不下?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京明確:沒有人會與“恐怖分子”談判

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 闽侯县| 田林县| 肃北| 武安市| 临邑县| 吴忠市| 方山县| 团风县| 南溪县| 辛集市| 靖江市| 鄱阳县| 县级市| 安岳县| 博客| 漳州市| 天水市| 肥东县| 金沙县| 蓬莱市| 南京市| 辽宁省| 扶沟县| 丹巴县| 安徽省| 铁岭市| 乐山市| 汉寿县| 宁阳县| 嫩江县| 卓资县| 同仁县| 永丰县| 大新县| 东源县| 淮南市| 定结县| 沅江市| 读书| 济源市| 井陉县|