99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

獎勵是假的,能讓Qwen提升25%性能卻是真的!

0
分享至

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

即使RLVR(可驗證獎勵強化學習)使用錯誤的獎勵信號,Qwen性能也能得到顯著提升?

甚至還和真實獎勵相差無幾。



自從RLVR被DeepSeek-R1帶火,RL推理研究層出不窮,走進了蜜月期。

這不,來自華盛頓大學的一群博士生來火上澆油了——

使用Qwen模型(尤其是數學版本),對虛假獎勵進行RLVR,仍然可以將MATH-500的絕對準確率顯著提升約25%。

團隊實驗發現:

  • RLVR通過激活預訓練中的推理能力來提升性能,但不考慮獎勵信號的正確性。



這徹底顛覆了既往大家對RLVR的認知,原來那些年在虛假獎勵上踩過的坑,還真能實現彎道超車?

X上的網友們紛紛表示,強烈建議每位RLVR研究員都來讀一讀,尤其是那些圍繞Qwen模型精心構造獎勵函數的研究員們,該瑟瑟發抖了……



Qwen自家的研究員Binyuan Hui也在評論區現身:

  • 也許是預訓練數據混合以某種方式意外導致了一些有用的行為,又一次側面印證了代碼推理的重要性。



具體啥情況?下面我們娓娓道來。

虛假獎勵帶來顯著的RLVR增益

此前已有研究證明,RLVR在提升語言模型推理能力上非常有效,核心思想是利用可自動驗證的獎勵信號優化。

普遍研究都默認優化效果依賴獎勵的正確性,但研究團隊反直覺地認為其中必有蹊蹺——虛假獎勵或許也能“變廢為寶”?



于是說干就干,開始大膽假設,小心求證。

從實驗出發

為測試RLVR提升數學推理能力所需的最低監督下限,團隊設計了一系列逐步簡化的獎勵函數替代標準真實獎勵:

  1. 真實獎勵:使用真實標簽對可驗證正確的回答給予獎勵,將其作為獎勵監督質量的上限。
  2. 多數投票獎勵:在微調前利用模型對訓練集進行偽標注,即對每個提示采樣64個響應并選取多數答案,再基于這些(可能錯誤的)標簽進行獎勵。
  3. 格式獎勵:進一步弱化獎勵信號,獎勵所有包含至少一個非空\boxed {}表達式的響應,完全忽略回答的數學正確性。
  4. 隨機獎勵:在獎勵過程中不提供任何指導,直接給定一個固定概率超參數隨機分配獎勵,其中1的概率為,0為,主實驗中設置。
  5. 錯誤獎勵:故意提供錯誤的監督,只獎勵錯誤答案,即先用多數投票法標注所有訓練數據,選擇錯誤標簽的子集進行訓練,并給予對應的響應獎勵。



基于GRPO方法微調Qwen2.5-Math模型,再使用不同獎勵函數進行RLVR訓練。

實驗結果表明,與未調優的基線模型相比,所有獎勵函數(即使是設計上存在問題的函數),均能在所有基準測試的前50步內顯著提升數學推理性能。

值得注意的是,虛假獎勵帶來的性能提升,與基于真實標簽的RLVR提升幅度,相差只有幾個百分點。

例如,在MATH500基準上,使用錯誤標簽獎勵進行訓練可提升24.6%,而基于真實答案的RLVR提升幅度只有28.8%,即使是提供純噪音的隨機獎勵,也仍能帶來 21.4%的性能提升。

因此團隊證明,即使是完全錯誤的獎勵或隨機獎勵,也能在Qwen2.5-Math模型中激發性能提升。

但在進一步的研究中,他們發現這種奇怪的增益只有利于Qwen2.5系列模型,其余非 Qwen模型的性能在虛假獎勵下幾乎無變化,甚至還會出現下降的趨勢。



這又是怎么一回事呢?研究團隊只好又開始挖掘模型差異的根源。

為什么虛假獎勵有效

通過分析Qwen2.5-Math-7B和OLMo2-7B的推理軌跡,團隊發現預訓練期間,模型學習到的特定推理策略差異是關鍵。

Qwen2.5-Math-7B頻繁生成Python代碼輔助思考過程(占所有回答的 65.0%),盡管無法執行,但這種代碼推理行為在一定程度上,與答案準確率高度正相關。



但該模式在其他模型中并未有所發現,例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代碼,無法從此推理策略中獲益。

OLMo2-7B-SFT和Qwen2.5-7B雖然也頻繁嘗試使用代碼推理,但該策略反而會降低模型性能。



而基于虛假獎勵的RLVR可以有效增強代碼推理頻率,如Qwen2.5-Math-7B在進行RLVR訓練后,代碼推理頻率在最初15步內,迅速從65%提升至約90%。



此外,通過分析隨機獎勵也能提升性能的特殊情況,研究人員還發現一個有趣的結論:GRPO的裁剪偏差可能會誘導隨機獎勵生成有益的訓練信號,增加代碼推理行為,從而實現性能提升。



One More Thing

本項目是由多位華人學者共同完成的,他們目前都在華盛頓大學的NLP小組讀博。



而當論文作者Stella Li在X上發帖介紹自己的論文時,我們注意到評論區有這樣一位網友的留言,他指出在模型改進中,也許「結果不重要,推理過程才重要」



Stella Li的回復也提出了另外一種可能,也許錯誤推理+正確答案或者正確推理+錯誤答案,可能也會幫助OLMo2-7B-SFT實現類似Qwen在虛假獎勵下的性能增益。



另外,作者也溫馨提示,現有的以Qwen為中心的RLVR研究可能需要在非Qwen模型上做進一步驗證,不要只盯著單一模型做漂亮數值提升的工作,因為那可能意義并不大。

項目鏈接:https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代碼鏈接:https://github.com/ruixin31/Rethink_RLVR
論文鏈接:https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

參考鏈接:
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
萬萬沒想到!間諜論僅過一個月,董明珠就向所有人坦露了她的格局

萬萬沒想到!間諜論僅過一個月,董明珠就向所有人坦露了她的格局

涵豆說娛
2025-05-21 10:31:04
排隊五小時、幾分鐘賣光,英國瘋搶Labubu致斗毆,泡泡瑪特暫停該產品在英銷售

排隊五小時、幾分鐘賣光,英國瘋搶Labubu致斗毆,泡泡瑪特暫停該產品在英銷售

界面新聞
2025-05-29 23:13:11
老話:端午三不去,去了親人泣!哪三個地方不能去?真不是迷信

老話:端午三不去,去了親人泣!哪三個地方不能去?真不是迷信

簡食記工作號
2025-05-30 00:04:12
59元/位,為什么吃不垮牛肋條自助?

59元/位,為什么吃不垮牛肋條自助?

IC實驗室
2025-05-30 14:23:46
交警提醒:70歲以上老年人更換駕駛證,切記3點!避免駕照被注銷

交警提醒:70歲以上老年人更換駕駛證,切記3點!避免駕照被注銷

全球電動車
2025-05-30 06:00:06
50歲保姆照顧老太20年,臨走前老太的兒子叫住她:我媽有話留給你

50歲保姆照顧老太20年,臨走前老太的兒子叫住她:我媽有話留給你

澤澤先生
2025-05-27 15:35:55
中方在中業島突然動真格!菲律賓呼叫北約增援,5國艦隊將抵南海

中方在中業島突然動真格!菲律賓呼叫北約增援,5國艦隊將抵南海

說天說地說實事
2025-05-26 21:18:08
廣東虎門通報小車墜橋5人死亡:有關部門正就道路設計等進行專業調查

廣東虎門通報小車墜橋5人死亡:有關部門正就道路設計等進行專業調查

新京報
2025-05-29 22:58:08
看不到他的丁 丁,這可怎么辦???

看不到他的丁 丁,這可怎么辦???

性學研究僧
2025-03-25 19:26:27
56歲的許晴雖然肌膚白白嫩嫩的,但是身材已經嚴重走樣,太肥胖

56歲的許晴雖然肌膚白白嫩嫩的,但是身材已經嚴重走樣,太肥胖

逍遙史記
2025-05-17 09:45:50
法網全亂了,又一個大滿貫冠軍被淘汰出局,中國金花強勢晉級

法網全亂了,又一個大滿貫冠軍被淘汰出局,中國金花強勢晉級

極度說球
2025-05-29 23:04:09
悲催!一深圳求職者發帖哭訴,拿到offer后遭惡意降薪,怎么辦?

悲催!一深圳求職者發帖哭訴,拿到offer后遭惡意降薪,怎么辦?

火山詩話
2025-05-30 08:39:27
印度在印巴沖突中獲得未爆炸的中國研制空空導彈?國防部回應

印度在印巴沖突中獲得未爆炸的中國研制空空導彈?國防部回應

財聯社
2025-05-29 16:15:43
一手交稀土一手交技術,美拿c919威脅,話音剛落,國產發動機官宣

一手交稀土一手交技術,美拿c919威脅,話音剛落,國產發動機官宣

阿傖說事
2025-05-30 09:22:43
網傳這個女孩在餐廳里用雙語要求黑人回她的老家!

網傳這個女孩在餐廳里用雙語要求黑人回她的老家!

去非
2025-05-04 09:18:21
全國跳水冠軍賽收官,廣東隊在領獎臺大合照,嬋寶恩師何威儀也在

全國跳水冠軍賽收官,廣東隊在領獎臺大合照,嬋寶恩師何威儀也在

妙知
2025-05-30 10:50:47
1.4億退休老人有福了!2025年除養老金調整以外,這幾筆錢也會漲

1.4億退休老人有福了!2025年除養老金調整以外,這幾筆錢也會漲

社保小達人
2025-05-30 09:05:07
中國造光刻機無望?中科大高層放狠話:中國永遠都造不出來

中國造光刻機無望?中科大高層放狠話:中國永遠都造不出來

瀚霖學史
2025-05-30 07:30:03
人保集團財會部總經理瞿棟開會期間突發心梗離世,終年55歲

人保集團財會部總經理瞿棟開會期間突發心梗離世,終年55歲

魯中晨報
2025-05-29 19:09:47
全面反華開始?美國將從歐洲撤軍,集中力量對抗中國,俄已選邊站

全面反華開始?美國將從歐洲撤軍,集中力量對抗中國,俄已選邊站

荷蘭豆愛健康
2025-05-28 13:23:04
2025-05-30 17:23:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10595文章數 176158關注度
往期回顧 全部

科技要聞

榮耀新CEO放話:下半年重返前三,靠譜嗎?

頭條要聞

銷量承壓下寶馬重回"價格戰" 5系裸車價最低跌至26萬

頭條要聞

銷量承壓下寶馬重回"價格戰" 5系裸車價最低跌至26萬

體育要聞

當我終于回國時,可能已認不出我的家

娛樂要聞

趙麗穎新劇撲街?演技扛劇能力遭質疑

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

可城能野更智能 猛士M817把硬派SUV玩出花

態度原創

健康
時尚
游戲
手機
數碼

唇皰疹和口腔潰瘍是"同伙"嗎?

中年女人夏季別亂買衣服,襯衫、闊腿褲、過膝裙,好搭不過時

系列制作人:《真三國無雙》在西方仍然不能算成功

手機要聞

華為Pura 80系列即將官宣 博主:視頻拍攝強得可怕

數碼要聞

閉眼入不虧!KEYMOS科摩思DDR5燈條到手價769元

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天峻县| 堆龙德庆县| 新兴县| 宜君县| 城固县| 宁晋县| 晋城| 中西区| 正宁县| 顺平县| 通城县| 榆林市| 犍为县| 咸阳市| 旬阳县| 麻江县| 泸州市| 南溪县| 远安县| 呼伦贝尔市| 慈溪市| 吉安市| 朔州市| 扎囊县| 玉山县| 乌拉特后旗| 禄丰县| 慈溪市| 云龙县| 通河县| 尉犁县| 丰顺县| 南通市| 中宁县| 石狮市| 高雄市| 广丰县| 大安市| 楚雄市| 乌兰浩特市| 平度市|