99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

僅需1個數(shù)據(jù),就能讓大模型的數(shù)學推理性能大大增強?

0
分享至



本文第一作者王宜平是華盛頓大學的博士生,其導師、通訊作者杜少雷為華盛頓大學Assistant Professor;另外兩位通訊作者 Yelong Shen 和 Shuohang Wang 是 Microsoft GenAI 的Principal Researcher。

最近, 大型語言模型(LLM)在推理能力方面取得了顯著進展,特別是在復雜數(shù)學任務上。推動上述進步的關鍵方法之一就是帶可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Reward,RLVR),其根據(jù)數(shù)學題最終答案的正確性提供 0-1 的結果獎勵(outcome reward)。然而, 大量研究工作集中于改進原有的強化學習算法(如 PPO,GRPO),對于 RLVR 中所利用數(shù)據(jù)的研究仍相對不足。

近日,來自華盛頓大學西雅圖分校、微軟等機構的研究人員探索了一個重要的問題:RLVR 中究竟需要多少數(shù)據(jù)才能有較好的表現(xiàn)?

他們發(fā)現(xiàn)了一個神奇的現(xiàn)象:用一個數(shù)學數(shù)據(jù)就能夠大幅提升模型在各種數(shù)學推理任務上的表現(xiàn)!



  • 論文標題:Reinforcement Learning for Reasoning in Large Language Models with One Training Example
  • 論文地址:https://arxiv.org/abs/2504.20571
  • 代碼地址:https://github.com/ypwang61/One-Shot-RLVR
  • W&B 實驗記錄:https://wandb.ai/yipingwanguw/verl_few_shot?nw=nwuseryipingwang22
  • X(Twitter):https://x.com/ypwang61/status/1917596101953348000

論文發(fā)現(xiàn),只在 RLVR 訓練中使用一個訓練數(shù)據(jù)(稱作 1-shot RLVR),就可以在 MATH500 上,將 Qwen2.5-Math-1.5B 的表現(xiàn)從 36.0% 提升到 73.6%,以及把 Qwen2.5-Math-7B 的表現(xiàn)從 51.0% 提升到 79.2% 。

這個表現(xiàn)和使用 1.2k 數(shù)據(jù)集(包括這一個數(shù)據(jù))的 RLVR 效果差不多。使用兩個訓練樣本的 RLVR 甚至略微超過了使用 1.2k 數(shù)據(jù)集(稱作 DSR-sub)的表現(xiàn),和使用 7.5k MATH 訓練集的 RLVR 表現(xiàn)相當。這種表現(xiàn)可以在 6 個常用的數(shù)學推理任務上都可以觀察到。



這種利用一個數(shù)學訓練數(shù)據(jù)的 1-shot RLVR 激發(fā)的推理能力甚至可以拓展到非數(shù)學的推理任務上,如 ARC-Easy/Challenge。



背景介紹

在這項工作中,論文使用了包含 policy gradient loss ,KL divergence loss 以及 entropy loss 三項損失函數(shù)。這里 policy loss 使用 GRPO 格式的損失函數(shù),對應是否解決數(shù)學題的 0-1 結果獎勵;KL loss 用于保持模型在一般任務上的語言質量;而 entropy loss(系數(shù)為負)用于鼓勵模型產生更加多樣化的推理模式。

對于數(shù)據(jù)選擇,研究者使用一個叫 historical variance score 的指標來將數(shù)據(jù)池(前面提到的 1.2k DSR-sub 數(shù)據(jù)集)中的數(shù)據(jù)來排序,為了優(yōu)先選擇在模型訓練過程中準確度方差較大的那些數(shù)據(jù)。不過論文強調這種數(shù)據(jù)選擇并不一定是最優(yōu)的,只是為了更好的說明現(xiàn)象。而且 1-shot RLVR 對很多 historical variance score 不那么高的數(shù)據(jù)也能生效,可能是更通用的現(xiàn)象。

此外,研究者還發(fā)現(xiàn)讓 1-shot RLVR 表現(xiàn)的很好的數(shù)據(jù)其實都不是特別困難。初始模型就已經有一定的概率可以解決。



實驗觀察

通過 1-shot RLVR,論文還發(fā)現(xiàn)了很多有趣的現(xiàn)象:

(1) 飽和后泛化:論文發(fā)現(xiàn), 1-shot RLVR 中,單個訓練樣本的訓練準確率快速達到接近 100%,但是下游任務的表現(xiàn)隨著訓練的進行還在不斷地提升。(后文說明因為 entropy loss 鼓勵多樣性的探索,使得準確率略小于 100%,因此在訓練過程中始終保持有 policy gradient)。



與此同時,在飽和后泛化的過程中,過擬合發(fā)生的比較晚,在單個樣本 rollout 超過 1 百萬次之后才出現(xiàn)明顯亂碼混合正確解答。而且此時下游任務的 reasoning 輸出仍然正常而且表現(xiàn)良好。



(2) 1-shot RLVR 對很多數(shù)學樣例都有效,而且可泛化性好。論文嘗試了十多個樣本,基本都可以在 MATH500 上取得接近或超過 30% 的提升。同時,來自一個數(shù)學主題(如幾何)的單個訓練數(shù)據(jù)可以同時提升其他數(shù)學主題(如代數(shù),數(shù)論等)的表現(xiàn)。



(3) 更多的自我反思:1-shot RLVR 的訓練過程也會出現(xiàn)之前 R1 之類的工作提到的回答長度(response length)的增加。而且更重要的是,論文觀察到了模型在下游任務上的自我反思(self-reflection)相關詞匯的頻率的增加。



(4) 1-shot RLVR 可用在不同的模型和算法上。研究人員嘗試了不同的模型 (Qwen2.5-Math-1.5B/7B, Llama-3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B),不同的 RL 算法 (GRPO, PPO),都可以觀察到很大的提升。而且這里使用的數(shù)據(jù)是用 Qwen2.5-Math-1.5B 模型的 historical variance score 計算得到的,說明有些數(shù)據(jù)對不同的模型都適用。



消融實驗和分析

論文進一步分析 1-shot RLVR 取得的改進的主要原因。通過移除其他的損失函數(shù),論文發(fā)現(xiàn) 1-shot RLVR 對模型的改進主要來自于 policy gradient loss,而且和 KL divergence loss 以及 weight decay 關系不大。因此,即使飽和后泛化現(xiàn)象與 “grokking” 現(xiàn)象有相似之處(都出現(xiàn)了在過擬和之后仍能在下游任務泛化良好),因為 “grokking”受到 regularization 方法(如 weight decay)的影響較大,兩者仍有較大區(qū)別。



此外,論文也發(fā)現(xiàn)鼓勵探索的重要性,如額外在 policy gradient loss 的基礎上加合適大小的 entropy loss 能夠進一步提升 1-shot RLVR 的表現(xiàn),尤其是對飽和后泛化較為重要。作為一個額外的觀察,論文發(fā)現(xiàn)只加 entropy loss 進行少量 step 的訓練也能神奇的提升模型表現(xiàn),并且這導致了在 1-shot RLVR 中如果數(shù)據(jù)的 lable 出現(xiàn)錯誤,也仍能部分提高模型的表現(xiàn)。論文作者們也仍在探究這一現(xiàn)象的原因。





總結和討論

1-shot RLVR 在數(shù)學任務上的表現(xiàn)支持了之前很多論文的結論,即用于RLVR 的基礎模型本身往往就有較好的推理能力,而這篇論文進一步展示了這種能力可能可以用非常少的數(shù)據(jù)就激發(fā)出來。

論文相信這些現(xiàn)象可以促進人們進一步反思最近 RLVR 的進展,并思考 RLVR 的內部機制。并且它們對一些問題留下了一些啟發(fā),例如如何設計更好的 RLVR 數(shù)據(jù)選擇算法,如何理解 1-shot RLVR 以及飽和后泛化現(xiàn)象,如何更好的鼓勵探索,以及如何探索其他任務的少樣本 RLVR 及其應用等等。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
36張圖直擊著名建筑今昔對比照:不比不知道,一比嚇一跳

36張圖直擊著名建筑今昔對比照:不比不知道,一比嚇一跳

遠山行客
2025-05-09 15:59:12
理想汽車,壓力山大

理想汽車,壓力山大

虎嗅APP
2025-05-10 04:54:16
萊利談巴特勒:不會為拒絕提供一份本不需給出的續(xù)約合同而道歉

萊利談巴特勒:不會為拒絕提供一份本不需給出的續(xù)約合同而道歉

北青網-北京青年報
2025-05-10 10:23:04
第八架!巴鐵徹底殺瘋了!印度王牌戰(zhàn)機剛上天就被揍下來!

第八架!巴鐵徹底殺瘋了!印度王牌戰(zhàn)機剛上天就被揍下來!

健身狂人
2025-05-09 10:17:37
趙心童笑言:50萬鎊獎金在昨晚已花掉 我確實喜歡各個品牌的手表

趙心童笑言:50萬鎊獎金在昨晚已花掉 我確實喜歡各個品牌的手表

風過鄉(xiāng)
2025-05-10 07:52:34
當法律套用“機動車規(guī)則”:‘行人安全距離’是創(chuàng)新還是荒謬?

當法律套用“機動車規(guī)則”:‘行人安全距離’是創(chuàng)新還是荒謬?

占理兒
2025-05-09 22:06:57
小米盒子5系列開啟預約 將于5月15日開售 299元起

小米盒子5系列開啟預約 將于5月15日開售 299元起

手機中國
2025-05-09 20:54:11
沸騰了!中國,給全世界上了一課

沸騰了!中國,給全世界上了一課

米筐投資
2025-05-10 07:10:59
GDP第一城,即將生變?

GDP第一城,即將生變?

博聞財經
2025-05-09 20:59:51
存款利率再次下調?5月10日,今日凌晨的三大重要消息持續(xù)發(fā)酵!

存款利率再次下調?5月10日,今日凌晨的三大重要消息持續(xù)發(fā)酵!

風口招財豬
2025-05-10 07:03:47
39歲隆多現(xiàn)狀:開始做教練,換發(fā)型老了不少,和嬌妻很恩愛

39歲隆多現(xiàn)狀:開始做教練,換發(fā)型老了不少,和嬌妻很恩愛

大西體育
2025-05-09 20:17:52
在青島如何走路,才能不賠七萬

在青島如何走路,才能不賠七萬

不正確
2025-05-09 14:24:57
老人轉身被撞后續(xù),路人賠7萬,山東各官號關閉評論,文旅局慌了

老人轉身被撞后續(xù),路人賠7萬,山東各官號關閉評論,文旅局慌了

小宇宙雙色球
2025-05-10 07:18:54
英方拿到了,“簡直像在平行宇宙,中國太超前了”

英方拿到了,“簡直像在平行宇宙,中國太超前了”

觀察者網
2025-05-09 14:37:03
新華社報道!劉國梁下課原因揭曉,并非世界杯丟冠和飯圈亂象

新華社報道!劉國梁下課原因揭曉,并非世界杯丟冠和飯圈亂象

十點街球體育
2025-05-09 21:08:17
龐德偉上任,特朗普發(fā)聲

龐德偉上任,特朗普發(fā)聲

陸棄
2025-05-09 10:55:20
7歲女童倒紙巾被副校長罵到拒食!班主任含淚回懟,評論區(qū)炸了

7歲女童倒紙巾被副校長罵到拒食!班主任含淚回懟,評論區(qū)炸了

教育人看世界
2025-05-09 19:45:53
CBA最新消息!陳盈駿面臨禁賽,閆軍或被罰,于曉輝離開廣州

CBA最新消息!陳盈駿面臨禁賽,閆軍或被罰,于曉輝離開廣州

體壇瞎白話
2025-05-10 10:55:21
曝小S逐個打電話懇請眾星悼念大S,忙到凌晨4點聲音薄弱

曝小S逐個打電話懇請眾星悼念大S,忙到凌晨4點聲音薄弱

開開森森
2025-05-10 10:03:21
巴基斯坦首都附近空軍基地遭襲!巴稱成功攔截印度導彈,正式啟動軍事行動

巴基斯坦首都附近空軍基地遭襲!巴稱成功攔截印度導彈,正式啟動軍事行動

政知新媒體
2025-05-10 08:32:38
2025-05-10 12:36:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10466文章數(shù) 142304關注度
往期回顧 全部

科技要聞

雷軍:我經歷創(chuàng)辦小米以來最難的一個多月

頭條要聞

牛彈琴:印巴之戰(zhàn)進入第二階段 巴公布"令人震驚"消息

頭條要聞

牛彈琴:印巴之戰(zhàn)進入第二階段 巴公布"令人震驚"消息

體育要聞

這個老頭兒,仍然是你們的頭兒

娛樂要聞

浪姐王珞丹拖后腿才 知道師姐有多強

財經要聞

沸騰了!中國,給全世界上了一課

汽車要聞

破局者億咖通 智向全球的科技“新勢力”

態(tài)度原創(chuàng)

教育
親子
本地
公開課
軍事航空

教育要聞

一個熟練掌握四門語言的女孩,到底有多酷?

親子要聞

世界防治肥胖日丨孩子小時候胖不用管,長大就能瘦?謠言!

本地新聞

非遺里的河南|汴梁鳶舞千年韻!宋室風箏藏多少絕活

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

印度一戰(zhàn)機在巴基斯坦旁遮普省被擊落 飛行員被俘

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南平市| 徐州市| 湖南省| 长丰县| 三亚市| 安溪县| 咸阳市| 东丽区| 仪征市| 中江县| 金寨县| 桐柏县| 乐昌市| 乐山市| 毕节市| 梁河县| 呼图壁县| 诸暨市| 襄城县| 卢氏县| 威海市| 东源县| 佛冈县| 黄山市| 乐清市| 南安市| 星座| 高平市| 霍州市| 秀山| 维西| 冕宁县| 新宁县| 安阳县| 滁州市| 平罗县| 资中县| 大同市| 淳化县| 怀宁县| 福贡县|