99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

強化學習解決長上下文推理問題:通義推出QwenLong-L1-32B

0
分享至



機器之心發(fā)布

機器之心編輯部

上下文長度達 13 萬 token,適用于多段文檔綜合分析、金融、法律、科研等復雜領域任務。

近期的推理大模型(LRMs)通過強化學習(RL)展現(xiàn)出強大的推理能力,但這些改進主要體現(xiàn)在短上下文推理任務中。相比之下,如何通過強化學習擴展 LRMs 以有效處理和推理長上下文輸入,仍然是一個尚未解決的關(guān)鍵挑戰(zhàn)。

來自阿里巴巴通義實驗室的團隊首先形式化定義長上下文推理強化學習范式,并識別出其中的兩個核心挑戰(zhàn):次優(yōu)的訓練效率與不穩(wěn)定的優(yōu)化過程



針對這些問題,團隊提出QwenLong-L1長上下文推理強化學習框架,通過漸進式上下文擴展策略逐步提升模型在長上下文推理任務上的表現(xiàn),最終在多個長文檔問答 benchmarks 上,QwenLong-L1-32B 表現(xiàn)卓越,不僅超越 OpenAI-o3-miniQwen3-235B-A22B等旗艦模型,更與 Claude-3.7-Sonnet-Thinking 性能對標



主要貢獻



1. 定義長上下文推理強化學習范式

區(qū)別于短上下文推理強化學習促進模型利用內(nèi)部知識推理,長上下文推理強化學習需要模型首先定位外部關(guān)鍵信息然后整合內(nèi)部推理

2. 識別長上下文推理強化學習關(guān)鍵問題

長上下文推理強化學習訓練效率低,具體表現(xiàn)在(a)獎勵收斂較慢,(b)模型輸出熵的顯著降低,限制了優(yōu)化過程中的探索行為。同時,長上下文推理強化學習訓練不穩(wěn)定,具體表現(xiàn)為(c)KL 散度突刺較多,這是由于(d)較長的輸出長度和不均勻的輸入長度導致方差變大,導致策略更新不穩(wěn)定。

3. 構(gòu)建 QwenLong-L1 長上下文推理強化學習框架

基于漸進式上下文擴展技術(shù)混合獎勵機制,QwenLong-L1 通過強化學習實現(xiàn)了從短文本到長文本的穩(wěn)定上下文適應。

4. 開源 QwenLong-L1-32B 長上下文文檔推理大模型

與前沿長上下文推理大模型相比,QwenLong-L1-32B 實現(xiàn)了顯著的性能提升,相較于 DeepSeek-R1-Distill-Qwen-32B 平均提升7.8%,不僅超越OpenAI-o3-miniQwen3-235B-A22B等旗艦模型,更與 Claude-3.7-Sonnet-Thinking 性能對標,為長文本推理優(yōu)化提供了基礎性技術(shù)方案,

核心技術(shù)

基于傳統(tǒng)的短上下文推理強化學習框架,QwenLong-L1 主要提出如下改進:漸進式上下文擴展技術(shù)和混合獎勵機制。



漸進式上下文擴展技術(shù)

訓練長上下文推理大模型存在不穩(wěn)定的優(yōu)化動態(tài)特性。為解決這些問題,我們提出了一種漸進式上下文擴展框架,該框架包含:課程引導的分階段強化學習策略以穩(wěn)定從短到長上下文的優(yōu)化過程;難度感知的回顧采樣機制,優(yōu)先探索復雜實例;以及穩(wěn)定的監(jiān)督微調(diào)預熱階段,在強化學習訓練前提供穩(wěn)健的初始化基礎。

穩(wěn)健的監(jiān)督微調(diào)預熱:使用蒸餾的長上下文推理數(shù)據(jù)在強化學習前監(jiān)督微調(diào)模型,獲取穩(wěn)定的初始策略,降低訓練過程中的不穩(wěn)定。

課程引導的分階段強化學習:將強化學習訓練分為兩階段,階段 I 輸入長度 20K,階段 II 擴展至 60K,逐步適應長上下文。每階段僅訓練當前長度區(qū)間的樣本,避免混合長度導致的優(yōu)化沖突。



難度感知的回顧采樣:根據(jù)樣本平均獎勵動態(tài)計算難度,低獎勵樣本(高難度)被優(yōu)先保留至后續(xù)階段。階段 II 訓練時,包含階段 I 的高難度樣本,強制模型持續(xù)探索復雜案例。



混合獎勵機制

在數(shù)學、編程和邏輯推理等短上下文推理任務中,先前的研究工作通常采用基于規(guī)則的獎勵函數(shù)。然而,開放域問答等長上下文推理任務因其固有的答案多樣性帶來了獨特挑戰(zhàn)。在這種情境下,限制性過強的基于規(guī)則的獎勵機制可能會制約有效答案的多樣性,從而可能影響整體性能。針對這些局限性,我們提出一種融合規(guī)則驗證模型評判的混合獎勵機制,通過互補性評估實現(xiàn)精確率與召回率的平衡。

規(guī)則獎勵:通過正則表達式從模型輸出中提取答案,與標準答案嚴格匹配。確保答案格式正確性,防止 Reward Hacking。



模型評判:訓練過程采用 Qwen2.5-1.5B-Instruct 作為輕量級評判模型,評估預測答案和標準答案之間語義等價性。



組合策略:最終獎勵取規(guī)則與模型評判的最大值,兼顧精確性與答案多樣性。

實驗發(fā)現(xiàn)

主實驗結(jié)果



相較于 SFT,RL 性能提升顯著:僅需 1.6K 高質(zhì)量樣本在 R1-Distill-Qwen 模型上 RL 后提升明顯,14B 模型平均提升 4.1,32B 模型平均提升 5.1。

在國內(nèi)外旗艦推理模型中處于領先地位:

  • QwenLong-L1-14B 模型平均 Pass@1 達到 68.3,超越 Gemini-2.0-Flash-Thinking, R1-Distill-Qwen-32B, Qwen3-32B
  • QwenLong-L1-32B 模型平均 Pass@1 達到 70.7,超越 QwQ-Plus, Qwen3-Plus, OpenAI-o3-mini, 與 Claude-3.7-Sonnet-Thinking 持平



Test-Time Scaling 性能明顯:QwenLong-L1-14B 模型平均 Pass@2 達到 73.7,超越 DeepSeek-R1 (Pass@1, 72.1), OpenAI-o1-preview (Pass@1, 72.9)

SFT 與 RL 的權(quán)衡



探究不同起點模型 RL 后的結(jié)果:Base Model, Short-Context SFT Model (<=20K), Long-Context SFT Model (<=60K)。

有趣發(fā)現(xiàn):

  • SFT 和 RL 發(fā)揮著互補作用,SFT 較低代價到可接受性能,而 RL 對達到最佳結(jié)果至關(guān)重要;
  • 要實現(xiàn)最優(yōu)性能,必須優(yōu)先考慮 RL 而不是 SFT,因為過度關(guān)注 SFT 可能使模型陷入局部最優(yōu),從而限制 RL 提升;

長上下文推理行為的涌現(xiàn)和變化



探索訓練過程中推理模式的動態(tài)變化:包括長上下文推理相關(guān)的 Grounding 和通用推理相關(guān)的 Backtracking, Verification, Subgoal Setting 等推理模式。

有趣發(fā)現(xiàn):

  • 所有模型都表現(xiàn)出明顯的各類推理模式,且長上下文相關(guān)的 Grounding 出現(xiàn)頻率最高
  • RL 自然地使這些推理模式出現(xiàn)頻率越來越高,最終性能也會隨之增長
  • SFT 盡管讓推理模式取得了遠高于 RL 的增加,但轉(zhuǎn)換成的性能提高相較于 RL 有限

結(jié)論

這項研究通過強化學習探索了長上下文推理大模型的開發(fā)。其首先提出長上下文推理強化學習范式,并發(fā)現(xiàn)次優(yōu)的訓練效率和不穩(wěn)定的優(yōu)化過程等關(guān)鍵問題。

為應對這些挑戰(zhàn),研究團隊推出 QwenLong-L1,一個漸進式上下文擴展強化學習框架。實驗結(jié)果表明 QwenLong-L1 在業(yè)界領先的長上下文推理大模型中表現(xiàn)優(yōu)異。其中,QwenLong-L1-14B 性能超越 Gemini-2.0-Flash-Thinking 和 Qwen3-32B,而 QwenLong-L1-32B 超越 OpenAI-o3-mini、Qwen3-235B-A22B,甚至與 Claude-3.7-Sonnet-Thinking 達到同等水平。

我們的分析揭示了長上下文推理強化學習的三項關(guān)鍵洞察:漸進式上下文擴展對實現(xiàn)穩(wěn)定適應的重要作用、優(yōu)先強化學習對最優(yōu)性能的必要性,以及強化學習訓練過程中長文本推理模式的增加對性能提升的促進作用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
比亞迪員工:魏建軍口中汽車行業(yè)的“恒大”是迪子么?

比亞迪員工:魏建軍口中汽車行業(yè)的“恒大”是迪子么?

螞蟻大喇叭
2025-05-27 15:46:46
拉塞爾:我剛跟科比當隊友時,心想科比怎么可以跟詹姆斯對比!

拉塞爾:我剛跟科比當隊友時,心想科比怎么可以跟詹姆斯對比!

歷史第一人梅西
2025-05-27 18:02:18
67歲老教授娶25歲按摩女為妻,臨終前叫來兒子:把她娶了你有福

67歲老教授娶25歲按摩女為妻,臨終前叫來兒子:把她娶了你有福

懸案解密檔案
2025-05-17 13:47:44
日本蓋了12.5米高的海上長城抵御海嘯~

日本蓋了12.5米高的海上長城抵御海嘯~

日本物語
2025-05-27 08:27:51
連續(xù)兩年出口世界第一,輝煌才剛剛開始

連續(xù)兩年出口世界第一,輝煌才剛剛開始

平原公子
2025-04-01 08:27:09
在最后關(guān)頭談判破裂,中方拒絕簽字,馬克龍別無選擇

在最后關(guān)頭談判破裂,中方拒絕簽字,馬克龍別無選擇

趣味萌寵的日常
2025-05-19 03:12:39
成都女子遇害案開庭!兇手底細曝光:大二輟學,父親是老師

成都女子遇害案開庭!兇手底細曝光:大二輟學,父親是老師

魔都姐姐雜談
2025-05-27 21:01:54
大陸高度評價賴清德,國民黨迅速反應,臺專家直言其前途堪憂。

大陸高度評價賴清德,國民黨迅速反應,臺專家直言其前途堪憂。

阿鄖田間生活
2025-05-25 15:26:07
震驚!《明朝那些事兒》作者“當年明月”傳聞背后的情感糾葛

震驚!《明朝那些事兒》作者“當年明月”傳聞背后的情感糾葛

野薔薇觀察所
2025-05-27 11:17:39
歌手郁可唯的新造型,引發(fā)熱議!網(wǎng)友:怎么穿個磨碾子出來了?

歌手郁可唯的新造型,引發(fā)熱議!網(wǎng)友:怎么穿個磨碾子出來了?

南南說娛
2025-05-26 14:19:58
5月27日國乒傳來好消息:劉詩雯不退役樊振東將復出王楚欽感謝莎莎

5月27日國乒傳來好消息:劉詩雯不退役樊振東將復出王楚欽感謝莎莎

葡萄說娛
2025-05-27 09:30:02
40萬美軍進逼,中美是打是和?美3大司令攤牌,解放軍也來援手了

40萬美軍進逼,中美是打是和?美3大司令攤牌,解放軍也來援手了

健身狂人
2025-05-25 15:22:18
當年舉報畢福劍的那位告密者張清:眾叛親離,過得好慘

當年舉報畢福劍的那位告密者張清:眾叛親離,過得好慘

新興網(wǎng)評
2024-12-11 21:02:46
為什么月薪3千和3萬,出差都住亞朵?揭秘社畜尊嚴的隱藏成本!

為什么月薪3千和3萬,出差都住亞朵?揭秘社畜尊嚴的隱藏成本!

李砍柴
2025-05-27 21:44:43
胡塞這把玩了個大的!

胡塞這把玩了個大的!

那山星火
2025-05-26 07:45:34
連拋48座萬達廣場,王健林回款500億

連拋48座萬達廣場,王健林回款500億

21世紀商業(yè)評論
2025-05-26 22:00:45
印度防長批準隱形戰(zhàn)機計劃

印度防長批準隱形戰(zhàn)機計劃

財聯(lián)社
2025-05-27 18:03:07
大莫:在湖人的這三個月很愉快 我的職業(yè)生涯不會再打太久了

大莫:在湖人的這三個月很愉快 我的職業(yè)生涯不會再打太久了

直播吧
2025-05-28 06:55:14
島國又一個“明日花”火了!F杯+蜂腰身材引舔屏,誰頂?shù)米“?.....

島國又一個“明日花”火了!F杯+蜂腰身材引舔屏,誰頂?shù)米“?.....

健身迷
2025-05-22 09:51:23
什么都沒干就血虧100萬!香港新騙局圍獵內(nèi)地精英

什么都沒干就血虧100萬!香港新騙局圍獵內(nèi)地精英

熱鬧吃瓜大姐
2025-05-26 19:49:09
2025-05-28 07:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10539文章數(shù) 142324關(guān)注度
往期回顧 全部

科技要聞

蘋果App Store五年阻止90億美元欺詐交易

頭條要聞

烏外長:烏克蘭愿意停火 只要俄羅斯同樣愿意

頭條要聞

烏外長:烏克蘭愿意?;?只要俄羅斯同樣愿意

體育要聞

用生命拼出8個世界冠軍,他還沒贏夠

娛樂要聞

兩姐妹點歌起爭執(zhí) 劉若英深夜發(fā)文道歉

財經(jīng)要聞

"得物搬磚"暴利騙局:大學生成底層"接盤俠"

汽車要聞

滿血版XNGP上車 試駕小鵬MONA M03 MAX

態(tài)度原創(chuàng)

時尚
本地
手機
旅游
游戲

鐘楚曦怎么不算“戀夏”女孩呢?

本地新聞

春色滿城關(guān)不住 | 蘭亭拾光季:從莫奈花園到童話世界

手機要聞

蘋果分享數(shù)據(jù) 解釋App Store如何通過多種方式保障用戶安全

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

魔壇每周節(jié)奏丨Lyn神燃盡、歐皇登基,WPL榜首爭奪再起波瀾

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 平安县| 外汇| 榆社县| 长阳| 台州市| 永宁县| 教育| 宿迁市| 凌云县| 凉城县| 分宜县| 忻州市| 涟水县| 锦州市| 林西县| 佛教| 德江县| 信宜市| 勃利县| 宁武县| 石屏县| 高要市| 铁岭县| 巩留县| 甘泉县| 大邑县| 利津县| 育儿| 太康县| 依安县| 延边| 常德市| 辽中县| 南木林县| 什邡市| 襄汾县| 平塘县| 尚志市| 水富县| 铁力市| 雷州市|