99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<ul id="ivxcp"></ul>

<sup id="ivxcp"><rt id="ivxcp"></rt></sup>

<dl id="ivxcp"><del id="ivxcp"></del></dl>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

阿里開源長文本深度思考模型！漸進式強化學習破解長文本訓練難題

2025-05-27 15:01:03　來源: 量子位

北京舉報

0

分享至

夢晨發自凹非寺
量子位 | 公眾號 QbitAI

推理大模型開卷新方向，阿里開源長文本深度思考模型QwenLong-L1，登上HuggingFace今日熱門論文第二。

其32B參數版本超過OpenAI-o3-mini、Qwen3-235B-A22B等，取得與Claude-3.7-Sonnet-Thingking相當的性能。

除測評分數外，論文中還詳細展示了一個金融文檔推理的案例。傳統模型容易被無關細節誤導，而QwenLong-L1通過回溯和驗證機制過濾干擾信息，正確整合關鍵數據。

任務要求：根據文檔回答問題“將優先票據的發行成本與第一年的利息支出合并計算，總資本成本是多少？”

首先出場的基礎模型DeepSeek-R1-Distill-Qwen-14B被文檔中“自2011年10月15日起每半年支付一次利息”誤導，根據不相關的時間和財務信息，錯誤計算了第一年的利息支付。

接下來，經過額外SFT的版本仍然未能解決這個問題。

它在對不相關文檔進行過度分析的循環中自我懷疑，最終盡了最大生成限制（10000 tokens），卻沒有給出最終答案。

相比之下，雖然QwenLong-L1-14B最初也表現出類似的分心，但它很快進行了有效的自我反思。通過及時驗證和回溯，成功過濾掉了不相關的細節，得出了正確答案。

那么，QwenLong-L1是如何做到的？

漸進式上下文擴展

首先，現有推理模型在面對長文本（如幾萬字甚至更長）時遇到什么問題？

Qwen團隊通過對比實驗發現，長文本推理的強化學習訓練存在兩個“硬傷”：

一是訓練效率低，傳統強化學習（RL）方法在長文本中容易陷入局部最優，獎勵收斂慢，限制了策略優化時的探索行為。

二是優化過程不穩定，長文本任務的輸出長度更高、輸入長度分布不均勻，導致策略更新時的方差被放大，訓練過程中參數更新不穩定（如KL散度坐過山車）。

為此團隊提出QwenLong-L1訓練框架，核心是通過漸進式上下文擴展讓模型逐步適應長文本推理。訓練過程分為兩階段：

預熱監督微調（Warm-Up Supervised Fine-Tuning）

在開始強化學習之前，先用高質量的演示數據進行監督微調，讓模型先具備基本的長文本理解能力、推理鏈生成能力和答案提取能力。

團隊從DeepSeek-R1蒸餾了5.3K個高質量的問題-文檔-答案三元組，確保模型有個穩定的起點。實驗結果顯示，這個”熱身”階段對后續的強化學習訓練至關重要。

課程引導的分階段強化學習（Curriculum-Guided Phased Reinforcement Learning）。

從短文本逐步過渡到長文本。例如，先訓練模型處理2萬token的文本，穩定后再增加到6萬token，最后到128K。每個階段只關注對應長度的文本。

此外還引入了難度感知的回溯采樣機制。在進入下一階段時，會保留前一階段中最難的樣本（平均準確率為零的那些），確保模型不會”忘記”如何處理困難案例。

長文本問答的答案往往比較開放，單純的規則匹配太死板，可能漏掉正確答案。

QwenLong-L1在強化學習訓練中采用混合獎勵函數，結合了基于規則的驗證和LLM-as-a-Judge。

規則驗證也就是直接檢查答案是否與標準答案完全一致（如數學題計算結果是否正確），再用另一個模型判斷答案的語義是否正確（應對答案表述不同但意思一致的情況），兩者結合避免單一規則過于嚴格或寬松

在DocMath、Frames、2WikimQA等七個長文本基準測試中，QwenLong-L1-14B相比基礎模型R1-Distill-Qwen-14B，平均提升了4.1分，超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。

QwenLong-L1的32B版本相比基礎模型提升了5.1分，達到70.7的平均分。這個成績不僅超過了OpenAI-o3-mini（70.4分）、Qwen3-235B-A22B（70.6分），甚至和Claude-3.7-Sonnet-Thinking（70.7分）打成平手。

團隊還針對Test-time Scaling性能做了評估。當生成16個候選答案時，QwenLong-L1-14B的表現超過了DeepSeek-R1和OpenAI-o1-preview。

最后論文中還深入探討了兩個問題：

既然SFT相對簡單便宜，為什么還要費勁搞強化學習（RL）？

實驗結果很有啟發性。長文本SFT確實能帶來2.6分的提升，比短文本SFT的效果更好。但是，如果在長文本SFT的基礎上再做RL，提升幅度只有0.3分；而在短文本SFT基礎上做RL，卻能提升3.2分。

對此團隊提出一個觀點：SFT提供了一種經濟的性能提升方式，而RL則是達到最優性能必不可少的。

通過跟蹤分析了四種關鍵推理行為發現3個結論：信息定位（grounding）、子目標設定（subgoal setting）、回溯（backtracking）和驗證（verification）。

所有模型都展現出明顯的推理行為，尤其是信息定位行為出現頻率最高，這證明了它在處理上下文依賴推理時的重要性；
強化學習訓練過程中，這些行為會逐漸增強，并與性能提升高度相關，表明強化學習能有效調整輸出空間，優先保留有助于得出準確解答的推理模式
雖然SFT模型也能學會這些行為，但這些表面上的行為模仿并沒有帶來實質性能提升，這揭示了SFT更關注表面模式匹配，而非實質推理能力的培養。

論文地址：
https://arxiv.org/pdf/2505.17667

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

重構訓練框架，開源新方法：拋棄替代損失函數，僅需優化原始目標

量子位 2025-04-27 12:22:37
0 跟貼 0
136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

機器之心Pro 2025-04-08 18:40:57
0 跟貼 0

差分注意力機制引領變革，DIFF Transformer攻克長序列建模難題

機器之心Pro 2025-04-29 11:03:19
25 跟貼 25

擴散語言模型九倍推理加速！KV Cache并非自回歸模型專屬

量子位 2025-05-27 17:02:02
0 跟貼 0
沒想到，最Open的開源新模型，來自小紅書

機器之心Pro 2025-06-08 11:20:11
3 跟貼 3

不愁了！開源智能體Paper2Poster「一鍵生成」學術海報

機器之心Pro 2025-06-06 18:07:38
1 跟貼 1

經典ReLU回歸！重大缺陷「死亡ReLU問題」已被解決

機器之心Pro 2025-06-03 17:08:54
0 跟貼 0
百度升級高考服務，接入多款大模型支持方案對比

經濟觀察報 2025-06-07 10:54:06
0 跟貼 0

RLHF已死，RLVR引爆AGI革命！Claude 4核心成員萬字對談

新智元 2025-06-07 09:04:24
26 跟貼 26
國外偶遇馬云，這躲躲閃閃的模樣，直接老的認不出！

喜樂搞笑 2025-06-06 15:39:05
1 跟貼 1
競買人稱所拍奔馳車現大額維修記錄，阿里拍賣：賣家描述不符，將退保證金

澎湃新聞 2025-06-06 10:02:30
18 跟貼 18
突破多模態獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

量子位 2025-05-08 17:47:02
1 跟貼 1
馬斯克手撕川普，不甘心啊

悅濤 2025-06-07 13:19:04
0 跟貼 0
川普馬斯克相互攻擊，這是在拯救對方？或許還是密謀？

剪輯仙靈君 2025-06-08 12:33:32
0 跟貼 0
寶馬與阿里巴巴達成AI領域戰略合作

每日經濟新聞 2025-03-26 11:59:03
0 跟貼 0
中國電商App霸榜前三，阿里國際站席卷海外百國榜單

每日經濟新聞 2025-04-20 22:08:02
0 跟貼 0
馬云：努力考95分？不要！為滿分拼命純屬浪費時間！

網易科技態度見聞 2025-06-08 07:00:00
0 跟貼 0
這該是對韋神韋東奕最公正的評價了！網友：比馬云還對錢不感興趣

搞笑成哥 2025-06-07 05:06:31
0 跟貼 0
很多人為小紅書歡呼, 卻誤解了“中國平臺海外用”現象的本質

文化縱橫 2025-01-24 15:55:25
0 跟貼 0
河南周口，農機夫婦夜間偶遇8旬獨居老人，幫其收割麥子！

大象新聞 2025-06-08 12:21:07
98 跟貼 98
類R1訓練不再只看結果對錯！港中文推出SophiaVL-R1模型

機器之心Pro 2025-06-06 18:13:26
0 跟貼 0
首次引入強化學習！火山引擎Q-Insight讓畫質理解邁向深度思考

機器之心Pro 2025-04-08 10:44:59
2 跟貼 2
全球30名頂尖數學家秘密集會圍剿AI，當場破防！驚呼已接近數學天才

新智元 2025-06-07 16:04:37
97 跟貼 97
馬云這段演講值得深思：永不放棄終有一天能成功！

網易科技態度見聞 2025-06-06 17:28:53
5 跟貼 5
比你還像你的AI，來了！

華商韜略 2025-04-29 10:31:57
0 跟貼 0
谷歌Transformer過時了？清華姚班校友等三連擊，爆改注意力！

新智元 2025-06-07 13:21:22
1 跟貼 1
所有AI工具共享記憶！MCP協議無需云端，Cursor、Claude都能用

量子位 2025-05-14 14:00:47
46 跟貼 46
萬斯：馬斯克是個了不起的企業家，希望他還能回歸團隊

老趙觀天下 2025-06-07 20:39:58
0 跟貼 0
阿里巴巴門口雕塑：一個畏畏縮縮的中年男人，提著一個公文包

翻開歷史和現實 2025-06-07 10:12:32
2758 跟貼 2758
蘋果拆解AI大腦，推理模型全是「裝」的？Bengio兄弟合著

新智元 2025-06-06 13:16:46
3 跟貼 3
端側模型又“瘦身成功”！220倍極限提速、8B模型超過Gemma3-12B，面壁智能甩出“性能大小王”

智東西 2025-06-07 20:59:29
1 跟貼 1
創辦三年估值近百億美元，AI編程工具Cursor再獲9億美元融資

DeepTech深科技 2025-06-06 22:52:34
4 跟貼 4
MoE推理「王炸」組合：昇騰×盤古讓推理性能狂飆6-8倍

機器之心Pro 2025-06-06 15:15:44
0 跟貼 0
川普，與馬斯克正式“開撕”

大頭是只貓 2025-06-07 16:35:01
0 跟貼 0
科技巨頭馬斯克與川普的公開較量：商業利益與政治角力

印度人間美味 2025-06-07 20:23:39
0 跟貼 0
烏克蘭稱擊落俄羅斯蘇-35戰斗機

北京日報客戶端 2025-06-07 17:17:15
53071 跟貼 53071
Qwen真是怪胎，獎勵錯了，模型反而更強，強化學習得推翻重來？

機器之心Pro 2025-06-04 21:44:30
0 跟貼 0
阿里深夜開源Qwen2.5-Omni，7B參數完看、聽、說、寫

機器之心Pro 2025-03-27 10:36:47
0 跟貼 0
雷軍背后的男人帶火世界的海爾

每日經濟新聞 2025-03-13 11:45:12
0 跟貼 0
馬斯克直言，不當政客的替罪羊

陽光小筑Sunny 2025-06-08 03:18:33
0 跟貼 0

河南女子吃西瓜險喪命！央媒曝光、醫生警告，這種西瓜劇毒別吃

河南女子吃西瓜險喪命！央媒曝光、醫生警告，這種西瓜劇毒別吃

八斗小先生

2025-06-07 15:09:35

臺灣女主持“柯基臀”太誘人，網友：我的菜?。?>
</a>
<h3>
<a href=

2025-05-29 11:12:25

考620分，被北京郵電大學錄取，每學年學費80000元，到底值不值？

考620分，被北京郵電大學錄取，每學年學費80000元，到底值不值？

逍遙史記

2025-06-07 18:17:24

男子挖魚塘時發現千年銅鏡，將其供奉在家后，每晚都有美人入夢

男子挖魚塘時發現千年銅鏡，將其供奉在家后，每晚都有美人入夢

古怪奇談錄

2025-06-03 15:41:47

太離譜了！重慶一女子1868元訂999朵玫瑰，結果商家只送了300多朵

太離譜了！重慶一女子1868元訂999朵玫瑰，結果商家只送了300多朵

火山詩話

2025-06-08 07:17:28

勤快！許敏親兒媳田靜一大早開播帶貨，人氣不足千人與過往落差大

勤快！許敏親兒媳田靜一大早開播帶貨，人氣不足千人與過往落差大

青檸不酸吖

2025-06-08 08:30:49

員工發燒請假被罵后續：不會受任何處分，涉事HR已開除，公司回應

員工發燒請假被罵后續：不會受任何處分，涉事HR已開除，公司回應

史書無明

2025-06-06 22:14:05

美記：字母哥明確表示將繼續為雄鹿效力無意提出交易申請

美記：字母哥明確表示將繼續為雄鹿效力無意提出交易申請

直播吧

2025-06-08 10:35:09

凌晨3點，葡萄牙決戰西班牙！贏球=奪冠創紀錄，C羅沖擊21年魔咒

凌晨3點，葡萄牙決戰西班牙！贏球=奪冠創紀錄，C羅沖擊21年魔咒

球場沒跑道

2025-06-07 14:33:07

賴清德突遭晴天霹靂！“必爭之國”態度明確，在廈門當眾交底統一

賴清德突遭晴天霹靂！“必爭之國”態度明確，在廈門當眾交底統一

雷霆亮劍

2025-06-08 01:20:03

香港演員溫兆倫現狀：定居北京，61歲依然帥氣，10歲女兒好漂亮

香港演員溫兆倫現狀：定居北京，61歲依然帥氣，10歲女兒好漂亮

阿廢冷眼觀察所

2025-06-02 18:17:51

41歲華裔工程師在美國最高峰墜亡，社媒最后記錄令人動容

41歲華裔工程師在美國最高峰墜亡，社媒最后記錄令人動容

北美省錢快報

2025-06-08 07:43:50

一天漲粉破千萬！北大“韋神”家屬回應牙齒缺失：已在治療

一天漲粉破千萬！北大“韋神”家屬回應牙齒缺失：已在治療

瀟湘晨報

2025-06-07 09:03:12

美國施壓失敗，李在明堅持提名留學清華大學的金民錫為國務總理

美國施壓失敗，李在明堅持提名留學清華大學的金民錫為國務總理

陳博世財經

2025-06-08 14:59:22

高考首日驚現明星家長！中戲夫妻低調送考，18歲女兒顏值碾壓網紅

高考首日驚現明星家長！中戲夫妻低調送考，18歲女兒顏值碾壓網紅

野山歷史

2025-06-07 17:01:46

一個殘酷的社會真相！能參加高考的學生，已超越了60%的孩子

一個殘酷的社會真相！能參加高考的學生，已超越了60%的孩子

小嵩

2025-06-07 10:20:11

鐘南山、楊子峰團隊牽頭！全球最大規模連花清瘟預防流感雙盲隨機對照試驗發表

鐘南山、楊子峰團隊牽頭！全球最大規模連花清瘟預防流感雙盲隨機對照試驗發表

生命科學前沿

2025-06-07 19:13:57

恭喜！26歲張鎮麟麗江大婚：妻子高挑美麗，郭士強郭艾倫出席道賀

恭喜！26歲張鎮麟麗江大婚：妻子高挑美麗，郭士強郭艾倫出席道賀

李喜林籃球絕殺

2025-06-08 09:40:29

大連警方的調解，收了錢再收你

李宇琛

2025-06-08 14:56:27

你必須知道，鄭欽文將參加的女王杯賽，可不一般哦

你必須知道，鄭欽文將參加的女王杯賽，可不一般哦

極目新聞

2025-06-07 17:19:18

追蹤人工智能動態

10613文章數 176163關注度

往期回顧全部

科技要聞

馬斯克"越紅線"，美政府急尋SpaceX替代品

頭條要聞

安徽涇縣再通報游客被打：3人被拘公安局多人被追責

頭條要聞

安徽涇縣再通報游客被打：3人被拘公安局多人被追責

體育要聞

冠軍高芙：只要專注自己太陽就會照常升起

娛樂要聞

結婚15年紀念！孫儷發長文談夫妻感情

財經要聞

暴漲超9%！白銀狂飆，“搶奪”黃金光環！

汽車要聞

復古造型樂趣依舊寶馬R12 nineT又帥又好騎

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時尚

旅游

教育

公開課

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶，寫字都帶仙氣兒～

50+女人別再盲目跟風，掌握這凍齡3個秘籍，穿出時髦感不費力

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

教育要聞

高考，為什么定在每年6月份？

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：南郑县| 射阳县| 常宁市| 彭州市| 哈巴河县| 建德市| 政和县| 长宁县| 淄博市| 安宁市| 民丰县| 西平县| 永嘉县| 富民县| 乐山市| 房产| 徐汇区| 清丰县| 西昌市| 奇台县| 泊头市| 宣化县| 大名县| 高雄县| 塔城市| 沅江市| 夏邑县| 罗定市| 中牟县| 荥阳市| 山阴县| 香港 | 海安县| 鹤壁市| 杭锦后旗| 鄂伦春自治旗| 吉木乃县| 博湖县| 宜良县| 武义县| 封开县|

<sup id="s6ueo"><dd id="s6ueo"></dd></sup>

<sup id="s6ueo"><center id="s6ueo"></center></sup>

<ul id="s6ueo"></ul>

<small id="s6ueo"><abbr id="s6ueo"></abbr></small>

<sup id="s6ueo"><center id="s6ueo"></center></sup>