99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<sub id="szopz"></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

阿里開源長文本深度思考模型！漸進式強化學習破解長文本訓練難題

2025-05-27 15:01:03　來源: 量子位

北京舉報

0

分享至

夢晨發自凹非寺
量子位 | 公眾號 QbitAI

推理大模型開卷新方向，阿里開源長文本深度思考模型QwenLong-L1，登上HuggingFace今日熱門論文第二。

其32B參數版本超過OpenAI-o3-mini、Qwen3-235B-A22B等，取得與Claude-3.7-Sonnet-Thingking相當的性能。

除測評分數外，論文中還詳細展示了一個金融文檔推理的案例。傳統模型容易被無關細節誤導，而QwenLong-L1通過回溯和驗證機制過濾干擾信息，正確整合關鍵數據。

任務要求：根據文檔回答問題“將優先票據的發行成本與第一年的利息支出合并計算，總資本成本是多少？”

首先出場的基礎模型DeepSeek-R1-Distill-Qwen-14B被文檔中“自2011年10月15日起每半年支付一次利息”誤導，根據不相關的時間和財務信息，錯誤計算了第一年的利息支付。

接下來，經過額外SFT的版本仍然未能解決這個問題。

它在對不相關文檔進行過度分析的循環中自我懷疑，最終盡了最大生成限制（10000 tokens），卻沒有給出最終答案。

相比之下，雖然QwenLong-L1-14B最初也表現出類似的分心，但它很快進行了有效的自我反思。通過及時驗證和回溯，成功過濾掉了不相關的細節，得出了正確答案。

那么，QwenLong-L1是如何做到的？

漸進式上下文擴展

首先，現有推理模型在面對長文本（如幾萬字甚至更長）時遇到什么問題？

Qwen團隊通過對比實驗發現，長文本推理的強化學習訓練存在兩個“硬傷”：

一是訓練效率低，傳統強化學習（RL）方法在長文本中容易陷入局部最優，獎勵收斂慢，限制了策略優化時的探索行為。

二是優化過程不穩定，長文本任務的輸出長度更高、輸入長度分布不均勻，導致策略更新時的方差被放大，訓練過程中參數更新不穩定（如KL散度坐過山車）。

為此團隊提出QwenLong-L1訓練框架，核心是通過漸進式上下文擴展讓模型逐步適應長文本推理。訓練過程分為兩階段：

預熱監督微調（Warm-Up Supervised Fine-Tuning）

在開始強化學習之前，先用高質量的演示數據進行監督微調，讓模型先具備基本的長文本理解能力、推理鏈生成能力和答案提取能力。

團隊從DeepSeek-R1蒸餾了5.3K個高質量的問題-文檔-答案三元組，確保模型有個穩定的起點。實驗結果顯示，這個”熱身”階段對后續的強化學習訓練至關重要。

課程引導的分階段強化學習（Curriculum-Guided Phased Reinforcement Learning）。

從短文本逐步過渡到長文本。例如，先訓練模型處理2萬token的文本，穩定后再增加到6萬token，最后到128K。每個階段只關注對應長度的文本。

此外還引入了難度感知的回溯采樣機制。在進入下一階段時，會保留前一階段中最難的樣本（平均準確率為零的那些），確保模型不會”忘記”如何處理困難案例。

長文本問答的答案往往比較開放，單純的規則匹配太死板，可能漏掉正確答案。

QwenLong-L1在強化學習訓練中采用混合獎勵函數，結合了基于規則的驗證和LLM-as-a-Judge。

規則驗證也就是直接檢查答案是否與標準答案完全一致（如數學題計算結果是否正確），再用另一個模型判斷答案的語義是否正確（應對答案表述不同但意思一致的情況），兩者結合避免單一規則過于嚴格或寬松

在DocMath、Frames、2WikimQA等七個長文本基準測試中，QwenLong-L1-14B相比基礎模型R1-Distill-Qwen-14B，平均提升了4.1分，超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。

QwenLong-L1的32B版本相比基礎模型提升了5.1分，達到70.7的平均分。這個成績不僅超過了OpenAI-o3-mini（70.4分）、Qwen3-235B-A22B（70.6分），甚至和Claude-3.7-Sonnet-Thinking（70.7分）打成平手。

團隊還針對Test-time Scaling性能做了評估。當生成16個候選答案時，QwenLong-L1-14B的表現超過了DeepSeek-R1和OpenAI-o1-preview。

最后論文中還深入探討了兩個問題：

既然SFT相對簡單便宜，為什么還要費勁搞強化學習（RL）？

實驗結果很有啟發性。長文本SFT確實能帶來2.6分的提升，比短文本SFT的效果更好。但是，如果在長文本SFT的基礎上再做RL，提升幅度只有0.3分；而在短文本SFT基礎上做RL，卻能提升3.2分。

對此團隊提出一個觀點：SFT提供了一種經濟的性能提升方式，而RL則是達到最優性能必不可少的。

通過跟蹤分析了四種關鍵推理行為發現3個結論：信息定位（grounding）、子目標設定（subgoal setting）、回溯（backtracking）和驗證（verification）。

所有模型都展現出明顯的推理行為，尤其是信息定位行為出現頻率最高，這證明了它在處理上下文依賴推理時的重要性；
強化學習訓練過程中，這些行為會逐漸增強，并與性能提升高度相關，表明強化學習能有效調整輸出空間，優先保留有助于得出準確解答的推理模式
雖然SFT模型也能學會這些行為，但這些表面上的行為模仿并沒有帶來實質性能提升，這揭示了SFT更關注表面模式匹配，而非實質推理能力的培養。

論文地址：
https://arxiv.org/pdf/2505.17667

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

阿里通義發布并行計算新策略：1.6B等效4.4B，內存消耗驟降95%

量子位 2025-05-28 15:18:10
1 跟貼 1
重構訓練框架，開源新方法：拋棄替代損失函數，僅需優化原始目標

量子位 2025-04-27 12:22:37
0 跟貼 0

差分注意力機制引領變革，DIFF Transformer攻克長序列建模難題

機器之心Pro 2025-04-29 11:03:19
25 跟貼 25

谷歌開源大模型評測工具LMEval，打通谷歌、OpenAI、Anthropic

智東西 2025-05-28 18:56:11
6 跟貼 6
逼近Claude 3.5、成本降低86%，開源代碼定位新神器LocAgent來了

機器之心Pro 2025-05-28 19:16:19
1 跟貼 1

強化學習解決長上下文推理問題：通義推出QwenLong-L1-32B

機器之心Pro 2025-05-27 18:40:07
0 跟貼 0

面對印度斷水威脅，中巴水利工程能否改寫規則？

盧克文工作室 2025-05-27 17:49:37
1 跟貼 1
重走擴張路線：阿里“復興”進展到哪了？

鈦媒體APP 2025-05-27 19:33:14
4 跟貼 4

雷軍式辟謠友商學不來

智能相對論 2025-05-28 12:22:59
1 跟貼 1
從阿里、SAP合作，看資本市場的AI“確定性”邏輯

華爾街見聞官方 2025-05-28 11:08:06
20 跟貼 20
阿里巴巴華中總部，以“孔明鎖”為設計理念

GA環球建筑 2025-05-27 22:13:05
17 跟貼 17
寶馬與阿里巴巴達成AI領域戰略合作

每日經濟新聞 2025-03-26 11:59:03
2 跟貼 2
中國電商App霸榜前三，阿里國際站席卷海外百國榜單

每日經濟新聞 2025-04-20 22:08:02
0 跟貼 0
UCB提出無需外部獎勵的強化學習方法，只靠自信就能學習復雜推理

DeepTech深科技 2025-05-28 19:53:40
0 跟貼 0
美國公婆第一次見燉魚，驚嘆中餐還能這么做？太鮮美了，真講究！

河南A媽在美國 2025-05-27 12:38:14
5399 跟貼 5399
突破多模態獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

量子位 2025-05-08 17:47:02
0 跟貼 0
速賣通開始猛烈發力

華爾街見聞官方 2025-05-28 18:46:33
31 跟貼 31
One RL to See Them All？一個強化學習統一視覺-語言任務！

機器之心Pro 2025-05-27 14:13:40
0 跟貼 0
增長不夠快，阿里云卷向海外

財天COVER 2025-05-28 17:04:10
1 跟貼 1
LLM加RL遭質疑：故意用錯獎勵，數學基準也顯著提升，AI圈炸了

機器之心Pro 2025-05-28 16:47:07
5 跟貼 5
馬斯克不活嗎？再次語出驚人，承認自己喜歡中國！

愛搞笑的蘇蘇 2025-05-28 13:42:54
0 跟貼 0
阿里深夜開源Qwen2.5-Omni，7B參數完看、聽、說、寫

機器之心Pro 2025-03-27 10:36:47
0 跟貼 0
大模型玩不好數獨？排行榜：o3 Mini High變異數獨正確率僅2.9%

量子位 2025-05-28 13:51:26
1 跟貼 1
南京房子賣掉虧了170萬！93年小伙哭訴，這十幾年的奮斗全部歸0

火山詩話 2025-05-28 05:51:06
3804 跟貼 3804
印度代表帶150頁文件宣講勝利日本外相只聽了15分鐘

上游新聞 2025-05-28 10:59:42
4294 跟貼 4294
比你還像你的AI，來了！

華商韜略 2025-04-29 10:31:57
0 跟貼 0
馬斯克說，中國是他第二個家，打臉老東家白宮

乘風笑浪 2025-05-27 15:58:03
0 跟貼 0
一降一升！摩根士丹利下調阿里健康至"低配" 同時上調京東健康評級

財聯社 2025-05-28 23:32:15
0 跟貼 0
雷軍背后的男人帶火世界的海爾

每日經濟新聞 2025-03-13 11:45:12
0 跟貼 0
所有AI工具共享記憶！MCP協議無需云端，Cursor、Claude都能用

量子位 2025-05-14 14:00:47
46 跟貼 46
美國在休戰期的雙重游戲：從盟友收割到對中國施壓的失敗策略

貓女的小樹屋 2025-05-28 15:28:12
0 跟貼 0
敗選后卷土重來？時隔半年后菲律賓又主動撞中國船，對華策略變了

地理三體說 2025-05-26 14:13:22
0 跟貼 0
多模態大模型不會畫輔助線：o3僅25.8%，遠低于人類82.3%

量子位 2025-05-28 12:37:09
0 跟貼 0
哈利伯頓32+12+15步行者3-1尼克斯西卡30+5布倫森31+5

網易體育 2025-05-28 10:50:15
3167 跟貼 3167
凌晨兩點在阿里無人區，遇到徒步女孩、我兩次嘗試讓徒步女孩上車

鑫鑫有很多金 2025-05-27 13:44:49
0 跟貼 0
日英意六代機模型亮相日本防務展，劍指中國六代機！

小魏談局勢維度 2025-05-28 01:07:34
4 跟貼 4
嗨球學員母親言語攻擊博主：你閉嘴！跟你沒關系我就不愿走仲裁

風過鄉 2025-05-28 13:12:39
2775 跟貼 2775
陸戰之王-99A：嘆息之墻橫亙戰場，99A正以物理法則改寫陸戰規則

三叔胡侃 2025-05-25 13:06:07
1 跟貼 1
騰訊首位4個皇冠的QQ用戶即將誕生，會出現金企鵝的標志嗎？

娛樂看阿敞 2025-05-28 09:50:23
466 跟貼 466
曹德旺：福耀科大首年8億預算招50個學生

大象新聞 2025-05-28 16:50:13
1453 跟貼 1453

知名女星為愛當三，狗仔拍到和原配大打出手現場！

知名女星為愛當三，狗仔拍到和原配大打出手現場！

安徽彭于晏

2025-05-27 17:49:00

巴基斯坦外長訪華，有句話令中方動容，說明殲10C性能確實被低估

巴基斯坦外長訪華，有句話令中方動容，說明殲10C性能確實被低估

風華講史

2025-05-25 12:14:08

荒誕啊！國際乒聯主席競選環節出混亂，賄選、遲到、互相語言攻擊

荒誕??！國際乒聯主席競選環節出混亂，賄選、遲到、互相語言攻擊

乒談

2025-05-28 10:12:10

巴列卡諾主席談C羅：如果有機會，我會親自去沙特把他帶回來

巴列卡諾主席談C羅：如果有機會，我會親自去沙特把他帶回來

直播吧

2025-05-28 18:08:22

我陪同事出差逛荷蘭紅燈區，竟在櫥窗里看到我的高中英語老師……

我陪同事出差逛荷蘭紅燈區，竟在櫥窗里看到我的高中英語老師……

皮卡多槍神

2023-07-26 15:29:39

80后江蘇泰州泰興市女副市長秦娟擬任泰州市市直單位正職

80后江蘇泰州泰興市女副市長秦娟擬任泰州市市直單位正職

澎湃新聞

2025-05-28 21:52:28

20歲的越南女孩嫁到南京，7年后第一次回家，丈夫給了她15萬塊錢

20歲的越南女孩嫁到南京，7年后第一次回家，丈夫給了她15萬塊錢

流螢敘情

2025-04-27 09:55:18

百姓迎來好消息！5月起這些費用全面取消，家家戶戶都受益

百姓迎來好消息！5月起這些費用全面取消，家家戶戶都受益

故衣談歷史

2025-05-28 13:14:44

婚姻法新規：非夫妻關系的男女自愿同居，如果被查到之后...

婚姻法新規：非夫妻關系的男女自愿同居，如果被查到之后...

喬話

2025-04-28 21:57:12

內行人不想讓你知道的大實話：這玩意別買太貴的……

內行人不想讓你知道的大實話：這玩意別買太貴的……

果殼

2025-05-28 16:15:53

廣西男子因長相帥氣，被三名富婆帶到酒店，結束時已精神崩潰

廣西男子因長相帥氣，被三名富婆帶到酒店，結束時已精神崩潰

朝暮書屋

2025-05-19 18:33:33

烏克蘭F16飛抵俄羅斯境內！空襲庫爾斯克指揮部

烏克蘭F16飛抵俄羅斯境內！空襲庫爾斯克指揮部

項鵬飛

2025-05-28 20:36:59

老公不在家，我叫來保安，五十歲大叔比三十歲的年輕小伙還要厲害

老公不在家，我叫來保安，五十歲大叔比三十歲的年輕小伙還要厲害

霧島夜話

2025-05-15 17:10:13

多地通報違規吃喝等典型問題：不吃公款吃老板，轉嫁費用情況較多

多地通報違規吃喝等典型問題：不吃公款吃老板，轉嫁費用情況較多

澎湃新聞

2025-05-28 10:40:04

以色列擊毀胡塞武裝最后一架飛機！哈馬斯失去物資分配權

以色列擊毀胡塞武裝最后一架飛機！哈馬斯失去物資分配權

項鵬飛

2025-05-28 21:15:04

都說美債要完，結果日債先崩了？川普打斷日本國運？

都說美債要完，結果日債先崩了？川普打斷日本國運？

北向財經

2025-05-28 11:14:15

臭名昭著的3位相聲演員，“包養”女徒弟、戀上師姨、背棄師門

臭名昭著的3位相聲演員，“包養”女徒弟、戀上師姨、背棄師門

南南說娛

2025-05-10 14:35:41

人生6大吉兆，能碰到的人，命都很不錯

人生6大吉兆，能碰到的人，命都很不錯

舒山有鹿

2025-04-26 12:41:44

在護工半推半就情況下發生三次關系，第四次不同意刑法如何評判？

在護工半推半就情況下發生三次關系，第四次不同意刑法如何評判？

春序娛樂

2025-05-07 10:17:47

縣委書記被雙規，他的妻子去找市委書記，不久縣委書記官復原職

縣委書記被雙規，他的妻子去找市委書記，不久縣委書記官復原職

喬生桂

2024-08-28 10:45:06

追蹤人工智能動態

10580文章數 176154關注度

往期回顧全部

科技要聞

DeepSeek R1完成小版本升級，已可體驗

頭條要聞

美國政府暫停新的留學生簽證面談留學中介回應

頭條要聞

美國政府暫停新的留學生簽證面談留學中介回應

體育要聞

東決G4的哈利交出了一場無瑕疵的比賽

娛樂要聞

19歲榮梓杉和混血美女疑似戀情曝光

財經要聞

74歲王石罕見發聲，能為萬科做些什么？

汽車要聞

25萬級純電SUV飛坡特斯拉Model Y來回跳?

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

手機

親子

房產

教育

夢幻西游從零起號到變現需要多久？新區只需一周！

手機要聞

守護數字生態！蘋果App Store五年阻止90億美元欺詐交易

親子要聞

動手又動腦的#磁力幾何拼圖，可以鍛煉寶寶邏輯思維能力和空間想象力，提升專注力，孩子越玩越聰明#益智玩...

房產要聞

看完這份數據，你應該對海南樓市有信心！

教育要聞

QS100以外的英國大學還值得去嗎？

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：小金县| 正宁县| 都昌县| 紫云| 崇左市| 象山县| 彩票| 定南县| 延津县| 麻栗坡县| 运城市| 宜黄县| 崇州市| 富蕴县| 井陉县| 宿松县| 和平县| 威海市| 敦化市| 老河口市| 垫江县| 曲松县| 汝南县| 邹城市| 万年县| 灵寿县| 武汉市| 民勤县| 天门市| 文成县| 昭觉县| 景德镇市| 伊吾县| 乐昌市| 太保市| 拜城县| 北安市| 宁安市| 会宁县| 平阳县| 招远市|

<sub id="e8csd"><p id="e8csd"></p></sub>