99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

阿里開源長文本深度思考模型!漸進式強化學習破解長文本訓練難題

0
分享至

夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI

推理大模型開卷新方向,阿里開源長文本深度思考模型QwenLong-L1,登上HuggingFace今日熱門論文第二。



其32B參數版本超過OpenAI-o3-mini、Qwen3-235B-A22B等,取得與Claude-3.7-Sonnet-Thingking相當的性能。



除測評分數外,論文中還詳細展示了一個金融文檔推理的案例。傳統模型容易被無關細節誤導,而QwenLong-L1通過回溯和驗證機制過濾干擾信息,正確整合關鍵數據

任務要求:根據文檔回答問題“將優先票據的發行成本與第一年的利息支出合并計算,總資本成本是多少?”



首先出場的基礎模型DeepSeek-R1-Distill-Qwen-14B被文檔中“自2011年10月15日起每半年支付一次利息”誤導,根據不相關的時間和財務信息,錯誤計算了第一年的利息支付。



接下來,經過額外SFT的版本仍然未能解決這個問題。

它在對不相關文檔進行過度分析的循環中自我懷疑,最終盡了最大生成限制(10000 tokens),卻沒有給出最終答案。



相比之下,雖然QwenLong-L1-14B最初也表現出類似的分心,但它很快進行了有效的自我反思。通過及時驗證和回溯,成功過濾掉了不相關的細節,得出了正確答案。



那么,QwenLong-L1是如何做到的?

漸進式上下文擴展

首先,現有推理模型在面對長文本(如幾萬字甚至更長)時遇到什么問題?

Qwen團隊通過對比實驗發現,長文本推理的強化學習訓練存在兩個“硬傷”:

一是訓練效率低,傳統強化學習(RL)方法在長文本中容易陷入局部最優,獎勵收斂慢,限制了策略優化時的探索行為。

二是優化過程不穩定,長文本任務的輸出長度更高、輸入長度分布不均勻,導致策略更新時的方差被放大,訓練過程中參數更新不穩定(如KL散度坐過山車)。



為此團隊提出QwenLong-L1訓練框架,核心是通過漸進式上下文擴展讓模型逐步適應長文本推理。訓練過程分為兩階段:



預熱監督微調(Warm-Up Supervised Fine-Tuning)

在開始強化學習之前,先用高質量的演示數據進行監督微調,讓模型先具備基本的長文本理解能力、推理鏈生成能力和答案提取能力。

團隊從DeepSeek-R1蒸餾了5.3K個高質量的問題-文檔-答案三元組,確保模型有個穩定的起點。實驗結果顯示,這個”熱身”階段對后續的強化學習訓練至關重要。



課程引導的分階段強化學習(Curriculum-Guided Phased Reinforcement Learning)。

從短文本逐步過渡到長文本。例如,先訓練模型處理2萬token的文本,穩定后再增加到6萬token,最后到128K。每個階段只關注對應長度的文本。

此外還引入了難度感知的回溯采樣機制。在進入下一階段時,會保留前一階段中最難的樣本(平均準確率為零的那些),確保模型不會”忘記”如何處理困難案例。



長文本問答的答案往往比較開放,單純的規則匹配太死板,可能漏掉正確答案。

QwenLong-L1在強化學習訓練中采用混合獎勵函數,結合了基于規則的驗證和LLM-as-a-Judge。



規則驗證也就是直接檢查答案是否與標準答案完全一致(如數學題計算結果是否正確),再用另一個模型判斷答案的語義是否正確(應對答案表述不同但意思一致的情況),兩者結合避免單一規則過于嚴格或寬松



在DocMath、Frames、2WikimQA等七個長文本基準測試中,QwenLong-L1-14B相比基礎模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。

QwenLong-L1的32B版本相比基礎模型提升了5.1分,達到70.7的平均分。這個成績不僅超過了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。



團隊還針對Test-time Scaling性能做了評估。當生成16個候選答案時,QwenLong-L1-14B的表現超過了DeepSeek-R1和OpenAI-o1-preview。



最后論文中還深入探討了兩個問題:

  1. 既然SFT相對簡單便宜,為什么還要費勁搞強化學習(RL)?

實驗結果很有啟發性。長文本SFT確實能帶來2.6分的提升,比短文本SFT的效果更好。但是,如果在長文本SFT的基礎上再做RL,提升幅度只有0.3分;而在短文本SFT基礎上做RL,卻能提升3.2分。



對此團隊提出一個觀點:SFT提供了一種經濟的性能提升方式,而RL則是達到最優性能必不可少的。

通過跟蹤分析了四種關鍵推理行為發現3個結論:信息定位(grounding)、子目標設定(subgoal setting)、回溯(backtracking)和驗證(verification)。

  • 所有模型都展現出明顯的推理行為,尤其是信息定位行為出現頻率最高,這證明了它在處理上下文依賴推理時的重要性;
  • 強化學習訓練過程中,這些行為會逐漸增強,并與性能提升高度相關,表明強化學習能有效調整輸出空間,優先保留有助于得出準確解答的推理模式
  • 雖然SFT模型也能學會這些行為,但這些表面上的行為模仿并沒有帶來實質性能提升,這揭示了SFT更關注表面模式匹配,而非實質推理能力的培養。

論文地址:
https://arxiv.org/pdf/2505.17667

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
知名女星為愛當三,狗仔拍到和原配大打出手現場!

知名女星為愛當三,狗仔拍到和原配大打出手現場!

安徽彭于晏
2025-05-27 17:49:00
巴基斯坦外長訪華,有句話令中方動容,說明殲10C性能確實被低估

巴基斯坦外長訪華,有句話令中方動容,說明殲10C性能確實被低估

風華講史
2025-05-25 12:14:08
荒誕啊!國際乒聯主席競選環節出混亂,賄選、遲到、互相語言攻擊

荒誕??!國際乒聯主席競選環節出混亂,賄選、遲到、互相語言攻擊

乒談
2025-05-28 10:12:10
巴列卡諾主席談C羅:如果有機會,我會親自去沙特把他帶回來

巴列卡諾主席談C羅:如果有機會,我會親自去沙特把他帶回來

直播吧
2025-05-28 18:08:22
我陪同事出差逛荷蘭紅燈區,竟在櫥窗里看到我的高中英語老師……

我陪同事出差逛荷蘭紅燈區,竟在櫥窗里看到我的高中英語老師……

皮卡多槍神
2023-07-26 15:29:39
80后江蘇泰州泰興市女副市長秦娟擬任泰州市市直單位正職

80后江蘇泰州泰興市女副市長秦娟擬任泰州市市直單位正職

澎湃新聞
2025-05-28 21:52:28
20歲的越南女孩嫁到南京,7年后第一次回家,丈夫給了她15萬塊錢

20歲的越南女孩嫁到南京,7年后第一次回家,丈夫給了她15萬塊錢

流螢敘情
2025-04-27 09:55:18
百姓迎來好消息!5月起這些費用全面取消,家家戶戶都受益

百姓迎來好消息!5月起這些費用全面取消,家家戶戶都受益

故衣談歷史
2025-05-28 13:14:44
婚姻法新規:非夫妻關系的男女自愿同居,如果被查到之后...

婚姻法新規:非夫妻關系的男女自愿同居,如果被查到之后...

喬話
2025-04-28 21:57:12
內行人不想讓你知道的大實話:這玩意別買太貴的……

內行人不想讓你知道的大實話:這玩意別買太貴的……

果殼
2025-05-28 16:15:53
廣西男子因長相帥氣,被三名富婆帶到酒店,結束時已精神崩潰

廣西男子因長相帥氣,被三名富婆帶到酒店,結束時已精神崩潰

朝暮書屋
2025-05-19 18:33:33
烏克蘭F16飛抵俄羅斯境內!空襲庫爾斯克指揮部

烏克蘭F16飛抵俄羅斯境內!空襲庫爾斯克指揮部

項鵬飛
2025-05-28 20:36:59
老公不在家,我叫來保安,五十歲大叔比三十歲的年輕小伙還要厲害

老公不在家,我叫來保安,五十歲大叔比三十歲的年輕小伙還要厲害

霧島夜話
2025-05-15 17:10:13
多地通報違規吃喝等典型問題:不吃公款吃老板,轉嫁費用情況較多

多地通報違規吃喝等典型問題:不吃公款吃老板,轉嫁費用情況較多

澎湃新聞
2025-05-28 10:40:04
以色列擊毀胡塞武裝最后一架飛機!哈馬斯失去物資分配權

以色列擊毀胡塞武裝最后一架飛機!哈馬斯失去物資分配權

項鵬飛
2025-05-28 21:15:04
都說美債要完,結果日債先崩了?川普打斷日本國運?

都說美債要完,結果日債先崩了?川普打斷日本國運?

北向財經
2025-05-28 11:14:15
臭名昭著的3位相聲演員,“包養”女徒弟、戀上師姨、背棄師門

臭名昭著的3位相聲演員,“包養”女徒弟、戀上師姨、背棄師門

南南說娛
2025-05-10 14:35:41
人生6大吉兆,能碰到的人,命都很不錯

人生6大吉兆,能碰到的人,命都很不錯

舒山有鹿
2025-04-26 12:41:44
在護工半推半就情況下發生三次關系,第四次不同意刑法如何評判?

在護工半推半就情況下發生三次關系,第四次不同意刑法如何評判?

春序娛樂
2025-05-07 10:17:47
縣委書記被雙規,他的妻子去找市委書記,不久縣委書記官復原職

縣委書記被雙規,他的妻子去找市委書記,不久縣委書記官復原職

喬生桂
2024-08-28 10:45:06
2025-05-29 04:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10580文章數 176154關注度
往期回顧 全部

科技要聞

DeepSeek R1完成小版本升級,已可體驗

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

體育要聞

東決G4的哈利交出了一場無瑕疵的比賽

娛樂要聞

19歲榮梓杉和混血美女疑似戀情曝光

財經要聞

74歲王石罕見發聲,能為萬科做些什么?

汽車要聞

25萬級純電SUV飛坡 特斯拉Model Y來回跳?

態度原創

游戲
手機
親子
房產
教育

夢幻西游從零起號到變現需要多久?新區只需一周!

手機要聞

守護數字生態!蘋果App Store五年阻止90億美元欺詐交易

親子要聞

動手又動腦的#磁力幾何拼圖,可以鍛煉寶寶邏輯思維能力和空間想象力,提升專注力,孩子越玩越聰明#益智玩...

房產要聞

看完這份數據,你應該對海南樓市有信心!

教育要聞

QS100以外的英國大學還值得去嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 小金县| 正宁县| 都昌县| 紫云| 崇左市| 象山县| 彩票| 定南县| 延津县| 麻栗坡县| 运城市| 宜黄县| 崇州市| 富蕴县| 井陉县| 宿松县| 和平县| 威海市| 敦化市| 老河口市| 垫江县| 曲松县| 汝南县| 邹城市| 万年县| 灵寿县| 武汉市| 民勤县| 天门市| 文成县| 昭觉县| 景德镇市| 伊吾县| 乐昌市| 太保市| 拜城县| 北安市| 宁安市| 会宁县| 平阳县| 招远市|