夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
推理大模型開卷新方向,阿里開源長文本深度思考模型QwenLong-L1,登上HuggingFace今日熱門論文第二。
其32B參數版本超過OpenAI-o3-mini、Qwen3-235B-A22B等,取得與Claude-3.7-Sonnet-Thingking相當的性能。
除測評分數外,論文中還詳細展示了一個金融文檔推理的案例。傳統模型容易被無關細節誤導,而QwenLong-L1通過回溯和驗證機制過濾干擾信息,正確整合關鍵數據。
任務要求:根據文檔回答問題“將優先票據的發行成本與第一年的利息支出合并計算,總資本成本是多少?”
首先出場的基礎模型DeepSeek-R1-Distill-Qwen-14B被文檔中“自2011年10月15日起每半年支付一次利息”誤導,根據不相關的時間和財務信息,錯誤計算了第一年的利息支付。
接下來,經過額外SFT的版本仍然未能解決這個問題。
它在對不相關文檔進行過度分析的循環中自我懷疑,最終盡了最大生成限制(10000 tokens),卻沒有給出最終答案。
相比之下,雖然QwenLong-L1-14B最初也表現出類似的分心,但它很快進行了有效的自我反思。通過及時驗證和回溯,成功過濾掉了不相關的細節,得出了正確答案。
那么,QwenLong-L1是如何做到的?
漸進式上下文擴展
首先,現有推理模型在面對長文本(如幾萬字甚至更長)時遇到什么問題?
Qwen團隊通過對比實驗發現,長文本推理的強化學習訓練存在兩個“硬傷”:
一是訓練效率低,傳統強化學習(RL)方法在長文本中容易陷入局部最優,獎勵收斂慢,限制了策略優化時的探索行為。
二是優化過程不穩定,長文本任務的輸出長度更高、輸入長度分布不均勻,導致策略更新時的方差被放大,訓練過程中參數更新不穩定(如KL散度坐過山車)。
為此團隊提出QwenLong-L1訓練框架,核心是通過漸進式上下文擴展讓模型逐步適應長文本推理。訓練過程分為兩階段:
預熱監督微調(Warm-Up Supervised Fine-Tuning)
在開始強化學習之前,先用高質量的演示數據進行監督微調,讓模型先具備基本的長文本理解能力、推理鏈生成能力和答案提取能力。
團隊從DeepSeek-R1蒸餾了5.3K個高質量的問題-文檔-答案三元組,確保模型有個穩定的起點。實驗結果顯示,這個”熱身”階段對后續的強化學習訓練至關重要。
課程引導的分階段強化學習(Curriculum-Guided Phased Reinforcement Learning)。
從短文本逐步過渡到長文本。例如,先訓練模型處理2萬token的文本,穩定后再增加到6萬token,最后到128K。每個階段只關注對應長度的文本。
此外還引入了難度感知的回溯采樣機制。在進入下一階段時,會保留前一階段中最難的樣本(平均準確率為零的那些),確保模型不會”忘記”如何處理困難案例。
長文本問答的答案往往比較開放,單純的規則匹配太死板,可能漏掉正確答案。
QwenLong-L1在強化學習訓練中采用混合獎勵函數,結合了基于規則的驗證和LLM-as-a-Judge。
規則驗證也就是直接檢查答案是否與標準答案完全一致(如數學題計算結果是否正確),再用另一個模型判斷答案的語義是否正確(應對答案表述不同但意思一致的情況),兩者結合避免單一規則過于嚴格或寬松
在DocMath、Frames、2WikimQA等七個長文本基準測試中,QwenLong-L1-14B相比基礎模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。
QwenLong-L1的32B版本相比基礎模型提升了5.1分,達到70.7的平均分。這個成績不僅超過了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。
團隊還針對Test-time Scaling性能做了評估。當生成16個候選答案時,QwenLong-L1-14B的表現超過了DeepSeek-R1和OpenAI-o1-preview。
最后論文中還深入探討了兩個問題:
- 既然SFT相對簡單便宜,為什么還要費勁搞強化學習(RL)?
實驗結果很有啟發性。長文本SFT確實能帶來2.6分的提升,比短文本SFT的效果更好。但是,如果在長文本SFT的基礎上再做RL,提升幅度只有0.3分;而在短文本SFT基礎上做RL,卻能提升3.2分。
對此團隊提出一個觀點:SFT提供了一種經濟的性能提升方式,而RL則是達到最優性能必不可少的。
通過跟蹤分析了四種關鍵推理行為發現3個結論:信息定位(grounding)、子目標設定(subgoal setting)、回溯(backtracking)和驗證(verification)。
- 所有模型都展現出明顯的推理行為,尤其是信息定位行為出現頻率最高,這證明了它在處理上下文依賴推理時的重要性;
- 強化學習訓練過程中,這些行為會逐漸增強,并與性能提升高度相關,表明強化學習能有效調整輸出空間,優先保留有助于得出準確解答的推理模式
- 雖然SFT模型也能學會這些行為,但這些表面上的行為模仿并沒有帶來實質性能提升,這揭示了SFT更關注表面模式匹配,而非實質推理能力的培養。
論文地址:
https://arxiv.org/pdf/2505.17667
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.