99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

阿里開源長文本深度思考模型!漸進式強化學習破解長文本訓練難題

0
分享至

夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI

推理大模型開卷新方向,阿里開源長文本深度思考模型QwenLong-L1,登上HuggingFace今日熱門論文第二。



其32B參數版本超過OpenAI-o3-mini、Qwen3-235B-A22B等,取得與Claude-3.7-Sonnet-Thingking相當的性能。



除測評分數外,論文中還詳細展示了一個金融文檔推理的案例。傳統模型容易被無關細節誤導,而QwenLong-L1通過回溯和驗證機制過濾干擾信息,正確整合關鍵數據。

任務要求:根據文檔回答問題“將優先票據的發行成本與第一年的利息支出合并計算,總資本成本是多少?”



首先出場的基礎模型DeepSeek-R1-Distill-Qwen-14B被文檔中“自2011年10月15日起每半年支付一次利息”誤導,根據不相關的時間和財務信息,錯誤計算了第一年的利息支付。



接下來,經過額外SFT的版本仍然未能解決這個問題。

它在對不相關文檔進行過度分析的循環中自我懷疑,最終盡了最大生成限制(10000 tokens),卻沒有給出最終答案。



相比之下,雖然QwenLong-L1-14B最初也表現出類似的分心,但它很快進行了有效的自我反思。通過及時驗證和回溯,成功過濾掉了不相關的細節,得出了正確答案。



那么,QwenLong-L1是如何做到的?

漸進式上下文擴展

首先,現有推理模型在面對長文本(如幾萬字甚至更長)時遇到什么問題?

Qwen團隊通過對比實驗發現,長文本推理的強化學習訓練存在兩個“硬傷”:

一是訓練效率低,傳統強化學習(RL)方法在長文本中容易陷入局部最優,獎勵收斂慢,限制了策略優化時的探索行為。

二是優化過程不穩定,長文本任務的輸出長度更高、輸入長度分布不均勻,導致策略更新時的方差被放大,訓練過程中參數更新不穩定(如KL散度坐過山車)。



為此團隊提出QwenLong-L1訓練框架,核心是通過漸進式上下文擴展讓模型逐步適應長文本推理。訓練過程分為兩階段:



預熱監督微調(Warm-Up Supervised Fine-Tuning)

在開始強化學習之前,先用高質量的演示數據進行監督微調,讓模型先具備基本的長文本理解能力、推理鏈生成能力和答案提取能力。

團隊從DeepSeek-R1蒸餾了5.3K個高質量的問題-文檔-答案三元組,確保模型有個穩定的起點。實驗結果顯示,這個”熱身”階段對后續的強化學習訓練至關重要。



課程引導的分階段強化學習(Curriculum-Guided Phased Reinforcement Learning)。

從短文本逐步過渡到長文本。例如,先訓練模型處理2萬token的文本,穩定后再增加到6萬token,最后到128K。每個階段只關注對應長度的文本。

此外還引入了難度感知的回溯采樣機制。在進入下一階段時,會保留前一階段中最難的樣本(平均準確率為零的那些),確保模型不會”忘記”如何處理困難案例。



長文本問答的答案往往比較開放,單純的規則匹配太死板,可能漏掉正確答案。

QwenLong-L1在強化學習訓練中采用混合獎勵函數,結合了基于規則的驗證和LLM-as-a-Judge。



規則驗證也就是直接檢查答案是否與標準答案完全一致(如數學題計算結果是否正確),再用另一個模型判斷答案的語義是否正確(應對答案表述不同但意思一致的情況),兩者結合避免單一規則過于嚴格或寬松



在DocMath、Frames、2WikimQA等七個長文本基準測試中,QwenLong-L1-14B相比基礎模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。

QwenLong-L1的32B版本相比基礎模型提升了5.1分,達到70.7的平均分。這個成績不僅超過了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。



團隊還針對Test-time Scaling性能做了評估。當生成16個候選答案時,QwenLong-L1-14B的表現超過了DeepSeek-R1和OpenAI-o1-preview。



最后論文中還深入探討了兩個問題:

  1. 既然SFT相對簡單便宜,為什么還要費勁搞強化學習(RL)?

實驗結果很有啟發性。長文本SFT確實能帶來2.6分的提升,比短文本SFT的效果更好。但是,如果在長文本SFT的基礎上再做RL,提升幅度只有0.3分;而在短文本SFT基礎上做RL,卻能提升3.2分。



對此團隊提出一個觀點:SFT提供了一種經濟的性能提升方式,而RL則是達到最優性能必不可少的

通過跟蹤分析了四種關鍵推理行為發現3個結論:信息定位(grounding)、子目標設定(subgoal setting)、回溯(backtracking)和驗證(verification)。

  • 所有模型都展現出明顯的推理行為,尤其是信息定位行為出現頻率最高,這證明了它在處理上下文依賴推理時的重要性;
  • 強化學習訓練過程中,這些行為會逐漸增強,并與性能提升高度相關,表明強化學習能有效調整輸出空間,優先保留有助于得出準確解答的推理模式
  • 雖然SFT模型也能學會這些行為,但這些表面上的行為模仿并沒有帶來實質性能提升,這揭示了SFT更關注表面模式匹配,而非實質推理能力的培養。

論文地址:
https://arxiv.org/pdf/2505.17667

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
河南女子吃西瓜險喪命!央媒曝光、醫生警告,這種西瓜劇毒別吃

河南女子吃西瓜險喪命!央媒曝光、醫生警告,這種西瓜劇毒別吃

八斗小先生
2025-06-07 15:09:35
臺灣女主持“柯基臀”太誘人,網友:我的菜?。?>
    </a>
        <h3>
      <a href=健身迷
2025-05-29 11:12:25
考620分,被北京郵電大學錄取,每學年學費80000元,到底值不值?

考620分,被北京郵電大學錄取,每學年學費80000元,到底值不值?

逍遙史記
2025-06-07 18:17:24
男子挖魚塘時發現千年銅鏡,將其供奉在家后,每晚都有美人入夢

男子挖魚塘時發現千年銅鏡,將其供奉在家后,每晚都有美人入夢

古怪奇談錄
2025-06-03 15:41:47
太離譜了!重慶一女子1868元訂999朵玫瑰,結果商家只送了300多朵

太離譜了!重慶一女子1868元訂999朵玫瑰,結果商家只送了300多朵

火山詩話
2025-06-08 07:17:28
勤快!許敏親兒媳田靜一大早開播帶貨,人氣不足千人與過往落差大

勤快!許敏親兒媳田靜一大早開播帶貨,人氣不足千人與過往落差大

青檸不酸吖
2025-06-08 08:30:49
員工發燒請假被罵后續:不會受任何處分,涉事HR已開除,公司回應

員工發燒請假被罵后續:不會受任何處分,涉事HR已開除,公司回應

史書無明
2025-06-06 22:14:05
美記:字母哥明確表示將繼續為雄鹿效力 無意提出交易申請

美記:字母哥明確表示將繼續為雄鹿效力 無意提出交易申請

直播吧
2025-06-08 10:35:09
凌晨3點,葡萄牙決戰西班牙!贏球=奪冠創紀錄,C羅沖擊21年魔咒

凌晨3點,葡萄牙決戰西班牙!贏球=奪冠創紀錄,C羅沖擊21年魔咒

球場沒跑道
2025-06-07 14:33:07
賴清德突遭晴天霹靂!“必爭之國”態度明確,在廈門當眾交底統一

賴清德突遭晴天霹靂!“必爭之國”態度明確,在廈門當眾交底統一

雷霆亮劍
2025-06-08 01:20:03
香港演員溫兆倫現狀:定居北京,61歲依然帥氣,10歲女兒好漂亮

香港演員溫兆倫現狀:定居北京,61歲依然帥氣,10歲女兒好漂亮

阿廢冷眼觀察所
2025-06-02 18:17:51
41歲華裔工程師在美國最高峰墜亡,社媒最后記錄令人動容

41歲華裔工程師在美國最高峰墜亡,社媒最后記錄令人動容

北美省錢快報
2025-06-08 07:43:50
一天漲粉破千萬!北大“韋神”家屬回應牙齒缺失:已在治療

一天漲粉破千萬!北大“韋神”家屬回應牙齒缺失:已在治療

瀟湘晨報
2025-06-07 09:03:12
美國施壓失敗,李在明堅持提名留學清華大學的金民錫為國務總理

美國施壓失敗,李在明堅持提名留學清華大學的金民錫為國務總理

陳博世財經
2025-06-08 14:59:22
高考首日驚現明星家長!中戲夫妻低調送考,18歲女兒顏值碾壓網紅

高考首日驚現明星家長!中戲夫妻低調送考,18歲女兒顏值碾壓網紅

野山歷史
2025-06-07 17:01:46
一個殘酷的社會真相!能參加高考的學生,已超越了60%的孩子

一個殘酷的社會真相!能參加高考的學生,已超越了60%的孩子

小嵩
2025-06-07 10:20:11
鐘南山、楊子峰團隊牽頭!全球最大規模連花清瘟預防流感雙盲隨機對照試驗發表

鐘南山、楊子峰團隊牽頭!全球最大規模連花清瘟預防流感雙盲隨機對照試驗發表

生命科學前沿
2025-06-07 19:13:57
恭喜!26歲張鎮麟麗江大婚:妻子高挑美麗,郭士強郭艾倫出席道賀

恭喜!26歲張鎮麟麗江大婚:妻子高挑美麗,郭士強郭艾倫出席道賀

李喜林籃球絕殺
2025-06-08 09:40:29
大連警方的調解,收了錢再收你

大連警方的調解,收了錢再收你

李宇琛
2025-06-08 14:56:27
你必須知道,鄭欽文將參加的女王杯賽,可不一般哦

你必須知道,鄭欽文將參加的女王杯賽,可不一般哦

極目新聞
2025-06-07 17:19:18
2025-06-08 16:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10613文章數 176163關注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

安徽涇縣再通報游客被打:3人被拘 公安局多人被追責

頭條要聞

安徽涇縣再通報游客被打:3人被拘 公安局多人被追責

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

結婚15年紀念!孫儷發長文談夫妻感情

財經要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環!

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

本地
時尚
旅游
教育
公開課

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

50+女人別再盲目跟風,掌握這凍齡3個秘籍,穿出時髦感不費力

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

高考,為什么定在每年6月份?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南郑县| 射阳县| 常宁市| 彭州市| 哈巴河县| 建德市| 政和县| 长宁县| 淄博市| 安宁市| 民丰县| 西平县| 永嘉县| 富民县| 乐山市| 房产| 徐汇区| 清丰县| 西昌市| 奇台县| 泊头市| 宣化县| 大名县| 高雄县| 塔城市| 沅江市| 夏邑县| 罗定市| 中牟县| 荥阳市| 山阴县| 香港 | 海安县| 鹤壁市| 杭锦后旗| 鄂伦春自治旗| 吉木乃县| 博湖县| 宜良县| 武义县| 封开县|