99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

阿里發布 QwenLong-L1 超長文本殺器!已開源、支持 120k 長上下文、具備“翻書回溯”能力

0
分享至


大數據文摘出品

業界普遍認為AI上下文越長越好,但這存在一個核心矛盾:模型能“吞下”海量信息,卻難以真正“消化”。面對長文,它們會忘記要點、無法深入推理,這已成為一大瓶頸。

例如,AI 能記住第1頁的內容,同時理解第100頁的觀點,并將兩者聯系起來進行推理嗎? 多數情況下,答案是令人失望的。

這就像開卷考試,書太厚,你找不到答案在哪,開卷也等于零分。 研究者把這種瓶頸正式命名為“長上下文推理 RL”,強調模型必須先檢索并定位片段,再進行多步邏輯鏈生成,而不是直接“憑存貨作答”。

近日,阿里巴巴把一套可閱讀 120 k token 超長文檔、還能“回頭修正”的訓練框架“QwenLong-L1”完整開源,給上述瓶頸了一個清晰的、可行的解決思路。


《QwenLong-L1: A Framework for Long-Context Reasoning RL》論文。

GitHub地址:https://github.com/Tongyi-Zhiwen/QwenLong-L1

論文地址:https://arxiv.org/abs/2505.17667

QwenLong-L1的解法:一套“三步走”的戰略

QwenLong-L1 并不是一個新模型,而是一套訓練已有大模型的新方法——它采用了三階段訓練流程:

第一步有監督學習(SFT)階段。模型在這一階段接受的是大量經過標注的長文本推理樣本,比如“從一份 20 頁的財報中,找出企業未來三年關鍵成本控制策略”。這一步幫助模型建立對“長內容”的基礎適應力:哪里該找信息?信息之間有什么邏輯鏈?如何根據內容生成回答?這一階段不是靠猜答案,而是靠“看例子學”。

第二步是“分級強化”——隨著文檔長度逐步增加,模型被分階段推進強化學習過程。訓練初期,輸入文檔較短;模型表現穩定后,再逐步拉長輸入。這就像教孩子寫作業,從看一頁材料回答問題,慢慢過渡到處理整本教材。“突然上難度”的方法常常訓練崩盤,而這套“課程表”式的推進方式,使得模型策略進化更可控、更穩定。

第三步是“難題反復訓練”——用最難的樣本反復優化模型的策略空間。這一步被稱為“困難感知的回顧采樣”(Difficulty-Aware Retrospective Sampling):它刻意選擇那些模型曾經做錯、但又具有代表性的難題進行強化學習,從而鼓勵模型嘗試不同思路路徑,并形成反思、回溯、驗證的能力。

更妙的是,它還引入了一套混合獎勵機制。 不同于傳統解數學題那樣“答案對就給滿分”的死板規則,QwenLong-L1同時引入了“規則裁判”和“LLM裁判”。 “規則裁判”確保答案的精確性,而“LLM裁判”則從語義上判斷模型生成的內容和標準答案是否意思相近。這給了模型更大的靈活性,尤其是在處理那些沒有唯一標準答案的開放性問題時,效果拔群。

效果如何?它學會了“自我糾錯”


阿里團隊在7個長文本問答(DocQA)基準上測試了QwenLong-L1。結果非常亮眼。 基于DeepSeek-R1-32B訓練出的QWENLONG-L1-32B模型,其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美,并且優于OpenAI的o3-mini等一眾強手。

但比分數更重要的,是模型在推理過程中展現出的“行為變化”。 論文提到,經過QwenLong-L1訓練后,模型明顯更擅長信息定位(Grounding)子目標設定(Subgoal Setting)回溯(Backtracking)和驗證(Verification)。

這是什么意思呢? 舉個例子,一個普通模型在分析一份冗長的財報時,可能會被無關的細節帶跑偏,或者陷入某個死胡同里出不來。 而QwenLong-L1訓練的模型,則表現出了驚人的自我反思和糾錯能力。它在推理過程中如果發現一條路走不通,會主動“回溯”,退回到上一步,排除干擾信息,然后選擇另一條路繼續探索,直至找到正確答案。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
佩通坦一句話,給柬埔寨判“死刑”?中美勸,大馬哄,都不管用了

佩通坦一句話,給柬埔寨判“死刑”?中美勸,大馬哄,都不管用了

掌青說歷史
2025-07-25 16:50:41
“內鬼”陳天生被查,曾任反貪局局長

“內鬼”陳天生被查,曾任反貪局局長

政知新媒體
2025-07-25 18:26:27
單日發起40次沖鋒,紅軍村正式被俄軍占領,俄烏戰爭結束近在眼前

單日發起40次沖鋒,紅軍村正式被俄軍占領,俄烏戰爭結束近在眼前

南宮一二
2025-07-25 02:38:17
越是上流人越“下流”?人民日報撕下司馬南體面,3大污點洗不清

越是上流人越“下流”?人民日報撕下司馬南體面,3大污點洗不清

火之文
2025-07-24 17:26:43
風靡一時的蘭州拉面,為何很少人去吃了?4個扎心原因趕跑了顧客

風靡一時的蘭州拉面,為何很少人去吃了?4個扎心原因趕跑了顧客

平祥生活日志
2025-07-24 02:00:43
多名中國公民因拿錯護照或護照污損,被泰國拒絕入境并罰款,中領館提醒

多名中國公民因拿錯護照或護照污損,被泰國拒絕入境并罰款,中領館提醒

界面新聞
2025-07-25 15:34:06
連賠5個億后,姜文也許后悔自己,離開那個“金主弟弟”了

連賠5個億后,姜文也許后悔自己,離開那個“金主弟弟”了

史書無明
2025-07-25 15:14:41
碎三觀!網傳昆山一50多歲阿姨用假項鏈誘導小伙,發生百余次關系

碎三觀!網傳昆山一50多歲阿姨用假項鏈誘導小伙,發生百余次關系

火山詩話
2025-07-25 07:19:19
廣州一社區出現基孔肯雅熱病例,7月26日起全市開展防蚊滅蚊行動

廣州一社區出現基孔肯雅熱病例,7月26日起全市開展防蚊滅蚊行動

新京報
2025-07-25 19:29:46
女子為過戶奶奶名下手機號,辦“奶奶是爸爸的媽媽、爸爸是我的爸爸”證明后,得到回復:派出所公章不清晰

女子為過戶奶奶名下手機號,辦“奶奶是爸爸的媽媽、爸爸是我的爸爸”證明后,得到回復:派出所公章不清晰

大風新聞
2025-07-25 12:32:20
武大校花陳怡,嫁黑人丈夫卻被迫輪流接客,父親解救失敗后自縊

武大校花陳怡,嫁黑人丈夫卻被迫輪流接客,父親解救失敗后自縊

談史論天地
2025-07-24 19:10:03
馬斯克轉發,鴻蒙智行“不予置評”,懂車帝輔助駕駛測試“火”了!專家:當前的“智駕”均為輔助駕駛

馬斯克轉發,鴻蒙智行“不予置評”,懂車帝輔助駕駛測試“火”了!專家:當前的“智駕”均為輔助駕駛

每日經濟新聞
2025-07-25 17:02:01
抓個正著!曝中國拒收30萬噸阿根廷大豆:經檢測實為美國產

抓個正著!曝中國拒收30萬噸阿根廷大豆:經檢測實為美國產

不掉線電波
2025-07-25 18:31:20
WTA布拉格站:王欣瑜2-0貝萊克進四強 一天雙賽半決賽戰頭號種子

WTA布拉格站:王欣瑜2-0貝萊克進四強 一天雙賽半決賽戰頭號種子

醉臥浮生
2025-07-25 17:52:40
2-0完勝進四強!下午5點半,王欣瑜狠狠打臉主辦方,贏得太解氣了

2-0完勝進四強!下午5點半,王欣瑜狠狠打臉主辦方,贏得太解氣了

侃球熊弟
2025-07-25 18:06:46
馮德萊恩這次是來認慫、來聯中制美嗎?她這次來只談了三件事……

馮德萊恩這次是來認慫、來聯中制美嗎?她這次來只談了三件事……

翻開歷史和現實
2025-07-24 23:18:30
收評:今天大盤收在3593,不出意外的話,下周很可能將迎來變盤

收評:今天大盤收在3593,不出意外的話,下周很可能將迎來變盤

說說史事
2025-07-25 16:34:49
中國是如何識破雙面間諜斯諾登騙局的?

中國是如何識破雙面間諜斯諾登騙局的?

霹靂炮
2025-07-25 13:29:17
中央批準:公安廳廳長晉升省委常委!一周內,多名省級黨委常委職務調整

中央批準:公安廳廳長晉升省委常委!一周內,多名省級黨委常委職務調整

上觀新聞
2025-07-25 15:37:56
泰國F-16出動,柬埔寨扛不住!柬埔寨沒臉找中國,只能求助聯合國

泰國F-16出動,柬埔寨扛不住!柬埔寨沒臉找中國,只能求助聯合國

大道無形我有型
2025-07-24 17:05:39
2025-07-25 19:55:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6712文章數 94448關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

馬斯克轉發讓懂車帝輔助駕駛測試"火"了 鴻蒙智行回應

頭條要聞

馬斯克轉發讓懂車帝輔助駕駛測試"火"了 鴻蒙智行回應

體育要聞

39歲的落選秀,被稱為NBA最完美的人

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

健康
家居
旅游
手機
親子

呼吸科專家破解呼吸道九大謠言!

家居要聞

環繞設計 空間動線合理

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

重新定義移動生活的可能性!OPPO Find N5將成為你生活中好幫手

親子要聞

當父母最大的功課:不顧一切去愛你的孩子!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 上思县| 龙陵县| 建水县| 奇台县| 独山县| 陵水| 扶绥县| 涞水县| 罗甸县| 丹凤县| 晋州市| 进贤县| 佛山市| 西华县| 且末县| 保山市| 巴青县| 玉林市| 阜南县| 珲春市| 九台市| 清水河县| 潞西市| 甘泉县| 阳西县| 高唐县| 临泉县| 泽普县| 盐津县| 咸丰县| 南安市| 新河县| 华蓥市| 谷城县| 清原| 彭州市| 仁化县| 德清县| 清新县| 安陆市| 高雄县|