大數(shù)據(jù)文摘出品
業(yè)界普遍認(rèn)為AI上下文越長(zhǎng)越好,但這存在一個(gè)核心矛盾:模型能“吞下”海量信息,卻難以真正“消化”。面對(duì)長(zhǎng)文,它們會(huì)忘記要點(diǎn)、無法深入推理,這已成為一大瓶頸。
例如,AI 能記住第1頁(yè)的內(nèi)容,同時(shí)理解第100頁(yè)的觀點(diǎn),并將兩者聯(lián)系起來進(jìn)行推理嗎? 多數(shù)情況下,答案是令人失望的。
這就像開卷考試,書太厚,你找不到答案在哪,開卷也等于零分。 研究者把這種瓶頸正式命名為“長(zhǎng)上下文推理 RL”,強(qiáng)調(diào)模型必須先檢索并定位片段,再進(jìn)行多步邏輯鏈生成,而不是直接“憑存貨作答”。
近日,阿里巴巴把一套可閱讀 120 k token 超長(zhǎng)文檔、還能“回頭修正”的訓(xùn)練框架“QwenLong-L1”完整開源,給上述瓶頸了一個(gè)清晰的、可行的解決思路。
《QwenLong-L1: A Framework for Long-Context Reasoning RL》論文。
GitHub地址:https://github.com/Tongyi-Zhiwen/QwenLong-L1
論文地址:https://arxiv.org/abs/2505.17667
QwenLong-L1的解法:一套“三步走”的戰(zhàn)略
QwenLong-L1 并不是一個(gè)新模型,而是一套訓(xùn)練已有大模型的新方法——它采用了三階段訓(xùn)練流程:
第一步有監(jiān)督學(xué)習(xí)(SFT)階段。模型在這一階段接受的是大量經(jīng)過標(biāo)注的長(zhǎng)文本推理樣本,比如“從一份 20 頁(yè)的財(cái)報(bào)中,找出企業(yè)未來三年關(guān)鍵成本控制策略”。這一步幫助模型建立對(duì)“長(zhǎng)內(nèi)容”的基礎(chǔ)適應(yīng)力:哪里該找信息?信息之間有什么邏輯鏈?如何根據(jù)內(nèi)容生成回答?這一階段不是靠猜答案,而是靠“看例子學(xué)”。
第二步是“分級(jí)強(qiáng)化”——隨著文檔長(zhǎng)度逐步增加,模型被分階段推進(jìn)強(qiáng)化學(xué)習(xí)過程。訓(xùn)練初期,輸入文檔較短;模型表現(xiàn)穩(wěn)定后,再逐步拉長(zhǎng)輸入。這就像教孩子寫作業(yè),從看一頁(yè)材料回答問題,慢慢過渡到處理整本教材?!巴蝗簧想y度”的方法常常訓(xùn)練崩盤,而這套“課程表”式的推進(jìn)方式,使得模型策略進(jìn)化更可控、更穩(wěn)定。
第三步是“難題反復(fù)訓(xùn)練”——用最難的樣本反復(fù)優(yōu)化模型的策略空間。這一步被稱為“困難感知的回顧采樣”(Difficulty-Aware Retrospective Sampling):它刻意選擇那些模型曾經(jīng)做錯(cuò)、但又具有代表性的難題進(jìn)行強(qiáng)化學(xué)習(xí),從而鼓勵(lì)模型嘗試不同思路路徑,并形成反思、回溯、驗(yàn)證的能力。
更妙的是,它還引入了一套混合獎(jiǎng)勵(lì)機(jī)制。 不同于傳統(tǒng)解數(shù)學(xué)題那樣“答案對(duì)就給滿分”的死板規(guī)則,QwenLong-L1同時(shí)引入了“規(guī)則裁判”和“LLM裁判”。 “規(guī)則裁判”確保答案的精確性,而“LLM裁判”則從語(yǔ)義上判斷模型生成的內(nèi)容和標(biāo)準(zhǔn)答案是否意思相近。這給了模型更大的靈活性,尤其是在處理那些沒有唯一標(biāo)準(zhǔn)答案的開放性問題時(shí),效果拔群。
效果如何?它學(xué)會(huì)了“自我糾錯(cuò)”
阿里團(tuán)隊(duì)在7個(gè)長(zhǎng)文本問答(DocQA)基準(zhǔn)上測(cè)試了QwenLong-L1。結(jié)果非常亮眼。 基于DeepSeek-R1-32B訓(xùn)練出的QWENLONG-L1-32B模型,其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美,并且優(yōu)于OpenAI的o3-mini等一眾強(qiáng)手。
但比分?jǐn)?shù)更重要的,是模型在推理過程中展現(xiàn)出的“行為變化”。 論文提到,經(jīng)過QwenLong-L1訓(xùn)練后,模型明顯更擅長(zhǎng)信息定位(Grounding)、子目標(biāo)設(shè)定(Subgoal Setting)、回溯(Backtracking)和驗(yàn)證(Verification)。
這是什么意思呢? 舉個(gè)例子,一個(gè)普通模型在分析一份冗長(zhǎng)的財(cái)報(bào)時(shí),可能會(huì)被無關(guān)的細(xì)節(jié)帶跑偏,或者陷入某個(gè)死胡同里出不來。 而QwenLong-L1訓(xùn)練的模型,則表現(xiàn)出了驚人的自我反思和糾錯(cuò)能力。它在推理過程中如果發(fā)現(xiàn)一條路走不通,會(huì)主動(dòng)“回溯”,退回到上一步,排除干擾信息,然后選擇另一條路繼續(xù)探索,直至找到正確答案。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級(jí)計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.