螞蟻百靈團隊輕量級推理模型Ring-lite——
在多項推理榜單(AIME24/25、LiveCodeBench、CodeForce、GPQA-diamond等)實現(xiàn)了輕量級推理模型的SOTA效果,比肩3倍激活參數(shù)大小的10B以下 Dense 模型,再次驗證了 MoE 架構(gòu)的推理潛力。
它是以此前百靈開源的MoE架構(gòu)Ling-lite-1.5(總參數(shù)16.8B,激活參數(shù)僅2.75B)為起點,然后再憑借獨創(chuàng)的C3PO 強化學(xué)習(xí)訓(xùn)練方法訓(xùn)練而成。
此外,Ring-lite還探討了RL訓(xùn)練穩(wěn)定性、Long-CoT SFT和RL的token分配、多領(lǐng)域任務(wù)聯(lián)合RL訓(xùn)練等推理模型的技術(shù)難題,并形成 Ring-lite 的三大項目技術(shù)創(chuàng)新。
他們分別是:
- 首創(chuàng) C3PO 強化學(xué)習(xí)訓(xùn)練方法,直擊RL訓(xùn)練中回復(fù)長度波動導(dǎo)致的優(yōu)化難題。相比傳統(tǒng)方法,顯著改善了在RL訓(xùn)練中由于生成回復(fù)長度的大幅波動帶來的優(yōu)化不穩(wěn)定和吞吐波動問題。
- 探討了Long-CoT SFT與RL的黃金訓(xùn)練比重。從token efficiency角度提出基于entropy loss來平衡訓(xùn)練效果和樣本效率的方案,token效率較純RL和純SFT大大提升
- 直面多領(lǐng)域數(shù)據(jù)聯(lián)合訓(xùn)練難題!系統(tǒng)驗證混合訓(xùn)練與分階段訓(xùn)練的優(yōu)劣邊界,在數(shù)學(xué)+代碼+科學(xué)三重領(lǐng)域?qū)崿F(xiàn)協(xié)同增益。
輕量級推理模型Ring-lite實力如何?
團隊選取了業(yè)界代表性的輕量級推理模型做對比,包括Qwen3-8B,AceReason-Nemotron-7B,DeepSeek-R1-Distill-Qwen-14B。
采用了最常用的復(fù)雜推理榜單做橫向?qū)Ρ仍u估,效果如下:
數(shù)學(xué)推理:
AIME24得分76.61、AIME25得分69.11,均超過對比模型。
編程競賽:
LiveCodeBench得分60.66,CodeForces(按百分比)得分86.45,領(lǐng)先對比模型。
科學(xué)推理:
GPQA-diamond得分61.05,與對比最好模型基本持平。
綜合上述榜單的平均得分超過所有對比模型,而Ring-lite只使用了2.75B的激活參數(shù)。
此外,團隊還測試了Ring-Lite在2025年高考數(shù)學(xué)和物理題上的表現(xiàn)。
比如在諸多模型都測試過的數(shù)學(xué)全國一卷上,Ring-lite可以獲得130分左右的成績(測試了幾次,成績分布在126~138之間)。
△2025年高考物理北京卷第十七題測試
主要技術(shù)亮點
穩(wěn)定強化學(xué)習(xí)訓(xùn)練的C3PO
在經(jīng)過Long-CoT SFT之后的模型上進行GRPO訓(xùn)練的過程中,團隊觀察到嚴重的訓(xùn)練不穩(wěn)定情況,主要表現(xiàn)在策略模型的梯度范數(shù)(Gradient Norm)波動較大且系統(tǒng)吞吐也有明顯波動,并且在一定的訓(xùn)練步數(shù)之后reward大幅下跌無法恢復(fù)。
如下圖a所示,基于不同的訓(xùn)練輪數(shù)(epoch)的SFT模型做RL訓(xùn)練,都會出現(xiàn)訓(xùn)練崩潰現(xiàn)象,但崩潰的step不同,SFT訓(xùn)練輪數(shù)越少崩潰發(fā)生越晚。同時觀察到entropy與獎勵的崩潰表現(xiàn)出較強的相關(guān)性,SFT訓(xùn)練越多,RL訓(xùn)練階段起點entropy越低(圖b),更容易導(dǎo)致訓(xùn)練崩潰。
經(jīng)過分析發(fā)現(xiàn),GRPO在訓(xùn)練過程中的長度波動與梯度范數(shù)波動和系統(tǒng)吞吐波動呈現(xiàn)出較強的相關(guān)性,因為長度變化會直接影響到優(yōu)化器在每個訓(xùn)練step接收到的token數(shù)。
針對這一問題,他們提出了
C3PO(Constrained-Contexual-Computation Policy Optimization)強化學(xué)習(xí)訓(xùn)練方法,通過固定每個step傳給優(yōu)化器的總訓(xùn)練token數(shù)來穩(wěn)定訓(xùn)練端的梯度范數(shù)和系統(tǒng)吞吐。
雖然這一方法會丟棄一些訓(xùn)練token,但通過合理的訓(xùn)練token選擇策略,可以有效避免效果下降的問題,并取得訓(xùn)練和系統(tǒng)吞吐穩(wěn)定的優(yōu)勢。下圖是對C3PO方法和常用的樣本級別(sample-level)的訓(xùn)練策略做了對比,樣本級的過濾策略無法保證單個step的訓(xùn)練token數(shù)一致,只能保證樣本量一致,而C3PO則強制保證token數(shù)一致。
由于梯度范數(shù)的波動受長度下降影響更大,他們做了對比實驗來觀察C3PO相比GRPO在這一問題上的表現(xiàn)。
如下圖所示,當response-length出現(xiàn)下降時(圖a),Policy的梯度范數(shù)(GradNorm)開始出現(xiàn)上漲趨勢(圖b),帶來了優(yōu)化的不穩(wěn)定,并潛在導(dǎo)致reward的下跌(圖c)。 同時在response-length下降時,整個系統(tǒng)的吞吐也呈現(xiàn)下降趨勢(圖d)。 C3PO由于固定了token-level的訓(xùn)練budget,整體表現(xiàn)更穩(wěn)定。進一步結(jié)合基于熵(entropy loss)來選擇Long-CoT SFT之后用來做RL訓(xùn)練的起點模型,解決了reward突發(fā)的大幅下跌問題。
從token efficiency角度分配SFT和RL的訓(xùn)練比重
Long-CoT SFT + RL的兩階段訓(xùn)練一個自然的問題是如何分配兩階段的訓(xùn)練比重,涉及到包括數(shù)據(jù)分配,算力分配等問題。業(yè)界雖然有兩階段訓(xùn)練方案,但缺少一些理論分析和實踐建議。
他們從token efficiency的角度出發(fā)來分析該問題,我們認為達到相同訓(xùn)練效果的SFT + RL總token數(shù)越少token efficiency越高,反之越低。因此,可以用RL tokens / SFT tokens 來量化二者之間的權(quán)衡,進而找到一個策略能更好地實現(xiàn)效果和token efficiency的平衡,相比單純Long-CoT SFT和單純RL都更有優(yōu)勢。
實驗發(fā)現(xiàn),直接通過SFT模型的benchmark指標來選擇用于RL訓(xùn)練的base模型并非最優(yōu)方案,且容易引發(fā)前面提到的模型獎勵驟降問題。他們發(fā)現(xiàn)存在某種分配方案,可以得到更好的效果和token efficiency權(quán)衡(如下圖)。
在實踐中通過entropy loss范圍來選擇合適的SFT模型作為起點模型,可以取得比較接近圖中所示的效果和token efficiency權(quán)衡。
分階段訓(xùn)練緩解跨領(lǐng)域任務(wù)沖突
在 Ring-lite 的訓(xùn)練中我們采用了數(shù)學(xué)、代碼、科學(xué)任務(wù)的聯(lián)合訓(xùn)練方案,發(fā)現(xiàn)直接混合多個任務(wù)進行訓(xùn)練相比只訓(xùn)練單個任務(wù)都會存在一定的分數(shù)下降,在多個模型上進行了實驗都能觀察到這一現(xiàn)象。如下表,在Ring-lite,基于Ring蒸餾數(shù)據(jù)訓(xùn)練的Qwen,以及Deepseek蒸餾的Qwen模型均看到類似現(xiàn)象。
團隊最終采用了分階段的方式(先訓(xùn)練數(shù)學(xué)任務(wù),再進行代碼和STEM任務(wù)的混合訓(xùn)練)進行了最終的訓(xùn)練,相比直接混合能更好的緩解領(lǐng)域沖突問題。
高質(zhì)量的Long-CoT和RL訓(xùn)練數(shù)據(jù)
他們構(gòu)建了大規(guī)模高質(zhì)量的長推理鏈數(shù)據(jù)和強化學(xué)習(xí)訓(xùn)練數(shù)據(jù)集。
在數(shù)據(jù)構(gòu)建方面,采用”開源整合+自主采集”的雙重策略:不僅系統(tǒng)整合了數(shù)學(xué)、編程、自然科學(xué)等領(lǐng)域的高質(zhì)量公開數(shù)據(jù)集,還針對性補充了大量各學(xué)科競賽真題,包括國際奧林匹克競賽、ACM編程競賽等權(quán)威賽事的歷年試題,確保數(shù)據(jù)的專業(yè)性與挑戰(zhàn)性。
在數(shù)據(jù)處理環(huán)節(jié),建立了多階段數(shù)據(jù)質(zhì)量管控體系,包含低質(zhì)過濾、語義去重、去污清洗、專家審核等流程,有效保障數(shù)據(jù)質(zhì)量。
在數(shù)據(jù)管理層面,實現(xiàn)了樣本級別的精細化管理,每個數(shù)據(jù)樣本均標注多維屬性標簽,包括數(shù)據(jù)來源、學(xué)科主題、適用學(xué)段以及基于模型通過率的難度系數(shù)等。
基于這些充分的打標信息,通過強化學(xué)習(xí)算法進行動態(tài)數(shù)據(jù)采樣,優(yōu)化訓(xùn)練數(shù)據(jù)領(lǐng)域融合,顯著提升了模型訓(xùn)練效率和在復(fù)雜推理任務(wù)的效果。
Long-CoT SFT數(shù)據(jù)
為激活基礎(chǔ)模型的推理能力,他們構(gòu)建了具備長鏈思維(Long-CoT)的高質(zhì)量數(shù)據(jù)集。通過整合開源題庫與LLM生成內(nèi)容,采用”自動生成-專家標注-拒絕采樣”的迭代優(yōu)化流程,并經(jīng)過嚴格清洗(去除重復(fù)/混雜語言等噪聲),最終形成以數(shù)學(xué)(64.5%)、編程(25.5%)和科學(xué)(9.2%,含Ling team自研的科學(xué)數(shù)據(jù)合成方法“SHARP”生成的高難度樣本)三大領(lǐng)域為主體的多學(xué)科推理數(shù)據(jù)集,為后續(xù)強化學(xué)習(xí)訓(xùn)練提供了良好基礎(chǔ)。
RL數(shù)據(jù)
數(shù)學(xué)
通過整合開源數(shù)據(jù)集(如BigMath、DeepScaleR等)和自主收集的考試題/競賽題(如AoPS網(wǎng)站題庫),經(jīng)過嚴格清洗篩選,最終構(gòu)建了包含73,000多道高質(zhì)量數(shù)學(xué)題的強化學(xué)習(xí)數(shù)據(jù)集。
代碼
數(shù)據(jù)集精選自CodeContest、TACO、APPS等開源編程競賽平臺及QOJ在線評測系統(tǒng),通過多階段過濾(包括格式修正、沙箱驗證AC代碼、剔除低效算法和重復(fù)題),最終形成包含14,000個代碼樣本的高質(zhì)量數(shù)據(jù)集,每個樣本均附帶可執(zhí)行解決方案和已驗證測試用例。
科學(xué)
科學(xué)領(lǐng)域精選奧賽/碩博考試等高階人工標注題庫,經(jīng)嚴格驗證后形成3,833道優(yōu)質(zhì)科學(xué)推理題集。
強化學(xué)習(xí)的訓(xùn)練穩(wěn)定性突破只是AI進化路上的一小步。
他們相信,未來的AI訓(xùn)練不應(yīng)只是冰冷的參數(shù)優(yōu)化,而應(yīng)該像人類學(xué)習(xí)一樣——既能把握節(jié)奏,又能靈活調(diào)整,在穩(wěn)定中持續(xù)精進。
基于這一理念,他們將在C3PO的探索上更進一步,主要有兩個方面的計劃:
動態(tài)學(xué)習(xí)節(jié)奏,不再全程固定token Budget,而是讓模型像學(xué)生一樣,隨著“學(xué)習(xí)能力”的提升逐步增加token budget,減少知識浪費,讓每一步訓(xùn)練都物盡其用。
端到端協(xié)同優(yōu)化,不僅關(guān)注訓(xùn)練測穩(wěn)定性,更讓C3PO的穩(wěn)定訓(xùn)練機制貫穿訓(xùn)練與推理階段,解決推理測長尾生成帶來的效率瓶頸。
未來,期待RL的訓(xùn)練不再受限于系統(tǒng)吞吐的波動,而是像真正的智能體一樣,在穩(wěn)定中成長,在成長中突破,最終成為推動AI能力邊界不斷拓展的核心引擎。
Tech Report:
https://arxiv.org/abs/2506.14731
GitHub:
https://github.com/inclusionAI/Ring
Hugging Face:
https://huggingface.co/inclusionAI/Ring-lite
ModelScope:
https://modelscope.cn/models/inclusionAI/Ring-lite
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.