99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

螞蟻開源輕量級推理模型Ring-lite,多項Benchmark達到SOTA

0
分享至

螞蟻百靈團隊輕量級推理模型Ring-lite——

在多項推理榜單(AIME24/25、LiveCodeBench、CodeForce、GPQA-diamond等)實現(xiàn)了輕量級推理模型的SOTA效果,比肩3倍激活參數(shù)大小的10B以下 Dense 模型,再次驗證了 MoE 架構(gòu)的推理潛力。

它是以此前百靈開源的MoE架構(gòu)Ling-lite-1.5(總參數(shù)16.8B,激活參數(shù)僅2.75B)為起點,然后再憑借獨創(chuàng)的C3PO 強化學(xué)習(xí)訓(xùn)練方法訓(xùn)練而成。

此外,Ring-lite還探討了RL訓(xùn)練穩(wěn)定性、Long-CoT SFT和RL的token分配、多領(lǐng)域任務(wù)聯(lián)合RL訓(xùn)練等推理模型的技術(shù)難題,并形成 Ring-lite 的三大項目技術(shù)創(chuàng)新。

他們分別是:

  • 首創(chuàng) C3PO 強化學(xué)習(xí)訓(xùn)練方法,直擊RL訓(xùn)練中回復(fù)長度波動導(dǎo)致的優(yōu)化難題。相比傳統(tǒng)方法,顯著改善了在RL訓(xùn)練中由于生成回復(fù)長度的大幅波動帶來的優(yōu)化不穩(wěn)定和吞吐波動問題。
  • 探討了Long-CoT SFT與RL的黃金訓(xùn)練比重。從token efficiency角度提出基于entropy loss來平衡訓(xùn)練效果和樣本效率的方案,token效率較純RL和純SFT大大提升
  • 直面多領(lǐng)域數(shù)據(jù)聯(lián)合訓(xùn)練難題!系統(tǒng)驗證混合訓(xùn)練與分階段訓(xùn)練的優(yōu)劣邊界,在數(shù)學(xué)+代碼+科學(xué)三重領(lǐng)域?qū)崿F(xiàn)協(xié)同增益。

輕量級推理模型Ring-lite實力如何?

團隊選取了業(yè)界代表性的輕量級推理模型做對比,包括Qwen3-8B,AceReason-Nemotron-7B,DeepSeek-R1-Distill-Qwen-14B。

采用了最常用的復(fù)雜推理榜單做橫向?qū)Ρ仍u估,效果如下:

數(shù)學(xué)推理:
AIME24得分76.61、AIME25得分69.11,均超過對比模型。

編程競賽:
LiveCodeBench得分60.66,CodeForces(按百分比)得分86.45,領(lǐng)先對比模型。

科學(xué)推理:
GPQA-diamond得分61.05,與對比最好模型基本持平。

綜合上述榜單的平均得分超過所有對比模型,而Ring-lite只使用了2.75B的激活參數(shù)。



此外,團隊還測試了Ring-Lite在2025年高考數(shù)學(xué)和物理題上的表現(xiàn)。

比如在諸多模型都測試過的數(shù)學(xué)全國一卷上,Ring-lite可以獲得130分左右的成績(測試了幾次,成績分布在126~138之間)。



△2025年高考物理北京卷第十七題測試

主要技術(shù)亮點

穩(wěn)定強化學(xué)習(xí)訓(xùn)練的C3PO

在經(jīng)過Long-CoT SFT之后的模型上進行GRPO訓(xùn)練的過程中,團隊觀察到嚴重的訓(xùn)練不穩(wěn)定情況,主要表現(xiàn)在策略模型的梯度范數(shù)(Gradient Norm)波動較大且系統(tǒng)吞吐也有明顯波動,并且在一定的訓(xùn)練步數(shù)之后reward大幅下跌無法恢復(fù)。

如下圖a所示,基于不同的訓(xùn)練輪數(shù)(epoch)的SFT模型做RL訓(xùn)練,都會出現(xiàn)訓(xùn)練崩潰現(xiàn)象,但崩潰的step不同,SFT訓(xùn)練輪數(shù)越少崩潰發(fā)生越晚。同時觀察到entropy與獎勵的崩潰表現(xiàn)出較強的相關(guān)性,SFT訓(xùn)練越多,RL訓(xùn)練階段起點entropy越低(圖b),更容易導(dǎo)致訓(xùn)練崩潰。



經(jīng)過分析發(fā)現(xiàn),GRPO在訓(xùn)練過程中的長度波動與梯度范數(shù)波動和系統(tǒng)吞吐波動呈現(xiàn)出較強的相關(guān)性,因為長度變化會直接影響到優(yōu)化器在每個訓(xùn)練step接收到的token數(shù)。

針對這一問題,他們提出了
C3PO(Constrained-Contexual-Computation Policy Optimization)強化學(xué)習(xí)訓(xùn)練方法,通過固定每個step傳給優(yōu)化器的總訓(xùn)練token數(shù)來穩(wěn)定訓(xùn)練端的梯度范數(shù)和系統(tǒng)吞吐。

雖然這一方法會丟棄一些訓(xùn)練token,但通過合理的訓(xùn)練token選擇策略,可以有效避免效果下降的問題,并取得訓(xùn)練和系統(tǒng)吞吐穩(wěn)定的優(yōu)勢。下圖是對C3PO方法和常用的樣本級別(sample-level)的訓(xùn)練策略做了對比,樣本級的過濾策略無法保證單個step的訓(xùn)練token數(shù)一致,只能保證樣本量一致,而C3PO則強制保證token數(shù)一致。



由于梯度范數(shù)的波動受長度下降影響更大,他們做了對比實驗來觀察C3PO相比GRPO在這一問題上的表現(xiàn)。

如下圖所示,當response-length出現(xiàn)下降時(圖a),Policy的梯度范數(shù)(GradNorm)開始出現(xiàn)上漲趨勢(圖b),帶來了優(yōu)化的不穩(wěn)定,并潛在導(dǎo)致reward的下跌(圖c)。 同時在response-length下降時,整個系統(tǒng)的吞吐也呈現(xiàn)下降趨勢(圖d)。 C3PO由于固定了token-level的訓(xùn)練budget,整體表現(xiàn)更穩(wěn)定。進一步結(jié)合基于熵(entropy loss)來選擇Long-CoT SFT之后用來做RL訓(xùn)練的起點模型,解決了reward突發(fā)的大幅下跌問題。



從token efficiency角度分配SFT和RL的訓(xùn)練比重

Long-CoT SFT + RL的兩階段訓(xùn)練一個自然的問題是如何分配兩階段的訓(xùn)練比重,涉及到包括數(shù)據(jù)分配,算力分配等問題。業(yè)界雖然有兩階段訓(xùn)練方案,但缺少一些理論分析和實踐建議。

他們從token efficiency的角度出發(fā)來分析該問題,我們認為達到相同訓(xùn)練效果的SFT + RL總token數(shù)越少token efficiency越高,反之越低。因此,可以用RL tokens / SFT tokens 來量化二者之間的權(quán)衡,進而找到一個策略能更好地實現(xiàn)效果和token efficiency的平衡,相比單純Long-CoT SFT和單純RL都更有優(yōu)勢。

實驗發(fā)現(xiàn),直接通過SFT模型的benchmark指標來選擇用于RL訓(xùn)練的base模型并非最優(yōu)方案,且容易引發(fā)前面提到的模型獎勵驟降問題。他們發(fā)現(xiàn)存在某種分配方案,可以得到更好的效果和token efficiency權(quán)衡(如下圖)。

在實踐中通過entropy loss范圍來選擇合適的SFT模型作為起點模型,可以取得比較接近圖中所示的效果和token efficiency權(quán)衡。



分階段訓(xùn)練緩解跨領(lǐng)域任務(wù)沖突

在 Ring-lite 的訓(xùn)練中我們采用了數(shù)學(xué)、代碼、科學(xué)任務(wù)的聯(lián)合訓(xùn)練方案,發(fā)現(xiàn)直接混合多個任務(wù)進行訓(xùn)練相比只訓(xùn)練單個任務(wù)都會存在一定的分數(shù)下降,在多個模型上進行了實驗都能觀察到這一現(xiàn)象。如下表,在Ring-lite,基于Ring蒸餾數(shù)據(jù)訓(xùn)練的Qwen,以及Deepseek蒸餾的Qwen模型均看到類似現(xiàn)象。

團隊最終采用了分階段的方式(先訓(xùn)練數(shù)學(xué)任務(wù),再進行代碼和STEM任務(wù)的混合訓(xùn)練)進行了最終的訓(xùn)練,相比直接混合能更好的緩解領(lǐng)域沖突問題。



高質(zhì)量的Long-CoT和RL訓(xùn)練數(shù)據(jù)



他們構(gòu)建了大規(guī)模高質(zhì)量的長推理鏈數(shù)據(jù)和強化學(xué)習(xí)訓(xùn)練數(shù)據(jù)集。

在數(shù)據(jù)構(gòu)建方面,采用”開源整合+自主采集”的雙重策略:不僅系統(tǒng)整合了數(shù)學(xué)、編程、自然科學(xué)等領(lǐng)域的高質(zhì)量公開數(shù)據(jù)集,還針對性補充了大量各學(xué)科競賽真題,包括國際奧林匹克競賽、ACM編程競賽等權(quán)威賽事的歷年試題,確保數(shù)據(jù)的專業(yè)性與挑戰(zhàn)性。

在數(shù)據(jù)處理環(huán)節(jié),建立了多階段數(shù)據(jù)質(zhì)量管控體系,包含低質(zhì)過濾、語義去重、去污清洗、專家審核等流程,有效保障數(shù)據(jù)質(zhì)量。

在數(shù)據(jù)管理層面,實現(xiàn)了樣本級別的精細化管理,每個數(shù)據(jù)樣本均標注多維屬性標簽,包括數(shù)據(jù)來源、學(xué)科主題、適用學(xué)段以及基于模型通過率的難度系數(shù)等。

基于這些充分的打標信息,通過強化學(xué)習(xí)算法進行動態(tài)數(shù)據(jù)采樣,優(yōu)化訓(xùn)練數(shù)據(jù)領(lǐng)域融合,顯著提升了模型訓(xùn)練效率和在復(fù)雜推理任務(wù)的效果。

Long-CoT SFT數(shù)據(jù)

為激活基礎(chǔ)模型的推理能力,他們構(gòu)建了具備長鏈思維(Long-CoT)的高質(zhì)量數(shù)據(jù)集。通過整合開源題庫與LLM生成內(nèi)容,采用”自動生成-專家標注-拒絕采樣”的迭代優(yōu)化流程,并經(jīng)過嚴格清洗(去除重復(fù)/混雜語言等噪聲),最終形成以數(shù)學(xué)(64.5%)、編程(25.5%)和科學(xué)(9.2%,含Ling team自研的科學(xué)數(shù)據(jù)合成方法“SHARP”生成的高難度樣本)三大領(lǐng)域為主體的多學(xué)科推理數(shù)據(jù)集,為后續(xù)強化學(xué)習(xí)訓(xùn)練提供了良好基礎(chǔ)。

RL數(shù)據(jù)

數(shù)學(xué)
通過整合開源數(shù)據(jù)集(如BigMath、DeepScaleR等)和自主收集的考試題/競賽題(如AoPS網(wǎng)站題庫),經(jīng)過嚴格清洗篩選,最終構(gòu)建了包含73,000多道高質(zhì)量數(shù)學(xué)題的強化學(xué)習(xí)數(shù)據(jù)集。

代碼
數(shù)據(jù)集精選自CodeContest、TACO、APPS等開源編程競賽平臺及QOJ在線評測系統(tǒng),通過多階段過濾(包括格式修正、沙箱驗證AC代碼、剔除低效算法和重復(fù)題),最終形成包含14,000個代碼樣本的高質(zhì)量數(shù)據(jù)集,每個樣本均附帶可執(zhí)行解決方案和已驗證測試用例。

科學(xué)
科學(xué)領(lǐng)域精選奧賽/碩博考試等高階人工標注題庫,經(jīng)嚴格驗證后形成3,833道優(yōu)質(zhì)科學(xué)推理題集。

強化學(xué)習(xí)的訓(xùn)練穩(wěn)定性突破只是AI進化路上的一小步。

他們相信,未來的AI訓(xùn)練不應(yīng)只是冰冷的參數(shù)優(yōu)化,而應(yīng)該像人類學(xué)習(xí)一樣——既能把握節(jié)奏,又能靈活調(diào)整,在穩(wěn)定中持續(xù)精進。

基于這一理念,他們將在C3PO的探索上更進一步,主要有兩個方面的計劃:

動態(tài)學(xué)習(xí)節(jié)奏,不再全程固定token Budget,而是讓模型像學(xué)生一樣,隨著“學(xué)習(xí)能力”的提升逐步增加token budget,減少知識浪費,讓每一步訓(xùn)練都物盡其用。

端到端協(xié)同優(yōu)化,不僅關(guān)注訓(xùn)練測穩(wěn)定性,更讓C3PO的穩(wěn)定訓(xùn)練機制貫穿訓(xùn)練與推理階段,解決推理測長尾生成帶來的效率瓶頸。

未來,期待RL的訓(xùn)練不再受限于系統(tǒng)吞吐的波動,而是像真正的智能體一樣,在穩(wěn)定中成長,在成長中突破,最終成為推動AI能力邊界不斷拓展的核心引擎。

Tech Report:
https://arxiv.org/abs/2506.14731

GitHub:
https://github.com/inclusionAI/Ring

Hugging Face:
https://huggingface.co/inclusionAI/Ring-lite

ModelScope:
https://modelscope.cn/models/inclusionAI/Ring-lite

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
同樣是露半邊胸,把29歲林允與40歲白百何放一起看,差別出來了

同樣是露半邊胸,把29歲林允與40歲白百何放一起看,差別出來了

娛樂故事
2025-06-23 15:35:18
拉加德:中東沖突將推高通脹 正在密切關(guān)注這一威脅

拉加德:中東沖突將推高通脹 正在密切關(guān)注這一威脅

財聯(lián)社
2025-06-24 01:53:03
每體:科納特是皇馬明夏主要目標,球員拒絕了利物浦最新續(xù)約報價

每體:科納特是皇馬明夏主要目標,球員拒絕了利物浦最新續(xù)約報價

直播吧
2025-06-24 00:37:05
人民日報:奉陪到底 這就是中國態(tài)度

人民日報:奉陪到底 這就是中國態(tài)度

大象新聞
2025-04-10 08:55:34
穿幫了!重慶小伙評論以色列人不允許其他人進入防空洞的行為

穿幫了!重慶小伙評論以色列人不允許其他人進入防空洞的行為

仗劍看世界
2025-06-21 17:08:39
真炸了!A股贏麻了

真炸了!A股贏麻了

隔壁老投
2025-06-23 14:21:39
中國“最荒涼”的985大學(xué),建在村里,周圍都是深山,上學(xué)如流放

中國“最荒涼”的985大學(xué),建在村里,周圍都是深山,上學(xué)如流放

譚老師地理工作室
2025-05-17 08:53:41
把身價都打沒了!雷霆替補側(cè)翼大將在季后賽的表現(xiàn)真是有些糟糕?

把身價都打沒了!雷霆替補側(cè)翼大將在季后賽的表現(xiàn)真是有些糟糕?

稻谷與小麥
2025-06-23 16:36:24
NHK居然照播!綾瀨遙手拿「18禁情趣用品」 日本觀眾嚇傻:好敢

NHK居然照播!綾瀨遙手拿「18禁情趣用品」 日本觀眾嚇傻:好敢

ETtoday星光云
2025-06-23 16:28:38
河南再迎暴雨、大暴雨!與前期暴雨區(qū)有重疊,局部可達200毫米

河南再迎暴雨、大暴雨!與前期暴雨區(qū)有重疊,局部可達200毫米

魯中晨報
2025-06-23 13:56:13
報仇不隔夜!英艦闖臺海不到一天,中方強勢發(fā)言:馬島是阿根廷的

報仇不隔夜!英艦闖臺海不到一天,中方強勢發(fā)言:馬島是阿根廷的

書中自有顏如玉
2025-06-23 17:54:16
全城狂歡!香港特首宣布,接下來這些通通免費!

全城狂歡!香港特首宣布,接下來這些通通免費!

港漂圈
2025-06-22 19:06:36
伊代表稱這次將向世界展示伊朗力量

伊代表稱這次將向世界展示伊朗力量

財聯(lián)社
2025-06-23 14:13:08
在聯(lián)合國叫囂完畢后,美方私下發(fā)請求,伊朗的事情希望中方幫個忙

在聯(lián)合國叫囂完畢后,美方私下發(fā)請求,伊朗的事情希望中方幫個忙

書中自有顏如玉
2025-06-24 01:18:40
細思極恐!具俊曄連汪小菲的舊衣服都要撿著穿,難怪張?zhí)m擔心小玥兒

細思極恐!具俊曄連汪小菲的舊衣服都要撿著穿,難怪張?zhí)m擔心小玥兒

扒星人
2025-06-23 10:00:01
價格大漲!漲幅超黃金!“黃金平替”賣爆了

價格大漲!漲幅超黃金!“黃金平替”賣爆了

大象新聞
2025-06-23 08:46:46
以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

TVB的四小花
2025-06-14 00:38:15
07年我被辭退,問廠長:你認識我爸嗎?廠長:你爺來了我也不怕!

07年我被辭退,問廠長:你認識我爸嗎?廠長:你爺來了我也不怕!

磊子講史
2025-06-17 16:32:53
女籃李夢與張隆事件,前世今生,2025亞洲杯前再次被推上風(fēng)口浪尖

女籃李夢與張隆事件,前世今生,2025亞洲杯前再次被推上風(fēng)口浪尖

開成運動會
2025-06-24 00:56:03
79年448團事件,從副軍長到普通戰(zhàn)士犯了哪些錯,才釀成最終慘劇

79年448團事件,從副軍長到普通戰(zhàn)士犯了哪些錯,才釀成最終慘劇

阿燕姐說育兒
2025-06-23 18:02:05
2025-06-24 02:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10716文章數(shù) 176170關(guān)注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經(jīng)要聞

以伊沖突升級,對經(jīng)濟和股市影響有多大?

汽車要聞

真香價格+質(zhì)保承諾 別克E5很難讓人拒絕了

態(tài)度原創(chuàng)

本地
時尚
數(shù)碼
旅游
公開課

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

“章子怡挨打”背后的她更令人驚心

數(shù)碼要聞

小米 REDMI K Pad 平板游戲視野拓展功能曝光

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 安泽县| 图木舒克市| 收藏| 华安县| 太原市| 丰都县| 田林县| 泾川县| 长葛市| 郴州市| 新龙县| 千阳县| 永吉县| 桦甸市| 绥宁县| 乐昌市| 麦盖提县| 梁山县| 龙里县| 镇巴县| 兴义市| 抚顺县| 安阳县| 景宁| 江源县| 德江县| 天台县| 瓦房店市| 田阳县| 义乌市| 南澳县| 云龙县| 兰坪| 长子县| 沂南县| 琼海市| 厦门市| 工布江达县| 万山特区| 页游| 横山县|