新智元報(bào)道
編輯:Aeneas KingHZ
【新智元導(dǎo)讀】超越DeepSeek-R1的英偉達(dá)開(kāi)源新王Llama-Nemotron,是怎么訓(xùn)練出來(lái)的?剛剛放出的論文,把一切細(xì)節(jié)毫無(wú)保留地全部揭秘了!
現(xiàn)在,英偉達(dá)Llama-Nemotron系列模型,正式超越DeepSeek-R1!
而且,這些模型已經(jīng)全部開(kāi)源了。
換句話說(shuō),在推理吞吐量和內(nèi)存效率上顯著超越DeepSeek-R1的一系列推理模型,已經(jīng)開(kāi)源可用了。
超越DeepSeek-R1的模型,究竟是怎么煉出的?
就在剛剛,英偉達(dá)發(fā)布了技術(shù)報(bào)告中,揭秘了模型訓(xùn)練的關(guān)鍵——
·利用合成數(shù)據(jù)監(jiān)督微調(diào)+強(qiáng)化學(xué)習(xí),全面提升模型的推理能力
·從頭構(gòu)建完善的后訓(xùn)練流程
論文鏈接:https://arxiv.org/abs/2505.00949
。()
發(fā)布之后,英偉達(dá)的這一系列模型在業(yè)界引起不小的轟動(dòng)。
根據(jù)人工分析智能指數(shù),截至2025年4月,Llama-Nemotron-Ultra被認(rèn)為是目前「最智能」的開(kāi)源模型。
這次,英偉達(dá)一口氣推出了Llama-Nemotron系列三個(gè)模型——LN-Nano 8B,LN-Super 49B和LN-Ultra 253B。
值得一提的是,LN-Ultra不僅在性能上超越了DeepSeek-R1,還能在單個(gè)8xH100節(jié)點(diǎn)上運(yùn)行,推理吞吐量更高。
這些模型針對(duì)高吞吐量推理進(jìn)行了優(yōu)化,同時(shí)保持強(qiáng)大的推理能力和最多128K的上下文長(zhǎng)度。
LN-Ultra在各類推理任務(wù)中展現(xiàn)出領(lǐng)先的開(kāi)源模型性能
并且,在全球AI開(kāi)源屆,英偉達(dá)首次推出了推理開(kāi)關(guān)功能,用戶只需通過(guò)系統(tǒng)提示詞「detailed thinking on/off」就可以動(dòng)態(tài)切換標(biāo)準(zhǔn)聊天模式和推理模式。
這種設(shè)計(jì)讓模型既能滿足日常通用需求,也能勝任復(fù)雜的多步驟推理,無(wú)需使用不同的模型或架構(gòu)。
揭秘構(gòu)建過(guò)程
Llama-Nemotron模型的構(gòu)建,分為五個(gè)階段。
第一階段:利用神經(jīng)架構(gòu)搜索(NAS)在Llama 3系列模型基礎(chǔ)上優(yōu)化推理效率,并引入前饋網(wǎng)絡(luò)融合(FFN Fusion)。
第二階段:通過(guò)知識(shí)蒸餾和繼續(xù)預(yù)訓(xùn)練來(lái)恢復(fù)模型性能。
第三階段:進(jìn)行有監(jiān)督微調(diào)(SFT),結(jié)合標(biāo)準(zhǔn)指令數(shù)據(jù)和來(lái)自DeepSeek-R1等強(qiáng)大教師模型的推理過(guò)程,從而讓模型具備多步驟推理能力。
第四階段:在復(fù)雜的數(shù)學(xué)和STEM數(shù)據(jù)集上進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí),這是學(xué)生模型能夠超越教師模型能力的關(guān)鍵一步。對(duì)于LN-Ultra,這一階段在GPQA-D基準(zhǔn)測(cè)試上帶來(lái)了顯著性能提升,確立其作為當(dāng)前開(kāi)源領(lǐng)域科學(xué)推理最強(qiáng)模型的地位。
為了支持如此大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練,團(tuán)隊(duì)專門開(kāi)發(fā)了新的訓(xùn)練框架,包含多項(xiàng)優(yōu)化措施,其中最重要的是支持 FP8精度的生成能力。
最后一個(gè)階段:簡(jiǎn)短的對(duì)齊訓(xùn)練,重點(diǎn)在于指令跟隨和符合人類偏好。
全新架構(gòu)設(shè)計(jì):優(yōu)化推理效率
借助神經(jīng)架構(gòu)搜索Puzzle框架,LN-Super和LN-Ultra優(yōu)化了模型推理效率。
Puzzle能夠在實(shí)際部署限制下,將大語(yǔ)言模型轉(zhuǎn)化為更適配硬件運(yùn)行的高效版本,如圖3所示。
通過(guò)「逐塊局部蒸餾」的方式,開(kāi)發(fā)者利用Llama 3 Instruct構(gòu)建了替代Transformer模塊的庫(kù)。
在這個(gè)過(guò)程中,每個(gè)模塊都會(huì)被獨(dú)立且并行地訓(xùn)練,逼近原始模塊的功能,同時(shí)優(yōu)化計(jì)算性能。
這樣,每個(gè)替代模塊都具有特定的「精度-效率」權(quán)衡特性:有些模塊雖然更高效,但可能會(huì)帶來(lái)一定的質(zhì)量下降,從而形成一種在計(jì)算成本與模型準(zhǔn)確性之間的明確取舍。
這些模塊的變體包括:
注意力機(jī)制移除:某些模塊完全省略了注意力機(jī)制,從而降低了計(jì)算量和KV緩存的內(nèi)存消耗。
可變的FFN維度:前饋網(wǎng)絡(luò)的中間維度被調(diào)整,能以不同粒度對(duì)模型進(jìn)行壓縮。
在構(gòu)建好模塊庫(kù)后,Puzzle會(huì)從每一層中選擇一個(gè)模塊,組裝出一個(gè)完整的模型。
這個(gè)選擇過(guò)程由混合整數(shù)規(guī)劃(MIP)求解器控制,它會(huì)根據(jù)一系列約束條件(如硬件兼容性、最大允許延遲、內(nèi)存預(yù)算或期望的推理吞吐量)來(lái)找出最優(yōu)配置。
Puzzle框架概覽
垂直壓縮與FFN融合
在LN-Ultra模型中,研究者引入了一項(xiàng)額外的壓縮技術(shù),稱為FFN Fusion(前饋網(wǎng)絡(luò)融合),用于減少模型的序列深度并提升推理延遲效率。
Puzzle在移除部分注意力層后,模型結(jié)構(gòu)中出現(xiàn)的一種特性:模型中常會(huì)出現(xiàn)多個(gè)連續(xù)的FFN塊。
FFN Fusion能識(shí)別出這些連續(xù)結(jié)構(gòu),并將其替換為更少但更寬、可并行執(zhí)行的FFN層。
這種替換方式在不犧牲模型表達(dá)能力的前提下,減少了順序計(jì)算的步驟,顯著提升了計(jì)算資源的利用率——特別是在多GPU環(huán)境中,跨層通信開(kāi)銷不可忽視的情況下,效果尤為明顯。
圖4展示了在GPQA-Diamond準(zhǔn)確率(%)與處理吞吐量(token/秒)之間的權(quán)衡。
值得注意的是,LN-Ultra始終在準(zhǔn)確性和效率上優(yōu)于DeepSeek-R1和Llama-3.1-405B,取得了準(zhǔn)確性和效率的最佳平衡。
GPQA-Diamond模型的精確度與吞吐量對(duì)比
NAS后訓(xùn)練:知識(shí)蒸餾與持續(xù)預(yù)訓(xùn)練
在神經(jīng)架構(gòu)搜索(NAS)階段之后,LN-Super和LN-Ultra都進(jìn)行了額外的訓(xùn)練,以提升模塊之間的兼容性,并恢復(fù)在模塊替換過(guò)程中可能出現(xiàn)的質(zhì)量損失。
LN-Super使用Distillation Mix數(shù)據(jù)集,在知識(shí)蒸餾目標(biāo)下訓(xùn)練了400億個(gè)token。
LN-Ultra首先使用相同的蒸餾數(shù)據(jù)集進(jìn)行知識(shí)蒸餾訓(xùn)練,訓(xùn)練了650億個(gè)token;隨后又在Nemotron-H第四階段預(yù)訓(xùn)練數(shù)據(jù)集上繼續(xù)訓(xùn)練了880億個(gè)token。
這一最終的預(yù)訓(xùn)練步驟,使LN-Ultra不僅追平了參考模型Llama 3.1-405B-Instruct的表現(xiàn),還在關(guān)鍵基準(zhǔn)測(cè)試中實(shí)現(xiàn)了超越。
這就,表明通過(guò)簡(jiǎn)短的蒸餾與預(yù)訓(xùn)練,可以在激進(jìn)的架構(gòu)優(yōu)化和高模型性能之間實(shí)現(xiàn)兼容。
監(jiān)督微調(diào)
想讓Llama-Nemotron模型擁有超厲害的推理能力?
監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)這一步簡(jiǎn)直就是「神助攻」。
前面的開(kāi)發(fā)階段,團(tuán)隊(duì)主要在研究怎么讓模型架構(gòu)更高效,怎么把海量知識(shí)塞進(jìn)去。
而SFT就像給模型請(qǐng)了一位「私人教練」,專門針對(duì)特定任務(wù)的推理步驟,帶著它從DeepSeek-R1這些「學(xué)霸」模型身上,偷師推理技巧。
不過(guò)要想讓模型真正擁有扎實(shí)的推理功底,大規(guī)模、高質(zhì)量的推理訓(xùn)練數(shù)據(jù)必不可少。
合成數(shù)據(jù)
研究者為監(jiān)督微調(diào)精心整理了包含推理和非推理的數(shù)據(jù)樣本。
對(duì)于推理樣本,他們?cè)谙到y(tǒng)指令中加入「detailed thinking on」(開(kāi)啟詳細(xì)思考),而對(duì)于非推理樣本,則使用「detailed thinking off」(關(guān)閉詳細(xì)思考)。
這種設(shè)置,使模型能夠在推理階段根據(jù)提示內(nèi)容切換推理行為。
為推理,精心準(zhǔn)備了數(shù)學(xué)、代碼等相關(guān)領(lǐng)域的合成數(shù)據(jù)。
為了訓(xùn)練模型遵循「推理開(kāi)關(guān)」指令,研究者構(gòu)建了成對(duì)的數(shù)據(jù)集,其中每個(gè)提示都對(duì)應(yīng)一個(gè)帶推理的回復(fù)和一個(gè)不帶推理的回復(fù)。
這種配對(duì)方式,使模型能夠根據(jù)系統(tǒng)指令學(xué)習(xí)調(diào)節(jié)其推理行為。
隨后會(huì)依據(jù)標(biāo)準(zhǔn)答案或獎(jiǎng)勵(lì)模型對(duì)這些回復(fù)進(jìn)行篩選。
微調(diào)流程
在指令微調(diào)數(shù)據(jù)上,所有模型的訓(xùn)練,均采用token級(jí)交叉熵?fù)p失。
在大多數(shù)訓(xùn)練設(shè)置中,推理數(shù)據(jù)和非推理數(shù)據(jù)會(huì)被混合在一起,形成訓(xùn)練批次,其中每個(gè)提示都會(huì)根據(jù)系統(tǒng)指令「detailed thinking on/off」的條件,與相應(yīng)的響應(yīng)配對(duì)。
延長(zhǎng)訓(xùn)練至多輪周期能提升性能,對(duì)小模型尤為明顯。
這次主要使用NeMo-Aligner來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,支持GRPO以及異構(gòu)模型的訓(xùn)練。
論文鏈接:https://arxiv.org/abs/2405.01481
生成階段使用vLLM實(shí)現(xiàn),訓(xùn)練階段則使用Megatron-LM。
訓(xùn)練和推理階段共用同一批GPU,在同一設(shè)備上完成。
整個(gè)訓(xùn)練過(guò)程中,他們共使用了72個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)配備8張H100GPU。
生成階段采用FP8精度,訓(xùn)練階段采用BF16精度,優(yōu)化器狀態(tài)使用FP32。
每個(gè)階段維護(hù)一份獨(dú)立的模型權(quán)重,并在每一步開(kāi)始時(shí)進(jìn)行同步。
強(qiáng)化學(xué)習(xí):超越R1推理能力的關(guān)鍵
監(jiān)督微調(diào)(SFT)可以讓模型從強(qiáng)大的教師模型中提煉知識(shí),從而獲得出色的能力。
然而,知識(shí)蒸餾本質(zhì)上為學(xué)生模型的性能設(shè)定了上限,特別是當(dāng)學(xué)生模型的基礎(chǔ)模型能力不超過(guò)教師模型時(shí)。
通過(guò)監(jiān)督微調(diào),LN-Ultra的性能可以接近DeepSeek-R1,但無(wú)法超越它。
為了使學(xué)生模型超越教師模型,大規(guī)模強(qiáng)化學(xué)習(xí)(RL)是一種可行的方法,因?yàn)樗试S模型持續(xù)探索新的可能性并進(jìn)行自我學(xué)習(xí)。
由于資源限制,研究者僅對(duì)LN-Ultra應(yīng)用推理RL,結(jié)果得到超越教師模型的學(xué)生模型。
在整個(gè)推理強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中,在GPQA-Diamond數(shù)據(jù)集上,LN-Ultra的準(zhǔn)確性
訓(xùn)練流程
對(duì)于LN-Ultra,研究者通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)(RL)增強(qiáng)它的科學(xué)推理能力,采用DeepSeek-R1同款的分組相對(duì)策略優(yōu)化(GRPO)算法。
整個(gè)訓(xùn)練過(guò)程大約需要14萬(wàn)H100小時(shí),持續(xù)訓(xùn)練模型直至其在推理任務(wù)上實(shí)現(xiàn)收斂。
圖5顯示了訓(xùn)練過(guò)程中GPQA-Diamond的準(zhǔn)確率得分。
獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)包含兩類:
準(zhǔn)確性獎(jiǎng)勵(lì):基于標(biāo)準(zhǔn)答案(數(shù)值/句子/段落),調(diào)用Llama-3.3-70B-Instruct模型判斷預(yù)測(cè)結(jié)果匹配度
格式獎(jiǎng)勵(lì):遵循DeepSeek-AI的方案,強(qiáng)制模型在「詳細(xì)思考」模式下用
研究團(tuán)隊(duì)還對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)過(guò)濾和課程訓(xùn)練(curriculum training)。
數(shù)據(jù)篩選:預(yù)先使用LN-Super對(duì)每個(gè)問(wèn)題生成8條響應(yīng),剔除通過(guò)率≥75%的簡(jiǎn)單樣本
課程訓(xùn)練:采用基于通過(guò)率的漸進(jìn)式批次分配(圖6驗(yàn)證其有效性)
動(dòng)態(tài)分布:以高斯函數(shù)建模批次難度,初期側(cè)重高通過(guò)率(簡(jiǎn)單)樣本,后期轉(zhuǎn)向低通過(guò)率(困難)樣本
填充邏輯:優(yōu)先按目標(biāo)分布分配樣本,剩余容量從最大剩余樣本池補(bǔ)充
批內(nèi)處理:同批次樣本隨機(jī)打亂以保持多樣性
用于偏好優(yōu)化的強(qiáng)化學(xué)習(xí)
在完成科學(xué)推理訓(xùn)練之后,研究者對(duì)LN-Super和LN-Ultra模型進(jìn)行了一個(gè)簡(jiǎn)短的強(qiáng)化學(xué)習(xí)階段,重點(diǎn)提升其指令跟隨能力。
研究者還使用RLHF對(duì)模型的通用幫助能力和聊天表現(xiàn)進(jìn)行優(yōu)化,同時(shí)保留了模型在數(shù)學(xué)、科學(xué)等其他領(lǐng)域的能力。
如表4所示,LN-Super在Arena Hard測(cè)試中取得了88.3的高分,超越了專有模型如Claude 3.5 Sonnet和GPT-4o-2024-05-13,也優(yōu)于體量更大的開(kāi)源模型。
為了實(shí)現(xiàn)這一結(jié)果,他們采用了「在線RPO」(OnLine Reward-Policy Optimization)方法,最大化模型在HelpSteer2數(shù)據(jù)集上的預(yù)測(cè)獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)模型使用的是Llama-3.1-Nemotron-70B-Reward。
兩輪在線RPO訓(xùn)練將Arena Hard得分從69.1提升到88.1。
對(duì)于LN-Ultra,他們使用類似流程,但采用了GRPO。
對(duì)于LN-Nano,他們進(jìn)行了兩輪離線RPO訓(xùn)練,使用基于策略生成的訓(xùn)練數(shù)據(jù)。
在第一輪中,結(jié)合推理類和非推理類數(shù)據(jù),并配合適當(dāng)?shù)南到y(tǒng)提示詞,以優(yōu)化模型的推理控制能力。第二輪則專注于提升指令跟隨能力。
評(píng)估結(jié)果
研究者在兩個(gè)基準(zhǔn)類別上評(píng)估所有Llama-Nemotron模型的性能:推理任務(wù)和非推理任務(wù)。
推理類基準(zhǔn)包括:AIME24和AIME25、GPQA-Diamond、LiveCodeBench以及MATH500。
非推理類基準(zhǔn)包括:用于指令遵循評(píng)估的IFEval、用于函數(shù)調(diào)用工具使用評(píng)估的BFCL V2 Live以及用于評(píng)估對(duì)人類對(duì)話偏好對(duì)齊度的Arena-Hard。
表3顯示,盡管模型體積較小,LN-Nano在所有推理類基準(zhǔn)測(cè)試中都取得了出色的表現(xiàn)。
這表明,監(jiān)督微調(diào)流程和精心策劃的推理數(shù)據(jù)集,在將結(jié)構(gòu)化推理能力遷移至小型模型方面是有效的。
表4將LN-Super與其參數(shù)規(guī)模相近的其他模型進(jìn)行了對(duì)比,可見(jiàn)這個(gè)模型在推理任務(wù)和非推理任務(wù)中都表現(xiàn)出強(qiáng)勁的競(jìng)爭(zhēng)力。
在「推理關(guān)閉」模式下,LN-Super的表現(xiàn)與其蒸餾來(lái)源模型Llama-3.3-70B相當(dāng);在「推理開(kāi)啟」模式下,則超越了其他競(jìng)品模型,例如DeepSeek-R1-Distilled-Llama-70B,在保持良好指令遵循能力的同時(shí)展現(xiàn)出強(qiáng)大的推理能力。
這些結(jié)果表明,LN-Super是一個(gè)兼具推理優(yōu)化模型和非推理模型優(yōu)點(diǎn)的通用模型,適用于日常助手型任務(wù)和結(jié)構(gòu)化推理任務(wù)。
表5顯示,LN-Ultra 在推理和非推理基準(zhǔn)測(cè)試中,與所有現(xiàn)有的開(kāi)源權(quán)重模型相比表現(xiàn)持平或更優(yōu)。它在GPQA上達(dá)到了開(kāi)源模型中的最先進(jìn)水平,充分證明了英偉達(dá)研究者大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練方法的有效性。
與DeepSeek-R1需要使用8×H200的硬件配置不同,LN-Ultra專門優(yōu)化為可在單個(gè)8×H100節(jié)點(diǎn)上高效運(yùn)行,從而提供更高的推理吞吐量和部署效率。
從表5可見(jiàn),LN-Ultra的SFT階段已經(jīng)在多個(gè)推理基準(zhǔn)測(cè)試(包括GPQA和AIME)上接近或達(dá)到DeepSeek-R1的性能。
除了模型原本接受訓(xùn)練的推理和對(duì)話能力之外,他們還對(duì)模型在一個(gè)分布外任務(wù)。
具體來(lái)說(shuō),模型在JudgeBench數(shù)據(jù)集上進(jìn)行了測(cè)試,要求區(qū)分高質(zhì)量與低質(zhì)量的回答。
如表6所示,新模型在該任務(wù)上表現(xiàn)優(yōu)于當(dāng)前頂尖的專有模型和開(kāi)源模型。
其中,LN-Ultra成為表現(xiàn)最好的開(kāi)源模型,明顯超過(guò)了 DeepSeek-R1,僅次于專有模型 o3-mini(high)。
此外,LN-Super 的表現(xiàn)也超過(guò)了o1-mini,這說(shuō)明新模型在各類任務(wù)中具備很強(qiáng)的泛化能力。
參考資料:
https://arxiv.org/abs/2505.00949
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.