99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

公開模型一切,優于DeepSeek-R1,英偉達開源Llama-Nemotron家族

0
分享至



機器之心報道

編輯:+0、劉欣

在大模型飛速發展的今天,推理能力作為衡量模型智能的關鍵指標,更是各家 AI 企業競相追逐的焦點。

但近年來,推理效率已成為模型部署和性能的關鍵限制因素。

基于此,英偉達推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型構建)—— 一個面向高效推理的大模型開放家族,具備卓越的推理能力、推理效率,并采用對企業友好的開放許可方式。

該系列包括三個模型規模:Nano(8B)、Super(49B)與 Ultra(253B),另有獨立變體 UltraLong(8B,支持超長上下文)。



  • 論文標題:Llama-Nemotron: Efficient Reasoning Models
  • arXiv 地址:https://arxiv.org/pdf/2505.00949
  • 代碼地址:https://github.com/NVIDIA/NeMo
  • 數據集:https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset

這一系列模型可不簡單,不僅具備超強的推理能力,還為企業使用提供開放許可。模型權重和部分訓練數據在 Hugging Face 上公開,遵循 NVIDIA Open Model License 和 Llama 社區許可,可商業使用。

Llama-Nemotron 系列模型是首批支持動態推理切換的開源模型,用戶在推理時可在標準聊天模式和推理模式之間自由切換,極大地提升了交互的靈活性。

研究主要是利用推理類和非推理類這兩類基準測試對 Llama-Nemotron 系列模型進行評估,結果發現 Llama-Nemotron 系列模型在不同規模下都展現出了良好的性能,尤其是 LN-Ultra 模型與 DeepSeek-R1 相比,極大地提高了推理吞吐量和部署效率。



Llama-Nemotron 通過多階段后訓練流程,強化推理和非推理任務表現。監督微調階段專注于數學、代碼、推理和工具調用任務;強化學習階段則采用 REINFORCE 算法(RLOO)及支持在線獎勵感知偏好優化的 RPO(Online Reward-aware Preference Optimization)方法,優化對話生成與指令跟隨等技能。

Qwen 與 DeepSeek-R1 也在 Llama-Nemotron 的訓練中扮演關鍵角色。Qwen(如 Qwen2.5-32B-Instruct)負責數學和科學數據的生成、分類及去污染,構建高質量訓練集;DeepSeek-R1 作為核心教師模型,生成多步推理和代碼解決方案,通過監督微調和強化學習將深度邏輯能力遷移到目標模型中。

想知道英偉達具體是如何構建 Llama-Nemotron 系列模型的嗎?它背后有著怎樣獨特的訓練方法?

接下來讓我們深入探究一下其背后的奧秘。

構建面向推理優化的模型

LN-Super 和 LN-Ultra 模型通過 Puzzle 框架實現高效推理優化。Puzzle 是一個神經網絡架構搜索(Neural Architecture Search, NAS)框架,能夠在真實部署約束條件下,將大型語言模型轉化為面向硬件高效的變體,如圖 3 所示。



以 Llama 3 Instruct 模型為起點(LN-Super 基于 Llama 3.3-70B-Instruct,LN-Ultra 基于 Llama 3.1-405B-Instruct),Puzzle 通過逐模塊局部蒸餾(block-wise local distillation)方法構建可替代的 Transformer 模塊庫。每個模塊獨立訓練且可并行處理,旨在接近原始模塊功能的同時提升計算性能。

該方法允許每個替代模塊在精度與效率之間進行權衡,即模塊庫中某些變體具有更高的計算效率,但可能伴隨一定的準確性下降,從而形成一種顯式的精度–效率權衡(accuracy-efficiency tradeoff)。模塊變體主要包括以下幾種類型:

移除注意力機制(Attention removal):部分模塊完全省略注意力機制,從而顯著減少計算開銷和 KV 緩存(Key-Value cache)內存占用。

可變 FFN 維度(Variable FFN dimensions):通過調整前饋網絡(Feed-Forward Network, FFN)的中間維度,能夠在不同粒度下實現模型壓縮(如將隱藏層維度壓縮至原始的 87%、75%、50%,甚至低至 10%)。

盡管 Puzzle 同樣支持其他結構替換方式(如多組查詢注意力機制(Grouped-Query Attention, GQA)中不同的鍵值頭數、線性注意力替代方案、以及不執行操作的替換模塊),但實際評估結果表明,在優化 LN-Super 和 LN-Ultra 兩個模型的總體吞吐量與內存節省方面,最有效的技術仍是移除注意力機制與 FFN 壓縮。

在模塊庫構建完成后,Puzzle 通過逐層選取模塊的方式組裝完整模型。模塊選擇過程由整數混合規劃(Mixed-Integer Programming, MIP)求解器控制,該求解器會在給定的約束條件下(如硬件兼容性、最大推理延遲、總內存預算或指定推理吞吐量)確定效率最優的模塊配置。

由于每一層支持多個具有不同精確度–效率權衡方案的模塊變體,Puzzle 允許用戶精確定位至任何位于精度 - 效率帕累托前沿(Pareto frontier)上的模型配置點。例如,Puzzle 可生成滿足特定智能體系統(agentic systems)或部署流程所需約束(如內存不可超出上限或端到端響應時間嚴格受限)的模型。

FFN 融合實現縱向壓縮(Vertical Compression with FFN Fusion): 針對 LN-Ultra 模型,研究者引入了一種額外的壓縮技術 ——FFN 融合(FFN Fusion),該方法旨在降低模型的序列深度,并進一步縮短推理延遲。

該方法利用 Puzzle 移除部分注意力層后的結構特性:在這種結構下,模型中經常會出現連續的 FFN 模塊序列。FFN Fusion 會識別出這類序列,并將其替換為更少但更寬的 FFN 層,這些寬層可并行執行,從而減少序列處理步驟的數量,同時保留模型的表達能力。

此外,這種方式顯著提升了計算資源的利用率,特別是在多 GPU 環境中,可以有效降低跨層通信帶來的開銷。

部署約束與效率目標

LN-Super 專為在單塊 NVIDIA H100 GPU 上高效運行而設計,采用張量并行系數為 1(Tensor Parallelism 1,TP1)的配置。通過 Puzzle 框架優化后,該模型在批量大小為 256、TP1 配置下,相較于 Llama 3.3-70B-Instruct 實現了 5 倍推理吞吐提升。即使在 Llama 3.3-70B-Instruct 使用其最佳配置(張量并行度為 4,TP4)的情況下,LN-Super 在 TP1 條件下仍保持 ≥2.17× 的吞吐優勢。

LN-Super 設計滿足約 30 萬個緩存 Token(cached tokens)的運行約束(等于 batch size × sequence length),基于 FP8 精度在單張 H100 GPU 上測得。例如,batch size 為 16、序列長度為 18,750 的配置即可滿足該緩存量要求。

LN-Ultra 的優化目標為整個 H100 節點(8 張 GPU)。在 Puzzle 結構搜索階段,模型受到推理延遲需至少比 Llama 3.1-405B-Instruct 縮短 1.5 倍的約束。應用 FFN 融合(FFN Fusion)后,最終模型在延遲上實現了 1.71 倍提升。

LN-Ultra 同樣受緩存 Token 限制:在 FP8 精度下支持最多 300 萬個 Token,在 BF16 精度下支持 60 萬個 Token,均以整個 H100 節點為計算基準。

圖 4 展示了兩種設置下 GPQA-Diamond 準確率(%)與處理吞吐量(Token/s)的權衡曲線。值得注意的是,LN-Ultra 在準確率和效率方面均優于 DeepSeek-R1 和 Llama 3.1-405B,表明在精度 - 吞吐率帕累托曲線(accuracy-throughput Pareto curve)上,LN-Ultra 是更具優勢的選擇。



NAS 后訓練階段:知識蒸餾與持續預訓練

在神經架構搜索(NAS)階段結束后,為提升模塊間兼容性并彌補模塊替換帶來的質量損失,LN-Super 和 LN-Ultra 均進行了進一步訓練。

  • LN-Super 使用 Bercovich 等人提出的 Distillation Mix 數據集,以知識蒸餾目標函數訓練了 400 億個 Token;
  • LN-Ultra 首先使用相同的蒸餾數據集進行了 650 億 Token 的蒸餾訓練,隨后在 Nemotron-H 第四階段預訓練數據集上進行了額外 880 億 Token 的持續預訓練。

通過這一最終的預訓練階段,LN-Ultra 不僅實現了與基準模型 Llama 3.1-405B-Instruct 相當的性能,還在多個關鍵基準測試上取得超越,驗證了即使進行激進的架構優化,也可通過短周期的蒸餾與預訓練恢復并提升模型性能(見表 1)。



推理能力強化學習

為了使模型具備在不同任務場景下靈活切換推理深度與回答風格的能力,研究者設計了「detailed thinking on/off」指令機制,通過在合成數據中顯式標記是否需要展開詳細推理過程,引導模型在訓練中學習何時進行逐步思考、展示推理鏈條,何時直接給出簡明答案。

具體而言,指令為「on」時,模型輸出完整的中間推理過程并展示解題思路;指令為「off」時,模型僅呈現最終結果。這一機制提升了模型對用戶指令的響應可控性,同時增強了推理行為在不同場景中的適應性,使模型能根據實際需求調整輸出風格。

在此基礎上,模型通過監督微調(SFT)從教師模型中學習多步推理路徑,并有效融合推理與通用任務風格,構建了兼具推理精度與使用靈活性的響應系統。

LN-Ultra 在推理類與非推理類基準測試上均達到或超越了現有開源權重模型的水平(如表 5 所示),證明通過從強大教師模型中蒸餾知識,模型可通過監督微調獲得較強能力。



然而,蒸餾在本質上為學生模型設定了性能上限,特別是當學生模型本身能力不超過教師模型時。

例如,通過監督微調,LN-Ultra 可逼近 DeepSeek-R1 的性能,但難以超越。為使學生模型有機會超過教師模型,大規模強化學習(RL)提供了可行路徑,因其能持續探索新策略并促進模型自學習。

研究者初步實驗表明,在小型模型上應用強化學習的性能通常不及直接蒸餾。考慮到資源限制,研究者僅對 LN-Ultra 應用推理方向的強化學習,從而獲得一個超越其教師模型的最終版本。

訓練流程

針對 LN-Ultra,研究者通過大規模強化學習提升其科學推理能力,采用 GRPO 算法。訓練中設置每個 rollout 的提示詞長度為 72,并為每個提示采樣 16 個響應,采樣參數為 temperature = 1,top_p = 1。

全局 batch size 設置為 576,每個 rollout 更新兩次梯度,訓練持續至模型在推理任務上收斂。圖 5 展示了模型在 GPQA-Diamond 上的準確率隨訓練進展的變化。借助優化后的訓練基礎設施,整個訓練過程共消耗約 14 萬張 H100 GPU 小時。



本階段訓練使用以下兩類獎勵信號:

準確率獎勵(Accuracy rewards):每個訓練樣本提供標準答案(數字、句子或段落),研究者使用 Llama-3.3-70B-Instruct 模型判定策略模型響應是否與標準答案一致。

格式獎勵(Format rewards):遵循 DeepSeek-AI 等人做法,在模型開啟詳細思考(detailed thinking on)模式時,需將推理過程置于 "" 標簽之中;而在 detailed thinking off 模式下,確保不包含思考標簽。格式獎勵確保模型按規定格式輸出推理過程。

為增加訓練挑戰性,研究者對數據進行預處理:由 LN-Super 為每道題生成 8 個獨立回答,計算通過率(pass rate),并過濾通過率 ≥0.75 的樣本,提升總體訓練數據難度。

除數據篩選外,研究者發現課程化學習(curriculum learning)策略能顯著幫助模型在復雜推理問題上的收斂和泛化。研究者采用漸進式批處理策略(progressive batching),使用預計算通過率作為樣本難度指標,在固定 batch size 下,動態計算每個批次的目標難度分布。

該分布以高斯函數建模,從早期批次集中在高通過率(簡單樣本),逐步過渡至后期批次的低通過率(高難度樣本)。每個 batch 中,樣本按目標分布隨機分配,并根據不同通過率池中剩余樣本量進行容量填充。

這種策略確保樣本難度在 batch 層面逐步遞進,同時 batch 內部保持隨機性。圖 6 展示了該課程式學習策略在降低方差、穩定訓練過程及提升準確率方面的有效性。



FP8 精度生成階段

研究者識別出生成階段是推理過程中的主要限制因素。為提升該階段性能,研究者開發了支持 vLLM 框架下在線 FP8 精度生成模式的路徑,此模式可在 FP8 精度下執行全部矩陣乘(GEMM)操作,并結合每 token 激活縮放因子及每張量權重縮放因子。

為配合訓練時輸出的 BF16 權重,研究者開發自定義 vLLM 權重加載器,可在運行時將 BF16 權重轉換為 FP8 格式及其縮放參數。由于 vLLM 當前不支持 FP8 模式直接初始化模型,研究者實現了元權重張量初始化(meta-weight tensor initialization),避免載入完整 BF16 推理引擎導致 GPU 顯存溢出。

在上述優化下,FP8 模式下單個 GPU 每個 prompt 的生成吞吐量最高可達 32 token/s,相比 BF16 提升 1.8 倍。其中,FP8 本身帶來 1.4 倍加速,另外 0.4 倍收益源自內存占用減少,使研究者能夠啟用 vLLM 的 cudagraph 特性,進一步提升系統性能。

用于偏好優化的強化學習

指令跟隨能力優化

在完成科學推理任務的強化學習訓練后,研究者對 LN-Super 和 LN-Ultra 開展短周期強化學習訓練,優化其指令跟隨能力。參照 Zhou 等人提出的驗證方案,研究者生成包含 1 至 10 條詳細指令的合成提示詞用于訓練。

在該階段,研究者采用 RLOO 算法進行不超過 120 步的強化學習訓練,使用自定義指令跟隨驗證器作為獎勵函數,訓練批大小為 128 條提示。結果表明,此類訓練不僅提升了模型在傳統指令跟隨評測中的表現,也對推理類基準任務產生積極影響。

基于人類反饋的強化學習(RLHF)

研究者使用基于人類反饋的強化學習(RLHF)增強模型的通用協助能力(helpfulness)與多輪聊天能力,同時確保其在其他任務上的表現不被削弱。

如表 4 所示,LN-Super(49B 參數)在 Arena Hard 評測中取得 88.3 的高分,超越了數個專有模型(如 Claude 3.5 Sonnet 和 GPT-4o-2024-05-13)以及規模更大的開源模型如 Llama-3.1-405B-Instruct 和 Mistral-large-2407。



為實現這一目標,研究者采用迭代式在線 RPO(online Reward-Parameterized Optimization)訓練方式,在 HelpSteer2 數據集的提示語上最大化 Llama-3.1-Nemotron-70B-Reward 所預測的偏好獎勵。

具體訓練參數為:學習率 α = 4e-7,KL 散度懲罰項 β = 1e-5,獎勵縮放因子 η = 3.0,batch size 為 64,訓練 500 步。兩輪在線 RPO 后,Arena Hard 分數由 69.1 提升至 88.1。

值得注意的是,該過程在幾乎所有基準任務中的表現均有提升,唯獨在 IFEval 上略有下降。由于該數據集與獎勵模型未專門針對數學、代碼、科學或函數調用場景設計,研究者推測 RLHF 有助于模型更好地調動已有知識和技能。

針對 LN-Ultra,研究者延續上述訓練流程,但采用 GRPO 算法。對每條提示詞,生成 8 個樣本響應,并以學習率 3e-7、batch size 為 288、KL 懲罰 β = 1e-3 的配置進行 30 步訓練。

對于小模型 LN-Nano,研究者進行了兩輪離線 RPO,使用策略內數據(on-policy data)訓練。第一輪混合使用包含推理和非推理內容的數據,并配合相應系統提示,目的是提升模型的推理控制能力;第二輪聚焦于提升指令跟隨表現,訓練數據為模型生成的策略內響應。每輪訓練最多進行 400 步,學習率 α = 7e-7,KL 懲罰 β = 3e-2,batch size 為 512。

詳細內容請參見原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
越鬧越大!內地游客窮游香港再被批,吃飯人均35遭嫌棄:禁止入境

越鬧越大!內地游客窮游香港再被批,吃飯人均35遭嫌棄:禁止入境

妙知
2025-05-07 17:05:21
央視:53歲的里瓦爾多不吃面食&不飲酒 在全球50多座城市都有房產

央視:53歲的里瓦爾多不吃面食&不飲酒 在全球50多座城市都有房產

直播吧
2025-05-08 23:14:10
你在KTV玩過最“嗨”的游戲是什么?網友:高山流水,賣包子

你在KTV玩過最“嗨”的游戲是什么?網友:高山流水,賣包子

特約前排觀眾
2025-05-04 00:10:04
紅場閱兵反轉,德國議員參席,普京掛出休戰牌,俄軍暫停一切行動

紅場閱兵反轉,德國議員參席,普京掛出休戰牌,俄軍暫停一切行動

說天說地說實事
2025-05-08 17:29:19
銘記世界反法西斯戰場上的中國人

銘記世界反法西斯戰場上的中國人

人民網
2025-05-09 06:13:10
秦沛三兄弟拍合影,爾冬升9歲女兒在旁搗亂,77歲姜大衛一臉寵溺

秦沛三兄弟拍合影,爾冬升9歲女兒在旁搗亂,77歲姜大衛一臉寵溺

尋墨閣
2025-05-08 07:42:19
中國剛同意面談,特朗普又變臉,美財長發出新威脅,中方回應亮了

中國剛同意面談,特朗普又變臉,美財長發出新威脅,中方回應亮了

國際阿嘗
2025-05-08 18:03:52
歷史回顧,我國以前禁用過手機WIFI,為什么后來又允許了?

歷史回顧,我國以前禁用過手機WIFI,為什么后來又允許了?

創業者李孟
2025-04-08 01:18:45
人社部發布最新動態,關系到2025年養老金調整,有何影響呢?看看

人社部發布最新動態,關系到2025年養老金調整,有何影響呢?看看

社保小達人
2025-05-09 09:25:05
7W買房,5點下班!被稱為國內適合“躺平”的城市

7W買房,5點下班!被稱為國內適合“躺平”的城市

匿旅
2025-04-25 11:50:39
凱特復工了!波點裙配貝雷帽驚艷,臉色暗沉竟不如卡米拉氣色好

凱特復工了!波點裙配貝雷帽驚艷,臉色暗沉竟不如卡米拉氣色好

曉徙娛樂
2025-05-09 09:34:43
廣東公交事大反轉!奶孫倆乘車被要求站著,司機從停職改為扣績效

廣東公交事大反轉!奶孫倆乘車被要求站著,司機從停職改為扣績效

泠泠說史
2025-05-07 16:56:07
比爾·蓋茨將捐出99%的財富!每年要捐50億美元以上,20年才能捐完

比爾·蓋茨將捐出99%的財富!每年要捐50億美元以上,20年才能捐完

紅星新聞
2025-05-08 22:57:04
天才還是賭徒?Deepseek創始人被福布斯曝凈資產!他到底有多少錢

天才還是賭徒?Deepseek創始人被福布斯曝凈資產!他到底有多少錢

界史
2025-02-06 17:41:00
E杯敬自由E杯敬死亡!襪子質量不行都勾絲了!每一個都能能戳到笑點的梗圖分享來了~

E杯敬自由E杯敬死亡!襪子質量不行都勾絲了!每一個都能能戳到笑點的梗圖分享來了~

Steam社區
2025-05-06 11:59:39
森林狼1比1勇士:各自試出了什么

森林狼1比1勇士:各自試出了什么

張佳瑋寫字的地方
2025-05-09 11:57:48
球門守不住,車也要丟?太陽報:奧納納的蘭博基尼因沒有保險被扣押

球門守不住,車也要丟?太陽報:奧納納的蘭博基尼因沒有保險被扣押

雷速體育
2025-05-09 10:48:11
被嚴重低估的中國空軍實力:53個航空旅,放在全球屬于什么水平?

被嚴重低估的中國空軍實力:53個航空旅,放在全球屬于什么水平?

小宇宙雙色球
2025-04-20 08:32:28
特朗普:或將下調對華145%關稅,現在關稅已經不能再高了

特朗普:或將下調對華145%關稅,現在關稅已經不能再高了

鳳凰衛視
2025-05-09 10:17:08
想和好?門都沒有!于東來刪除了參觀邀請,人民網直接點評:它們

想和好?門都沒有!于東來刪除了參觀邀請,人民網直接點評:它們

蜜桔娛樂
2025-05-08 16:56:10
2025-05-09 12:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10460文章數 142304關注度
往期回顧 全部

科技要聞

理想新車打折賣?激光雷達、Thor-U都配上了

頭條要聞

印軍"陣風"被擊落 臺退役將領發問:臺軍還能靠幻影嗎

頭條要聞

印軍"陣風"被擊落 臺退役將領發問:臺軍還能靠幻影嗎

體育要聞

追夢只差2T禁賽 科爾:他必須保持冷靜

娛樂要聞

張柏芝把鋒菲戀的體面徹底踩在了腳下

財經要聞

美英達成貿易協議!

汽車要聞

絕對能省心過日子 榮威D6滿足家用車三大標準

態度原創

房產
教育
時尚
本地
軍事航空

房產要聞

廣州樓市全線飄紅!二手增長20%,一手暴漲244.7%!

教育要聞

如何做一個有教養的人,媽媽教孩子這9點

說她是韓劇“最強女配”不過分吧?

本地新聞

非遺里的河南|汴梁鳶舞千年韻!宋室風箏藏多少絕活

軍事要聞

加沙多地遭襲 巴武裝人員與以軍激烈戰斗

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 蒙山县| 漯河市| 新蔡县| 苍山县| 旌德县| 英吉沙县| 始兴县| 周至县| 鸡东县| 响水县| 社会| 饶河县| 茌平县| 新郑市| 临潭县| 山东省| 汉中市| 西乡县| 酒泉市| 浦县| 苗栗市| 珠海市| 长阳| 永和县| 广宗县| 信阳市| 谢通门县| 宁武县| 东宁县| 江口县| 通道| 黑水县| 临清市| 马边| 邹平县| 蒲城县| 青州市| 独山县| 周口市| 龙里县| 鲁山县|