今天,英偉達開源了一款名為 Llama-3.1-Nemotron-Ultra-253B-v1 的新模型。
該模型基于 Meta 早期的 Llama-3.1-405B-Instruct 模型開發(fā),擁有 2530 億個參數(shù),在多項第三方基準測試中表現(xiàn)出色。
英偉達新模型的性能逼近擁有 6710 億參數(shù)的 DeepSeek R1,但只用了不到一半的參數(shù)量。
測試結果顯示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 編碼任務(66.3 vs. 65.9)。
并且,Llama-3.1-Nemotron-Ultra-253B 推理吞吐量也比 DeepSeek R1 671B 高 4 倍。
不過,在 MATH500 和 Arena Hard 基準測試中,DeepSeek R1 仍略占優(yōu)勢。
據(jù)悉,Llama-3.1-Nemotron-Ultra-253B 的設計目標是支持高級推理、指令遵循以及 AI 助手工作流程。
技術特點如下:
1?? 采用神經(jīng)架構搜索(NAS)優(yōu)化架構
2?? 引入跳躍注意力層、融合前饋網(wǎng)絡(FFN)和可變 FFN 壓縮率
3?? 降低內存占用和計算需求,保持輸出質量
4?? 可在單個 8x H100 GPU 節(jié)點高效部署
5?? 部署支持 B100 和 Hopper 微架構硬件
6?? 在 BF16 和 FP8 精度模式下均驗證通過
目前,該模型的代碼已在 Hugging Face 平臺上公開,包含開放的權重和訓練后數(shù)據(jù)。
Llama-3.1-Nemotron-Ultra-253B 可用于聊天機器人開發(fā)、AI Agent 工作流、檢索增強生成(RAG)和代碼生成等場景。根據(jù)英偉達開放模型許可證及 Llama 3.1 社區(qū)許可協(xié)議,該模型已獲準用于商業(yè)用途。
附上體驗地址:
https://build.nvidia.com/nvidia/llama-3_1-nemotron-ultra-253b-v1?ncid=so-twit-273200
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.