網易首頁 > 網易號 > 正文申請入駐

Meta推出Llama 4：MoE構架、原生多模態、10M上下文，沒有發布推理模型

2025-04-06 09:02:51　來源: FounderPark

北京舉報

分享至

Meta 創始人兼首席執行官馬克·扎克伯格今日在其 Instagram 賬號宣布推出全新 Llama 4 系列模型，其中兩款——參數高達 400B 億的 Llama 4 Maverick 和 109B 億參數的 Llama 4 Scout——即日起可供開發者在 llama.com 及 AI 代碼共享社區 Hugging Face 上下載，即刻開始使用或微調。

今天還預覽了一款擁有 2 萬億參數的巨無霸模型 Llama 4 Behemoth，不過 Meta 的發布博文稱其仍在訓練中，并未透露何時可能發布。

按照官推的說法這次發布是對 Llama 系列的一次徹底重新設計

先劃重點：

核心變化：Llama 4 全系采用混合專家（MoE）架構，并且是原生多模態訓練，不再是 Llama 3 那樣的純文本模型了。這次發布了Llama 4 Scout和Llama 4 Maverick，同時還有最強大的Llama 4 Behemoth預覽

另一個特點是它們擁有超長的上下文窗口——Llama 4 Maverick 支持 100 萬 token，Llama 4 Scout 更是高達 1000 萬 token，分別相當于約 1500 頁和 1.5 萬頁文本，且模型能在單次輸入/輸出交互中處理全部內容。這意味著理論上用戶可向 Llama 4 Scout 上傳或粘貼多達 7500 頁的文本，并獲取同等體量的反饋，這對醫學、科學、工程、數學、文學等知識密集型領域尤為實用。

Meta 估計 Llama 4 Maverick 的推理成本為每 100 萬 token 0.19 至 0.49 美元（采用輸入與輸出 3:1 的比例）。這使得它比專有模型如 GPT-4o 便宜得多，根據社區基準，GPT-4o 的成本估計為每百萬 token 4.38 美元。

文章部分內容轉載自「AI 寒武紀」。

Founder Park 正在搭建開發者社群，邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入，請掃碼詳細填寫你的產品/項目信息，通過審核后工作人員會拉你入群～

進群之后，你有機會得到：

高濃度的主流模型（如 DeepSeek 等）開發交流；
資源對接，與 API、云廠商、模型廠商直接交流反饋的機會；
好用、有趣的產品/案例，Founder Park 會主動做宣傳。

01三種參數，MoE 模型下面給大家第一時間做個梳理，Llama 4 Scout：

定位：性能最強的小尺寸模型

參數：17B 激活參數，16 個專家，總參數量 109B

亮點：速度極快，原生支持多模態，擁有業界領先的 1000 萬+ Token 多模態上下文窗口（相當于處理 20 多個小時的視頻！），并且能在單張 H100 GPU 上運行（Int4 量化后）

Llama 4 Maverick：

定位：同級別中最佳的多模態模型

性能：在多個主流基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash，推理和編碼能力與新發布的 DeepSeek v3 相當，但激活參數量不到后者一半

參數：17B 激活參數，128 個專家，總參數量 400B，上下文窗口 100 萬+

性價比：提供了同類最佳的性能成本比。其實驗性聊天版本在 LMArena 上 ELO 評分達到 1417，排名第二

部署：可以在單個主機上運行

Llama 4 Behemoth (預覽，訓練中)：

定位：Meta 迄今最強模型，全球頂級 LLM 之一

性能：在多個 STEM 基準上優于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro

參數：288B 激活參數，16 個專家，總參數量高達2萬億（2T）

訓練細節：使用 FP8 精度，在32000 塊 GPU上訓練了30 萬億多模態 Token

角色：作為 Maverick 模型進行代碼蒸餾時的教師模型

02技術亮點解讀

原生多模態：所有模型都采用早期融合（early fusion）策略，將文本、圖像、視頻 Token 無縫整合到統一的模型骨干中

訓練流程優化：采用了輕量級 SFT → 在線 RL → 輕量級 DPO 的后訓練流程。開發者強調，過度使用 SFT/DPO 會過度約束模型，限制在線 RL 階段的探索能力，所以要保持“輕量”

超長上下文的秘密 (10M+)：實現這一突破的關鍵是iRoPE 架構（'i' 代表 interleaved layers, infinite）

核心思想：通過追求無限上下文的目標來指導架構設計，特別是利用長度外推能力——在短序列上訓練，泛化到極長序列。最大訓練長度是 256K

具體做法：

本地注意力層（Local Attention）使用 RoPE 處理短上下文（如 8K），可并行化
全局注意力層（Global Attention）才負責處理長上下文（>8K），且不使用位置編碼（NoPE 思想），這有助于提升外推能力
為了解決上下文變長時注意力權重趨于平坦、影響推理的問題，在推理時對全局層應用溫度縮放，增強長距離推理，同時保持短上下文性能。公式大致為：xq *= 1 + log(floor(i / α) + 1) * β（i 是位置索引）

03超過 DeepSeek 了嗎？

使用最高參數模型基準——Llama 4 Behemoth——并將其與 DeepSeek R1 初始發布時的 R1-32B 和 OpenAI o1 模型圖表進行對比，以下是 Llama 4 Behemoth 的表現情況：

我們能得出什么結論？

MATH-500：Llama 4 Behemoth 略微落后于 DeepSeek R1 和 OpenAI o1。
GPQA Diamond：Behemoth 領先于 DeepSeek R1，但落后于 OpenAI o1。
MMLU：Behemoth雖落后于兩者，但仍優于 Gemini 2.0 Pro 和 GPT-4.5。

要點：盡管 DeepSeek R1 和 OpenAI o1 在幾項指標上略勝 Behemoth 一籌，Llama 4 Behemoth 仍極具競爭力，在其類別的推理排行榜上表現位居或接近榜首。

04大佬評價一個遺憾 (前kaggle總裁，fast AI 創始人Jeremy Howard)：雖然感謝開源，但 Jeremy Howard 也表達了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型，即使量化后也無法在消費級 GPU 上運行，這對開源社區的可及性來說是個不小的損失。

Jim Fan（英偉達高級研究經理）：

部署便利性優先：Jim Fan 認為，對于開源模型，特別是 MoE 架構，易于部署正變得比單純追求模型尺寸更重要。Meta 強調 Llama 4 Scout 能在單張 H100 上運行，這與 Llama-3 401B（雖然強大但采用率較低）形成對比，說明 MoE 是一個更符合當前開源策略的方向

智能調參 MetaP：MetaP這個用于智能調整訓練超參數的新技術。雖然細節不多，但他猜測這可能類似于 Meta 開源的Ax 框架中的貝葉斯優化，能在有限的試驗預算內進行自適應實驗（如 A/B 測試）

后訓練策略：重 RL 輕 SFT/DPO： Llama 4 的后訓練策略是降低 SFT/DPO 的權重，提升在線 RL 的權重。原因是過多的 SFT/DPO 會過度約束模型，限制其在 RL 階段的探索能力

自我批判式數據篩選：一個有趣的技術點是，訓練過程中模型較早的檢查點（checkpoint）可以作為“批評家”來評估后續模型，幫助過濾掉過于簡單的訓練樣本/提示，讓模型在不斷篩選和學習中變得更強

Behemoth 的訓練細節與數據挑戰： Llama 4 Behemoth 的龐大規模（FP8 精度、32K GPU、30T tokens 訓練）。由于模型能力太強，普通的 SFT 數據對它來說太“簡單”了，因此需要裁剪掉高達 95% 的 SFT 數據，而小模型只需要裁剪約 50%

實現千萬級上下文窗口的技術手段看起來“相當簡單”：

1.去除部分位置編碼：在某些注意力層（特別是全局層）不使用位置編碼，借鑒了NoPE (No Positional Embedding)論文的思想
2.調整 Softmax 注意力：根據上下文的長度來調整 Softmax 注意力計算

這次Llama 4的推理模型還不見蹤影，這多少有點說不過去，大家覺得呢？畢竟Meta也是妥妥的大廠啊！不過Meta 表示這只是開始，后續還有更多模型，團隊正在全力開發中，特別提到了Llama 4 Reasoning模型

另外相比于DeepSeek的MIT開源方式，Llama 4 的新許可證有幾個限制：

- 每月活躍用戶超過 7 億的公司必須向 Meta 申請特殊許可，Meta 可自行決定授予或拒絕該許可。

- 必須在網站、界面、文檔等處突出顯示“使用 Llama 構建”。

- 使用 Llama Materials 創建的任何 AI 模型的名稱開頭都必須包含“Llama”

- 必須在任何分發的“通知”文本文件中包含具體的歸屬通知 - 使用必須遵守 Meta 單獨的可接受使用政策（參考 http://llama.com/llama4/use-policy...） - 僅出于符合品牌要求的有限許可使用“Llama”名稱

參考：

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

https://venturebeat.com/ai/metas-answer-to-deepseek-is-here-llama-4-launches-with-long-context-scout-and-maverick-models-and-2t-parameter-behemoth-on-the-way/

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.