Llama 4 發布了。
https://huggingface.co/meta-llama
Llama 4 的三款模型
但這次,它沒有高調宣稱參數量“遙遙領先“,而是通過三款模型來重新布局:
? Scout:109B 參數,17B 激活,16 專家 MoE,可部署在單張 H100 上,10M token 長上下文 ,適用于文檔分析、多輪對話、代碼等任務
? Maverick:400B 參數,17B 激活,128 專家 MoE,1M token 長上下文 :400B 參數,128 專家,推理僅激活兩個。對標 GPT-4o,性能不遜色, 推理成本僅為其十分之一
? Behemoth:2T 參數,288B激活,16 專家 MoE ,不部署、不開放,僅用于訓練階段, 為 Scout 和 Maverick 生成訓練數據
一個用、一主力、一教學,不卷彼此,也不試圖通吃所有任務。
講道理,看這個發布的時候,我總隱隱有當時讀 DeepSeek V3 技術報告的感覺:擁抱 MoE,擁抱合成數據
架構轉向:MoE 登上主舞臺
Lllma 3 是 Dense,哪怕 400B 的模型都是 Dense;而 Llama 4 是 MoE 架構。
(關于架構的問題,推薦閱讀:)
MoE 大概就是這樣
過去,MoE 更多還是“實驗室選項”,自 DeepSeek 大火后,很多廠商開始嘗試將其用于主力模型,比如這次的 Meta。在 Llama 4 中,模型 Scout 配置 16 專家,而 Maverick 則是 128 專家,推理時都只激活兩個,17B的量。
回顧一下,DeepSeek 在 R1 和 V3 中也是類似:671B 總參數,37B 激活,用更可控的計算開銷,換來模型能力密度的提升。
當然,得說一下,MoE 并不適合所有任務場景,也存在調度復雜、專家平衡等訓練難題。但它至少打開了一個現實維度:參數使用方式,和參數數量本身一樣值得被設計。
多模態:從外掛走向原生
Llama 3 時代,圖像輸入依賴外掛 encoder,與語言模型拼接;Llama 4 時代,圖像直接作為 token 輸入,參與語言上下文建模。
這意味著:圖文不是模型之后拼出來的,而是在訓練中就一體建模的語境單位。
這種結構帶來的提升,在任務表現中非常直接:
? Maverick 在 DocVQA 拿下 94.4,超過 GPT-4o(92.8)
? ChartQA 達到 90.0,MathVista 73.7,均高于 GPT-4o
? 推理成本卻僅為 GPT-4o 的十分之一

而原生多模態架構也體現在 Scout 身上——雖然是輕量模型,但在 DocVQA、ChartQA 上,Scout 依然打出了高于同尺寸模型(甚至部分大模型)的穩定表現。
Scout 跑分成績
此處說一下, DeepSeek 的 V3/R1 仍未引入圖像 token
訓練轉向:大模型是過程
Behemoth 最大號的 Llama4,很強,但它不對外。
Behemoth:這是個不對外的模型
Behemoth的全部作用,是生成訓練數據,為 Scout 和 Maverick 提供能力示范,并通過輕量 DPO 和 RLHF 進一步優化行為。換句話說,Meta 并不再執著于“最強模型”上線,而是選擇把最大資源投入到訓練系統本身。
這個事兒,有點像:
? OpenAI 開發了「草莓」,來訓練新的 GPT
? DeppSeek 開發了 DeepSeek-R1-Light 來訓練 DeepSeek V3

在我看來,Llama 4 并沒有帶來參數最大、能力最強的單點突破。但它用一個更完整、更分工明確的體系,回應了模型設計正在發生的變化:
Scout 是部署,Maverick 是交付,Behemoth 是理解力的源頭
與其說是一次產品發布,更像是宣告一次路線調整。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.