Meta 創始人兼首席執行官馬克·扎克伯格今日在其 Instagram 賬號宣布推出全新 Llama 4 系列模型,其中兩款——參數高達 400B 億的 Llama 4 Maverick 和 109B 億參數的 Llama 4 Scout——即日起可供開發者在 llama.com 及 AI 代碼共享社區 Hugging Face 上下載,即刻開始使用或微調。
今天還預覽了一款擁有 2 萬億參數的巨無霸模型 Llama 4 Behemoth,不過 Meta 的發布博文稱其仍在訓練中,并未透露何時可能發布。
按照官推的說法這次發布是對 Llama 系列的一次徹底重新設計
先劃重點:
核心變化:Llama 4 全系采用混合專家(MoE)架構,并且是原生多模態訓練,不再是 Llama 3 那樣的純文本模型了。這次發布了Llama 4 Scout和Llama 4 Maverick,同時還有最強大的Llama 4 Behemoth預覽
另一個特點是它們擁有超長的上下文窗口——Llama 4 Maverick 支持 100 萬 token,Llama 4 Scout 更是高達 1000 萬 token,分別相當于約 1500 頁和 1.5 萬頁文本,且模型能在單次輸入/輸出交互中處理全部內容。這意味著理論上用戶可向 Llama 4 Scout 上傳或粘貼多達 7500 頁的文本,并獲取同等體量的反饋,這對醫學、科學、工程、數學、文學等知識密集型領域尤為實用。
Meta 估計 Llama 4 Maverick 的推理成本為每 100 萬 token 0.19 至 0.49 美元(采用輸入與輸出 3:1 的比例)。這使得它比專有模型如 GPT-4o 便宜得多,根據社區基準,GPT-4o 的成本估計為每百萬 token 4.38 美元。
文章部分內容轉載自「AI 寒武紀」。
Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~
進群之后,你有機會得到:
高濃度的主流模型(如 DeepSeek 等)開發交流;
資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;
好用、有趣的產品/案例,Founder Park 會主動做宣傳。
01三種參數,MoE 模型下面給大家第一時間做個梳理,Llama 4 Scout:
定位:性能最強的小尺寸模型
參數:17B 激活參數,16 個專家,總參數量 109B
亮點:速度極快,原生支持多模態,擁有業界領先的 1000 萬+ Token 多模態上下文窗口(相當于處理 20 多個小時的視頻!),并且能在單張 H100 GPU 上運行(Int4 量化后)
Llama 4 Maverick:
定位:同級別中最佳的多模態模型
性能:在多個主流基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash,推理和編碼能力與新發布的 DeepSeek v3 相當,但激活參數量不到后者一半
參數:17B 激活參數,128 個專家,總參數量 400B,上下文窗口 100 萬+
性價比:提供了同類最佳的性能成本比。其實驗性聊天版本在 LMArena 上 ELO 評分達到 1417,排名第二
部署:可以在單個主機上運行
Llama 4 Behemoth (預覽,訓練中):
定位:Meta 迄今最強模型,全球頂級 LLM 之一
性能:在多個 STEM 基準上優于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro
參數:288B 激活參數,16 個專家,總參數量高達2萬億 (2T)
訓練細節:使用 FP8 精度,在32000 塊 GPU上訓練了30 萬億多模態 Token
角色:作為 Maverick 模型進行代碼蒸餾時的教師模型
02技術亮點解讀
原生多模態:所有模型都采用早期融合(early fusion)策略,將文本、圖像、視頻 Token 無縫整合到統一的模型骨干中
訓練流程優化:采用了 輕量級 SFT → 在線 RL → 輕量級 DPO 的后訓練流程。開發者強調,過度使用 SFT/DPO 會過度約束模型,限制在線 RL 階段的探索能力,所以要保持“輕量”
超長上下文的秘密 (10M+):實現這一突破的關鍵是iRoPE 架構('i' 代表 interleaved layers, infinite)
核心思想:通過追求無限上下文的目標來指導架構設計,特別是利用長度外推能力——在短序列上訓練,泛化到極長序列。最大訓練長度是 256K
具體做法:
本地注意力層(Local Attention)使用 RoPE 處理短上下文(如 8K),可并行化
全局注意力層(Global Attention)才負責處理長上下文(>8K),且不使用位置編碼(NoPE 思想),這有助于提升外推能力
為了解決上下文變長時注意力權重趨于平坦、影響推理的問題,在推理時對全局層應用溫度縮放,增強長距離推理,同時保持短上下文性能。公式大致為:
xq *= 1 + log(floor(i / α) + 1) * β
(i 是位置索引)
03超過 DeepSeek 了嗎?
使用最高參數模型基準——Llama 4 Behemoth——并將其與 DeepSeek R1 初始發布時的 R1-32B 和 OpenAI o1 模型圖表進行對比,以下是 Llama 4 Behemoth 的表現情況:
我們能得出什么結論?
MATH-500:Llama 4 Behemoth 略微落后于 DeepSeek R1 和 OpenAI o1。
GPQA Diamond:Behemoth 領先于 DeepSeek R1,但落后于 OpenAI o1。
MMLU:Behemoth雖落后于兩者,但仍優于 Gemini 2.0 Pro 和 GPT-4.5。
要點:盡管 DeepSeek R1 和 OpenAI o1 在幾項指標上略勝 Behemoth 一籌,Llama 4 Behemoth 仍極具競爭力,在其類別的推理排行榜上表現位居或接近榜首。
04大佬評價一個遺憾 (前kaggle總裁,fast AI 創始人Jeremy Howard):雖然感謝開源,但 Jeremy Howard 也表達了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型,即使量化后也無法在消費級 GPU 上運行,這對開源社區的可及性來說是個不小的損失。
Jim Fan(英偉達高級研究經理):
部署便利性優先:Jim Fan 認為,對于開源模型,特別是 MoE 架構,易于部署正變得比單純追求模型尺寸更重要。Meta 強調 Llama 4 Scout 能在單張 H100 上運行,這與 Llama-3 401B(雖然強大但采用率較低)形成對比,說明 MoE 是一個更符合當前開源策略的方向
智能調參 MetaP:MetaP這個用于智能調整訓練超參數的新技術。雖然細節不多,但他猜測這可能類似于 Meta 開源的Ax 框架中的貝葉斯優化,能在有限的試驗預算內進行自適應實驗(如 A/B 測試)
后訓練策略:重 RL 輕 SFT/DPO: Llama 4 的后訓練策略是降低 SFT/DPO 的權重,提升在線 RL 的權重。原因是過多的 SFT/DPO 會過度約束模型,限制其在 RL 階段的探索能力
自我批判式數據篩選:一個有趣的技術點是,訓練過程中模型較早的檢查點(checkpoint)可以作為“批評家”來評估后續模型,幫助過濾掉過于簡單的訓練樣本/提示,讓模型在不斷篩選和學習中變得更強
Behemoth 的訓練細節與數據挑戰: Llama 4 Behemoth 的龐大規模(FP8 精度、32K GPU、30T tokens 訓練)。由于模型能力太強,普通的 SFT 數據對它來說太“簡單”了,因此需要裁剪掉高達 95% 的 SFT 數據,而小模型只需要裁剪約 50%
實現千萬級上下文窗口的技術手段看起來“相當簡單”:
1.去除部分位置編碼:在某些注意力層(特別是全局層)不使用位置編碼,借鑒了NoPE (No Positional Embedding)論文的思想
2.調整 Softmax 注意力:根據上下文的長度來調整 Softmax 注意力計算
05
這次Llama 4的推理模型還不見蹤影,這多少有點說不過去,大家覺得呢?畢竟Meta也是妥妥的大廠啊!不過Meta 表示這只是開始,后續還有更多模型,團隊正在全力開發中,特別提到了Llama 4 Reasoning模型
另外相比于DeepSeek的MIT開源方式,Llama 4 的新許可證有幾個限制:
- 每月活躍用戶超過 7 億的公司必須向 Meta 申請特殊許可,Meta 可自行決定授予或拒絕該許可。
- 必須在網站、界面、文檔等處突出顯示“使用 Llama 構建”。
- 使用 Llama Materials 創建的任何 AI 模型的名稱開頭都必須包含“Llama”
- 必須在任何分發的“通知”文本文件中包含具體的歸屬通知 - 使用必須遵守 Meta 單獨的可接受使用政策(參考 http://llama.com/llama4/use-policy...) - 僅出于符合品牌要求的有限許可使用“Llama”名稱
參考:
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
https://venturebeat.com/ai/metas-answer-to-deepseek-is-here-llama-4-launches-with-long-context-scout-and-maverick-models-and-2t-parameter-behemoth-on-the-way/
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.