網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Llama 4，超過DeepSeek了嗎

2025-04-06 17:24:56　來源: 未盡研究

上海舉報

分享至

在科技巨頭接連暴跌的周末喘息之際，Meta推出了Llama 4。

它想用千萬上下文、原生多模態(tài)和一個即將推出的2萬億參數(shù)基座模型，證明它反超了DeepSeek，自己仍然是硅谷開放權(quán)重大模型之王。

去年底今年初，DeepSeek在一個月內(nèi)接連推出開源基座模型V3和推理模型R1，完勝Llama 3，扎克伯格懵逼了，Meta AI陷入一片恐慌。

R1的訓(xùn)練僅用了2000多張H800，費(fèi)用下來500多萬美元，相當(dāng)于僅用了Meta一名技術(shù)大咖的年薪，而且Llama 3 訓(xùn)練用了16000張H100。

從那之后，大家都等著Meta會拿出一個什么樣的Llama 4。

這次發(fā)布的Llama 4 群，包括了兩個大模型Maverick-400B參數(shù)（17B活躍參數(shù)，128專家模型），Scout-109B (17B活躍，16專家）。還有一個仍在訓(xùn)練中的基座模型Behemoth-2T（288B活躍，16專家）。

Llama 4 群從總體上實(shí)現(xiàn)了對DeepSeek V3.1的超越，如千萬上下文，原生多模態(tài)，以及看起來更便宜的價格，但是它沒有推理模型。Llama 4也超過了其他主要的開放權(quán)重或免費(fèi)的小模型，如Gemma 3、Mistral 3.1和Gemini 2.0 Flash-lite。

Behemoth-2T已經(jīng)超過了包括GPT-4.5在內(nèi)的前沿基座模型，但是Meta在介紹中沒有提及、也可能遜色于Gemini 2.5 Pro。

細(xì)看一下各主要指標(biāo)的得分對比：

Behemoth超過了目前最前沿的大模型GPT-4.5，Gemini 2.0 pro, Claude Sonnet 3.7，但Gemini 2.5 Pro除外：

Maverick的性價比上超過了主流應(yīng)用模型GPT-4o、DeepSeek V3.1、Gemini 2.0 Flash：

Scout吊打其他主流的開源模型：

預(yù)訓(xùn)練

Llama 4 首次采用專家混合架構(gòu)（Mixture of Experts，簡稱 MoE）。以 Llama 4 Maverick 為例，該模型擁有 170 億個激活參數(shù)，總參數(shù)量達(dá) 4000 億。為了提升推理效率，密集層和 MoE 層可交替使用。MoE 層包括 128 個路由專家和一個共享專家。每個 token 會同時發(fā)送到共享專家和 128 個專家中的一個。因此，雖然所有參數(shù)都被保存在內(nèi)存中，但實(shí)際推理時只激活其中一部分參數(shù)。這種設(shè)計降低了模型的推理成本和延遲，使得 Llama 4 Maverick 可以在一臺英偉達(dá) H100 DGX 主機(jī)上運(yùn)行，便于部署，也可支持分布式推理以獲得更高效率。

Llama 4 模型原生支持多模態(tài)，通過早期融合（early fusion）將文本與視覺 token 無縫整合到統(tǒng)一的模型主干中。早期融合是一個重要突破，使得模型可以利用海量的無標(biāo)注文本、圖像和視頻數(shù)據(jù)進(jìn)行聯(lián)合預(yù)訓(xùn)練。Meta AI還升級了視覺編碼器，其基礎(chǔ)為 MetaCLIP，但通過與凍結(jié)的 Llama 模型聯(lián)合訓(xùn)練，以更好地適配 LLM。

Meta AI開發(fā)了一種名為 MetaP 的新訓(xùn)練技術(shù)，用于可靠設(shè)定關(guān)鍵模型超參數(shù)，如各層的學(xué)習(xí)率和初始化比例。這些超參數(shù)具有良好的可遷移性，適用于不同的 batch size、模型寬度、深度和訓(xùn)練 token 數(shù)。Llama 4 在預(yù)訓(xùn)練階段覆蓋了 200 種語言，其中超過 100 種語言的訓(xùn)練 token 數(shù)超 10 億，總體多語言 token 數(shù)是 Llama 3 的 10 倍，為開源微調(diào)提供了良好的基礎(chǔ)。

Behemoth使用 FP8 精度和 32K 張 GPU 進(jìn)行預(yù)訓(xùn)練，達(dá)到了每張 GPU 390 TFLOPs 的訓(xùn)練效率。訓(xùn)練所用數(shù)據(jù)總量超過 30 萬億 tokens，是 Llama 3 的兩倍以上，涵蓋了豐富的文本、圖像和視頻數(shù)據(jù)集。相比之下，Llama 3的精度是BF16，使用了16000張GPU，達(dá)到了每張GPU 400 TFLOPs的訓(xùn)練效率。

Meta AI還引入了“中期訓(xùn)練”（mid-training）階段，以新穎的訓(xùn)練策略強(qiáng)化模型的核心能力，包括利用專用數(shù)據(jù)集實(shí)現(xiàn)超長上下文擴(kuò)展，在提升模型質(zhì)量的同時，為 Llama 4 Scout 實(shí)現(xiàn)了業(yè)界領(lǐng)先的 1000 萬 token 輸入上下文長度。

后訓(xùn)練

Maverick充當(dāng)了主力助手和對話模型，在進(jìn)行后訓(xùn)練時，最大的挑戰(zhàn)是如何平衡多模態(tài)輸入、推理能力和對話表現(xiàn)。在多模態(tài)融合方面，Meta AI設(shè)計了課程式訓(xùn)練策略（curriculum strategy），確保模型在多模態(tài)任務(wù)中的性能不遜于各個單一模態(tài)專家模型。針對 Llama 4，Meta AI全面改造了后訓(xùn)練流程，采用了新的方法鏈條：輕量監(jiān)督微調(diào)（SFT）> 在線強(qiáng)化學(xué)習(xí)（RL）> 輕量偏好優(yōu)化（DPO）。他們發(fā)現(xiàn)，SFT 和 DPO 如果過于嚴(yán)格，會限制模型在在線 RL 階段的探索能力，尤其影響推理、編程與數(shù)學(xué)任務(wù)的表現(xiàn)。

為了解決這一問題，Meta AI使用 Llama 模型作為判定器，對數(shù)據(jù)進(jìn)行篩選，剔除了超過 50% 被標(biāo)記為“簡單”的訓(xùn)練數(shù)據(jù)，僅在剩下的高難度數(shù)據(jù)上進(jìn)行輕量微調(diào)。

在后續(xù)的多模態(tài)在線強(qiáng)化學(xué)習(xí)階段，Meta AI通過精挑細(xì)選更具挑戰(zhàn)性的 prompt，實(shí)現(xiàn)了性能的躍遷。Meta AI還引入了一種連續(xù)在線 RL 策略：訓(xùn)練過程中交替進(jìn)行模型訓(xùn)練和數(shù)據(jù)過濾，僅保留中等到高難度的 prompt，從而實(shí)現(xiàn)了計算效率和準(zhǔn)確率之間的最佳平衡。

Meta AI再通過一次輕量級 DPO 微調(diào)，處理模型響應(yīng)質(zhì)量中的邊緣情況，使模型在智能能力與對話表現(xiàn)之間達(dá)成了理想的平衡。

這種全新的后訓(xùn)練流程架構(gòu)，以及結(jié)合自適應(yīng)數(shù)據(jù)篩選的持續(xù)在線強(qiáng)化學(xué)習(xí)策略，使 Llama 4 Maverick 成為一款在智能能力和圖像理解上均達(dá)到行業(yè)頂尖水平的通用聊天模型。

推理能力遜色

Llama 4 群沒有推理模型，如果用基座Behemoth來比較，可以發(fā)現(xiàn)在數(shù)學(xué)和通識方面仍然遜色于DeepSeek-R1，全面不及OpenAI o1。

如果拿通用的Maverick 來比較，它躋身于目前主流的多模態(tài)模型，在編程、推理、多語言、長上下文處理和圖像任務(wù)等多個基準(zhǔn)上超越了同類模型（如 GPT-4o 和 Gemini 2.0），在編程與推理能力上也可以與體量更大的 DeepSeek v3.1 相媲美。

為什么周六發(fā)布

因為硅谷的幾家頭部AI實(shí)驗室的高層，彼此了解發(fā)布時間表已經(jīng)司空見慣，所以對 Meta 周六發(fā)布，也是不得已的選擇，因為下周將會非常瘋狂，或者至少有可能蓋過 Llama 4 的風(fēng)頭；而原本想上周被特朗普搞得更瘋狂。

Semianalysis創(chuàng)始人Dylan Patel說：

“阿里巴巴和DeepSeek會很快發(fā)布，并再次超越Meta的。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.