在科技巨頭接連暴跌的周末喘息之際,Meta推出了Llama 4。
它想用千萬上下文、原生多模態(tài)和一個即將推出的2萬億參數(shù)基座模型,證明它反超了DeepSeek,自己仍然是硅谷開放權(quán)重大模型之王。
去年底今年初,DeepSeek在一個月內(nèi)接連推出開源基座模型V3和推理模型R1,完勝Llama 3,扎克伯格懵逼了,Meta AI陷入一片恐慌。
R1的訓(xùn)練僅用了2000多張H800,費(fèi)用下來500多萬美元,相當(dāng)于僅用了Meta一名技術(shù)大咖的年薪,而且Llama 3 訓(xùn)練用了16000張H100。
從那之后,大家都等著Meta會拿出一個什么樣的Llama 4。
這次發(fā)布的Llama 4 群,包括了兩個大模型Maverick-400B參數(shù)(17B活躍參數(shù),128專家模型),Scout-109B (17B活躍,16專家)。還有一個仍在訓(xùn)練中的基座模型Behemoth-2T(288B活躍,16專家)。
Llama 4 群從總體上實(shí)現(xiàn)了對DeepSeek V3.1的超越,如千萬上下文,原生多模態(tài),以及看起來更便宜的價格,但是它沒有推理模型。Llama 4也超過了其他主要的開放權(quán)重或免費(fèi)的小模型,如Gemma 3、Mistral 3.1和Gemini 2.0 Flash-lite。
Behemoth-2T已經(jīng)超過了包括GPT-4.5在內(nèi)的前沿基座模型,但是Meta在介紹中沒有提及、也可能遜色于Gemini 2.5 Pro。
細(xì)看一下各主要指標(biāo)的得分對比:
Behemoth超過了目前最前沿的大模型GPT-4.5,Gemini 2.0 pro, Claude Sonnet 3.7,但Gemini 2.5 Pro除外:
Maverick的性價比上超過了主流應(yīng)用模型GPT-4o、DeepSeek V3.1、Gemini 2.0 Flash:
Scout吊打其他主流的開源模型:
預(yù)訓(xùn)練
Llama 4 首次采用專家混合架構(gòu)(Mixture of Experts,簡稱 MoE)。以 Llama 4 Maverick 為例,該模型擁有 170 億個激活參數(shù),總參數(shù)量達(dá) 4000 億。為了提升推理效率,密集層和 MoE 層可交替使用。MoE 層包括 128 個路由專家和一個共享專家。每個 token 會同時發(fā)送到共享專家和 128 個專家中的一個。因此,雖然所有參數(shù)都被保存在內(nèi)存中,但實(shí)際推理時只激活其中一部分參數(shù)。這種設(shè)計降低了模型的推理成本和延遲,使得 Llama 4 Maverick 可以在一臺 英偉達(dá) H100 DGX 主機(jī)上運(yùn)行,便于部署,也可支持分布式推理以獲得更高效率。
Llama 4 模型原生支持多模態(tài),通過早期融合(early fusion)將文本與視覺 token 無縫整合到統(tǒng)一的模型主干中。早期融合是一個重要突破,使得模型可以利用海量的無標(biāo)注文本、圖像和視頻數(shù)據(jù)進(jìn)行聯(lián)合預(yù)訓(xùn)練。Meta AI還升級了視覺編碼器,其基礎(chǔ)為 MetaCLIP,但通過與凍結(jié)的 Llama 模型聯(lián)合訓(xùn)練,以更好地適配 LLM。
Meta AI開發(fā)了一種名為 MetaP 的新訓(xùn)練技術(shù),用于可靠設(shè)定關(guān)鍵模型超參數(shù),如各層的學(xué)習(xí)率和初始化比例。這些超參數(shù)具有良好的可遷移性,適用于不同的 batch size、模型寬度、深度和訓(xùn)練 token 數(shù)。Llama 4 在預(yù)訓(xùn)練階段覆蓋了 200 種語言,其中超過 100 種語言的訓(xùn)練 token 數(shù)超 10 億,總體多語言 token 數(shù)是 Llama 3 的 10 倍,為開源微調(diào)提供了良好的基礎(chǔ)。
Behemoth使用 FP8 精度和 32K 張 GPU 進(jìn)行預(yù)訓(xùn)練,達(dá)到了每張 GPU 390 TFLOPs 的訓(xùn)練效率。訓(xùn)練所用數(shù)據(jù)總量超過 30 萬億 tokens,是 Llama 3 的兩倍以上,涵蓋了豐富的文本、圖像和視頻數(shù)據(jù)集。相比之下,Llama 3的精度是BF16,使用了16000張GPU,達(dá)到了每張GPU 400 TFLOPs的訓(xùn)練效率。
Meta AI還引入了“中期訓(xùn)練”(mid-training)階段,以新穎的訓(xùn)練策略強(qiáng)化模型的核心能力,包括利用專用數(shù)據(jù)集實(shí)現(xiàn)超長上下文擴(kuò)展,在提升模型質(zhì)量的同時,為 Llama 4 Scout 實(shí)現(xiàn)了業(yè)界領(lǐng)先的 1000 萬 token 輸入上下文長度。
后訓(xùn)練
Maverick充當(dāng)了主力助手和對話模型,在進(jìn)行后訓(xùn)練時,最大的挑戰(zhàn)是如何平衡多模態(tài)輸入、推理能力和對話表現(xiàn)。在多模態(tài)融合方面,Meta AI設(shè)計了課程式訓(xùn)練策略(curriculum strategy),確保模型在多模態(tài)任務(wù)中的性能不遜于各個單一模態(tài)專家模型。針對 Llama 4,Meta AI全面改造了后訓(xùn)練流程,采用了新的方法鏈條:輕量監(jiān)督微調(diào)(SFT)> 在線強(qiáng)化學(xué)習(xí)(RL)> 輕量偏好優(yōu)化(DPO)。他們發(fā)現(xiàn),SFT 和 DPO 如果過于嚴(yán)格,會限制模型在在線 RL 階段的探索能力,尤其影響推理、編程與數(shù)學(xué)任務(wù)的表現(xiàn)。
為了解決這一問題,Meta AI使用 Llama 模型作為判定器,對數(shù)據(jù)進(jìn)行篩選,剔除了超過 50% 被標(biāo)記為“簡單”的訓(xùn)練數(shù)據(jù),僅在剩下的高難度數(shù)據(jù)上進(jìn)行輕量微調(diào)。
在后續(xù)的多模態(tài)在線強(qiáng)化學(xué)習(xí)階段,Meta AI通過精挑細(xì)選更具挑戰(zhàn)性的 prompt,實(shí)現(xiàn)了性能的躍遷。Meta AI還引入了一種連續(xù)在線 RL 策略:訓(xùn)練過程中交替進(jìn)行模型訓(xùn)練和數(shù)據(jù)過濾,僅保留中等到高難度的 prompt,從而實(shí)現(xiàn)了計算效率和準(zhǔn)確率之間的最佳平衡。
Meta AI再通過一次輕量級 DPO 微調(diào),處理模型響應(yīng)質(zhì)量中的邊緣情況,使模型在智能能力與對話表現(xiàn)之間達(dá)成了理想的平衡。
這種全新的后訓(xùn)練流程架構(gòu),以及結(jié)合自適應(yīng)數(shù)據(jù)篩選的持續(xù)在線強(qiáng)化學(xué)習(xí)策略,使 Llama 4 Maverick 成為一款在智能能力和圖像理解上均達(dá)到行業(yè)頂尖水平的通用聊天模型。
推理能力遜色
Llama 4 群沒有推理模型,如果用基座Behemoth來比較,可以發(fā)現(xiàn)在數(shù)學(xué)和通識方面仍然遜色于DeepSeek-R1,全面不及OpenAI o1。
如果拿通用的Maverick 來比較,它躋身于目前主流的多模態(tài)模型,在編程、推理、多語言、長上下文處理和圖像任務(wù)等多個基準(zhǔn)上超越了同類模型(如 GPT-4o 和 Gemini 2.0),在編程與推理能力上也可以與體量更大的 DeepSeek v3.1 相媲美。
為什么周六發(fā)布
因為硅谷的幾家頭部AI實(shí)驗室的高層,彼此了解發(fā)布時間表已經(jīng)司空見慣,所以對 Meta 周六發(fā)布,也是不得已的選擇,因為下周將會非常瘋狂,或者至少有可能蓋過 Llama 4 的風(fēng)頭;而原本想上周被特朗普搞得更瘋狂。
Semianalysis創(chuàng)始人Dylan Patel說:
“阿里巴巴和DeepSeek會很快發(fā)布,并再次超越Meta的。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.