整理 I 褚杏娟
當(dāng)?shù)貢r(shí)間 4 月 8 日,英偉達(dá)宣布推出其最新大語言模型 Llama3.1 Nemotron Ultra 253B。該模型基于 Meta 的 Llama-3.1-405B-Instruct 構(gòu)建,并利用創(chuàng)新的神經(jīng)架構(gòu)搜索(NAS)技術(shù)進(jìn)行了深度優(yōu)化。其性能超越了最近發(fā)布的 Llama4,如 Behemoth、Maverick,并在 Hugging Face 平臺(tái)上開源,引起 AI 社區(qū)廣泛關(guān)注的同時(shí),也再次“暴擊”了 Meta。
可查看:https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
Meta 在大模型開源領(lǐng)域一直是作為領(lǐng)頭羊的存在,但上周末發(fā)布的 Llama 4 卻一度讓 Meta 陷入尷尬。
Abacus.AI 首席執(zhí)行官 Bindu Reddy 表示,“如果沒有 DeepSeek 和 Qwen,開源就會(huì)落后很多。”還有網(wǎng)友評(píng)價(jià)道,“Meta 頹勢(shì)盡顯,從 Llama3.1 起,技術(shù)上 insight 就慢慢落后了。回顧往昔,Llama2 還真是最巔峰。”Llama 4 的翻車還引發(fā)了大家對(duì) Qwen 3 的期待。
目前,大家對(duì) Llama 4 的批評(píng)主要集中在以下三點(diǎn):
1. 突然發(fā)布,沒有配套工具,哪怕是因?yàn)闀r(shí)間緊張,也還是太草率;
2. LM Arena“作弊”事件,最為嚴(yán)重,極大損害了公眾的信任;
3. 用戶更加追逐“推理模型”,Llama 4 在推理上介紹較少,整體顯得沒那么突出。
現(xiàn)在,是否可以真的說 Meta 4 已經(jīng)“折戟”了?
“作弊”事件引發(fā)信任危機(jī)
上周末,Meta 發(fā)布了兩個(gè)新的 Llama 4 模型:Scout (16 個(gè)專家,17B 激活參數(shù))和 Maverick(128 個(gè)專家,17B 激活參數(shù))。發(fā)布不久后,AI 社區(qū)就開始流傳一個(gè)傳聞:Meta 有意讓 Llama 4 更擅長(zhǎng)跑分測(cè)試,并掩蓋其真實(shí)限制。
YouTube 博主的實(shí)測(cè)結(jié)果
“作弊”事件的主角是是 Maverick。Meta 宣稱,Maverick 能在“廣泛被引用的基準(zhǔn)測(cè)試中”擊敗 GPT-4o 和 Gemini 2.0 Flash。Maverick 很快就在 AI 基準(zhǔn)測(cè)試平臺(tái) LMArena 上奪得了第二名的位置。
LMArena 是一個(gè)由用戶對(duì)比多個(gè)系統(tǒng)輸出并投票評(píng)選最佳結(jié)果的平臺(tái)。Meta 稱 Maverick 的 ELO 分?jǐn)?shù)為 1417,高于 OpenAI 的 4o,僅次于 Gemini 2.5 Pro。(ELO 分?jǐn)?shù)越高,表示模型在對(duì)戰(zhàn)中獲勝的頻率越高。)
這一成績(jī)讓 Meta 的開源模型 Llama 4 看上去有實(shí)力挑戰(zhàn) OpenAI、Anthropic 和 Google 等公司最先進(jìn)的閉源模型。然而,多位 AI 研究人員在仔細(xì)查閱文檔后發(fā)現(xiàn)了一些不尋常的地方。在文檔的細(xì)節(jié)部分,Meta 承認(rèn):用于 LMArena 測(cè)試的 Maverick 并不是公開提供的版本。根據(jù) Meta 自身的資料顯示,他們?cè)?LMArena 上部署的是一個(gè)“對(duì)話性能優(yōu)化”的實(shí)驗(yàn)性聊天版本的 Maverick。
根據(jù)外媒 TechCrunch 的說法,LMArena 從來都不是評(píng)估 AI 模型性能最可靠的標(biāo)準(zhǔn)。但過去 AI 公司通常不會(huì)專門去定制或微調(diào)模型以在 LMArena 上獲得更高分,至少?zèng)]人承認(rèn)這么做過。
問題在于:如果你為一個(gè)基準(zhǔn)測(cè)試定制了模型,但并不公布這個(gè)定制版本,而是只發(fā)布一個(gè)“原味”版本(vanilla variant),這會(huì)讓開發(fā)者很難準(zhǔn)確預(yù)測(cè)這個(gè)模型在具體應(yīng)用場(chǎng)景中的真實(shí)表現(xiàn)。而且,這種做法也具有誤導(dǎo)性。
理想情況下,盡管現(xiàn)有基準(zhǔn)測(cè)試本身也有很多缺陷,但它們起碼應(yīng)該能提供一個(gè)關(guān)于單個(gè)模型在不同任務(wù)上的能力概覽。
事實(shí)上,已經(jīng)有研究人員指出,公開發(fā)布的 Maverick 模型和 LM Arena 上托管的那個(gè)版本行為差異非常明顯。LM Arena 的那個(gè)版本經(jīng)常使用大量表情符號(hào),而且回答特別啰嗦。
LMArena 在 Llama 4 發(fā)布兩天后在 X 發(fā)文表示:“Meta 對(duì)我們政策的理解與我們對(duì)模型提供方的期望不一致。Meta 應(yīng)該更明確地說明 ‘Llama-4-Maverick-03-26-Experimental’ 是一個(gè)為迎合人類偏好而定制的模型。為此,我們正在更新排行榜政策,以加強(qiáng)對(duì)公平、可復(fù)現(xiàn)評(píng)測(cè)的承諾,避免未來再次出現(xiàn)類似混淆。”
雖然 Meta 的做法并未明確違反 LMArena 的規(guī)則,該平臺(tái)仍表達(dá)了對(duì)“操縱評(píng)測(cè)系統(tǒng)”的擔(dān)憂,并采取措施防止“過擬合”和“基準(zhǔn)測(cè)試泄漏”。
當(dāng)公司在排行榜上提交特別調(diào)優(yōu)的模型版本,而向公眾發(fā)布的是另一個(gè)版本時(shí),像 LMArena 這樣的排行榜作為現(xiàn)實(shí)表現(xiàn)參考的意義就會(huì)被削弱。同時(shí),公眾也會(huì)對(duì)公司后續(xù)大模型版本的測(cè)評(píng)結(jié)果保持懷疑。
Meta 發(fā)言人 Ashley Gabriel 回應(yīng):“我們會(huì)嘗試各種定制版本。”她表示,“‘Llama-4-Maverick-03-26-Experimental’ 是我們?cè)囼?yàn)的一種聊天優(yōu)化版本,在 LMArena 上的表現(xiàn)也很不錯(cuò)。我們現(xiàn)在已經(jīng)發(fā)布了開源版本,接下來將看看開發(fā)者如何根據(jù)自身需求定制 Llama 4。”
對(duì)此,Meta 生成式 AI 副總裁 Ahmad Al-Dahle 在 X 上發(fā)文否認(rèn)了這些質(zhì)疑:“我們也聽到了有關(guān)我們使用測(cè)試集進(jìn)行訓(xùn)練的指控——這根本不是事實(shí),我們絕不會(huì)這么做。我們最合理的理解是,大家看到的質(zhì)量差異是因?yàn)槟壳暗膶?shí)現(xiàn)版本仍需進(jìn)一步穩(wěn)定。”
這次事件揭示出,Meta 渴望被視為 AI 領(lǐng)頭羊——即使這意味著需要用“打榜技巧”操作規(guī)則,但其確實(shí)面臨著研發(fā)困境。
“DeepSeek 效應(yīng)”的后續(xù)?
不少人注意到,Llama 4 的發(fā)布時(shí)間很奇怪——周六通常不是發(fā)布重大 AI 新聞的時(shí)間。有人在 Threads 上問為什么要在周末發(fā)布,Meta CEO 馬克·扎克伯格回應(yīng)說:“因?yàn)槟菚r(shí)它準(zhǔn)備好了。”可見,選擇這個(gè)時(shí)間點(diǎn)發(fā)布是扎克伯格同意的。
Llama 是 Meta 最寄予厚望的一款模型,扎克伯格的目標(biāo)是將其作為全球的行業(yè)標(biāo)準(zhǔn),并在今年實(shí)現(xiàn) 10 億的用戶數(shù)量。此前,有人猜測(cè) Meta 可能會(huì)在 4 月 29 日首次舉辦的 LlamaCon AI 會(huì)議推出 Llama 最新模型。
專注于追蹤 AI 模型的 Simon Willison 表示:“這次發(fā)布總體上非常令人困惑。模型評(píng)分對(duì)我來說毫無價(jià)值,因?yàn)槲疑踔翢o法使用那個(gè)得分很高的模型版本。”
Meta 發(fā)布 Llama 4 的過程并不順利。根據(jù) The Information 的報(bào)道,由于模型未能達(dá)到內(nèi)部預(yù)期,Meta 多次推遲發(fā)布。內(nèi)部對(duì)這個(gè)版本預(yù)期尤其高,因?yàn)?DeepSeek 開源模型對(duì)其帶來了很大沖擊。
1 月底時(shí)有消息稱,Meta 的生成式 AI 團(tuán)隊(duì)陷入了恐慌狀態(tài)。“一切始于 DeepSeek V3,它讓 Llama 4 在基準(zhǔn)測(cè)試中落后。”“工程師們正瘋狂地剖析 DeepSeek,復(fù)制一切能復(fù)制的東西。”
這次發(fā)布中,Meta 特意提到“Maverick 是同類最佳的多模態(tài)模型,在編碼、推理、多語言、長(zhǎng)上下文和圖像基準(zhǔn)測(cè)試中超越了 GPT-4o 和 Gemini 2.0 等同類模型,并且在編碼和推理方面可與規(guī)模大得多的 DeepSeek v3.1 相媲美。”
“總體來說,對(duì) Llama 4 來說是有點(diǎn)失望,唯一的驚喜是 Scout 的 10M 上下文窗口,可以處理巨長(zhǎng)文本和大視頻。但很可惜的是官方 Release Notes 沒提到支持中文。”有網(wǎng)友說道。
但在第三方的長(zhǎng)上下文測(cè)評(píng)中,Llama 4 表現(xiàn)并不好。對(duì)此,CoreViewHQ 聯(lián)合創(chuàng)始人兼 CTO Ivan Fioravant 表示,“Llama-4 不可能在 120k 上下文長(zhǎng)度下會(huì)退化得這么嚴(yán)重。像 Meta 這樣的大型 AI 實(shí)驗(yàn)室怎么可能在發(fā)布中宣稱支持 10M 上下文窗口,卻在實(shí)際使用中表現(xiàn)這么差?我真心希望是某些地方出了 bug 才導(dǎo)致這種情況。”
網(wǎng)友實(shí)測(cè),Llama 4 被低估了嗎?
“dionysio211”認(rèn)為,在關(guān)于 Llama 4 的討論中,很多真正重要的內(nèi)容都被忽視了。最近發(fā)布的這些模型,其實(shí)在大模型設(shè)計(jì)方面帶來了許多新穎的突破,包括:多模態(tài)趨勢(shì)、新的推理與非推理邏輯設(shè)計(jì)、各種類型的 MoE(專家混合)結(jié)構(gòu)等。
這些創(chuàng)新讓普通用戶在“第一印象”上產(chǎn)生了偏差,導(dǎo)致他們誤以為模型退步了,而實(shí)際上模型正在快速進(jìn)化。
以 Gemma 3 為例,它的多模態(tài)功能在上線時(shí)表現(xiàn)非常糟糕,直到現(xiàn)在在很多本地 LLM 平臺(tái)(如 LMStudio、Ollama、KoboldCPP 等)上都還沒有完全優(yōu)化好。這其實(shí)很容易理解。要在現(xiàn)有消費(fèi)級(jí)硬件上擠出更多性能、同時(shí)盡快將模型推向公眾,涉及到大量變量——其中很重要的一點(diǎn)就是:依賴開源平臺(tái)去“預(yù)判”或“適配”模型發(fā)布后的變化。
“如果每個(gè)新模型都沿用同樣的架構(gòu),那怎么會(huì)有創(chuàng)新呢?”dionysio211 表示,“現(xiàn)在還沒有任何主流平臺(tái)對(duì)音頻輸入做出統(tǒng)一標(biāo)準(zhǔn),那面對(duì)即將推出的“omni 模型”又要怎么支持?我還沒看到有哪個(gè)平臺(tái)支持 Phi-4 的 omni 版本。”“再比如 Qwen 2.5 VL 已經(jīng)發(fā)布很久了,可至今大部分本地推理平臺(tái)還不支持它。”
“從 Mixtral 開始,幾乎每一個(gè)有新架構(gòu)的模型在落地時(shí)都會(huì)遇到各種卡頓和問題。我們應(yīng)該習(xí)慣這種情況,而不是在模型還沒跑順的時(shí)候就輕下結(jié)論、否定模型本身的價(jià)值。”dionysio211 表示,這都是這個(gè)行業(yè)發(fā)展過程的一部分,我們要做的是等待平臺(tái)支持,而不是急著說模型研發(fā)團(tuán)隊(duì)“不懂在干什么”。
在 dionysio211 看來,Llama 4 這種模型正是本地 LLM 的未來趨勢(shì)。它們通過構(gòu)建高性能的 MoE 架構(gòu),繞過了“內(nèi)存?zhèn)鬏攷挕边@一大瓶頸,使得模型甚至能在 CPU 上運(yùn)行,或者至少適配 AMD、Apple 等平臺(tái)。
如今信息密度已經(jīng)高到 3B 規(guī)模的模型就能完成一年前 24B 才能做到的事情,并且速度甚至比部分云端模型還快。“這是目前少數(shù)已知方式中能在本地實(shí)現(xiàn)每秒 20+ tokens 且性能接近 Sonnet 3.5、GPT-4 的方案,也可能促使硬件廠商未來在架構(gòu)上更注重內(nèi)存通道優(yōu)化,而不是試圖去比拼 VRAM。”
網(wǎng)友“randomfoo2 ”則在 vLLM 做了正式發(fā)布并驗(yàn)證了推理精度之后自己做了評(píng)測(cè),得到的結(jié)論是“還算可以。”結(jié)果顯示,Scout(17A109B) 的水平大致可以和 Mistral Small 3.1(24B) 和 Gemma 3(27B) 相當(dāng);Maverick(17A400B) 的表現(xiàn)大致相當(dāng)于 GPT-4o 的水平,略微落后于 DeepSeek-V3(37A671B),但激活參數(shù)量只有后者的一半。
“Llama 4 的架構(gòu)很復(fù)雜,有不少新特性,但如果你要用 40T token 來訓(xùn)練一個(gè)模型,總得經(jīng)過一系列 sanity check(合理性驗(yàn)證)吧。所以,我認(rèn)為底模本身其實(shí)是沒問題的(除非是推理實(shí)現(xiàn)上還有 bug)。”randomfoo2 還提到,Llama 3 最初的 IT 版本其實(shí)也不怎么樣,直到 3.1 才真正打磨出色。
“我覺得 Llama 4 還是很有潛力的,但我會(huì)再等等,不著急去微調(diào)或深入研究,因?yàn)榭隙ㄟ€會(huì)有一堆 bug。說真的,我上周才剛在給 Phi 4 寫訓(xùn)練器時(shí)發(fā)現(xiàn)了新 bug。”randomfoo2 說道。”randomfoo2 說道。
網(wǎng)友“dionysio211”則一直在定期查看 vLLM 和 llama.cpp 的提交記錄,表示他們現(xiàn)在確實(shí)還在不斷修復(fù)和優(yōu)化中。“我用 LM Studio 的 Scout 版本試了一下,表現(xiàn)還不錯(cuò)。我在 6800XT 和 7900XT 上用 Vulkan 和 ROCm 大概能跑到 10 tokens/s,社區(qū)版本和 Unsloth 的版本表現(xiàn)也差不多。我確實(shí)覺得 Scout 應(yīng)該排名高于 Mistral Small 和 Gemma 3 27B,希望后續(xù)發(fā)布能進(jìn)一步打磨這些版本。”
當(dāng)?shù)貢r(shí)間 4 月 8 日,獨(dú)立分析人工智能模型和托管提供商 Artificial Analysis 復(fù)現(xiàn)了 Meta 聲稱的 MMLU Pro 和 GPQA Diamond 測(cè)試集得分,并聲稱,“我們依然認(rèn)為 Scout 和 Maverick 是非常優(yōu)秀的開源模型,對(duì)開放權(quán)重 AI 生態(tài)具有重要價(jià)值。”
這次所有測(cè)試均基于 Hugging Face 發(fā)布的 Llama 4 權(quán)重版本,覆蓋多個(gè)第三方云平臺(tái)。其評(píng)測(cè)結(jié)果并未使用提供給 LMArena 的實(shí)驗(yàn)版 chat-tuned 模型(Llama-4-Maverick-03-26-Experimental)。做出的改變是接受了 Llama 4 所采用的回答格式 “The best answer is A” 作為有效答案。
AI 研究機(jī)構(gòu) Epoch 也表示親自評(píng)估了 Llama 4,結(jié)果顯示:在 GPQA Diamond 測(cè)試中,Maverick 和 Scout 的得分分別為 67% 和 52%,與 Meta 報(bào)告的 57% 和 69.8% 相近。在 MATH Level 5 測(cè)試中,Maverick 和 Scout 的得分分別為 73% 和 62%。結(jié)論是:Maverick 與領(lǐng)先的開放式或低成本型號(hào)相比具有競(jìng)爭(zhēng)力,并且均優(yōu)于 Llama 3。
https://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming
https://x.com/ArtificialAnlys/status/1909624239747182989
https://www.reddit.com/r/LocalLLaMA/comments/1jtzue8/why_we_may_be_wrong_about_llama_4/
https://techstartups.com/2025/01/24/meta-ai-in-panic-mode-as-free-open-source-deepseek-outperforms-at-a-fraction-of-the-cost/
https://www.threads.net/@zuck/post/DIFAsupTS7Z
聲明:本文為 AI 前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。
AICon 2025 強(qiáng)勢(shì)來襲,5 月上海站、6 月北京站,雙城聯(lián)動(dòng),全覽 AI 技術(shù)前沿和行業(yè)落地。大會(huì)聚焦技術(shù)與應(yīng)用深度融合,匯聚 AI Agent、多模態(tài)、場(chǎng)景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計(jì)和出海策略等話題。即刻掃碼購票,一同探索 AI 應(yīng)用邊界!
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.