網易首頁 > 網易號 > 正文申請入駐

Llama 4 詳細評測：開源模型的全面倒退？

2025-04-07 20:51:55　來源: FounderPark

北京舉報

分享至

“Llama 4 是開源模型的全面倒退。” ——在Meta發布新一代大模型不到24小時內，這樣的質疑聲音已經出現在多個技術社區。

Llama 4 真的不如前代？還是它只是“看起來拉胯、實則有料”？

昨天，Meta正式推出新一代開源大模型 Llama 4，帶來了兩個混合專家（MoE）架構的版本：Scout（109B總參數，17B活躍參數）和 Maverick（400B總參數，17B活躍參數）。這一代模型不僅原生支持圖文輸入，還將上下文窗口拓展至驚人的 1000萬 token，在規格參數上堪稱“頂配開源”。

然而，隨著初步評測和對比結果浮出水面，人們發現——它的實際表現，可能沒有我們想象中那么強。

本文將基于 Artificial Analysis 的獨立評估數據和社交媒體輿情，深入剖析 Llama 4 的技術亮點、實際表現與競品差距，并探討這款“爭議中亮相”的新模型究竟是開源未來，還是開源瓶頸的縮影。

Artificial Analysis是一家專注于AI技術創新的公司，致力于提供高效的數據分析和智能解決方案，旨在加速人類解決問題。其前瞻性技術備受關注。吳恩達評論：“這是一個很棒的網站，測試LLM API速度，幫開發者選模型，補充了其他質量評估，對智能代理至關重要！”

Founder Park 正在搭建開發者社群，邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入，請掃碼詳細填寫你的產品/項目信息，通過審核后工作人員會拉你入群～

進群之后，你有機會得到：

高濃度的主流模型（如 DeepSeek 等）開發交流；
資源對接，與 API、云廠商、模型廠商直接交流反饋的機會；
好用、有趣的產品/案例，Founder Park 會主動做宣傳。

01性能對比：差距不是一點，是一整條街

Artificial Analysis通過其Intelligence Index（涵蓋MMLU-Pro、GPQA Diamond、HumanEval等非推理模型評估）對Llama 4進行了獨立測試，具體結果如下：

1.總體性能（Intelligence Index）

從最新的 Artificial Analysis Intelligence Index 綜合榜單來看，Llama 4 的表現讓人大跌眼鏡。

在這份集通用推理、科學推理、編碼、數學等七項任務為一體的硬核評測中，Google 的 Gemini 2.5 Pro、xAI 的 Grok 3、以及 DeepSeek R1 牢牢占據前三，綜合得分分別為 68、66 和 66，實力堪稱天花板級別，屬于開局即封神的選手。

而反觀剛剛發布的 Llama 4 系列：

-Maverick 得分 49，不僅被前述三強甩出十幾分的距離，連 OpenAI 的 GPT-4o和阿里的 QwQ-32B都沒打過，未能進入第一梯隊，只能勉強躋身中游。

-Scout 得分僅為 36，直接與 GPT-4o mini 打成平手，甚至被 Google 的 Gemma 3 27B按在地上摩擦，表現慘不忍睹。

這意味著，無論是旗艦定位的 Maverick 還是輕量版的 Scout，都未能在關鍵指標上與主流競品拉開差距。特別是 Scout，不僅沒展現出“小而強”的性價比，還在多項任務中落后于前代產品與同量級模型。

一句話總結：“看起來很強，打起來很虛”，是當前市場對 Llama 4 初版表現最真實的反饋。

在非推理任務的對比中，Llama 4 的表現可謂喜憂參半。Maverick在開源模型中算得上發揮穩定，成功超越部分閉源競品，展示出一定的專業處理能力。然而與頂級模型如 DeepSeek V3 和 GPT-4o相比，依然存在明顯差距，說明其綜合實力尚未達到第一梯隊的水平。

Scout則更為克制，沒有驚喜也沒有翻車，整體表現與GPT-4o mini相當，雖不具備突破性優勢，但在資源受限場景下仍具備一定實用價值。

總體來看，Llama 4系列雖在非推理能力上具備一定基礎，但距離“強通用、強專業”的開源標桿，還有一段路要走。它們更像是一次架構和方向的試水，而不是一舉超車的終局之作。

2.具體任務表現

Artificial Analysis的評估數據（詳見附圖）涵蓋了通用推理、科學推理、編碼和數學等多個領域，我將相關任務合并分析，聚焦Llama 4（Scout和Maverick）的表現趨勢，并與主要競品DeepSeek V3、Claude 3.7 Sonnet、和GPT-4o mini對比，揭示其優勢與不足。以下簡要補充各指標的含義和重要性，幫助理解評估維度。

1）通用推理：穩中有位，但缺乏突破

通用推理評估模型在廣泛知識和綜合推理能力上的表現，MMLU-Pro覆蓋57個學科的知識廣度，Humanity’s Last Exam則測試復雜推理能力。這類指標對衡量模型在教育、問答等通用場景的適用性至關重要。

Maverick在通用推理任務中表現穩健，在MMLU-Pro中排名靠前，與GPT-4o、Claude 3.7 Sonnet等模型同等，但略遜于DeepSeek V3 V3（Mar 25）。Scout的表現則比較落后，低于Mistral Small 3和GPT-4o mini。

在Humanity’s Last Exam中，Maverick同樣位列前茅，接近DeepSeek V3（Mar 25），優于GPT-4o 和Claude 3.7 Sonnet，Scout則排名中游，略高于Mistral Small 和GPT-4o mini。

結論：在通用推理相關任務中，Maverick 的表現整體可圈可點，尤其在知識廣度和復雜推理方面接近一線閉源模型，雖然略遜于 DeepSeek V3，但基本站穩中上游位置。Scout 則明顯吃力，整體排名不高，甚至落后于部分輕量模型，反映出其在處理廣義知識類任務時的適應能力仍待加強。

2）科學推理：開源難題，Llama 4未解

科學推理通過GPQA Diamond測試模型在生物、物理、化學等領域的專業推理能力，強調多步推理和深度理解，對評估模型在學術研究、技術文檔處理等專業場景的表現尤為重要。

Maverick在科學推理任務中的表現顯著低于DeepSeek V3和Claude 3.7 Sonnet的水平，排名靠后，未能展現出與頂級模型競爭的能力。Scout的表現則稍顯遜色，不僅遠低于GPT-4o mini，甚至低于Meta自己的Llama 3.3 70B，顯示其在專業領域推理上的明顯不足。

結論：面對生物、物理、化學等專業領域的深度推理任務，Llama 4 表現疲軟，尤其是 Maverick，雖為高配模型，卻未能在多步邏輯和專業理解上展現出預期能力，明顯落后于 Claude 和 DeepSeek。Scout 的表現則更加堪憂，不僅輸給 GPT-4o mini，甚至被 Llama 3.3 70B 反超，顯示其在學術和技術類場景中的適用性非常有限。

3）編碼能力：基礎乏力，高難勉強及格

Maverick在編碼任務中的表現未達預期。在基礎編碼能力（HumanEval）上，Maverick遠低于GPT-4o、Claude 3.7 Sonnet以及DeepSeek V3，僅達到GPT-4o mini的水平，顯示其在基礎代碼生成上的競爭力不足。

在更具挑戰性的競賽級編碼（LiveCodeBench）和科學編碼（SciCode）任務中，Maverick的表現進一步回落，與DeepSeek V3和Claude 3.7 Sonnet的差距不太明顯。

Scout在基礎編碼和科學編程任務中表現墊底，排名靠后，遠低于大多數競品。然而，在高難度編碼任務（LiveCodeBench）中，Scout的表現意外接近中位值，與Claude 3.5 Haiku水平相當，展現了一定的潛力。

結論：Maverick 在代碼生成任務中并未脫穎而出，基礎編程任務的完成度不高，與領先模型存在明顯差距。面對競賽級和科學編程挑戰時，其表現更為拉胯，難以支撐復雜開發需求。Scout 則在大部分編碼任務中墊底，雖在高難度挑戰中偶有亮點，但整體競爭力仍偏弱，不具備“開發者友好”的實用價值。

4）數學：基礎尚可，高階失守

數學任務評估模型的定量推理能力，MATH-500測試常規數學問題解決能力，AIME 2024則聚焦高難度競賽級數學推理。這類指標對教育、科學研究和金融建模等需要強大數學能力的場景尤為關鍵。

Maverick在定量推理任務（MATH-500）中表現較為穩健，排名靠前，超越Claude 3.7 Sonnet，但與DeepSeek V3仍存在一定差距，顯示其在常規數學問題解決上的競爭力。Scout的表現同樣可圈可點，優于GPT-4o mini，并接近Claude 3.7 Sonnet的水平，展現了不錯的基礎數學能力。

然而，在高難度的競賽級數學推理任務（AIME 2024）中，Maverick表現不佳，遠落后于DeepSeek V3，僅略高于GPT-4o。

結論：在數學推理方面，Llama 4 兩個版本表現出較為明顯的分化。Maverick 在基礎數學任務中穩健發揮，部分場景甚至可與主流閉源模型媲美，Scout 也展現出一定的定量推理能力，優于部分輕量模型。然而，進入競賽級高難度數學任務后，兩者均顯得力不從心，與 DeepSeek V3 等強模型的差距明顯拉大，暴露出復雜推理能力上的短板。

總結：差距不是一點，是一整條街

綜合來看，Llama 4（Maverick 和 Scout）在非語言生成的關鍵能力維度上，與 DeepSeek V3 之間存在系統性差距。Maverick雖有部分亮點，但始終處于“差一點”的狀態，在科學推理、編碼和高階數學上幾乎全面落后。Scout的表現則更為慘烈，不僅被 DeepSeek V3 和 Claude 系列全面碾壓，甚至在多個維度不敵小模型選手，令人質疑其在專業場景中的實際價值。

Llama 4 所展示的更多是架構層面的潛力，而非實打實的能力躍遷。除非在未來版本中針對專業推理、復雜任務場景進行重點優化，否則很難在真正需要“硬實力”的場合，成為開源替代品的第一選擇。

02模型效率

與DeepSeek V3相比，Llama 4 Maverick的活躍參數大約只有其一半（17B對37B），總參數也僅為其60%左右（402B對671B），這表明Maverick以更高的效率實現了其性能表現。此外，Maverick還支持圖像輸入，而DeepSeek V3則不具備這一功能。

03價格

Artificial Analysis追蹤6家服務提供商，并對比評估了Maverick的中位價格為每百萬輸入/輸出token 0.24美元/0.77美元，而Scout的定價為每百萬輸入/輸出token 0.15美元/0.4美元，其價格不僅低于DeepSeek v3，相比OpenAI領先的GPT-4o接口更是便宜超過10倍。

04最后

那么，Llama 4到底是不是“開源模型的全面倒退”？從目前的測試結果來看，這種說法雖顯極端，卻并非毫無根據。

在多個關鍵任務中，Maverick 勉強追平主流閉源模型的尾巴，而 Scout 則在小模型領域表現平平，甚至被自家的 Llama 3.3 70B 反超。相比之下，DeepSeek V3 的統治力更像是給所有開源模型潑了一盆冷水。

但退一步看，開源的價值不止于性能指標，更在于長期可控性、社區生態與開放創新的累積潛力。Llama 4 的多模態架構、超長上下文和低廉定價，依然在為未來鋪路——也許不是現在碾壓閉源的“終極答案”，但可能是通往答案的那一步。

最終，它是倒退還是轉折，要看 Meta 和整個開源社區，能否在質疑聲中繼續優化、快速迭代，把短板變成支點。真正的競爭，還遠遠沒有結束。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.