“Llama 4 是開源模型的全面倒退?!?/strong>——在Meta發布新一代大模型不到24小時內,這樣的質疑聲音已經出現在多個技術社區。
Llama 4 真的不如前代?還是它只是“看起來拉胯、實則有料”?
昨天,Meta正式推出新一代開源大模型 Llama 4,帶來了兩個混合專家(MoE)架構的版本:Scout(109B總參數,17B活躍參數)和 Maverick(400B總參數,17B活躍參數)。這一代模型不僅原生支持圖文輸入,還將上下文窗口拓展至驚人的 1000萬 token,在規格參數上堪稱“頂配開源”。
然而,隨著初步評測和對比結果浮出水面,人們發現——它的實際表現,可能沒有我們想象中那么強。
本文將基于 Artificial Analysis 的獨立評估數據和社交媒體輿情,深入剖析 Llama 4 的技術亮點、實際表現與競品差距,并探討這款“爭議中亮相”的新模型究竟是開源未來,還是開源瓶頸的縮影。
Artificial Analysis是一家專注于AI技術創新的公司,致力于提供高效的數據分析和智能解決方案,旨在加速人類解決問題。其前瞻性技術備受關注。吳恩達評論:“這是一個很棒的網站,測試LLM API速度,幫開發者選模型,補充了其他質量評估,對智能代理至關重要!”
性能對比:差距不是一點,是一整條街
Artificial Analysis通過其Intelligence Index(涵蓋MMLU-Pro、GPQA Diamond、HumanEval等非推理模型評估)對Llama 4進行了獨立測試,具體結果如下:
1.總體性能(Intelligence Index)
從最新的 Artificial Analysis Intelligence Index 綜合榜單來看,Llama 4 的表現讓人大跌眼鏡。
在這份集通用推理、科學推理、編碼、數學等七項任務為一體的硬核評測中,Google 的 Gemini 2.5 Pro、xAI 的 Grok 3、以及 DeepSeek R1 牢牢占據前三,綜合得分分別為 68、66 和 66,實力堪稱天花板級別,屬于開局即封神的選手。
而反觀剛剛發布的 Llama 4 系列:
-Maverick 得分 49,不僅被前述三強甩出十幾分的距離,連 OpenAI 的 GPT-4o和阿里的 QwQ-32B都沒打過,未能進入第一梯隊,只能勉強躋身中游。
-Scout 得分僅為 36,直接與 GPT-4o mini 打成平手,甚至被 Google 的 Gemma 3 27B按在地上摩擦,表現慘不忍睹。
這意味著,無論是旗艦定位的 Maverick 還是輕量版的 Scout,都未能在關鍵指標上與主流競品拉開差距。特別是 Scout,不僅沒展現出“小而強”的性價比,還在多項任務中落后于前代產品與同量級模型。
一句話總結:“看起來很強,打起來很虛”,是當前市場對 Llama 4 初版表現最真實的反饋。
在非推理任務的對比中,Llama 4 的表現可謂喜憂參半。Maverick在開源模型中算得上發揮穩定,成功超越部分閉源競品,展示出一定的專業處理能力。然而與頂級模型如 DeepSeek V3 和 GPT-4o相比,依然存在明顯差距,說明其綜合實力尚未達到第一梯隊的水平。
Scout則更為克制,沒有驚喜也沒有翻車,整體表現與GPT-4o mini相當,雖不具備突破性優勢,但在資源受限場景下仍具備一定實用價值。
總體來看,Llama 4系列雖在非推理能力上具備一定基礎,但距離“強通用、強專業”的開源標桿,還有一段路要走。它們更像是一次架構和方向的試水,而不是一舉超車的終局之作。
2.具體任務表現
Artificial Analysis的評估數據(詳見附圖)涵蓋了通用推理、科學推理、編碼和數學等多個領域,我將相關任務合并分析,聚焦Llama 4(Scout和Maverick)的表現趨勢,并與主要競品DeepSeek V3、Claude 3.7 Sonnet、和GPT-4o mini對比,揭示其優勢與不足。以下簡要補充各指標的含義和重要性,幫助理解評估維度。
1)通用推理:穩中有位,但缺乏突破
通用推理評估模型在廣泛知識和綜合推理能力上的表現,MMLU-Pro覆蓋57個學科的知識廣度,Humanity’s Last Exam則測試復雜推理能力。這類指標對衡量模型在教育、問答等通用場景的適用性至關重要。
Maverick在通用推理任務中表現穩健,在MMLU-Pro中排名靠前,與GPT-4o、Claude 3.7 Sonnet等模型同等,但略遜于DeepSeek V3 V3(Mar 25)。Scout的表現則比較落后,低于Mistral Small 3和GPT-4o mini。
在Humanity’s Last Exam中,Maverick同樣位列前茅,接近DeepSeek V3(Mar 25),優于GPT-4o 和Claude 3.7 Sonnet,Scout則排名中游,略高于Mistral Small 和GPT-4o mini。
結論:在通用推理相關任務中,Maverick 的表現整體可圈可點,尤其在知識廣度和復雜推理方面接近一線閉源模型,雖然略遜于 DeepSeek V3,但基本站穩中上游位置。Scout 則明顯吃力,整體排名不高,甚至落后于部分輕量模型,反映出其在處理廣義知識類任務時的適應能力仍待加強。
2)科學推理:開源難題,Llama 4未解
科學推理通過GPQA Diamond測試模型在生物、物理、化學等領域的專業推理能力,強調多步推理和深度理解,對評估模型在學術研究、技術文檔處理等專業場景的表現尤為重要。
Maverick在科學推理任務中的表現顯著低于DeepSeek V3和Claude 3.7 Sonnet的水平,排名靠后,未能展現出與頂級模型競爭的能力。Scout的表現則稍顯遜色,不僅遠低于GPT-4o mini,甚至低于Meta自己的Llama 3.3 70B,顯示其在專業領域推理上的明顯不足。
結論:面對生物、物理、化學等專業領域的深度推理任務,Llama 4 表現疲軟,尤其是 Maverick,雖為高配模型,卻未能在多步邏輯和專業理解上展現出預期能力,明顯落后于 Claude 和 DeepSeek。Scout 的表現則更加堪憂,不僅輸給 GPT-4o mini,甚至被 Llama 3.3 70B 反超,顯示其在學術和技術類場景中的適用性非常有限。
3)編碼能力:基礎乏力,高難勉強及格
Maverick在編碼任務中的表現未達預期。在基礎編碼能力(HumanEval)上,Maverick遠低于GPT-4o、Claude 3.7 Sonnet以及DeepSeek V3,僅達到GPT-4o mini的水平,顯示其在基礎代碼生成上的競爭力不足。
在更具挑戰性的競賽級編碼(LiveCodeBench)和科學編碼(SciCode)任務中,Maverick的表現進一步回落,與DeepSeek V3和Claude 3.7 Sonnet的差距不太明顯。
Scout在基礎編碼和科學編程任務中表現墊底,排名靠后,遠低于大多數競品。然而,在高難度編碼任務(LiveCodeBench)中,Scout的表現意外接近中位值,與Claude 3.5 Haiku水平相當,展現了一定的潛力。
結論:Maverick 在代碼生成任務中并未脫穎而出,基礎編程任務的完成度不高,與領先模型存在明顯差距。面對競賽級和科學編程挑戰時,其表現更為拉胯,難以支撐復雜開發需求。Scout 則在大部分編碼任務中墊底,雖在高難度挑戰中偶有亮點,但整體競爭力仍偏弱,不具備“開發者友好”的實用價值。
4)數學:基礎尚可,高階失守
數學任務評估模型的定量推理能力,MATH-500測試常規數學問題解決能力,AIME 2024則聚焦高難度競賽級數學推理。這類指標對教育、科學研究和金融建模等需要強大數學能力的場景尤為關鍵。
Maverick在定量推理任務(MATH-500)中表現較為穩健,排名靠前,超越Claude 3.7 Sonnet,但與DeepSeek V3仍存在一定差距,顯示其在常規數學問題解決上的競爭力。Scout的表現同樣可圈可點,優于GPT-4o mini,并接近Claude 3.7 Sonnet的水平,展現了不錯的基礎數學能力。
然而,在高難度的競賽級數學推理任務(AIME 2024)中,Maverick表現不佳,遠落后于DeepSeek V3,僅略高于GPT-4o。
結論:在數學推理方面,Llama 4 兩個版本表現出較為明顯的分化。Maverick 在基礎數學任務中穩健發揮,部分場景甚至可與主流閉源模型媲美,Scout 也展現出一定的定量推理能力,優于部分輕量模型。然而,進入競賽級高難度數學任務后,兩者均顯得力不從心,與 DeepSeek V3 等強模型的差距明顯拉大,暴露出復雜推理能力上的短板。
總結:差距不是一點,是一整條街
綜合來看,Llama 4(Maverick 和 Scout)在非語言生成的關鍵能力維度上,與 DeepSeek V3 之間存在系統性差距。Maverick雖有部分亮點,但始終處于“差一點”的狀態,在科學推理、編碼和高階數學上幾乎全面落后。Scout的表現則更為慘烈,不僅被 DeepSeek V3 和 Claude 系列全面碾壓,甚至在多個維度不敵小模型選手,令人質疑其在專業場景中的實際價值。
Llama 4 所展示的更多是架構層面的潛力,而非實打實的能力躍遷。除非在未來版本中針對專業推理、復雜任務場景進行重點優化,否則很難在真正需要“硬實力”的場合,成為開源替代品的第一選擇。
模型效率
與DeepSeek V3相比,Llama 4 Maverick的活躍參數大約只有其一半(17B對37B),總參數也僅為其60%左右(402B對671B),這表明Maverick以更高的效率實現了其性能表現。此外,Maverick還支持圖像輸入,而DeepSeek V3則不具備這一功能。
價格
Artificial Analysis追蹤6家服務提供商,并對比評估了Maverick的中位價格為每百萬輸入/輸出token 0.24美元/0.77美元,而Scout的定價為每百萬輸入/輸出token 0.15美元/0.4美元,其價格不僅低于DeepSeek v3,相比OpenAI領先的GPT-4o接口更是便宜超過10倍。
最后
那么,Llama 4到底是不是“開源模型的全面倒退”?從目前的測試結果來看,這種說法雖顯極端,卻并非毫無根據。
在多個關鍵任務中,Maverick 勉強追平主流閉源模型的尾巴,而 Scout 則在小模型領域表現平平,甚至被自家的 Llama 3.3 70B 反超。相比之下,DeepSeek V3 的統治力更像是給所有開源模型潑了一盆冷水。
但退一步看,開源的價值不止于性能指標,更在于長期可控性、社區生態與開放創新的累積潛力。Llama 4 的多模態架構、超長上下文和低廉定價,依然在為未來鋪路——也許不是現在碾壓閉源的“終極答案”,但可能是通往答案的那一步。
最終,它是倒退還是轉折,要看 Meta 和整個開源社區,能否在質疑聲中繼續優化、快速迭代,把短板變成支點。真正的競爭,還遠遠沒有結束。
? AI范兒
要進“交流群”,請關注公眾號獲取進群方式
投稿、需求合作或報道請添加公眾號獲取聯系方式
Meta 對 DeepSeek 的回應來了:Llama 4 發布,上下文長達 1000 萬,參數超 2 萬億!
點這里關注我,記得標星哦~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.