99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Llama 4 詳細評測:開源模型的全面倒退?

0
分享至

Llama 4 是開源模型的全面倒退。” ——在Meta發布新一代大模型不到24小時內,這樣的質疑聲音已經出現在多個技術社區。

Llama 4 真的不如前代?還是它只是“看起來拉胯、實則有料”?

昨天,Meta正式推出新一代開源大模型 Llama 4,帶來了兩個混合專家(MoE)架構的版本:Scout(109B總參數,17B活躍參數)和 Maverick(400B總參數,17B活躍參數)。這一代模型不僅原生支持圖文輸入,還將上下文窗口拓展至驚人的 1000萬 token,在規格參數上堪稱“頂配開源”。

然而,隨著初步評測和對比結果浮出水面,人們發現——它的實際表現,可能沒有我們想象中那么強。

本文將基于 Artificial Analysis 的獨立評估數據和社交媒體輿情,深入剖析 Llama 4 的技術亮點、實際表現與競品差距,并探討這款“爭議中亮相”的新模型究竟是開源未來,還是開源瓶頸的縮影。

Artificial Analysis是一家專注于AI技術創新的公司,致力于提供高效的數據分析和智能解決方案,旨在加速人類解決問題。其前瞻性技術備受關注。吳恩達評論:“這是一個很棒的網站,測試LLM API速度,幫開發者選模型,補充了其他質量評估,對智能代理至關重要!”

Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~

進群之后,你有機會得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;

  • 好用、有趣的產品/案例,Founder Park 會主動做宣傳。

01性能對比:差距不是一點,是一整條街

Artificial Analysis通過其Intelligence Index(涵蓋MMLU-Pro、GPQA Diamond、HumanEval等非推理模型評估)對Llama 4進行了獨立測試,具體結果如下:

1.總體性能(Intelligence Index)


從最新的 Artificial Analysis Intelligence Index 綜合榜單來看,Llama 4 的表現讓人大跌眼鏡。

在這份集通用推理、科學推理、編碼、數學等七項任務為一體的硬核評測中,Google 的 Gemini 2.5 Pro、xAI 的 Grok 3、以及 DeepSeek R1 牢牢占據前三,綜合得分分別為 68、66 和 66,實力堪稱天花板級別,屬于開局即封神的選手。

而反觀剛剛發布的 Llama 4 系列:

-Maverick 得分 49,不僅被前述三強甩出十幾分的距離,連 OpenAI 的 GPT-4o和阿里的 QwQ-32B都沒打過,未能進入第一梯隊,只能勉強躋身中游。

-Scout 得分僅為 36,直接與 GPT-4o mini 打成平手,甚至被 Google 的 Gemma 3 27B按在地上摩擦,表現慘不忍睹。

這意味著,無論是旗艦定位的 Maverick 還是輕量版的 Scout,都未能在關鍵指標上與主流競品拉開差距。特別是 Scout,不僅沒展現出“小而強”的性價比,還在多項任務中落后于前代產品與同量級模型。

一句話總結:“看起來很強,打起來很虛”,是當前市場對 Llama 4 初版表現最真實的反饋。


在非推理任務的對比中,Llama 4 的表現可謂喜憂參半。Maverick在開源模型中算得上發揮穩定,成功超越部分閉源競品,展示出一定的專業處理能力。然而與頂級模型如 DeepSeek V3 和 GPT-4o相比,依然存在明顯差距,說明其綜合實力尚未達到第一梯隊的水平。

Scout則更為克制,沒有驚喜也沒有翻車,整體表現與GPT-4o mini相當,雖不具備突破性優勢,但在資源受限場景下仍具備一定實用價值。

總體來看,Llama 4系列雖在非推理能力上具備一定基礎,但距離“強通用、強專業”的開源標桿,還有一段路要走。它們更像是一次架構和方向的試水,而不是一舉超車的終局之作。

2.具體任務表現

Artificial Analysis的評估數據(詳見附圖)涵蓋了通用推理、科學推理、編碼和數學等多個領域,我將相關任務合并分析,聚焦Llama 4(Scout和Maverick)的表現趨勢,并與主要競品DeepSeek V3、Claude 3.7 Sonnet、和GPT-4o mini對比,揭示其優勢與不足。以下簡要補充各指標的含義和重要性,幫助理解評估維度。

1)通用推理:穩中有位,但缺乏突破

通用推理評估模型在廣泛知識和綜合推理能力上的表現,MMLU-Pro覆蓋57個學科的知識廣度,Humanity’s Last Exam則測試復雜推理能力。這類指標對衡量模型在教育、問答等通用場景的適用性至關重要。

Maverick在通用推理任務中表現穩健,在MMLU-Pro中排名靠前,與GPT-4o、Claude 3.7 Sonnet等模型同等,但略遜于DeepSeek V3 V3(Mar 25)。Scout的表現則比較落后,低于Mistral Small 3和GPT-4o mini。


在Humanity’s Last Exam中,Maverick同樣位列前茅,接近DeepSeek V3(Mar 25),優于GPT-4o 和Claude 3.7 Sonnet,Scout則排名中游,略高于Mistral Small 和GPT-4o mini。


結論: 在通用推理相關任務中,Maverick 的表現整體可圈可點,尤其在知識廣度和復雜推理方面接近一線閉源模型,雖然略遜于 DeepSeek V3,但基本站穩中上游位置。Scout 則明顯吃力,整體排名不高,甚至落后于部分輕量模型,反映出其在處理廣義知識類任務時的適應能力仍待加強。

2)科學推理:開源難題,Llama 4未解

科學推理通過GPQA Diamond測試模型在生物、物理、化學等領域的專業推理能力,強調多步推理和深度理解,對評估模型在學術研究、技術文檔處理等專業場景的表現尤為重要。


Maverick在科學推理任務中的表現顯著低于DeepSeek V3和Claude 3.7 Sonnet的水平,排名靠后,未能展現出與頂級模型競爭的能力。Scout的表現則稍顯遜色,不僅遠低于GPT-4o mini,甚至低于Meta自己的Llama 3.3 70B,顯示其在專業領域推理上的明顯不足。

結論:面對生物、物理、化學等專業領域的深度推理任務,Llama 4 表現疲軟,尤其是 Maverick,雖為高配模型,卻未能在多步邏輯和專業理解上展現出預期能力,明顯落后于 Claude 和 DeepSeek。Scout 的表現則更加堪憂,不僅輸給 GPT-4o mini,甚至被 Llama 3.3 70B 反超,顯示其在學術和技術類場景中的適用性非常有限。

3)編碼能力:基礎乏力,高難勉強及格

Maverick在編碼任務中的表現未達預期。在基礎編碼能力(HumanEval)上,Maverick遠低于GPT-4o、Claude 3.7 Sonnet以及DeepSeek V3,僅達到GPT-4o mini的水平,顯示其在基礎代碼生成上的競爭力不足。


在更具挑戰性的競賽級編碼(LiveCodeBench)和科學編碼(SciCode)任務中,Maverick的表現進一步回落,與DeepSeek V3和Claude 3.7 Sonnet的差距不太明顯。


Scout在基礎編碼和科學編程任務中表現墊底,排名靠后,遠低于大多數競品。然而,在高難度編碼任務(LiveCodeBench)中,Scout的表現意外接近中位值,與Claude 3.5 Haiku水平相當,展現了一定的潛力。

結論:Maverick 在代碼生成任務中并未脫穎而出,基礎編程任務的完成度不高,與領先模型存在明顯差距。面對競賽級和科學編程挑戰時,其表現更為拉胯,難以支撐復雜開發需求。Scout 則在大部分編碼任務中墊底,雖在高難度挑戰中偶有亮點,但整體競爭力仍偏弱,不具備“開發者友好”的實用價值。

4)數學:基礎尚可,高階失守

數學任務評估模型的定量推理能力,MATH-500測試常規數學問題解決能力,AIME 2024則聚焦高難度競賽級數學推理。這類指標對教育、科學研究和金融建模等需要強大數學能力的場景尤為關鍵。

Maverick在定量推理任務(MATH-500)中表現較為穩健,排名靠前,超越Claude 3.7 Sonnet,但與DeepSeek V3仍存在一定差距,顯示其在常規數學問題解決上的競爭力。Scout的表現同樣可圈可點,優于GPT-4o mini,并接近Claude 3.7 Sonnet的水平,展現了不錯的基礎數學能力。


然而,在高難度的競賽級數學推理任務(AIME 2024)中,Maverick表現不佳,遠落后于DeepSeek V3,僅略高于GPT-4o。


結論:在數學推理方面,Llama 4 兩個版本表現出較為明顯的分化。Maverick 在基礎數學任務中穩健發揮,部分場景甚至可與主流閉源模型媲美,Scout 也展現出一定的定量推理能力,優于部分輕量模型。然而,進入競賽級高難度數學任務后,兩者均顯得力不從心,與 DeepSeek V3 等強模型的差距明顯拉大,暴露出復雜推理能力上的短板。

總結:差距不是一點,是一整條街

綜合來看,Llama 4(Maverick 和 Scout)在非語言生成的關鍵能力維度上,與 DeepSeek V3 之間存在系統性差距。Maverick雖有部分亮點,但始終處于“差一點”的狀態,在科學推理、編碼和高階數學上幾乎全面落后。Scout的表現則更為慘烈,不僅被 DeepSeek V3 和 Claude 系列全面碾壓,甚至在多個維度不敵小模型選手,令人質疑其在專業場景中的實際價值。

Llama 4 所展示的更多是架構層面的潛力,而非實打實的能力躍遷。除非在未來版本中針對專業推理、復雜任務場景進行重點優化,否則很難在真正需要“硬實力”的場合,成為開源替代品的第一選擇。

02模型效率


與DeepSeek V3相比,Llama 4 Maverick的活躍參數大約只有其一半(17B對37B),總參數也僅為其60%左右(402B對671B),這表明Maverick以更高的效率實現了其性能表現。此外,Maverick還支持圖像輸入,而DeepSeek V3則不具備這一功能。

03價格


Artificial Analysis追蹤6家服務提供商,并對比評估了Maverick的中位價格為每百萬輸入/輸出token 0.24美元/0.77美元,而Scout的定價為每百萬輸入/輸出token 0.15美元/0.4美元,其價格不僅低于DeepSeek v3,相比OpenAI領先的GPT-4o接口更是便宜超過10倍。

04最后

那么,Llama 4到底是不是“開源模型的全面倒退”?從目前的測試結果來看,這種說法雖顯極端,卻并非毫無根據。

在多個關鍵任務中,Maverick 勉強追平主流閉源模型的尾巴,而 Scout 則在小模型領域表現平平,甚至被自家的 Llama 3.3 70B 反超。相比之下,DeepSeek V3 的統治力更像是給所有開源模型潑了一盆冷水。

但退一步看,開源的價值不止于性能指標,更在于長期可控性、社區生態與開放創新的累積潛力。Llama 4 的多模態架構、超長上下文和低廉定價,依然在為未來鋪路——也許不是現在碾壓閉源的“終極答案”,但可能是通往答案的那一步。

最終,它是倒退還是轉折,要看 Meta 和整個開源社區,能否在質疑聲中繼續優化、快速迭代,把短板變成支點。真正的競爭,還遠遠沒有結束。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
4個中校2個中隊長,巴鐵公開擊落印軍名單,除了殲10還有梟龍戰果

4個中校2個中隊長,巴鐵公開擊落印軍名單,除了殲10還有梟龍戰果

說天說地說實事
2025-05-29 19:02:12
外交部:中國政府高度重視保障勞動者的合法權益

外交部:中國政府高度重視保障勞動者的合法權益

澎湃新聞
2025-05-29 15:54:07
不是迷信!明日端午前一天,記得:1不空,2不去,3不吃,別大意

不是迷信!明日端午前一天,記得:1不空,2不去,3不吃,別大意

小談食刻美食
2025-05-29 08:12:20
鼓勵學生相互舉報,是一個危險信號

鼓勵學生相互舉報,是一個危險信號

末名先生
2025-05-29 15:34:15
賴清德提議“有條件統一”,國臺辦正式給出回應,邀兩岸共同協商

賴清德提議“有條件統一”,國臺辦正式給出回應,邀兩岸共同協商

說天說地說實事
2025-05-28 22:17:17
國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

上觀新聞
2025-05-29 18:06:09
大裁員!某銀行手術刀式裁員!

大裁員!某銀行手術刀式裁員!

挖掘機007
2025-05-29 11:19:49
網傳“成都6月1日起所有公路邊停車位免費”?最新回應

網傳“成都6月1日起所有公路邊停車位免費”?最新回應

愛看頭條
2025-05-29 21:31:10
烏克蘭使用彈道導彈對俄發起第7輪空襲,莫斯科市民工人四散奔逃

烏克蘭使用彈道導彈對俄發起第7輪空襲,莫斯科市民工人四散奔逃

史政先鋒
2025-05-29 10:30:08
中央巡視組進駐后,“亞洲最大醫院”原院長被查!

中央巡視組進駐后,“亞洲最大醫院”原院長被查!

上觀新聞
2025-05-29 15:59:07
深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

今天說故事
2025-05-28 14:49:59
兩部門:云南西北部、西藏東南部局地發生山洪災害可能性較大

兩部門:云南西北部、西藏東南部局地發生山洪災害可能性較大

界面新聞
2025-05-29 18:05:38
人保集團財會部總經理瞿棟開會期間突發心梗離世,終年55歲

人保集團財會部總經理瞿棟開會期間突發心梗離世,終年55歲

魯中晨報
2025-05-29 19:09:47
浙江一地驚現“雙頭蛇”!村民嚇懵:還會倒著爬

浙江一地驚現“雙頭蛇”!村民嚇懵:還會倒著爬

瀟湘晨報
2025-05-29 12:55:51
貝萊德在中國石油股份的持股比例于05月23日從6.94%升至7.07%

貝萊德在中國石油股份的持股比例于05月23日從6.94%升至7.07%

每日經濟新聞
2025-05-29 17:19:06
俄媒警告:如果德國援烏武器打擊莫斯科,俄“唯一選擇將是打擊柏林”

俄媒警告:如果德國援烏武器打擊莫斯科,俄“唯一選擇將是打擊柏林”

紅星新聞
2025-05-29 12:08:16
曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

南方都市報
2025-05-29 21:24:24
兩位正部級,黃明、王榮有新身份,曾長期在江蘇工作

兩位正部級,黃明、王榮有新身份,曾長期在江蘇工作

揚子晚報
2025-05-29 17:32:25
印度在印巴沖突中獲得未爆炸的中國研制空空導彈?國防部回應

印度在印巴沖突中獲得未爆炸的中國研制空空導彈?國防部回應

澎湃新聞
2025-05-29 16:10:30
美國對中國留學生下手,27萬留美學生一夜之間……

美國對中國留學生下手,27萬留美學生一夜之間……

販財局
2025-05-29 14:55:12
2025-05-29 21:55:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
762文章數 133關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

換上高爾夫GTI同款2.0T動力 新凌渡L GTS實車曝光

態度原創

藝術
手機
數碼
教育
旅游

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

全球首款雙2億像素手機被曝光!OPPO要狂卷旗艦機?

數碼要聞

vivo TWS Air3 半入耳無線耳機發布,售價 99 元

教育要聞

剛剛發布:南京市開始啟動!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 莱芜市| 繁峙县| 郯城县| 漳州市| 红桥区| 高邑县| 上饶市| 建始县| 邵东县| 额济纳旗| 吉林市| 陆良县| 通化县| 大连市| 尤溪县| 京山县| 周口市| 上犹县| 昌邑市| 汝南县| 寿光市| 西乡县| 弥勒县| 麻栗坡县| 江达县| 奉节县| 宁乡县| 通榆县| 丰镇市| 文安县| 南涧| 和顺县| 乌鲁木齐县| 沾益县| 勃利县| 专栏| 江达县| 嘉荫县| 阿拉尔市| 桃江县| 永宁县|