99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Llama 4 是開源模型的全面倒退?

0
分享至


“Llama 4 是開源模型的全面倒退?!?/strong>——在Meta發布新一代大模型不到24小時內,這樣的質疑聲音已經出現在多個技術社區。

Llama 4 真的不如前代?還是它只是“看起來拉胯、實則有料”?

昨天,Meta正式推出新一代開源大模型 Llama 4,帶來了兩個混合專家(MoE)架構的版本:Scout(109B總參數,17B活躍參數)和 Maverick(400B總參數,17B活躍參數)。這一代模型不僅原生支持圖文輸入,還將上下文窗口拓展至驚人的 1000萬 token,在規格參數上堪稱“頂配開源”。

然而,隨著初步評測和對比結果浮出水面,人們發現——它的實際表現,可能沒有我們想象中那么強。

本文將基于 Artificial Analysis 的獨立評估數據和社交媒體輿情,深入剖析 Llama 4 的技術亮點、實際表現與競品差距,并探討這款“爭議中亮相”的新模型究竟是開源未來,還是開源瓶頸的縮影。

Artificial Analysis是一家專注于AI技術創新的公司,致力于提供高效的數據分析和智能解決方案,旨在加速人類解決問題。其前瞻性技術備受關注。吳恩達評論:“這是一個很棒的網站,測試LLM API速度,幫開發者選模型,補充了其他質量評估,對智能代理至關重要!”

性能對比:差距不是一點,是一整條街

Artificial Analysis通過其Intelligence Index(涵蓋MMLU-Pro、GPQA Diamond、HumanEval等非推理模型評估)對Llama 4進行了獨立測試,具體結果如下:

1.總體性能(Intelligence Index)


從最新的 Artificial Analysis Intelligence Index 綜合榜單來看,Llama 4 的表現讓人大跌眼鏡。

在這份集通用推理、科學推理、編碼、數學等七項任務為一體的硬核評測中,Google 的 Gemini 2.5 Pro、xAI 的 Grok 3、以及 DeepSeek R1 牢牢占據前三,綜合得分分別為 68、66 和 66,實力堪稱天花板級別,屬于開局即封神的選手。

而反觀剛剛發布的 Llama 4 系列:

-Maverick 得分 49,不僅被前述三強甩出十幾分的距離,連 OpenAI 的 GPT-4o和阿里的 QwQ-32B都沒打過,未能進入第一梯隊,只能勉強躋身中游。

-Scout 得分僅為 36,直接與 GPT-4o mini 打成平手,甚至被 Google 的 Gemma 3 27B按在地上摩擦,表現慘不忍睹。

這意味著,無論是旗艦定位的 Maverick 還是輕量版的 Scout,都未能在關鍵指標上與主流競品拉開差距特別是 Scout,不僅沒展現出“小而強”的性價比,還在多項任務中落后于前代產品與同量級模型。

一句話總結:“看起來很強,打起來很虛”,是當前市場對 Llama 4 初版表現最真實的反饋。


在非推理任務的對比中,Llama 4 的表現可謂喜憂參半。Maverick在開源模型中算得上發揮穩定,成功超越部分閉源競品,展示出一定的專業處理能力。然而與頂級模型如 DeepSeek V3 和 GPT-4o相比,依然存在明顯差距,說明其綜合實力尚未達到第一梯隊的水平。

Scout則更為克制,沒有驚喜也沒有翻車,整體表現與GPT-4o mini相當,雖不具備突破性優勢,但在資源受限場景下仍具備一定實用價值。

總體來看,Llama 4系列雖在非推理能力上具備一定基礎,但距離“強通用、強專業”的開源標桿,還有一段路要走。它們更像是一次架構和方向的試水,而不是一舉超車的終局之作。

2.具體任務表現

Artificial Analysis的評估數據(詳見附圖)涵蓋了通用推理、科學推理、編碼和數學等多個領域,我將相關任務合并分析,聚焦Llama 4(Scout和Maverick)的表現趨勢,并與主要競品DeepSeek V3、Claude 3.7 Sonnet、和GPT-4o mini對比,揭示其優勢與不足。以下簡要補充各指標的含義和重要性,幫助理解評估維度。

1)通用推理:穩中有位,但缺乏突破

通用推理評估模型在廣泛知識和綜合推理能力上的表現,MMLU-Pro覆蓋57個學科的知識廣度,Humanity’s Last Exam則測試復雜推理能力。這類指標對衡量模型在教育、問答等通用場景的適用性至關重要。

Maverick在通用推理任務中表現穩健,在MMLU-Pro中排名靠前,與GPT-4o、Claude 3.7 Sonnet等模型同等,但略遜于DeepSeek V3 V3(Mar 25)。Scout的表現則比較落后,低于Mistral Small 3和GPT-4o mini。


在Humanity’s Last Exam中,Maverick同樣位列前茅,接近DeepSeek V3(Mar 25),優于GPT-4o 和Claude 3.7 Sonnet,Scout則排名中游,略高于Mistral Small 和GPT-4o mini。


結論:在通用推理相關任務中,Maverick 的表現整體可圈可點,尤其在知識廣度和復雜推理方面接近一線閉源模型,雖然略遜于 DeepSeek V3,但基本站穩中上游位置。Scout 則明顯吃力,整體排名不高,甚至落后于部分輕量模型,反映出其在處理廣義知識類任務時的適應能力仍待加強。

2)科學推理:開源難題,Llama 4未解

科學推理通過GPQA Diamond測試模型在生物、物理、化學等領域的專業推理能力,強調多步推理和深度理解,對評估模型在學術研究、技術文檔處理等專業場景的表現尤為重要。


Maverick在科學推理任務中的表現顯著低于DeepSeek V3和Claude 3.7 Sonnet的水平,排名靠后,未能展現出與頂級模型競爭的能力。Scout的表現則稍顯遜色,不僅遠低于GPT-4o mini,甚至低于Meta自己的Llama 3.3 70B,顯示其在專業領域推理上的明顯不足。

結論:面對生物、物理、化學等專業領域的深度推理任務,Llama 4 表現疲軟,尤其是 Maverick,雖為高配模型,卻未能在多步邏輯和專業理解上展現出預期能力,明顯落后于 Claude 和 DeepSeek。Scout 的表現則更加堪憂,不僅輸給 GPT-4o mini,甚至被 Llama 3.3 70B 反超,顯示其在學術和技術類場景中的適用性非常有限。

3)編碼能力:基礎乏力,高難勉強及格

Maverick在編碼任務中的表現未達預期。在基礎編碼能力(HumanEval)上,Maverick遠低于GPT-4o、Claude 3.7 Sonnet以及DeepSeek V3,僅達到GPT-4o mini的水平,顯示其在基礎代碼生成上的競爭力不足。


在更具挑戰性的競賽級編碼(LiveCodeBench)和科學編碼(SciCode)任務中,Maverick的表現進一步回落,與DeepSeek V3和Claude 3.7 Sonnet的差距不太明顯。


Scout在基礎編碼和科學編程任務中表現墊底,排名靠后,遠低于大多數競品。然而,在高難度編碼任務(LiveCodeBench)中,Scout的表現意外接近中位值,與Claude 3.5 Haiku水平相當,展現了一定的潛力。

結論:Maverick 在代碼生成任務中并未脫穎而出,基礎編程任務的完成度不高,與領先模型存在明顯差距。面對競賽級和科學編程挑戰時,其表現更為拉胯,難以支撐復雜開發需求。Scout 則在大部分編碼任務中墊底,雖在高難度挑戰中偶有亮點,但整體競爭力仍偏弱,不具備“開發者友好”的實用價值。

4)數學:基礎尚可,高階失守

數學任務評估模型的定量推理能力,MATH-500測試常規數學問題解決能力,AIME 2024則聚焦高難度競賽級數學推理。這類指標對教育、科學研究和金融建模等需要強大數學能力的場景尤為關鍵。

Maverick在定量推理任務(MATH-500)中表現較為穩健,排名靠前,超越Claude 3.7 Sonnet,但與DeepSeek V3仍存在一定差距,顯示其在常規數學問題解決上的競爭力。Scout的表現同樣可圈可點,優于GPT-4o mini,并接近Claude 3.7 Sonnet的水平,展現了不錯的基礎數學能力。


然而,在高難度的競賽級數學推理任務(AIME 2024)中,Maverick表現不佳,遠落后于DeepSeek V3,僅略高于GPT-4o。


結論:在數學推理方面,Llama 4 兩個版本表現出較為明顯的分化。Maverick 在基礎數學任務中穩健發揮,部分場景甚至可與主流閉源模型媲美,Scout 也展現出一定的定量推理能力,優于部分輕量模型。然而,進入競賽級高難度數學任務后,兩者均顯得力不從心,與 DeepSeek V3 等強模型的差距明顯拉大,暴露出復雜推理能力上的短板。

總結:差距不是一點,是一整條街

綜合來看,Llama 4(Maverick 和 Scout)在非語言生成的關鍵能力維度上,與 DeepSeek V3 之間存在系統性差距。Maverick雖有部分亮點,但始終處于“差一點”的狀態,在科學推理、編碼和高階數學上幾乎全面落后。Scout的表現則更為慘烈,不僅被 DeepSeek V3 和 Claude 系列全面碾壓,甚至在多個維度不敵小模型選手,令人質疑其在專業場景中的實際價值。

Llama 4 所展示的更多是架構層面的潛力,而非實打實的能力躍遷。除非在未來版本中針對專業推理、復雜任務場景進行重點優化,否則很難在真正需要“硬實力”的場合,成為開源替代品的第一選擇。

模型效率


與DeepSeek V3相比,Llama 4 Maverick的活躍參數大約只有其一半(17B對37B),總參數也僅為其60%左右(402B對671B),這表明Maverick以更高的效率實現了其性能表現。此外,Maverick還支持圖像輸入,而DeepSeek V3則不具備這一功能。

價格


Artificial Analysis追蹤6家服務提供商,并對比評估了Maverick的中位價格為每百萬輸入/輸出token 0.24美元/0.77美元,而Scout的定價為每百萬輸入/輸出token 0.15美元/0.4美元,其價格不僅低于DeepSeek v3,相比OpenAI領先的GPT-4o接口更是便宜超過10倍。

最后

那么,Llama 4到底是不是“開源模型的全面倒退”?從目前的測試結果來看,這種說法雖顯極端,卻并非毫無根據。

在多個關鍵任務中,Maverick 勉強追平主流閉源模型的尾巴,而 Scout 則在小模型領域表現平平,甚至被自家的 Llama 3.3 70B 反超。相比之下,DeepSeek V3 的統治力更像是給所有開源模型潑了一盆冷水。

但退一步看,開源的價值不止于性能指標,更在于長期可控性、社區生態與開放創新的累積潛力。Llama 4 的多模態架構、超長上下文和低廉定價,依然在為未來鋪路——也許不是現在碾壓閉源的“終極答案”,但可能是通往答案的那一步。

最終,它是倒退還是轉折,要看 Meta 和整個開源社區,能否在質疑聲中繼續優化、快速迭代,把短板變成支點。真正的競爭,還遠遠沒有結束。

? AI范兒

要進“交流群”,請關注公眾號獲取進群方式

投稿、需求合作或報道請添加公眾號獲取聯系方式


Meta 對 DeepSeek 的回應來了:Llama 4 發布,上下文長達 1000 萬,參數超 2 萬億!

點這里關注我,記得標星哦~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
BBC:因凡蒂諾在參加國際足聯大會時遲到,切費林帶人退場抗議

BBC:因凡蒂諾在參加國際足聯大會時遲到,切費林帶人退場抗議

直播吧
2025-05-16 07:34:10
美債,崩了!

美債,崩了!

證券時報
2025-05-15 22:42:16
國民黨內兩人徹底不裝了,附和綠營,暴露真面目,讓人大跌眼鏡

國民黨內兩人徹底不裝了,附和綠營,暴露真面目,讓人大跌眼鏡

DS北風
2025-05-16 17:30:11
時速兩萬公里每小時!全球首臺斜爆震發動機,被中國研發出來了

時速兩萬公里每小時!全球首臺斜爆震發動機,被中國研發出來了

Hi秒懂科普
2025-04-07 11:49:25
“非洲戶口”被高考生玩出花來,免試讀985,名單流出網友沉默了

“非洲戶口”被高考生玩出花來,免試讀985,名單流出網友沉默了

小羽叨叨叨
2025-05-14 15:59:47
打進40球的姆巴佩最大利空不是巴薩榮耀加冕,而是亞馬爾橫空出世

打進40球的姆巴佩最大利空不是巴薩榮耀加冕,而是亞馬爾橫空出世

姜大叔侃球
2025-05-16 09:01:56
黑澤良平曝與林志玲鬧分手與分居真因,女方婚姻狀態令人心疼

黑澤良平曝與林志玲鬧分手與分居真因,女方婚姻狀態令人心疼

動物奇奇怪怪
2025-05-16 04:52:42
中國富二代加拿大炫富遭綁架,父親被扒是道士,3億道觀產業曝光

中國富二代加拿大炫富遭綁架,父親被扒是道士,3億道觀產業曝光

天行艦
2025-05-15 10:23:12
房產證寫子女名字的慘了!2025年新規:沒加這四個字損失50%產權

房產證寫子女名字的慘了!2025年新規:沒加這四個字損失50%產權

小白鴿財經
2025-05-14 09:23:13
越南最近又找到中企求修高鐵,但有一關鍵條件,我們應該答應嗎

越南最近又找到中企求修高鐵,但有一關鍵條件,我們應該答應嗎

春序娛樂
2025-05-15 22:23:26
婆婆退掉兒媳回娘家的票,兒媳:家不回了,咱們一起過個“好年”

婆婆退掉兒媳回娘家的票,兒媳:家不回了,咱們一起過個“好年”

澤澤先生
2025-05-14 06:30:08
湖南一原副市長被查

湖南一原副市長被查

新聞先鋒
2025-05-15 16:02:51
比TikTok更暴利!中國短劇在海外悶聲發財,有人年入2.5億美金

比TikTok更暴利!中國短劇在海外悶聲發財,有人年入2.5億美金

鄉野小珥
2025-05-15 22:25:17
50歲小李子空降戛納,瘦身成功又帥回來了,頒獎時獲全場起立鼓掌

50歲小李子空降戛納,瘦身成功又帥回來了,頒獎時獲全場起立鼓掌

一路朝南
2025-05-14 11:32:43
隨著掘金3-3雷霆,尼克斯3-2綠軍,季后賽4強懸念不大,基本如下

隨著掘金3-3雷霆,尼克斯3-2綠軍,季后賽4強懸念不大,基本如下

球場沒跑道
2025-05-16 11:46:03
惠州一女子146萬元競得法拍房,過戶受阻八年

惠州一女子146萬元競得法拍房,過戶受阻八年

南方都市報
2025-05-16 17:45:10
4次“兔唇”修復手術過后,李嫣美到被質疑整容,不像王菲李亞鵬

4次“兔唇”修復手術過后,李嫣美到被質疑整容,不像王菲李亞鵬

阿褲趣聞君
2025-05-15 08:57:47
菲選舉結果出爐,中美都沒想到,阿基諾家族再崛起,莎拉:很失望

菲選舉結果出爐,中美都沒想到,阿基諾家族再崛起,莎拉:很失望

生活魔術專家
2025-05-15 16:10:52
網傳吳英獄中起訴離婚的丈夫周某波去世,親友證實:在醫院病逝

網傳吳英獄中起訴離婚的丈夫周某波去世,親友證實:在醫院病逝

深圳晚報
2025-05-16 00:04:00
恭喜!廣東舊將宣布結婚 曾是李春江愛徒 遺憾未能兌現天賦

恭喜!廣東舊將宣布結婚 曾是李春江愛徒 遺憾未能兌現天賦

胖子噴球
2025-05-16 15:55:26
2025-05-16 20:47:00
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
496文章數 128關注度
往期回顧 全部

科技要聞

雷軍:一場事故讓我們受到狂風暴雨般的質疑

頭條要聞

貪1.29億搞權色錢色交易 王一新有重大立功表現獲無期

頭條要聞

貪1.29億搞權色錢色交易 王一新有重大立功表現獲無期

體育要聞

退役8個月后喜提3冠,人生的轉折如此突然

娛樂要聞

嘉行回應黃楊鈿甜風波翻車,引發眾怒

財經要聞

一船難求,又要開始了?

汽車要聞

吉利發布最強一季報后,繼續整合、補短板是關鍵

態度原創

旅游
時尚
教育
數碼
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

“小鼻嘎”化妝包,出差牛馬有自己的IT Bag

教育要聞

五地學生結對交流!首都“融鑄式”教育協作系列活動正式啟動——

數碼要聞

小米米家筒燈/射燈 2 Pro 藍牙 Mesh 版上架,99 元起

軍事要聞

沒等到普京 澤連斯基走了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 五寨县| 庆安县| 邢台市| 壤塘县| 崇文区| 安阳县| 靖江市| 阳朔县| 漯河市| 紫金县| 岑巩县| 格尔木市| 九江市| 西华县| 贡嘎县| 佛坪县| 康保县| 临猗县| 牙克石市| 灌南县| 集安市| 房山区| 志丹县| 宾川县| 兴文县| 巴东县| 滁州市| 嫩江县| 东港市| 巩留县| 眉山市| 开封县| 新巴尔虎左旗| 长治县| 体育| 札达县| 凉山| 昆明市| 广昌县| 河北省| 西畴县|