網易首頁 > 網易號 > 正文申請入駐

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題

2025-04-08 18:04:59　來源: RPA中國

北京舉報

分享至

今天凌晨1點半，Meta生成式AI領導者Ahmad Al-Dahle在社交平臺發布了一篇長文，對前天剛開源的Llama 4質疑進行了官方回應。

Ahmad表示，Llama 4一開發完就發布了，所以，不同服務中模型質量難免會有一些差異。Meta很快會修復這些漏洞提升性能。同時否認在測試集上進行了預訓練。

但Meta在官網發布時特意點名DeepSeek，說他們新開源的Llama 4 Maverick在代碼能力可以比肩其新開源的V3模型，國內不少知名媒體也以此為噱頭來寫標題。

現在看來Meta首次反擊是失敗了，期待他們后續優化以及正訓練的2萬億參數的教師模型。

以下是Ahmad完整聲明：

我們很高興能開始讓大家都用上 Llama 4。我們已經聽說很多人使用這些模型取得了不錯的成果。

話雖如此，我們也聽到了一些關于不同服務中模型質量參差不齊的報告。由于模型一準備好我們就發布了，所以我們預計所有公開的應用實現都需要幾天時間來進行優化調整。我們會繼續進行漏洞修復工作，并與合作伙伴完成對接流程。

我們還聽到有人聲稱Llama 4在測試集上進行了訓練，這純屬無稽之談，我們絕對不會這么做。據我們的判斷，人們所看到的質量差異是由于需要對應用實現進行穩定化處理造成的。

我們相信 Llama 4 模型是一項重大的技術進步，我們期待著與社區合作，充分挖掘其價值。

其實，在Llama 4開源當天就有人質疑其性能。其代碼能力比Grok 3、DeepSeek V3、Sonnet 3.5/7差很多。

無論是Scout還是Maverick模型，我使用了詳盡的提示詞，在實際編碼方面似乎都幾乎無法使用。

考慮到 Meta 公司付出的努力，我很驚訝一個4000億參數的模型（即便它是混合專家模型）表現竟如此糟糕。它與DeepSeekV3”相比差距甚遠。

我們對不同平臺提供的Scout和 Maverick進行了測試，結果發現這兩款模型表現都不佳，甚至被參數規模更小的模型比下去了。

在基礎編程任務之外，它們就會出錯，而且在遵循指令方面能力也很弱。Maverick的排名接近谷歌的Gemini 2.5，這一點令人擔憂。它們給人的感覺就像是處于 GPT-3.5 時代的模型。很高興 Meta正在采取措施讓情況穩定下來。

能夠提前使用 Llama 4 固然很棒，但這里有個關鍵事實：一個強大的模型，其實際效果取決于它的應用實現情況。

你在實驗室里測試的效果，并不等同于用戶在實際使用中所體驗到的效果。在過度炒作和實際操作之間存在的差距，才是真正需要努力去填補的地方。

鑒于許多運行時環境都是開源的，或許未來在發布產品以免陷入如此混亂的局面之前，你們能夠確保那些修復措施已經落實到位？ “是你使用方式不對” 這種說辭可不大好聽。

也有網友質疑Meta刷榜：“質量參差不齊”？？我看到的每一項基準測試中，Llama 4 的表現都糟透了，除非你參考的是 LMSYS 的“1417 eon”基準測試結果。

你們向 LMSYS 開放了哪個API呢？因為目前 LMSYS 那邊的模型列表中的表現也非常差。

Llama 4 就是垃圾，你們在這件事上搞砸得太厲害了。與其誤導大家，還不如承認錯誤。不確定在測試集上動手腳這件事是不是真的，但鑒于它在基準測試中的高分以及在現實世界中糟糕的表現，這種可能性似乎很大。

在聊天機器人競技場的大語言模型排行榜上，Meta 公司的 Llama 4 Maverick 在編程方面排名第一。

然而，幾乎我給出的每一個難的編程提示或中等難度的編程提示，它都無法完成。在編程方面，它比 DeepSeek V3 - 0324、Claude 3.5/3.7 Sonnet 或 Gemini 2.0 Pro 差得多。

所以，這位網友也在質疑Meta刷榜的問題。

其實從發布的時間點就能看出來，Meta這次并沒有準備好。作為類ChatGPT的開源鼻祖之一，Llama 4這么重磅的開源模型，居然放在了美國周六的大晚上發布（國內的周日凌晨3點），這太不符合常規了。

按照他們以往發布的Llama系列模型，一般會放在美國周二、周三早上10點左右。所以，在發布Llama 4時他們本身就心虛。

DeepSeek的橫空出世給Meta造成了巨大壓力，其用戶、口碑正在嚴重流失，他們急需一款重磅產品挽回敗局。在今年過年DeepSeek瘋狂刷屏那段時間，Meta還特意組建了“作戰研究室”來研究其模型。但從最終結果來看，依然不是很理想。

此外，由于關稅大戰的原因，Meta的股票遭遇重創，他們也需要一個利好消息來拉升股票，現在適得其反。

本文素材來源Meta、網絡，如有侵權請聯系刪除

報告下載

大佬觀點分享

關于RPA、AI、企業數字化轉型

(點擊文字即可閱讀)

| |

| | |

| |

行業知識交流分享，結識擴展人脈圈層

公眾號后臺回復【RPA】或者【流程挖掘】

可受邀加入相關的交流群

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

舍棄CUDA編程!CMU等用代碼將LLM編譯成巨型內核,推理延遲降6.7倍

機器之心Pro 2025-06-23 10:41:12
10 跟貼 10
天工不止造物,也能修bug:Skywork-SWE給代碼智能體補上軟件工程課

機器之心Pro 2025-06-20 10:50:40
0 跟貼 0

5年白領下崗，AGI靠RL一飛沖天？網友：這是讓狗學會打麻將！

新智元 2025-06-22 12:20:53
2 跟貼 2

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
0 跟貼 0
挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

機器之心Pro 2025-03-25 14:45:37
1 跟貼 1

為什么說AI“有用”才最重要？

新周刊 2025-03-25 22:43:55
0 跟貼 0

Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0
細節厘米級還原、實時渲染，MTGS方法突破自動駕駛場景重建瓶頸

機器之心Pro 2025-04-02 14:22:12
0 跟貼 0

聊天機器人有時候會“胡說八道”，GPT等模型的“幻覺率”有多高？

醫咖會 2025-02-02 19:05:14
1 跟貼 1
宇樹科技VS云深處，誰是國產機器人之王

華商韜略 2025-03-17 13:06:16
0 跟貼 0
國產機器人深圳街頭散步爆火！超自然步態嚇呆國外網友

量子位 2025-01-10 16:29:56
1011 跟貼 1011
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
16款大模型為自保竟泄露機密，Anthropic緊急報告AI自主暗藏風險

DeepTech深科技 2025-06-22 23:05:32
1 跟貼 1
宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
0 跟貼 0
MCU：全球首個生成式開放世界基準，革新通用AI評測范式

機器之心Pro 2025-05-13 17:16:26
27 跟貼 27
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
深圳南山，藏著中國機器人天團

華商韜略 2025-03-11 11:00:31
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
13 跟貼 13
物流業deepseek時刻，中國無人車火爆全球

華商韜略 2025-06-17 10:58:23
0 跟貼 0
逝去的親友被AI“復活”，能再與他們對話。專家慌了：太危險

英國那些事兒 2025-06-14 23:41:16
0 跟貼 0
專訪得帆信息CEO張桐：AI Coding To B，小公司搞不了

36氪 2025-06-11 11:11:12
0 跟貼 0
飛書一個聊天框，激活了機器之心編輯部的知識資產

機器之心Pro 2025-05-21 15:39:31
0 跟貼 0
統一框架下的具身多模態推理

機器之心Pro 2025-06-18 14:49:46
0 跟貼 0
最低調的機器人天團，在這里!

華商韜略 2025-05-31 12:25:23
0 跟貼 0
AI在《我的世界》選秀，看得懂的基準，你也能投票

機器之心Pro 2025-03-21 21:22:31
0 跟貼 0
最新戰略發布！長飛如何筑牢AI時代“高速公路”

通信世界 2025-06-23 14:53:19
0 跟貼 0
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
英偉達笑到最后！訓練2000步，1.5B逆襲7B巨獸，Scaling真來了

新智元 2025-06-22 12:16:12
84 跟貼 84
研究人員打造知識圖譜補全新框架，可用于推薦系統和信息檢索

DeepTech深科技 2025-04-16 11:11:03
1 跟貼 1
梅德韋杰夫稱有國家準備直接向伊提供核彈頭萬斯回應

環球網資訊 2025-06-23 11:56:50
15526 跟貼 15526
愛炫富的「扎克伯格」又買新表了！提前上身Meta x Oakley聯名

Supreme情報網 2025-06-22 11:55:32
1 跟貼 1
DeepSeek揭示兒童最幸福10個瞬間，我頓悟如何養出一個高能量孩子

男孩派 2025-06-23 09:54:03
0 跟貼 0
我用DeepSeek圖片轉表格，它卻做起了數據分析

秋葉excel 2025-06-19 11:35:44
0 跟貼 0
帶山里娃“玩轉”智能科技（守望）

金臺資訊 2025-06-23 06:05:50
0 跟貼 0
我用DeepSeek自定義函數，同事人都看傻了！

秋葉excel 2025-06-23 11:34:11
0 跟貼 0
Meta × Oakley 推出「Performance AI」智能眼鏡

1626潮流精選 2025-06-23 12:14:53
0 跟貼 0
上海GPU云服務商沖刺港交所！猛吃DeepSeek紅利，創始人曾打造PPTV

智東西 2025-06-23 08:55:39
0 跟貼 0
高考報志愿，用好deepseek就夠了

白話頻道 2025-06-22 12:15:19
0 跟貼 0
【DeepSeek談藝】王海燕筆下的花 | 解構傳統，綻放當代詩意

文化視界網 2025-06-23 14:57:33
0 跟貼 0
搞笑配音：這技術真好啊

解說搞笑配音 2025-06-22 19:16:20
0 跟貼 0

手機 / 數碼

房產 / 家居

反擊DeepSeek失敗！Llama 4效果不好，Meta承認有問題

售出千萬臺！他卻說"只想做下一代AI終端"

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

比起雷霆三少，他才是真正隊魂

魏大勛和秦嵐沒分手！

關稅重磅！美國宣布，今起加征

單電機200kW 奔馳純電長軸距CLA申報信息曝光

態度原創

上海2025年本科錄取分數線公布！402分！

角逐MMO巔峰？《劍靈》巔峰服上線；《冒險島》開啟首個賽季服

洗碗機要成“剛需”了 618銷量暴增

伊朗：即便核設施被毀 游戲也遠未結束

奔襲萬里的美B-2轟炸機內部披露返航通話錄音被截獲

奔襲萬里的美B-2轟炸機內部披露返航通話錄音被截獲

伊朗：即便核設施被毀游戲也遠未結束