今天凌晨1點半,Meta生成式AI領導者Ahmad Al-Dahle在社交平臺發布了一篇長文,對前天剛開源的Llama 4質疑進行了官方回應。
Ahmad表示,Llama 4一開發完就發布了,所以,不同服務中模型質量難免會有一些差異。Meta很快會修復這些漏洞提升性能。同時否認在測試集上進行了預訓練。
但Meta在官網發布時特意點名DeepSeek,說他們新開源的Llama 4 Maverick在代碼能力可以比肩其新開源的V3模型,國內不少知名媒體也以此為噱頭來寫標題。
現在看來Meta首次反擊是失敗了,期待他們后續優化以及正訓練的2萬億參數的教師模型。
以下是Ahmad完整聲明:
我們很高興能開始讓大家都用上 Llama 4。我們已經聽說很多人使用這些模型取得了不錯的成果。
話雖如此,我們也聽到了一些關于不同服務中模型質量參差不齊的報告。由于模型一準備好我們就發布了,所以我們預計所有公開的應用實現都需要幾天時間來進行優化調整。我們會繼續進行漏洞修復工作,并與合作伙伴完成對接流程。
我們還聽到有人聲稱Llama 4在測試集上進行了訓練,這純屬無稽之談,我們絕對不會這么做。據我們的判斷,人們所看到的質量差異是由于需要對應用實現進行穩定化處理造成的。
我們相信 Llama 4 模型是一項重大的技術進步,我們期待著與社區合作,充分挖掘其價值。
其實,在Llama 4開源當天就有人質疑其性能。其代碼能力比Grok 3、DeepSeek V3、Sonnet 3.5/7差很多。
無論是Scout還是Maverick模型,我使用了詳盡的提示詞,在實際編碼方面似乎都幾乎無法使用。
考慮到 Meta 公司付出的努力,我很驚訝一個4000億參數的模型(即便它是混合專家模型)表現竟如此糟糕。它與DeepSeekV3”相比差距甚遠。
我們對不同平臺提供的Scout和 Maverick進行了測試,結果發現這兩款模型表現都不佳,甚至被參數規模更小的模型比下去了。
在基礎編程任務之外,它們就會出錯,而且在遵循指令方面能力也很弱。Maverick的排名接近谷歌的Gemini 2.5,這一點令人擔憂。它們給人的感覺就像是處于 GPT-3.5 時代的模型。很高興 Meta正在采取措施讓情況穩定下來。
能夠提前使用 Llama 4 固然很棒,但這里有個關鍵事實:一個強大的模型,其實際效果取決于它的應用實現情況。
你在實驗室里測試的效果,并不等同于用戶在實際使用中所體驗到的效果。在過度炒作和實際操作之間存在的差距,才是真正需要努力去填補的地方。
鑒于許多運行時環境都是開源的,或許未來在發布產品以免陷入如此混亂的局面之前,你們能夠確保那些修復措施已經落實到位? “是你使用方式不對” 這種說辭可不大好聽。
也有網友質疑Meta刷榜:“質量參差不齊”??我看到的每一項基準測試中,Llama 4 的表現都糟透了,除非你參考的是 LMSYS 的“1417 eon”基準測試結果。
你們向 LMSYS 開放了哪個API呢?因為目前 LMSYS 那邊的模型列表中的表現也非常差。
Llama 4 就是垃圾,你們在這件事上搞砸得太厲害了。與其誤導大家,還不如承認錯誤。不確定在測試集上動手腳這件事是不是真的,但鑒于它在基準測試中的高分以及在現實世界中糟糕的表現,這種可能性似乎很大。
在聊天機器人競技場的大語言模型排行榜上,Meta 公司的 Llama 4 Maverick 在編程方面排名第一。
然而,幾乎我給出的每一個難的編程提示或中等難度的編程提示,它都無法完成。在編程方面,它比 DeepSeek V3 - 0324、Claude 3.5/3.7 Sonnet 或 Gemini 2.0 Pro 差得多。
所以,這位網友也在質疑Meta刷榜的問題。
其實從發布的時間點就能看出來,Meta這次并沒有準備好。作為類ChatGPT的開源鼻祖之一,Llama 4這么重磅的開源模型,居然放在了美國周六的大晚上發布(國內的周日凌晨3點),這太不符合常規了。
按照他們以往發布的Llama系列模型,一般會放在美國周二、周三早上10點左右。所以,在發布Llama 4時他們本身就心虛。
DeepSeek的橫空出世給Meta造成了巨大壓力,其用戶、口碑正在嚴重流失,他們急需一款重磅產品挽回敗局。在今年過年DeepSeek瘋狂刷屏那段時間,Meta還特意組建了“作戰研究室”來研究其模型。但從最終結果來看,依然不是很理想。
此外,由于關稅大戰的原因,Meta的股票遭遇重創,他們也需要一個利好消息來拉升股票,現在適得其反。
本文素材來源Meta、網絡,如有侵權請聯系刪除
報告下載
大 佬觀點分享
關于RPA、AI、企業數字化轉型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業知識交流分享,結識擴展人脈圈層
公眾號后臺回復【RPA】或者【流程挖掘】
可受邀加入相關的交流群
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.