99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Llama 4 刷榜作弊引熱議,20 萬顯卡集群就做出了個這?

0
分享至


大數據文摘受權轉載自AI科技評論

作者丨鄭佳美

編輯丨馬曉寧

昨天一早,Meta 放出了自家用了 20 萬顯卡集群訓練出的 Llama 4 系列模型,其中包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。消息一出,直接引爆了大模型圈。

Meta 還特意強調,這些模型都經過了大量未標注的文本、圖像和視頻數據的訓練,視覺理解能力已經到了 Next level,有種在大模型領域一騎絕塵的既視感。


Meta GenAI 負責人 Ahmad Al-Dahle 也表示:“我們的開放系統將產出最好的小型、中型和即將出現的前沿大模型。”并附上了一張 Llama 4 的性能對比測試圖。


緊接著,在大模型競技場中 Llama 4 Maverick 的排名直接躍升到第二名,成為了第 4 個突破 1400 分的大模型。在開放模型排行榜上更是超越了 DeepSeek,直接上桌坐“主座”。

“首次采用 MoE 架構”、“千萬 token 上下文”...一時間 Llama 4 就被貼滿了各種 Title。


但在一片贊美和吹捧聲中,很快就有心細的網友發現了不對勁。這位網友用頭段時間在 上很火的讓模型直出幾何程序的方式來測試 Llama 4,但最終的結果是在畫六角形內含一個受重力影響球的集合圖像時,Llama 4 試了 8 次也錯了 8 次,而反觀 DeepSeek R1 和 Gemini 2.5 pro 則是一次正確。


也有網友表示對 Llama 4 的表現感到非常失望。按照以往慣例,更新了版本號的模型在性能上應該有很大的突破,而 Meta 憋了這么久才舍得放出來的 Llama 4 非但沒有進步,在測試中的表現還不如一些現有的大模型。


還有網友非常貼心的給出 Llama 4 系列的模型能力找了個參照物:“Llama 4 maverick 這個 402B 的大模型,大概跟 Qwen QwQ 32B 寫代碼水平一致,而 Llama 4 scout 則近似于 Grok2 或者 文心 4.5。”


01 Llama 4:超級刷榜選手

在官方給出的數據中,Llama 4 的能力妥妥碾壓了一眾大模型,但在網友們的實際測試中,Llama 4 卻顯得很拉跨,越測越覺得離譜的網友們不由得懷疑,扎克伯格是不是給自家模型偷偷刷榜了?

經過網友們的多方證實,最后發現,嘿!還真是刷的。

其實如果認真看 Ahmad Al-Dahle 發布的 Llama 性能對比測試圖最下面一行的小字,你就會發現上面寫著“Llama 4 Maverick 針對對話進行了優化”,而 Meta 其實早就給自己留了個“圖片僅供參考,一切以實物為準”的心眼。


除了破解 Meta 官方的字謎游戲外,網友們也帶著 Llama 4 進出于各大測試榜單中。

他們先是把 Llama 4 拉到了著名的 code 測試榜單 Aider ployglot 中,最終的得分比 qwen-32B還低。


在另一個代碼評測榜單中,Llama 4 的成績也只能排在中間位置。


除此之外,網友們發現在 EQBench 測評基準的長文章寫作榜上,Llama 4 系列也是直接墊底。


而即使是最基礎的翻譯任務,網友們也表示 Llama 4 的表現也是比 3.3 的 70b 還要差得多,甚至還不如 Gemma 3 的 27B。


02 混亂的 Meta

正在網友們風風火火測評 Llama 4 的真實成績時,一則發布在海外的求職平臺一畝三分地上的內容更是直接給Llama 4 的作弊傳聞添了一把柴。

文中提到 Llama 4 的訓練存在嚴重問題,并且內部模型的表現仍然未能達到開源 SOTA,甚至與之相差甚遠,而 Llama 4 的高分也確實是領導層為了能夠在各項指標上交差所做出的“努力”。而這個則消息的爆料者,很可能來自 Meta 公司內部。


除此之外也有其他的 AI 從業者在線吐槽,表示“我們都被耍了,Llama 4 不過是一個早早被設計好的實驗版本。”


還有前 Meta 員工站出來指出公司在產品研發方面存在巨大漏洞,并表示 Llama 系列模型的信息泄露問題其實從 Llama 1 就已經存在了。


而在 Llama 4 發布的幾天前,Meta AI 研究副總裁 Joelle Pineau 就在 Linkedin 發文稱自己已經申請將在 5 月份離職,不由得讓人們將這件事與 Llama 4 作弊刷榜的事情聯系到一起。


不少人疑惑,為什么一向崇尚“大力出奇跡”的 Meta 這次的翻車力度這么大,明明有錢、有卡、有數據,但模型創新能力依舊不足,還要靠作弊刷榜來找存在感?

一個坊間流傳的觀點是,Meta內部研究人員壓力過大,因為他們需要做出成果,給公司一個好的交代,因此會求穩,更加偏向于更能做出成果的事情,而真正重要的內容,比如基礎設施的迭代、新算法的實驗,這些需要大量時間去做出成果的內容,卻往往沒有人愿意去做。

這也導致了 Meta 很難在大模型市場上繼續做出向 DeepSeek R1 這樣轟動整個 AI 領域的東西,而還沒有發布的超大杯 2T 參數模型也應證著這個觀點:Meta 其實還沒有更好的想法。

反觀以研究為導向的 DeepSeek,其實一直在探索新的架構。DeepSeek 團隊先是提出了強化學習里的神奇算法 GRPO,緊接著在 DeepSeek v2 時提出的 MLA 原理直接沿用到了 DeepSeek V3 和 DeepSeek R1 版本上,后來發布的全新注意力架構 NSA 更是實現了超高速長上下文訓練與推理。

回到 Llama 4 這邊,根據 AI 科技評論的了解,對大模型架構有研究的專業人士認為,Llama 4 非常缺乏技術創新,比如說,在后訓練階段還在死守 DPO 。而此前的一系列理論和實驗都表明 DPO 的泛化能力,“比 PPO 差得遠”。PPO 在實際使用中需要調的細節很多,不易上手。在 DeepSeek 提出 GRPO 以后,越來越多的研究者開始使用 GRPO 及其改版。Meta 還繼續堅持用著 DPO 而不選擇創新,這么來看Llama 4 做成如此也屬于意料之中

03 常人沒法用,專家用不著

而最讓人失望的是,Llama 4 系列的模型都無法放入家用電腦,并且 Llama 4 除了一直在宣傳的 10M 上下窗口外,貌似已經沒有任何優勢,而這一點對于大多數人來說其實并不是必需的內容。

除此之外,GPT 4o, Gemini 2.5 Pro 這些擁有生圖能力的模型型號已經正式推出,而 Grok3、Gemini 2 Flash 等多模態模型也已經開始廣泛開放,這也意味著更多的人沒有再用 Llama 4 的理由,或者說,Llama 4 本身沒有太強的市場競爭力。


反觀這次 Llama 4 的翻車事件,不難看出其實 Llama 4 系列模型很可能是 Meta 在追趕大模型潮流的戰略布局中的一枚重要棋子,但卻因為太過于“急功近利”而選擇作弊,導致直接失去了社區的支持,進而失去了自身的競爭優勢。

并且 Llama 2、Llama 3 的時代已經過去,選擇 Llama 作為基座的開源模型只會越來越少,而對于 Meta 來說,與其選擇作弊刷榜博眼球,不如想想如何創新,如何提高社區適用度,能不能追上最前端的技術暫且放一邊,最重要的是先把口碑先賺回來。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蘋果2025財年第二季度營收953.6億美元 董事會授權回購不超過1000億美元的股票并提高派息

蘋果2025財年第二季度營收953.6億美元 董事會授權回購不超過1000億美元的股票并提高派息

財聯社
2025-05-02 04:55:03
大批美軍彈藥運抵印度,巴基斯坦突然找上我國,王毅外長重大表態

大批美軍彈藥運抵印度,巴基斯坦突然找上我國,王毅外長重大表態

文雅筆墨
2025-05-01 14:51:28
中國不宰游客的6座城市,游客幾乎零差評!爭取每年去一個!!

中國不宰游客的6座城市,游客幾乎零差評!爭取每年去一個!!

三人行旅行記
2025-04-26 09:14:47
我很遺憾現在才曉得,原來買基金賺大錢的人都是像烏龜一樣爬行的

我很遺憾現在才曉得,原來買基金賺大錢的人都是像烏龜一樣爬行的

納蘭唐兒
2025-05-02 01:16:51
47歲浙江女子每天堅持游泳,1年后泡沫尿,其親身經歷提醒所有人

47歲浙江女子每天堅持游泳,1年后泡沫尿,其親身經歷提醒所有人

健身狂人
2025-05-01 15:04:23
大S豪宅迎來新主人!具俊曄搬離,S媽發文引爭議,小S肩負重任

大S豪宅迎來新主人!具俊曄搬離,S媽發文引爭議,小S肩負重任

觀察鑒娛
2025-05-01 11:14:45
諷刺!董襲瑩美國留學7年,花費千萬!畢業典禮上被院長點名表揚

諷刺!董襲瑩美國留學7年,花費千萬!畢業典禮上被院長點名表揚

半夏吃瓜妹
2025-04-29 18:33:34
朝鮮兵在庫爾斯克天天吃大餐,戰地食堂面包香腸紅菜湯頓頓管夠!

朝鮮兵在庫爾斯克天天吃大餐,戰地食堂面包香腸紅菜湯頓頓管夠!

凱撒談兵
2025-05-01 11:51:44
此前顯示售罄的火車票“五一”前大量放出來了?12306回應

此前顯示售罄的火車票“五一”前大量放出來了?12306回應

齊魯壹點
2025-05-01 16:25:05
中國大量暴富的人正在返貧,好戲才剛開始!

中國大量暴富的人正在返貧,好戲才剛開始!

互聯網思維
2025-04-27 23:34:33
斯科爾斯:如果曼聯拿歐聯杯冠軍,他們的賽季或許比阿森納更成功

斯科爾斯:如果曼聯拿歐聯杯冠軍,他們的賽季或許比阿森納更成功

雷速體育
2025-05-01 09:38:34
連續無緣4強,朱芳雨卸任廣東?現身發聲,做出決定,杜鋒祝福

連續無緣4強,朱芳雨卸任廣東?現身發聲,做出決定,杜鋒祝福

樂聊球
2025-05-01 11:56:27
不出5年,中國貶值最快的不是房子、現金,而是這3樣東西

不出5年,中國貶值最快的不是房子、現金,而是這3樣東西

發姐談房
2025-04-10 16:06:11
詹俊:今夜英超三隊同奏凱歌;曼聯成為奪冠大熱門

詹俊:今夜英超三隊同奏凱歌;曼聯成為奪冠大熱門

懂球帝
2025-05-02 05:38:09
女人“偷情”,大多會選擇以下5種男人,別不信

女人“偷情”,大多會選擇以下5種男人,別不信

葉飛飛
2023-05-28 20:31:58
街拍瑜伽褲姐妹,身材好

街拍瑜伽褲姐妹,身材好

東方不敗然多多
2025-04-13 13:04:26
遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

書畫藝術收藏
2025-03-15 19:15:05
42歲孫儷在劇中包餛飩,體態飽滿像金元寶,娘娘多才多藝看著賢惠

42歲孫儷在劇中包餛飩,體態飽滿像金元寶,娘娘多才多藝看著賢惠

比利
2025-04-30 14:03:37
地鐵11號線規劃方案公示!設14座車站、5站可換乘!

地鐵11號線規劃方案公示!設14座車站、5站可換乘!

朗威談星座
2025-05-01 15:36:32
兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

史二了
2024-07-27 17:12:02
2025-05-02 07:03:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6610文章數 94407關注度
往期回顧 全部

數碼要聞

庫克:蘋果公司需要更多時間來完成新的、更具個性化的Siri功能

頭條要聞

魯比奧將兼任美總統國家安全顧問 沃爾茲被提名美大使

頭條要聞

魯比奧將兼任美總統國家安全顧問 沃爾茲被提名美大使

體育要聞

無敵17歲vs飛翔泥頭車,歐冠史詩對決

娛樂要聞

梅婷慶50歲生日,兒女和她一起許愿

財經要聞

知情人士:美方正多渠道主動與中方接觸

科技要聞

DeepSeek新數學模型刷爆記錄

汽車要聞

預售32.98萬起 魏牌高山家族將于5月13日上市

態度原創

數碼
親子
家居
本地
公開課

數碼要聞

鑫谷昆侖九重白金數字電源新增 850W 款式,售 999 元

親子要聞

這根刺,甜不甜?

家居要聞

輕奢婚房 自由隨性生活

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 武陟县| 赤壁市| 呈贡县| 蓝田县| 东城区| 从江县| 安新县| 安塞县| 简阳市| 霍山县| 陵川县| 德兴市| 曲阜市| 东乡族自治县| 株洲县| 长阳| 二连浩特市| 永顺县| 砚山县| 沧州市| 阿荣旗| 青冈县| 登封市| 北流市| 新安县| 象州县| 石嘴山市| 阳高县| 榆树市| 永嘉县| 沐川县| 平昌县| 遵义市| 息烽县| 耿马| 五台县| 扬州市| 宁都县| 七台河市| 疏附县| 曲松县|