99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Llama 4被質疑“作弊”!在競技場刷高分,實戰頻頻“翻車”,Meta AI副總裁緊急辟謠,圖靈獎大佬“站臺”

0
分享至

每經記者:宋欣悅 每經編輯:蘭素英

當地時間4月5日,美國科技巨頭Meta宣布推出其新一代開源大模型Llama 4。Llama 4目前有兩個混合專家(MoE)架構的版本,分別為Scout和Maverick。更為強大的Llama 4 Behemoth仍在訓練中。

Meta官方稱,Llama 4在一系列廣泛接受的基準測試中均實現了領先同行的水平,尤其是Llama 4 Behemoth,在多個基準測試中的表現要優于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等一眾行業頂尖封閉模型。

然而,就在模型發布后不久,鋪天蓋地的質疑聲涌來。開發者實測Llama 4后發現,其真實效果并不如宣傳中那么驚艷,甚至問題百出。

與此同時,有開發者質疑Meta作弊“刷榜”,根據相關評測基準對模型進行“量身定制”訓練。

知名科技媒體TechCrunch也發文,直指Meta新AI模型的性能測試“具有一定誤導性”。

Meta深陷輿論漩渦之中。對于外界的質疑,當地時間4月7日,Meta生成式AI副總裁艾哈邁德·阿爾·達赫勒(Ahmad Al-Dahle)在社交平臺X上公開回應,明確指出相關說法毫無事實依據。


圖片來源:Meta官網


Meta“刷榜”?開發者實測Llama 4:編程等任務表現不佳,“遠排不上第一或第二”

據Meta介紹,Llama 4模型家族使用了混合專家(MoE)架構,原生支持多模態,實力超強,堪稱“全能選手”。

其中,Llama 4 Scout擁有170億活躍參數以及16個專家模塊,提供長達1000萬tokens上下文窗口。在多項基準測試中,Scout的表現優于Gemma 3和Gemini 2.0 Flash-Lite等模型。

Llama 4 Maverick同樣擁有170億活躍參數,專家模塊數量提升至128個。在多項主流基準測試中,其成績超越了GPT-4o和Gemini 2.0 Flash。Meta還特意點名DeepSeek,強調在推理和編碼方面,Llama 4 Maverick可以比肩DeepSeek新開源的V3模型,而其活躍參數還不到DeepSeek新版V3的一半

被Meta稱為“世界上最聰明的模型之一”的Llama 4 Behemoth則擁有2880億活躍參數和16個專家模塊。在多項主流基準測試中,其性能表優于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等行業頂尖模型。


圖片來源:Meta官網

而在大模型競技場上,Llama 4 Maverick表現奪目,總排名位居第二,成為第四個突破1400分的大模型。在開源模型中,Llama 4 Maverick排名第一,超越了DeepSeek

在困難提示詞、編程、數學、創意寫作等任務的比拼中,Llama 4 Maverick均斬獲第一名。相較于自家前代產品Llama 3(405B)獲得的1268分,Llama 4 Maverick的得分實現大幅躍升,達到了1417分。


圖片來源:大模型競技場

這本應是開源社區的又一狂歡。但開發者們實測發現,Llama 4的效果并不像官方宣稱的那樣驚艷,甚至可以說是問題百出

Menlo Ventures風險投資人迪迪·達斯(Deedy Das)直言,“Llama 4實際上是一個糟糕的編程模型。”

達斯指出,在專注于編程任務(如代碼生成和代碼補全)的KCORES基準測試中,Llama 4 Scout和Llama 4 Maverick表現欠佳,落后于GPT-4o、Grok 3、DeepSeek-V3等模型。


圖片來源:KCORES LLM Arena

這與此前Llama 4在大模型競技場的表現形成鮮明反差。

有網友直接曝出,Llama 4在大模型競技場上存在過擬合現象,有極大的作弊“刷榜”嫌疑

在一些實測中,Llama 4在上下文任務的實際表現遠低于預期。Llama 4 Maverick在aider多語言編碼基準測試中的實測得分僅為16%。

Abacus.AI首席執行官賓杜?雷迪(Bindu Reddy)評論道:“人類的評估已經毫無意義了……根據現實世界的表現,Llama 4 Maverick應該遠遠排不上第一或第二。”

大模型競技場官方也下場“補刀”,指出Meta在大模型競技場使用的并非HuggingFace上供開發者使用的Llama 4版本,而是“針對人類偏好進行優化的定制模型Llama-4-Maverick-03-26-Experimental”。

大模型競技場官方要求Meta對此事作出澄清,并強調其排行榜結果準確可靠,后續將對Llama 4重新進行評測。


圖片來源:X

知名科技媒體TechCrunch也發文,標題直言Meta新AI模型的性能測試“具有一定誤導性”

文章指出,針對基準測試優化特定版本去打榜,卻給開發者提供“基礎版”的做法,讓開發者難以依據榜單排名準確預估模型在實際應用場景中的真實表現。

《每日經濟新聞》記者發現,在Llama官網提供的性能對比測試圖的最下面,寫著其在大模型競技場上使用的是專門針對對話場景優化的Llama 4 Maverick版本。不過,這一信息的字體極小,很難被注意到


圖片來源:X


Llama 4訓練作弊?Meta緊急辟謠,大佬楊立昆也“站臺”

就在Llama 4被集體質疑之時,內部員工的一則爆料帖子,讓Meta陷入了更深的輿論漩渦之中。

4月7日,在海外留學求職交流論壇“一畝三分地”上,一位自稱參與了Llama 4訓練的內部員工爆料稱,Llama 4模型訓練測試集作弊,并表示自己已因此辭職。


圖片來源:一畝三分地

該員工透露,盡管團隊反復努力訓練,Llama 4的內部模型性能始終無法達到開源SOTA(State-of-the-Art,頂尖水平)基準,且差距明顯。為達成目標,公司領導層提出在訓練后期將各種基準測試的測試集數據混入訓練或微調數據中,以此在各項指標上達成目標,交出一份“好看”的成績單。

這位內部員工表示,自己無法接受公司這種做法,甚至辭職信中明確要求不要在Llama 4技術報告中掛名。

就在Llama 4發布前幾天,Meta AI研究主管喬爾·皮諾(Joelle Pineau)在工作8年之后突然宣布離職。

不過,由于發帖人并未實名,該帖子的真實性暫無法核實。在帖子下方評論區,已有數名Meta員工實名進行辟謠。

Meta研究科學家主管Licheng Yu稱,團隊絕不存在針對測試集過擬合訓練的情況。


圖片來源:一畝三分地

另一位Meta高級AI研究科學家Di Jin也反駁道:“我參與了微調和強化學習的數據混合工作,并沒有這種(將基準測試的測試集數據混入訓練或微調數據)情況。”

并且,Di Jin還指出,近期離職的AI研究主管喬爾?皮諾,實則并非Meta GenAI團隊成員,沒有參與GenAI的任何模型訓練工作。



圖片來源:一畝三分地

根據Meta的組織架構體系,喬爾?皮諾是FAIR的副總裁,而FAIR實際上是Meta內部與GenAI完全獨立的組織,GenAI才是負責Llama項目的組織。

針對外界對Llama 4模型的諸多質疑,當地時間4月7日,Meta生成式AI副總裁艾哈邁德·阿爾·達赫勒(Ahmad Al-Dahle)在社交平臺X上公開回應,明確指出相關說法毫無事實依據。

同時,達赫勒指出,部分用戶通過不同云服務商使用Llama 4模型時,遭遇了質量不穩定問題。他對此解釋道:“由于我們在模型準備好后就迅速發布,因此預計需要幾天的時間來調整所有公開版本。后續,Meta將持續進行錯誤修復工作,并與合作伙伴保持溝通。”


圖片來源:X

此外,Meta首席AI科學家、圖靈獎得主Yann LeCun也轉發了該帖子,為Llama 4聲援“站臺”。


圖片來源:X

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突然發現全國人民都不敢接電話了!

突然發現全國人民都不敢接電話了!

振華觀史
2025-04-15 13:29:07
妹子驚見很多男生AI做色圖,一票女生認同:比偷拍好多了

妹子驚見很多男生AI做色圖,一票女生認同:比偷拍好多了

葫蘆哥愛吐槽
2025-05-01 20:05:35
中美貿易風云又起!中國商務部發聲,信息量超大

中美貿易風云又起!中國商務部發聲,信息量超大

涼羽亭
2025-05-02 23:50:17
提醒老年人:過了70歲,寧愿天天玩手機,也不要隨便做這10件事!

提醒老年人:過了70歲,寧愿天天玩手機,也不要隨便做這10件事!

生活不過如此呀
2025-03-12 05:35:03
福布斯:俄要花幾個世紀的時間和數百萬人傷亡才能占領整個烏克蘭

福布斯:俄要花幾個世紀的時間和數百萬人傷亡才能占領整個烏克蘭

仗劍看世界
2025-05-02 21:58:44
打嗨了!差點100%投籃命中率!這可是北京隊的第一敵人……

打嗨了!差點100%投籃命中率!這可是北京隊的第一敵人……

籃球實戰寶典
2025-05-02 22:20:00
季后賽戰況!掘金快船2-2平,勇士火箭,雷霆晉級

季后賽戰況!掘金快船2-2平,勇士火箭,雷霆晉級

家家樂愛生活
2025-05-03 12:18:45
王菲女兒李嫣曬吸煙照,夾煙手勢老練,母女三人都是煙民

王菲女兒李嫣曬吸煙照,夾煙手勢老練,母女三人都是煙民

科學發掘
2025-05-01 14:12:25
甜美靚麗粉色長裙氣質魅力女神高清圖集

甜美靚麗粉色長裙氣質魅力女神高清圖集

動物奇奇怪怪
2025-05-03 12:18:28
“金城武44歲狀態”上熱搜!眼睛如星空銀河

“金城武44歲狀態”上熱搜!眼睛如星空銀河

魯中晨報
2025-04-14 22:43:04
iPhone17ProMax要讓你失望了,蘋果再次翻車!

iPhone17ProMax要讓你失望了,蘋果再次翻車!

搞機小帝
2025-04-30 21:09:17
中美關稅戰打到現在,是中國不跪?恰恰相反,是中國不許美國下跪

中美關稅戰打到現在,是中國不跪?恰恰相反,是中國不許美國下跪

近史博覽
2025-04-30 16:49:39
17+5護筐頂級,火箭隊老將合同年爆發 值得續約 雙塔申京揚長避短

17+5護筐頂級,火箭隊老將合同年爆發 值得續約 雙塔申京揚長避短

替補席看球
2025-05-03 11:58:06
奧康納:火箭已經弄清楚勇士了 大量使用海王申京陣容 火箭G7勝!

奧康納:火箭已經弄清楚勇士了 大量使用海王申京陣容 火箭G7勝!

直播吧
2025-05-03 12:17:15
家長怒噴查成績需付費后續:教育局火速退費,學校連夜叫停合作

家長怒噴查成績需付費后續:教育局火速退費,學校連夜叫停合作

華人星光
2025-04-30 13:01:27
43歲宗馥莉云南巡店,吃冰棍穿拖鞋自己拿行李,被店主贊平易近人

43歲宗馥莉云南巡店,吃冰棍穿拖鞋自己拿行李,被店主贊平易近人

西瓜愛娛娛
2025-04-24 14:07:39
章子怡北京某小學接兒子,兒子五歲正面照曝光,像汪峰也像章子怡

章子怡北京某小學接兒子,兒子五歲正面照曝光,像汪峰也像章子怡

二月侃事
2025-04-30 16:37:43
春花秋月何時了,往事知多少?韓國棋院,確定第30屆LG杯外卡!

春花秋月何時了,往事知多少?韓國棋院,確定第30屆LG杯外卡!

星Xin辰大海
2025-05-03 08:19:27
美國宣布退出俄烏和談,特朗普對普京感到失望!

美國宣布退出俄烏和談,特朗普對普京感到失望!

柴刀夫司機
2025-05-02 22:11:30
倒退十年!五一檔首日票房慘淡不堪,導演餃子的話再次應驗了

倒退十年!五一檔首日票房慘淡不堪,導演餃子的話再次應驗了

黔鄉小姊妹
2025-05-03 10:31:59
2025-05-03 13:00:49
每日經濟新聞 incentive-icons
每日經濟新聞
中國主流財經全媒體平臺。
1231866文章數 2713226關注度
往期回顧 全部

科技要聞

特朗普下手,英偉達對華“特供版”要改

頭條要聞

男子晚上在京東外賣點單不料早上還沒送達:很失望

頭條要聞

男子晚上在京東外賣點單不料早上還沒送達:很失望

體育要聞

盧的調整,雖遲但到

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

巴菲特年度盛會,六大看點前曕!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

游戲
房產
健康
親子
旅游

索尼巴西悄然漲價!PS5獨占《羊蹄山》定價創新高

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

這個方法真好用

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 柯坪县| 梓潼县| 青海省| 南阳市| 将乐县| 乌兰浩特市| 聂拉木县| 新密市| 勃利县| 绥阳县| 霞浦县| 通城县| 留坝县| 宜兰市| 太谷县| 辽中县| 拜泉县| 太原市| 瓦房店市| 临沭县| 上蔡县| 新蔡县| 洪泽县| 福建省| 炎陵县| 珠海市| 义马市| 宜丰县| 方正县| 左云县| 府谷县| 水城县| 新乡市| 宿松县| 扎鲁特旗| 通化市| 米泉市| 炉霍县| 临泉县| 鞍山市| 万源市|