99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Llama 4在測試集上訓練?內部員工、官方下場澄清,LeCun轉發

0
分享至




機器之心報道

編輯:張倩、澤南

大家翹首以盼的 Llama 4,用起來為什么那么拉跨?

Llama 4 這么大的節奏,Meta 終于繃不住了。

本周二凌晨,Meta Gen AI 團隊負責人發表了一份澄清說明(針對外界質疑「在測試集上訓練」等問題),大佬 Yann LeCun 也進行了轉發。



很高興能讓大家用上 Llama 4,我們已經聽說人們使用這些模型取得了很多出色的成果。盡管如此,我們也聽到一些關于不同服務質量參差不齊的報告。由于我們在模型準備就緒后就推出了它們,因此我們預計所有公開部署都需要幾天時間才能完成。我們將繼續努力修復錯誤并吸引合作伙伴。
我們還聽說有人聲稱 Llama 4 在測試集上進行訓練,這根本不是事實,我們永遠不會這樣做。我們愿意理解為:人們看到的不穩定是由于需要穩定部署。相信 Llama 4 模型是一項重大進步,期待與社區的持續合作以釋放它們的價值。

當前 Llama 4 性能不佳是被部署策略給拖累了嗎?

權威的大模型基準平臺 LMArena 也站出來發布了一些 Llama 4 的對話結果,希望部分解答人們的疑惑。



鏈接:https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

可以看到,其中很多同問題的回答上,不論是跟哪家大模型比,Llama 4 的效果都是更好的。

但這究竟是模型真的好,還是 Meta 為了拯救口碑而進行的一系列公關活動?我們需要一起來梳理一下這一事件的發展脈絡。

Llama 4:買家秀 vs. 賣家秀

Llama 4 是 Meta 在 4 月 6 日發布的模型,分為 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth 這幾個版本。Meta 官方宣稱新模型可以實現無與倫比的高智商和效率。



在大模型競技場(Arena),Llama 4 Maverick 的總排名第二,成為第四個突破 1400 分的大模型。其中開放模型排名第一,超越了 DeepSeek;在困難提示詞、編程、數學、創意寫作等任務中排名均為第一;大幅超越了自家 Llama 3 405B,得分從 1268 提升到了 1417;風格控制排名第五。





這樣的成績讓開源社區以為又迎來一個新王,于是紛紛下載嘗試。但沒想到的是,這個模型并沒有想象中好用。比如網友 @deedydas 發帖稱,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基準測試中表現不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基準測試專注于編程任務,例如代碼生成和代碼補全。

另外還有網友指出,Llama 4 的 OCR、前端開發、抽象推理、創意寫作等問題上的表現能力也令人失望。(參見《Meta Llama 4 被疑考試「作弊」:在競技場刷高分,但實戰中頻頻翻車》)

于是就有人質疑,模型能力這么拉跨,發布時曬的那些評分是怎么來的?

內部員工爆料

Meta 工程師原貼對線

在關于該模型表現反差的猜測中,「把測試集混入訓練數據」是最受關注的一個方向。

在留學論壇「一畝三分地」上,一位職場人士發帖稱,由于 Llama 4 模型始終未達預期,「公司領導層建議將各個 benchmark 的測試集混合在 post-training 過程中」,ta 因無法接受這種做法而辭職,并指出「Meta 的 VP of AI 也是因為這個原因辭職的」(指的是在上周宣布離職的 Meta AI 研究副總裁 Joelle Pineau)。



由于發帖者沒有實名認證信息,我們無法確認這一帖子的可靠性,相關信息也缺乏官方證實和具體證據。

不過,在該貼的評論區,有幾位 Meta 員工反駁了樓主的說法,稱「并沒有這種情況」,「為了刷點而 overfit 測試集我們從來沒有做過」。





其中一位還貼出了自己的真名 ——「Licheng Yu」。領英資料顯示,Licheng Yu 是 Facebook AI 的研究科學家主管,已經在 Meta 全職工作了五年多,其工作內容包括支持 Llama 4 的后訓練 RL。

如前文所訴,Meta Gen AI 團隊負責人也發推反駁了用測試數據訓練模型的說法。

不過,有些測試者發現了一些有意思的現象。比如普林斯頓大學博士生黃凱旋指出,Llama 4 Scout 在 MATH-Perturb 上的得分「獨樹一幟」,Original 和 MATH-P-Simple 數據集上的表現差距非常大(兩個數據集本身非常相似,后者只在前者的基礎上進行了輕微擾動),這點很令人驚訝。



這是沒有做好數據增強的問題嗎?或許也可以認為他們的模型為了標準測試做了「過度」優化?

雖然在數學方面,這個問題還沒有答案。不過,在對話方面,Meta 的確指出他們針對對話做了優化。他們在公告中提到,大模型競技場上的 Maverick 是「實驗性聊天版本」,與此同時官方 Llama 網站上的圖表也透露,該測試使用了「針對對話優化的 Llama 4 Maverick」。



針對這個版本問題,大模型競技場官方賬號也給出了回應,稱 Meta 的做法是對平臺政策的誤讀,應該更清楚地說明他們的模型是定制模型。此外,他們還將 Meta 在 HuggingFace 上發布的版本添加到了競技場進行重新測試,結果有待公布。

大模型競技場公布對戰數據

最后,不論訓練策略和 Deadline 的是與非,Llama 4 是否經得起考驗,終究還是要看模型本身的實力。目前在大模型競技場上,Llama 4 展示了一系列問題上的 good case。其中不僅有生成方案的:



也有生成網頁代碼的:



看起來,Llama 4 也支持更多種類的語言。



在推特的評論區里我們可以看到,人們對于這一系列展示仍然褒貶不一。

雖然 LM Arena 表示未來會將 HuggingFace 上的 Llama 4 版本引入進行比較,但已有人表示,現在我已經很難相信大模型競技場了。

無論如何,在人們的大規模部署和調整之后,我們會很快了解 Llama 4 的真實情況。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
祝賀趙心童!世界臺聯已確認追平一項紀錄,決賽或沒有第四個階段

祝賀趙心童!世界臺聯已確認追平一項紀錄,決賽或沒有第四個階段

郝小小看體育
2025-05-05 05:34:11
全球打仗最不怕死的5個國家,美國排不上榜,第一名無可匹敵

全球打仗最不怕死的5個國家,美國排不上榜,第一名無可匹敵

丁一科普
2025-04-08 21:33:27
善惡終有報!曾風光無限的大衣哥前兒媳,已灰溜溜從杭州搬回老家

善惡終有報!曾風光無限的大衣哥前兒媳,已灰溜溜從杭州搬回老家

老謝談史
2025-04-17 11:45:48
醫生忠告:別再拿這些瓶子裝東西了,患癌再后悔就晚了!趕緊扔掉

醫生忠告:別再拿這些瓶子裝東西了,患癌再后悔就晚了!趕緊扔掉

奇妙的本草
2025-04-15 19:00:06
有趣,愛德華茲舊言論:我想季后賽打勇士,想贏他們,格林說臟話

有趣,愛德華茲舊言論:我想季后賽打勇士,想贏他們,格林說臟話

好火子
2025-05-06 01:34:20
我國采購越南900萬噸大米,卻用霉大米以次充好,我國:一粒米都不要

我國采購越南900萬噸大米,卻用霉大米以次充好,我國:一粒米都不要

睡前講故事
2025-04-22 11:23:11
26歲阿諾德官宣離隊!結束20年利物浦生涯,自由身加盟皇馬+簽5年

26歲阿諾德官宣離隊!結束20年利物浦生涯,自由身加盟皇馬+簽5年

我愛英超
2025-05-05 17:35:40
伊能靜回沈陽看公婆暴露秦昊家財力,秦家裝修太壕了,全屋紅木

伊能靜回沈陽看公婆暴露秦昊家財力,秦家裝修太壕了,全屋紅木

喜歡歷史的阿繁
2025-05-05 06:43:48
假期云南反腐不停!李剡兵落馬

假期云南反腐不停!李剡兵落馬

看看新聞Knews
2025-05-05 15:17:58
贏得尊重,火箭阿門·湯普森在第七場輸勇士后,獲庫里主動聊天

贏得尊重,火箭阿門·湯普森在第七場輸勇士后,獲庫里主動聊天

好火子
2025-05-06 01:45:10
孫悟空犯下那么大的錯,為什么沒人追查菩提老祖?網友:因為不敢!

孫悟空犯下那么大的錯,為什么沒人追查菩提老祖?網友:因為不敢!

熱鬧的河馬
2025-03-11 11:59:11
戲劇性一幕,印度陣風被殲10壓制,空軍中將被就地免職

戲劇性一幕,印度陣風被殲10壓制,空軍中將被就地免職

阿芒娛樂說
2025-05-06 00:27:30
中日韓考古界集體沉默!千年金印揭露三國最尷尬淵源

中日韓考古界集體沉默!千年金印揭露三國最尷尬淵源

窗外的光
2025-04-30 13:00:54
78歲老教授和28歲美女結婚,次年便生子,家中監控錄像揭開真相

78歲老教授和28歲美女結婚,次年便生子,家中監控錄像揭開真相

紅豆講堂
2025-04-26 10:51:07
聾啞女子難產,卻遲遲不見丈夫,醫生解開衣服,肚子上寫著一行字

聾啞女子難產,卻遲遲不見丈夫,醫生解開衣服,肚子上寫著一行字

小波股事歷程
2025-05-05 14:08:44
廣東多地市任命市直部門“一把手”

廣東多地市任命市直部門“一把手”

I河源
2025-05-05 22:13:13
呼吸也開始收費了?某小區收空氣費遭質疑,物業:他們是愿意交的

呼吸也開始收費了?某小區收空氣費遭質疑,物業:他們是愿意交的

奇思妙想草葉君
2025-05-04 23:55:19
70歲大爺與賣淫女山上野戰,且只與一人發生關系,大爺:她花樣多

70歲大爺與賣淫女山上野戰,且只與一人發生關系,大爺:她花樣多

胖胖侃咖
2025-04-11 08:00:10
中美貿易越打越兇,我國存在美國的黃金六百余噸,還能要回來嗎?

中美貿易越打越兇,我國存在美國的黃金六百余噸,還能要回來嗎?

百態人間
2025-04-17 16:23:57
日本心理學家發現:孩子的血型,決定了他的智商

日本心理學家發現:孩子的血型,決定了他的智商

第一心理
2025-05-05 17:29:22
2025-05-06 02:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10436文章數 142301關注度
往期回顧 全部

科技要聞

這3款新 iPhone,可能會改變蘋果的未來

頭條要聞

匈牙利外長"提醒"澤連斯基:注意說話方式

頭條要聞

匈牙利外長"提醒"澤連斯基:注意說話方式

體育要聞

當年的阿森納小球童,要踢歐冠決賽了

娛樂要聞

馬麗崩潰哭訴上熱搜,評論區罵聲一片

財經要聞

人民幣暴漲近900點!發生了什么?

汽車要聞

小米SU7的真實續航到底有多少?

態度原創

教育
時尚
數碼
房產
軍事航空

教育要聞

南陽二全小學舉辦2025年春期家校見面交流會

“襯衫+短褲”今年最火穿搭,這樣穿太高級了!

數碼要聞

PC鮮辣報:榮耀發MagicBook Pro 16 2025 RX 9070 GRE發布

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

軍事要聞

解放軍儀仗隊紅場高唱抗日歌曲

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 福清市| 凤台县| 彰化市| 浪卡子县| 车险| 无棣县| 章丘市| 万山特区| 山西省| 安庆市| 蚌埠市| 象山县| 安顺市| 禄丰县| 双柏县| 贡嘎县| 蒲城县| 泾阳县| 齐河县| 洛宁县| 昌乐县| 江都市| 五寨县| 台湾省| 措勤县| 浏阳市| 淮北市| 黄陵县| 井冈山市| 沙河市| 元谋县| 宿迁市| 白朗县| 如皋市| 石景山区| 中西区| 紫金县| 新余市| 张北县| 盐源县| 寿宁县|