99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

五一大瓜!大模型頂級(jí)排行榜被指系統(tǒng)性“造假”,官方緊急回應(yīng),Karpathy也下場(chǎng)質(zhì)疑

0
分享至


各位五一快樂(lè),快來(lái)吃瓜!(順便星標(biāo)??一下本號(hào),最近很多朋友反應(yīng)不能及時(shí)看到內(nèi)容更新,只有關(guān)注并且??才會(huì)第一時(shí)間收到更新)

AI圈子波瀾又起,焦點(diǎn)集中在了大名鼎鼎的Chatbot Arena排行榜上。一篇名為《The Leaderboard Illusion》(排行榜幻覺(jué))的預(yù)印本論文橫空出世,直接對(duì)這個(gè)被廣泛視為L(zhǎng)LM“試金石”的平臺(tái)提出了系統(tǒng)性質(zhì)疑,論文更是直接點(diǎn)名Meta Llama 4 刷榜“造假”,連大佬Andrej Karpathy都下場(chǎng)發(fā)表了看法


論文地址:

https://arxiv.org/pdf/2504.20879

Chatbot Arena:“兵家必爭(zhēng)之地”

先簡(jiǎn)單科普下,Chatbot Arena由LMSYS(一個(gè)研究組織,原名lmsys.org,現(xiàn)稱(chēng)lmarena.ai)創(chuàng)建,通過(guò)讓用戶匿名與兩個(gè)模型對(duì)話并投票選出更好的那個(gè),來(lái)對(duì)大模型進(jìn)行排名。因其動(dòng)態(tài)、用戶驅(qū)動(dòng)的評(píng)估方式,能捕捉到傳統(tǒng)基準(zhǔn)測(cè)試之外的真實(shí)用戶偏好,迅速成為衡量頂級(jí)AI系統(tǒng)能力的事實(shí)標(biāo)準(zhǔn),影響力巨大


《The Leaderboard Illusion》:掀開(kāi)“皇帝的新衣”?

這篇由Cohere、普林斯頓、斯坦福等機(jī)構(gòu)研究人員(其中部分作者也曾向Arena提交過(guò)模型)撰寫(xiě)的論文,通過(guò)分析大量數(shù)據(jù)(涉及200多萬(wàn)次對(duì)戰(zhàn)、243個(gè)模型、42家提供商),指出了Chatbot Arena存在的幾大核心問(wèn)題,認(rèn)為其公平性和可靠性受到了損害:

  1. 1.“秘密測(cè)試”與“選擇性披露”:論文聲稱(chēng),少數(shù)(主要是大型、專(zhuān)有模型)提供商被允許在Arena上進(jìn)行大量“私下測(cè)試”,可以提交多個(gè)模型變體進(jìn)行評(píng)估,但最終只選擇性地公開(kāi)表現(xiàn)最好的那個(gè)版本的分?jǐn)?shù),甚至可以撤回不滿意的結(jié)果。論文點(diǎn)名Meta在Llama 4發(fā)布前,僅一個(gè)月內(nèi)就在Arena上測(cè)試了多達(dá)27個(gè)私有變體。這種做法被指扭曲了排名,讓這些提供商獲得了不公平的優(yōu)勢(shì),大白話就是說(shuō)Meta Llama 4 “造假”

  2. 2.數(shù)據(jù)獲取“貧富差距”:由于私下測(cè)試、更高的采樣率(模型被選中參與對(duì)戰(zhàn)的頻率)以及模型下線(deprecation)策略,專(zhuān)有模型提供商獲得了遠(yuǎn)超開(kāi)源/開(kāi)放權(quán)重模型的用戶反饋數(shù)據(jù)。論文估計(jì),僅Google和OpenAI就分別獲得了Arena總數(shù)據(jù)的19.2%和20.4%,而83個(gè)開(kāi)放權(quán)重模型合計(jì)僅獲得29.7%。這種數(shù)據(jù)不對(duì)稱(chēng),讓優(yōu)勢(shì)方更容易針對(duì)Arena進(jìn)行優(yōu)化

  3. 3.過(guò)擬合風(fēng)險(xiǎn):論文通過(guò)實(shí)驗(yàn)證明,即使少量Arena數(shù)據(jù)也能顯著提升模型在Arena評(píng)估(如ArenaHard基準(zhǔn))上的表現(xiàn)(相對(duì)提升高達(dá)112%),但在其他通用基準(zhǔn)(如MMLU)上提升有限甚至下降。這表明模型可能在“刷榜”,而非真正提升通用能力,即過(guò)擬合了Arena的特定偏好

  4. 4.模型下線不透明且不公:論文發(fā)現(xiàn)大量模型(205個(gè))被“悄悄”下線(采樣率降至近零),遠(yuǎn)超官方明確列出的47個(gè)。且這種下線更多發(fā)生在開(kāi)放權(quán)重/開(kāi)源模型上(占被移除模型的66%)。這不僅影響了數(shù)據(jù)獲取,還可能破壞了支撐Arena評(píng)分的Bradley-Terry模型假設(shè),導(dǎo)致排名不可靠。

基于這些發(fā)現(xiàn),論文提出了五項(xiàng)緊急建議:禁止撤回分?jǐn)?shù)、限制私有測(cè)試數(shù)量、公平執(zhí)行模型移除、實(shí)施公平采樣算法、公開(kāi)所有測(cè)試模型及移除信息。

LMSYS (lmarena.ai) 回應(yīng):捍衛(wèi)與澄清

面對(duì)質(zhì)疑,Chatbot Arena的組織者lmarena.ai迅速做出了回應(yīng),主要觀點(diǎn)如下:

  1. 1.預(yù)發(fā)布測(cè)試是好事:他們承認(rèn)并歡迎預(yù)發(fā)布測(cè)試,認(rèn)為這能幫助模型提供商了解社區(qū)用戶的真實(shí)偏好,優(yōu)化模型,對(duì)整個(gè)社區(qū)有利。用戶也喜歡第一時(shí)間體驗(yàn)最新模型

  2. 2.反映真實(shí)偏好,而非偏見(jiàn):Arena的排名反映的是數(shù)百萬(wàn)真實(shí)用戶的偏好總和。偏好本身是主觀的,但這正是其價(jià)值所在,因?yàn)槟P妥罱K是為人服務(wù)的。他們正在研究統(tǒng)計(jì)方法分解偏好,并努力擴(kuò)大用戶群多樣性

  3. 3.政策防止“挑分”:他們強(qiáng)調(diào)其政策 不允許 提供商僅報(bào)告測(cè)試期間的最高分。發(fā)布的評(píng)分是針對(duì) 最終公開(kāi)發(fā)布 的那個(gè)模型

  4. 4.質(zhì)疑論文方法與數(shù)據(jù):lmarena.ai認(rèn)為論文中的模擬存在缺陷,并指出論文中的一些數(shù)據(jù)與他們最近發(fā)布的實(shí)際統(tǒng)計(jì)數(shù)據(jù)不符

  5. 5.公平與開(kāi)放承諾:他們重申致力于公平、社區(qū)驅(qū)動(dòng)的評(píng)估,歡迎所有提供商提交模型。幫助Meta測(cè)試Llama 4與其他提供商無(wú)異,并強(qiáng)調(diào)自身平臺(tái)和工具的開(kāi)源性,以及發(fā)布了大量開(kāi)放對(duì)話數(shù)據(jù)

  6. 6.接受部分建議:他們表示同意部分建議(如實(shí)施主動(dòng)采樣算法),并愿意考慮更多。

Andrej Karpathy :懷疑與替代方案

特斯拉前AI總監(jiān)、OpenAI創(chuàng)始成員Andrej Karpathy也分享了他的看法,他更傾向于懷疑Arena的排名:

  1. 1.個(gè)人經(jīng)驗(yàn)與排名不符:他提到自己曾遇到過(guò)排名第一的Gemini模型實(shí)際體驗(yàn)不如排名較低的模型(如Claude 3.5)的情況。也注意到一些“不知名”的小模型排名異常高

  2. 2.當(dāng)數(shù)據(jù)和經(jīng)驗(yàn)(或直覺(jué))對(duì)不上的時(shí)候,往往經(jīng)驗(yàn)(或直覺(jué))更靠譜:引用貝索斯的話,個(gè)人或小范圍的真實(shí)體驗(yàn)可能比宏觀數(shù)據(jù)更能反映問(wèn)題

  3. 3.擔(dān)憂過(guò)擬合特定偏好:他推測(cè),不同團(tuán)隊(duì)可能投入了不同程度的精力專(zhuān)門(mén)針對(duì)Arena評(píng)分進(jìn)行優(yōu)化,導(dǎo)致模型更擅長(zhǎng)Arena偏好的風(fēng)格(比如嵌套列表、表情符號(hào)),而非整體能力提升

  4. 4.推薦替代評(píng)估:OpenRouter:新的潛在頂級(jí)評(píng)估方式——OpenRouter的LLM排名。OpenRouter作為API路由平臺(tái),用戶(包括企業(yè))基于實(shí)際應(yīng)用需求和成本在不同模型間切換,這種“用腳投票”直接反映了模型在真實(shí)場(chǎng)景中的綜合價(jià)值(能力+成本),可能更難被“游戲化”。

lmarena.ai對(duì)Karpathy的回應(yīng):

感謝karpathy的反饋!表示會(huì)持續(xù)構(gòu)建像WebDev Arena這樣的新評(píng)估平臺(tái),以捕捉更高級(jí)、更真實(shí)的編碼用例


Andrej Karpathy 質(zhì)疑全文:


最近有篇新論文在傳,詳細(xì)分析了 LM Arena 排行榜,叫《排行榜幻覺(jué)》(The Leaderboard Illusion)

我最早開(kāi)始有點(diǎn)兒懷疑這事,是有一次,(大概前段時(shí)間吧),某個(gè) Gemini 模型沖到了第一名,而且分?jǐn)?shù)遠(yuǎn)超第二,但我自己切換過(guò)去試用了幾天,感覺(jué)還不如我之前用習(xí)慣了的那個(gè)。反過(guò)來(lái)呢,差不多同一時(shí)間,Claude 3.5 在我個(gè)人用起來(lái)明明是頂級(jí)水平,但在 Arena 上的排名卻非常低。無(wú)論是在網(wǎng)上還是私下聊天,我都聽(tīng)到過(guò)類(lèi)似的反饋。而且,還有不少看著挺隨機(jī)的模型,有些小的都讓人起疑,據(jù)我所知也沒(méi)啥實(shí)際應(yīng)用背景,但它們排名卻也相當(dāng)高。

“當(dāng)數(shù)據(jù)和(用戶的)直覺(jué)或經(jīng)驗(yàn)對(duì)不上的時(shí)候,往往后者更靠譜。”(這是杰夫·貝索斯最近在一個(gè)播客里說(shuō)的,不過(guò)我個(gè)人深有同感)。我覺(jué)得吧,這些(大模型)團(tuán)隊(duì)內(nèi)部可能把不同的精力都放在了專(zhuān)門(mén)針對(duì) LM Arena 分?jǐn)?shù)上,并且基于這個(gè)分?jǐn)?shù)來(lái)做決策。不幸的是,這樣搞出來(lái)的可能不是整體上更好的模型,而是更擅長(zhǎng)在 LM Arena 上拿高分的模型——不管那到底意味著什么。也許就是那種特別會(huì)用嵌套列表、項(xiàng)目符號(hào)和表情符號(hào)的模型吧。

LM Arena(以及那些 LLM 提供商)很可能會(huì)繼續(xù)在這種模式下迭代和改進(jìn),但除此之外,我心里還有個(gè)新的候選者,有潛力成為新的“頂級(jí)評(píng)測(cè)”方式之一。那就是OpenRouterAI 的 LLM 排名:

https://openrouter.ai/rankings

簡(jiǎn)單來(lái)說(shuō),OpenRouter 能讓個(gè)人或公司在不同 LLM 提供商的 API 之間快速切換。這些用戶都有真實(shí)的應(yīng)用場(chǎng)景(不是搞些小測(cè)試題或者解謎),他們自己內(nèi)部也有評(píng)估方式,而且都有實(shí)實(shí)在在的動(dòng)力去選對(duì)模型。所以,當(dāng)他們選擇某個(gè) LLM 而不是另一個(gè)時(shí),實(shí)際上就是在用腳投票,綜合考慮了(模型的)能力和成本。我覺(jué)得 OpenRouter 在用戶數(shù)量和使用場(chǎng)景的多樣性上可能還沒(méi)完全到位,但這種基于實(shí)際應(yīng)用的評(píng)估方式,我認(rèn)為非常有潛力發(fā)展成一種非常好的、并且很難被“刷榜”或操縱(game)的評(píng)測(cè)體系

--完--

最后給大家貼一下openrouter的大模型綜合排行(還有各個(gè)領(lǐng)域的排名,涉及編程,市場(chǎng),角色扮演,技術(shù),科學(xué),翻譯,法律,金融,健康,學(xué)術(shù)等大家可以自行探索)


參考:

https://arxiv.org/pdf/2504.20879

?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過(guò)?

用你的在看告訴我~

求贊

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
收評(píng):今天大盤(pán)收在3420,做好準(zhǔn)備了,不出意外,明天可能這樣走

收評(píng):今天大盤(pán)收在3420,做好準(zhǔn)備了,不出意外,明天可能這樣走

小嵩
2025-06-24 17:05:26
如前所說(shuō):北約宣布軍費(fèi)5%后,美以準(zhǔn)備停手,讓巴列維兒子出場(chǎng)

如前所說(shuō):北約宣布軍費(fèi)5%后,美以準(zhǔn)備停手,讓巴列維兒子出場(chǎng)

邵旭峰域
2025-06-24 12:09:23
范瑋琪慘遭淘汰!全網(wǎng)熱議她的演唱失誤,究竟發(fā)生了什么?

范瑋琪慘遭淘汰!全網(wǎng)熱議她的演唱失誤,究竟發(fā)生了什么?

銀河臥談會(huì)
2025-06-24 15:52:25
中紀(jì)委:公職人員,嚴(yán)禁做這6種副業(yè)!

中紀(jì)委:公職人員,嚴(yán)禁做這6種副業(yè)!

寧夏新聞網(wǎng)
2025-06-24 08:08:08
42歲張一鳴以4815.7億元身家問(wèn)鼎中國(guó)首富

42歲張一鳴以4815.7億元身家問(wèn)鼎中國(guó)首富

魯中晨報(bào)
2025-06-24 12:27:10
文胖:杜蘭特不斷拒絕其他交易方案,直到報(bào)價(jià)低到火箭無(wú)法拒絕的地步

文胖:杜蘭特不斷拒絕其他交易方案,直到報(bào)價(jià)低到火箭無(wú)法拒絕的地步

雷速體育
2025-06-24 09:21:25
云南一涉黑案中的“指居”慘象:70歲癌癥老人,被折磨到脫肛

云南一涉黑案中的“指居”慘象:70歲癌癥老人,被折磨到脫肛

塔子山評(píng)說(shuō)
2025-06-24 08:43:02
僅剩2枚!B-2隱身轟炸機(jī)一夜幾乎打光美軍巨型鉆地彈所有庫(kù)存!

僅剩2枚!B-2隱身轟炸機(jī)一夜幾乎打光美軍巨型鉆地彈所有庫(kù)存!

阿龍聊軍事
2025-06-24 15:07:19
離開(kāi)黃曉明是個(gè)屁!baby直播全程低三下四,被主播罵滾也不敢翻臉

離開(kāi)黃曉明是個(gè)屁!baby直播全程低三下四,被主播罵滾也不敢翻臉

扒星人
2025-06-23 10:10:29
自貢小學(xué)給學(xué)生吃臭肉細(xì)節(jié)曝光:家長(zhǎng)圍堵送肉車(chē)保留證據(jù)

自貢小學(xué)給學(xué)生吃臭肉細(xì)節(jié)曝光:家長(zhǎng)圍堵送肉車(chē)保留證據(jù)

映射生活的身影
2025-06-23 19:56:17
蘇媒:蘇超蘇州vs揚(yáng)州球票已售罄,有望刷新上座率

蘇媒:蘇超蘇州vs揚(yáng)州球票已售罄,有望刷新上座率

懂球帝
2025-06-24 13:07:40
美國(guó)轟炸伊朗核設(shè)施背后:B-2為何能連飛44小時(shí)不燒發(fā)動(dòng)機(jī)?

美國(guó)轟炸伊朗核設(shè)施背后:B-2為何能連飛44小時(shí)不燒發(fā)動(dòng)機(jī)?

徐德文科學(xué)頻道
2025-06-23 12:47:48
去了趟廣東潮州,真心建議:不要隨便去廣東潮州,除非你知道這些

去了趟廣東潮州,真心建議:不要隨便去廣東潮州,除非你知道這些

悠閑歷史
2025-06-24 09:41:30
國(guó)際原子能機(jī)構(gòu)敦促伊朗在停火后展開(kāi)合作

國(guó)際原子能機(jī)構(gòu)敦促伊朗在停火后展開(kāi)合作

極目新聞
2025-06-24 17:20:34
腦科學(xué)發(fā)現(xiàn):真的不要和孩子較勁,他的大腦還沒(méi)長(zhǎng)好呢

腦科學(xué)發(fā)現(xiàn):真的不要和孩子較勁,他的大腦還沒(méi)長(zhǎng)好呢

小書(shū)蟲(chóng)媽媽
2025-06-24 12:43:51
浩吉鐵路公司原董事長(zhǎng)田利民,被查

浩吉鐵路公司原董事長(zhǎng)田利民,被查

魯中晨報(bào)
2025-06-24 15:23:06
侃爺攜妻用餐引流量:比安卡造型惹眼 夫妻牽手顯恩愛(ài)

侃爺攜妻用餐引流量:比安卡造型惹眼 夫妻牽手顯恩愛(ài)

述家?jiàn)视?/span>
2025-06-24 10:39:08
中國(guó)建筑:近期獲215.3億元重大項(xiàng)目

中國(guó)建筑:近期獲215.3億元重大項(xiàng)目

每日經(jīng)濟(jì)新聞
2025-06-24 17:12:21
三亞終究踏上“不歸路”,東北人撤離成潮!背后真相是什么?

三亞終究踏上“不歸路”,東北人撤離成潮!背后真相是什么?

前沿天地
2025-06-23 12:57:34
罪惡之源——伊朗伊斯蘭革命衛(wèi)隊(duì)

罪惡之源——伊朗伊斯蘭革命衛(wèi)隊(duì)

史政先鋒
2025-06-23 12:27:51
2025-06-24 19:43:00
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專(zhuān)注于人工智能,科技領(lǐng)域
731文章數(shù) 320關(guān)注度
往期回顧 全部

科技要聞

從十輛到幾百萬(wàn)輛,中間隔著什么?

頭條要聞

被問(wèn)中國(guó)元首會(huì)否出席金磚國(guó)家領(lǐng)導(dǎo)人會(huì)晤 外交部回應(yīng)

頭條要聞

被問(wèn)中國(guó)元首會(huì)否出席金磚國(guó)家領(lǐng)導(dǎo)人會(huì)晤 外交部回應(yīng)

體育要聞

如果你喜歡籃球,你沒(méi)理由不喜歡步行者

娛樂(lè)要聞

范瑋琪淘汰!全網(wǎng)熱議她的演唱失誤

財(cái)經(jīng)要聞

6部門(mén):支持居民就業(yè)增收 增強(qiáng)消費(fèi)信心

汽車(chē)要聞

7.98萬(wàn)起 firefly螢火蟲(chóng)推出電池租用購(gòu)車(chē)方案

態(tài)度原創(chuàng)

游戲
數(shù)碼
教育
藝術(shù)
手機(jī)

看完《歸唐》預(yù)告,我開(kāi)始理解為何大家心情復(fù)雜了

數(shù)碼要聞

客廳「C位」?fàn)帄Z戰(zhàn),三星Neo QLED 4K QN85F憑什么讓我一眼淪陷?

教育要聞

多少分可以上武漢體育學(xué)院?快來(lái)看看!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

手機(jī)要聞

1699元透明手機(jī)!真我Neo7 Turbo圖賞

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 布尔津县| 呼图壁县| 柯坪县| 华宁县| 焦作市| 德格县| 红桥区| 应城市| 孟村| 闽侯县| 织金县| 股票| 恩平市| 定日县| 大城县| 星子县| 高唐县| 安阳市| 渝北区| 随州市| 京山县| 抚顺县| 外汇| 彝良县| 古蔺县| 弋阳县| 福清市| 米脂县| 贵阳市| 周宁县| 长子县| 白银市| 长寿区| 武川县| 盐源县| 汉源县| 东明县| 房产| 桂林市| 黎城县| 宁都县|