99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

2025 IMO真題撕碎AI數(shù)學(xué)神話,全球頂尖模型齊翻車!冠軍銅牌都拿不到

0
分享至


新智元報道

編輯:Aeneas

【新智元導(dǎo)讀】AI做奧數(shù)的神話,剛剛被戳破了!最新出爐的2025 IMO數(shù)學(xué)競賽中,全球頂尖AI模型無一例外翻車了。即便是冠軍Gemini也只拿下可憐的31分,連銅牌都摸不到。Grok-4更是擺爛到底,連DeepSeek-R1都令人失望??磥?,AI想挑戰(zhàn)人類奧數(shù)大神,還為時尚早。

如果你以為,如今的LLM已經(jīng)無所不能,那剛剛出爐的2025大模型數(shù)學(xué)競賽結(jié)果,恐怕要讓你大跌眼鏡了。

現(xiàn)在,各模型的分?jǐn)?shù)已經(jīng)在MathArena上發(fā)布。

怎么說呢,所有大模型都翻車了。

即使得分最高的冠軍Gemini,也只拿到了31%的分?jǐn)?shù)。憑這個成績,連拿銅牌都不大可能。


也就是說,AI想超越目前頂級的人類數(shù)學(xué)選手,還差得遠呢。


蘇黎世聯(lián)邦理工學(xué)院SRI實驗室的博士生Jasper Dekoninck,發(fā)了一篇博客記錄此次大賽的詳細過程。


大模型參加數(shù)學(xué)競賽,全部翻車!

在今年4月,來自ETH Zurich等機構(gòu)的MathArena團隊,就曾推翻AI會做數(shù)學(xué)題這個神話。



而在這屆2025國際數(shù)學(xué)奧林匹克(IMO)上,全球的AI頂流們又齊聚一堂了。

為了測驗AI們的數(shù)學(xué)能力天花板,MathArena項目組這次祭出了數(shù)學(xué)界的終極boss——2025年IMO真題。

國際學(xué)生奧林匹克競賽(IMO)是全球18歲以下數(shù)學(xué)學(xué)生的頂尖賽事。參賽者都經(jīng)過了大量訓(xùn)練,每道題都有數(shù)小時的解答時間。

IMO真題是什么水平呢?它們能難倒全球數(shù)學(xué)能力最頂尖的高中生,甚至還能分分鐘勸退無數(shù)大學(xué)數(shù)學(xué)教授。

在2024年,美國隊的六名參賽者得分在87-99%之間。而陶哲軒在13歲時,就獲得了IMO的金牌。


這次,組委會希望了解,這些大模型是否能達到拿到奧數(shù)獎牌的里程碑級別,比如銅牌(前50%)、銀牌(前25%)甚至金牌(前8%)。

另外,為了防止「開卷作弊」這個問題,評測團隊特意選了一個巧妙的時間:題目剛剛發(fā)布,他們就開始讓AI們答題了,所以這些大模型不太可能在數(shù)據(jù)集中提前見過這些數(shù)學(xué)題。

可以說,這些基準(zhǔn)測試是既未受污染,又是可解釋的。

而AI們的所有答案,都是由兩位奧數(shù)專家評委雙盲評分的,標(biāo)準(zhǔn)的嚴(yán)苛程度堪比IMO官方。每道題滿分7分。

此次的參賽選手,陣容也是空前豪華,堪稱是AI界的夢之隊。

· o3(OpenAI扛把子)

· o4-mini(OpenAI小鋼炮)

· Gemini 2.5 Pro(谷歌第一大將)

· Grok-4(馬斯克家的理工男)

· DeepSeek-R1(國產(chǎn)尖子生)

之所以選擇這五位參賽選手,是因為它們此前都在MathArena中有出色的表現(xiàn)。

其中,每個模型都使用推薦的超參數(shù)運行,并且設(shè)置了64000的最大token限制。

Prompt如下——

你的任務(wù)是為以下問題寫出一個證明解決方案。你的證明將由人工評委根據(jù)準(zhǔn)確性、全面性和清晰性進行評分。在撰寫證明時,請遵循以下指南:

-你正在撰寫一份證明,而不是證明大綱。每一步都應(yīng)該仔細解釋并記錄。如果解釋不充分,評委將認(rèn)為你無法解釋清楚,從而降低你的分?jǐn)?shù)。

-你可以使用通用的定理和引理,但前提是它們必須是眾所周知的。一個簡單的判斷標(biāo)準(zhǔn)是:如果該結(jié)果有名稱,并且足夠有名以至于有維基百科頁面或類似的內(nèi)容對其進行描述,則允許使用。任何來自論文的結(jié)果,如果它不會在高中或本科低年級數(shù)學(xué)課程中教授,則不應(yīng)使用。任何此類結(jié)果的使用將立即導(dǎo)致你的成績?yōu)榱恪?/p>

-在你的證明中不要跳過計算步驟。清楚地解釋做了哪些變換,以及為什么在計算的每一步中這些變換是被允許的。

-你應(yīng)該使用正確的LaTeX符號來編寫公式和數(shù)學(xué)符號。你應(yīng)當(dāng)將這些公式包含在適當(dāng)?shù)姆栔校ㄐ袃?nèi)公式使用 "\\(" 和 "\\)",塊狀公式使用 "\\[" 和 "\\]"),以增強證明的清晰度。不要使用任何Unicode字符。

-你的證明應(yīng)該是自包含的。

-如果你對某個具體步驟不確定,或者不知道如何證明一個中間結(jié)果,請明確說明。指出你的不確定性比做出錯誤的陳述或主張要好得多。

為了公平,項目組這次采取了一種「best of 32」的策略。

也就是,每道題都會跑出32個不同答案,然后讓AI自己當(dāng)裁判,通過一輪輪PK選出最強解法后,才會送去給人類評審打分。這樣,模型在推理時,就會盡可能多地擴展計算資源。

因此,這次比賽可以說不僅是卷得離譜,燒錢也燒得令人心疼——

比如,Grok-4的單題評測成本就高達20美元,所以24題的總成本,就超過了480刀!

所以,大模型們的表現(xiàn)如何?

金銀銅,全軍覆沒

Gemini 2.5 Pro,全場最高分

Gemini 2.5 Pro在滿分42分的考卷中,拿到了13分,約等于31%。

這個分?jǐn)?shù),連銅牌的門檻都沒摸到。

而即使是作為表現(xiàn)最好的AI,Gemini也依然有不少毛病。

比如,遇到不會做的題時,它會編出一些看起來似乎很權(quán)威的假定理,比如「根據(jù)史密斯-約翰遜超平方引理可得」。

但實際上,這個定理根本就不存在!



此前Gemini 2.5 Pro的答題情況

Grok-4:翻車最嚴(yán)重,基本沒救了

而最近因為AI女友事件大出風(fēng)頭的Grok-4,則嚴(yán)重翻車了。

它的表現(xiàn)堪稱災(zāi)難:它給出的絕大多數(shù)答案只有最終結(jié)果,完全不解釋,整個就是一副「我懶得證明,我就是知道」的擺爛態(tài)度。

而顯著落后的一個選手除了Grok-4,還有DeepSeek-R1。

這兩個AI在此次奧數(shù)中的成績,相較于它們在MathArena基準(zhǔn)測試中的早期成績,退步明顯。


此前Grok 3 mini的答題情況

AI解題的獨特姿勢:做不出來,我就跳過

在這個過程中,研究者們還發(fā)現(xiàn)了AI做數(shù)學(xué)題的一個有趣現(xiàn)象。

通常,在人類選手參加IMO比賽時,他們要么一題全部做對,要么干脆拿0分,拿3分、4分這樣的中等分?jǐn)?shù),其實是很少見的。

不過大模型可就完全不一樣了,它們特別擅長考個「及格邊緣線」。

也就是說,它們時常能捕捉到正確的解題思路,方向是對的,但是一到最關(guān)鍵的地方就會掉鏈子,邏輯跳躍嚴(yán)重。

尤其是到了該證明的關(guān)鍵一步,它們就不證明了。而這恰恰是人類選手最不容易出錯的地方。

對此,評審組的感受是:AI現(xiàn)在已經(jīng)能抓住「人類感」的思路,但是在細節(jié)能力上,還是差點火候。

而如果AI們能把這些邏輯問題給搞定,未來它們的成績說不定還真能沖上領(lǐng)獎臺。


此前DeepSeek-R1的答題情況

2025 IMO真題

我們來看看,今年幾道IMO真題長什么樣子。

問題1:


問題2


問題3:


問題4:


問題5:


問題6:


AI離成為奧數(shù)大師,究竟還有多遠?

也許你會有疑問,自己平時測這些大模型的時候,做數(shù)學(xué)題并沒有這么強啊。

原因當(dāng)然就在于,這次大模型們的「Best-of-32」大法了,如果不是用了這個策略,很多模型的得分連10分都沒有。

這也就揭示出這樣一個現(xiàn)實:想要讓模型發(fā)揮得好,就得拼資源、拼算力、拼試錯次數(shù)。

如果只是普通用戶隨便跑一遍模型,根本不可能達到這種效果。

總之,這場「AI數(shù)學(xué)奧賽」,已經(jīng)暴露出了很多關(guān)鍵問題。比如想法沒問題,但存在邏輯鏈的短板;會判斷解法質(zhì)量,但還得靠大量計算。

或許再過幾年,某個AI真的能打出滿分42的神級操作,但顯然,今天的AI還達不到這個成就。

目前來說,人類數(shù)學(xué)選手們還是安全的,還可以放心睡個好覺。

參考資料:

https://x.com/j_dekoninck/status/1945848720211214671


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
比宮魯鳴被喊下課更糟的,是李夢現(xiàn)實處境,鄭薇的話終于有人信了

比宮魯鳴被喊下課更糟的,是李夢現(xiàn)實處境,鄭薇的話終于有人信了

河山銳新聞
2025-06-21 11:34:11
54歲王琳自曝“家丑”,被兒子打的牙出血,承認(rèn)自己水性楊花

54歲王琳自曝“家丑”,被兒子打的牙出血,承認(rèn)自己水性楊花

橙星文娛
2025-07-18 11:55:28
再堅持1個月,中國就能贏了?特朗普像變了個人,各種籌碼擺上桌

再堅持1個月,中國就能贏了?特朗普像變了個人,各種籌碼擺上桌

吳欣純Deborah
2025-07-19 11:38:10
彩虹T1無人機亮相,英媒驚呼比東風(fēng)21D還可怕

彩虹T1無人機亮相,英媒驚呼比東風(fēng)21D還可怕

鐵錘簡科
2025-07-19 16:23:08
宗慶后DNA被調(diào)取,3個私生子力證血緣關(guān)系,宗慶后72歲生小兒子?

宗慶后DNA被調(diào)取,3個私生子力證血緣關(guān)系,宗慶后72歲生小兒子?

削桐作琴
2025-07-14 20:20:04
山東省養(yǎng)老金方案將公布,調(diào)整方式不合理嗎?用低齡補高齡?

山東省養(yǎng)老金方案將公布,調(diào)整方式不合理嗎?用低齡補高齡?

興史興談
2025-07-20 08:28:19
司機過分了!領(lǐng)先還上于漢超,阿蘇埃一戰(zhàn)通過大考!國安被拖垮了

司機過分了!領(lǐng)先還上于漢超,阿蘇埃一戰(zhàn)通過大考!國安被拖垮了

刀鋒體育
2025-07-19 22:51:42
全球最大水電站工程開工!第99家央企中國雅江集團成立

全球最大水電站工程開工!第99家央企中國雅江集團成立

老楊說光伏
2025-07-19 22:43:43
合肥萬象城香奈兒柜姐與顧客互毆?警方通報

合肥萬象城香奈兒柜姐與顧客互毆?警方通報

界面新聞
2025-07-19 17:59:49
爆炸消息!特斯拉取得顛覆汽車制造創(chuàng)新技術(shù)!

爆炸消息!特斯拉取得顛覆汽車制造創(chuàng)新技術(shù)!

西莫的藝術(shù)宮殿
2025-07-19 10:23:28
48歲女子與男高考生爬泰山,雙雙墜崖后,遺書催人淚下:這輩子值了

48歲女子與男高考生爬泰山,雙雙墜崖后,遺書催人淚下:這輩子值了

罪案洞察者
2025-07-19 13:49:07
官方出手了,宗馥莉和她的三兄妹全輸了,三兄妹失億大小姐有麻煩

官方出手了,宗馥莉和她的三兄妹全輸了,三兄妹失億大小姐有麻煩

靜水流深003
2025-07-19 11:24:07
7月20日,河北省養(yǎng)老金補發(fā)到賬了?養(yǎng)老金2491元,上漲55.95元?

7月20日,河北省養(yǎng)老金補發(fā)到賬了?養(yǎng)老金2491元,上漲55.95元?

小舟談歷史
2025-07-20 10:29:18
被騙至緬甸失聯(lián)半個月的19歲高考生已找到,正準(zhǔn)備回國事宜,父母已趕至云南

被騙至緬甸失聯(lián)半個月的19歲高考生已找到,正準(zhǔn)備回國事宜,父母已趕至云南

極目新聞
2025-07-19 12:26:57
葉珂直言產(chǎn)女后被甩,黃曉明撤資否認(rèn)父愛,直播坦白掀網(wǎng)絡(luò)風(fēng)暴

葉珂直言產(chǎn)女后被甩,黃曉明撤資否認(rèn)父愛,直播坦白掀網(wǎng)絡(luò)風(fēng)暴

科學(xué)發(fā)掘
2025-07-20 02:51:25
叫南哥!蘇超積分榜:南通6連勝5分領(lǐng)跑&鹽城吞首敗,泰州升至第5

叫南哥!蘇超積分榜:南通6連勝5分領(lǐng)跑&鹽城吞首敗,泰州升至第5

直播吧
2025-07-19 21:54:12
美眾院壓倒性軍事支持烏克蘭!至少半年,德國才能交烏“愛國者”

美眾院壓倒性軍事支持烏克蘭!至少半年,德國才能交烏“愛國者”

鷹眼Defence
2025-07-19 18:20:01
英媒:魯比奧要求美駐外外交官不得評論別國選舉是否公正,標(biāo)志美外交政策重大轉(zhuǎn)變

英媒:魯比奧要求美駐外外交官不得評論別國選舉是否公正,標(biāo)志美外交政策重大轉(zhuǎn)變

環(huán)球網(wǎng)資訊
2025-07-18 22:57:57
來玩?zhèn)€大的,有沒有人敢爆自己的瓜的?怎么也想不到,能這么炸裂

來玩?zhèn)€大的,有沒有人敢爆自己的瓜的?怎么也想不到,能這么炸裂

特約前排觀眾
2025-07-19 00:10:03
泰晤士:巴薩將承擔(dān)拉什福德的全部工資,曼聯(lián)可節(jié)約1700萬鎊

泰晤士:巴薩將承擔(dān)拉什福德的全部工資,曼聯(lián)可節(jié)約1700萬鎊

懂球帝
2025-07-20 11:18:14
2025-07-20 13:15:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13102文章數(shù) 66099關(guān)注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創(chuàng)始人首次復(fù)盤

頭條要聞

巴西前總統(tǒng)博索納羅被勒令佩戴電子腳鐐 稱是極大羞辱

頭條要聞

巴西前總統(tǒng)博索納羅被勒令佩戴電子腳鐐 稱是極大羞辱

體育要聞

女籃無緣亞洲杯決賽 韓旭淚灑發(fā)布會

娛樂要聞

宗馥莉被起訴,富二代們坐不住了?

財經(jīng)要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態(tài)度原創(chuàng)

家居
旅游
時尚
健康
親子

家居要聞

簡構(gòu)智居 現(xiàn)代功能美學(xué)

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

伊姐周六熱推:電視劇《朝雪錄》;電視劇《櫻桃琥珀》......

呼吸科專家破解呼吸道九大謠言!

親子要聞

外媒編輯單手抱嬰兒玩《死亡擱淺》:跟著山姆學(xué)育兒

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 金塔县| 稻城县| 吴川市| 沁阳市| 和硕县| 周宁县| 宣化县| 桑日县| 延寿县| 桃源县| 苏尼特左旗| 安庆市| 南部县| 葵青区| 白山市| 青冈县| 神农架林区| 海淀区| 襄汾县| 双城市| 邯郸市| 永清县| 邮箱| 商南县| 历史| 清徐县| 巴马| 军事| 丹棱县| 广德县| 沂源县| 华安县| 运城市| 长子县| 儋州市| 平舆县| 会昌县| 大洼县| 银川市| 江达县| 蕉岭县|