2025 IMO真題撕碎AI數(shù)學(xué)神話，全球頂尖模型齊翻車！冠軍銅牌都拿不到

2025-07-18 12:43:52　來源: 新智元

北京舉報

分享至

新智元報道

編輯：Aeneas

【新智元導(dǎo)讀】AI做奧數(shù)的神話，剛剛被戳破了！最新出爐的2025 IMO數(shù)學(xué)競賽中，全球頂尖AI模型無一例外翻車了。即便是冠軍Gemini也只拿下可憐的31分，連銅牌都摸不到。Grok-4更是擺爛到底，連DeepSeek-R1都令人失望?？磥?，AI想挑戰(zhàn)人類奧數(shù)大神，還為時尚早。

如果你以為，如今的LLM已經(jīng)無所不能，那剛剛出爐的2025大模型數(shù)學(xué)競賽結(jié)果，恐怕要讓你大跌眼鏡了。

現(xiàn)在，各模型的分?jǐn)?shù)已經(jīng)在MathArena上發(fā)布。

怎么說呢，所有大模型都翻車了。

即使得分最高的冠軍Gemini，也只拿到了31%的分?jǐn)?shù)。憑這個成績，連拿銅牌都不大可能。

也就是說，AI想超越目前頂級的人類數(shù)學(xué)選手，還差得遠呢。

蘇黎世聯(lián)邦理工學(xué)院SRI實驗室的博士生Jasper Dekoninck，發(fā)了一篇博客記錄此次大賽的詳細過程。

大模型參加數(shù)學(xué)競賽，全部翻車！

在今年4月，來自ETH Zurich等機構(gòu)的MathArena團隊，就曾推翻AI會做數(shù)學(xué)題這個神話。

而在這屆2025國際數(shù)學(xué)奧林匹克（IMO）上，全球的AI頂流們又齊聚一堂了。

為了測驗AI們的數(shù)學(xué)能力天花板，MathArena項目組這次祭出了數(shù)學(xué)界的終極boss——2025年IMO真題。

國際學(xué)生奧林匹克競賽（IMO）是全球18歲以下數(shù)學(xué)學(xué)生的頂尖賽事。參賽者都經(jīng)過了大量訓(xùn)練，每道題都有數(shù)小時的解答時間。

IMO真題是什么水平呢？它們能難倒全球數(shù)學(xué)能力最頂尖的高中生，甚至還能分分鐘勸退無數(shù)大學(xué)數(shù)學(xué)教授。

在2024年，美國隊的六名參賽者得分在87-99%之間。而陶哲軒在13歲時，就獲得了IMO的金牌。

這次，組委會希望了解，這些大模型是否能達到拿到奧數(shù)獎牌的里程碑級別，比如銅牌（前50%）、銀牌（前25%）甚至金牌（前8%）。

另外，為了防止「開卷作弊」這個問題，評測團隊特意選了一個巧妙的時間：題目剛剛發(fā)布，他們就開始讓AI們答題了，所以這些大模型不太可能在數(shù)據(jù)集中提前見過這些數(shù)學(xué)題。

可以說，這些基準(zhǔn)測試是既未受污染，又是可解釋的。

而AI們的所有答案，都是由兩位奧數(shù)專家評委雙盲評分的，標(biāo)準(zhǔn)的嚴(yán)苛程度堪比IMO官方。每道題滿分7分。

此次的參賽選手，陣容也是空前豪華，堪稱是AI界的夢之隊。

· o3（OpenAI扛把子）

· o4-mini（OpenAI小鋼炮）

· Gemini 2.5 Pro（谷歌第一大將）

· Grok-4（馬斯克家的理工男）

· DeepSeek-R1（國產(chǎn)尖子生）

之所以選擇這五位參賽選手，是因為它們此前都在MathArena中有出色的表現(xiàn)。

其中，每個模型都使用推薦的超參數(shù)運行，并且設(shè)置了64000的最大token限制。

Prompt如下——

你的任務(wù)是為以下問題寫出一個證明解決方案。你的證明將由人工評委根據(jù)準(zhǔn)確性、全面性和清晰性進行評分。在撰寫證明時，請遵循以下指南：

-你正在撰寫一份證明，而不是證明大綱。每一步都應(yīng)該仔細解釋并記錄。如果解釋不充分，評委將認(rèn)為你無法解釋清楚，從而降低你的分?jǐn)?shù)。

-你可以使用通用的定理和引理，但前提是它們必須是眾所周知的。一個簡單的判斷標(biāo)準(zhǔn)是：如果該結(jié)果有名稱，并且足夠有名以至于有維基百科頁面或類似的內(nèi)容對其進行描述，則允許使用。任何來自論文的結(jié)果，如果它不會在高中或本科低年級數(shù)學(xué)課程中教授，則不應(yīng)使用。任何此類結(jié)果的使用將立即導(dǎo)致你的成績?yōu)榱恪?/p>

-在你的證明中不要跳過計算步驟。清楚地解釋做了哪些變換，以及為什么在計算的每一步中這些變換是被允許的。

-你應(yīng)該使用正確的LaTeX符號來編寫公式和數(shù)學(xué)符號。你應(yīng)當(dāng)將這些公式包含在適當(dāng)?shù)姆栔校ㄐ袃?nèi)公式使用 "\\(" 和 "\\)"，塊狀公式使用 "\\[" 和 "\\]"），以增強證明的清晰度。不要使用任何Unicode字符。

-你的證明應(yīng)該是自包含的。

-如果你對某個具體步驟不確定，或者不知道如何證明一個中間結(jié)果，請明確說明。指出你的不確定性比做出錯誤的陳述或主張要好得多。

為了公平，項目組這次采取了一種「best of 32」的策略。

也就是，每道題都會跑出32個不同答案，然后讓AI自己當(dāng)裁判，通過一輪輪PK選出最強解法后，才會送去給人類評審打分。這樣，模型在推理時，就會盡可能多地擴展計算資源。

因此，這次比賽可以說不僅是卷得離譜，燒錢也燒得令人心疼——

比如，Grok-4的單題評測成本就高達20美元，所以24題的總成本，就超過了480刀！

所以，大模型們的表現(xiàn)如何？

金銀銅，全軍覆沒

Gemini 2.5 Pro，全場最高分

Gemini 2.5 Pro在滿分42分的考卷中，拿到了13分，約等于31%。

這個分?jǐn)?shù)，連銅牌的門檻都沒摸到。

而即使是作為表現(xiàn)最好的AI，Gemini也依然有不少毛病。

比如，遇到不會做的題時，它會編出一些看起來似乎很權(quán)威的假定理，比如「根據(jù)史密斯-約翰遜超平方引理可得」。

但實際上，這個定理根本就不存在！

此前Gemini 2.5 Pro的答題情況

Grok-4：翻車最嚴(yán)重，基本沒救了

而最近因為AI女友事件大出風(fēng)頭的Grok-4，則嚴(yán)重翻車了。

它的表現(xiàn)堪稱災(zāi)難：它給出的絕大多數(shù)答案只有最終結(jié)果，完全不解釋，整個就是一副「我懶得證明，我就是知道」的擺爛態(tài)度。

而顯著落后的一個選手除了Grok-4，還有DeepSeek-R1。

這兩個AI在此次奧數(shù)中的成績，相較于它們在MathArena基準(zhǔn)測試中的早期成績，退步明顯。

此前Grok 3 mini的答題情況

AI解題的獨特姿勢：做不出來，我就跳過

在這個過程中，研究者們還發(fā)現(xiàn)了AI做數(shù)學(xué)題的一個有趣現(xiàn)象。

通常，在人類選手參加IMO比賽時，他們要么一題全部做對，要么干脆拿0分，拿3分、4分這樣的中等分?jǐn)?shù)，其實是很少見的。

不過大模型可就完全不一樣了，它們特別擅長考個「及格邊緣線」。

也就是說，它們時常能捕捉到正確的解題思路，方向是對的，但是一到最關(guān)鍵的地方就會掉鏈子，邏輯跳躍嚴(yán)重。

尤其是到了該證明的關(guān)鍵一步，它們就不證明了。而這恰恰是人類選手最不容易出錯的地方。

對此，評審組的感受是：AI現(xiàn)在已經(jīng)能抓住「人類感」的思路，但是在細節(jié)能力上，還是差點火候。

而如果AI們能把這些邏輯問題給搞定，未來它們的成績說不定還真能沖上領(lǐng)獎臺。

此前DeepSeek-R1的答題情況

2025 IMO真題

我們來看看，今年幾道IMO真題長什么樣子。

問題1：

問題2：

問題3：

問題4：

問題5：

問題6：

AI離成為奧數(shù)大師，究竟還有多遠？

也許你會有疑問，自己平時測這些大模型的時候，做數(shù)學(xué)題并沒有這么強啊。

原因當(dāng)然就在于，這次大模型們的「Best-of-32」大法了，如果不是用了這個策略，很多模型的得分連10分都沒有。

這也就揭示出這樣一個現(xiàn)實：想要讓模型發(fā)揮得好，就得拼資源、拼算力、拼試錯次數(shù)。

如果只是普通用戶隨便跑一遍模型，根本不可能達到這種效果。

總之，這場「AI數(shù)學(xué)奧賽」，已經(jīng)暴露出了很多關(guān)鍵問題。比如想法沒問題，但存在邏輯鏈的短板；會判斷解法質(zhì)量，但還得靠大量計算。

或許再過幾年，某個AI真的能打出滿分42的神級操作，但顯然，今天的AI還達不到這個成就。

目前來說，人類數(shù)學(xué)選手們還是安全的，還可以放心睡個好覺。

參考資料：

https://x.com/j_dekoninck/status/1945848720211214671

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.