o4-mini暴擊六大數(shù)學(xué)天團(tuán)，攻破陶哲軒難題！4.5h激戰(zhàn)人類陣地失守

2025-05-27 16:10:10　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：桃子

【新智元導(dǎo)讀】不到兩年，我們會(huì)見證AI數(shù)學(xué)家的重大突破！最新實(shí)驗(yàn)中，o4-mini與40位數(shù)學(xué)家，一同挑戰(zhàn)300道菲爾茲獎(jiǎng)級(jí)難題。o4-mini一舉擊敗6組團(tuán)隊(duì)，超越人類平均水平。

八支「數(shù)學(xué)家天團(tuán)」和o4-mini-medium同臺(tái)競技，誰會(huì)最終勝出？

最近，Epoch AI團(tuán)隊(duì)舉辦了一場競賽，專門考察AI數(shù)學(xué)能力的進(jìn)展。

這場比賽邀請了約40位數(shù)學(xué)精英，分成8組，每組由學(xué)科專家和優(yōu)秀本科生組成。

他們要與AI一同在陶哲軒等人提出的FrontierMath基準(zhǔn)上，展開終極對決。

比賽一共23題，限時(shí)4.5小時(shí)，實(shí)驗(yàn)最終得出：

o4-mini-medium碾壓人類平均水平（19%），解決了約22%題目。

不過，o4-mini能夠解決的問題，至少被一組數(shù)學(xué)家團(tuán)隊(duì)破解。由此，人類團(tuán)隊(duì)總體上解決了約35%的題目。

結(jié)果顯示，o4-mini一共擊敗六組團(tuán)隊(duì)，在數(shù)學(xué)領(lǐng)域展現(xiàn)了驚人的潛力。

谷歌前CEO Eric Schmidt預(yù)測，未來1-2年內(nèi)，「超級(jí)程序員」和「AI數(shù)學(xué)家」將取得重大突破。

o4-mini，作為AI的代表，便是一個(gè)很好的開始。

菲爾茲獎(jiǎng)得主出題，AI擊敗6隊(duì)

提及FrontierMath，想必圈內(nèi)人無人不知。

這一基準(zhǔn)于24年11月首次亮相，由菲爾茲獎(jiǎng)得主與業(yè)內(nèi)多位著名數(shù)學(xué)家共同出題，挑戰(zhàn)AI數(shù)學(xué)能力的極限。

它包含300個(gè)問題，難度從高年級(jí)本科生水平到菲爾茲獎(jiǎng)得主都認(rèn)為具有挑戰(zhàn)性的問題。

那么，這么多數(shù)學(xué)難題，人類在其表現(xiàn)中如何呢？

為了確定人類極限，Epoch AI便在MIT組織了這場比賽——FrontierMath Competition。

如上所述，每組被分成4-5人的8組團(tuán)隊(duì)，在聯(lián)網(wǎng)情況下，最多用4.5h去解決23個(gè)數(shù)學(xué)題。最后，再與o4-mini-medium進(jìn)行比拼。

o4-mini-medium的表現(xiàn)雖超過了平均人類團(tuán)隊(duì)，但不如所有團(tuán)隊(duì)的綜合得分。

因此，在FrontierMath上，AI尚未完全超越人類，但Epoch AI認(rèn)為頂尖模型很快就會(huì)做到。

目前，這份數(shù)據(jù)僅代表FrontierMath的一個(gè)小型非代表性子集。

若綜合考慮，人類整體基準(zhǔn)大約在30-50%之間。

接下來，Epoch AI詳細(xì)解釋了關(guān)于人類基準(zhǔn)結(jié)果的四個(gè)關(guān)鍵點(diǎn)，包括其中來源和含義。

人類選手，并不代表數(shù)學(xué)SOTA

人類團(tuán)隊(duì)的表現(xiàn)，因團(tuán)隊(duì)而異構(gòu)成。

由于參賽者主要來自波士頓數(shù)學(xué)社區(qū)，分析領(lǐng)域的專家較少，導(dǎo)致了整體專長分布不均。

每隊(duì)雖至少有一名某一領(lǐng)域的專家，但也沒有哪支隊(duì)伍在所有高級(jí)領(lǐng)域，如拓?fù)鋵W(xué)、代數(shù)幾何、組合數(shù)學(xué)、數(shù)論等都有專家覆蓋。

這使得人類平均分，可能低估了真實(shí)水平。

最重要的是，比賽4.5小時(shí)時(shí)間，可能限制了人類的表現(xiàn)。AI解決每題只需5-20分鐘，而人類平均耗時(shí)約40分鐘。

此前研究表明，人類在長時(shí)間任務(wù)上表現(xiàn)更具潛力，而AI性能可能在一定時(shí)間后趨于平穩(wěn)。

為了更全面評估，研究團(tuán)隊(duì)采用了兩種方式計(jì)算人類基準(zhǔn)：

1. 團(tuán)隊(duì)平均得分：每支隊(duì)伍獨(dú)立表現(xiàn)，得分約19%

2. 綜合得分：如果任一隊(duì)答對某題就算正確，得分提升至約35%

若要為整個(gè)FrontierMath設(shè)定人類基準(zhǔn)，還需解決第二個(gè)問題：比賽問題的難度分布與完整 FrontierMath數(shù)據(jù)集不同。

為此，研究人員按難度層級(jí)拆分結(jié)果，并根據(jù)完整基準(zhǔn)的難度分布加權(quán)總體得分。

結(jié)果，按整體難度分布加權(quán)后，人類基準(zhǔn)提升到約30%，基于「多次嘗試」方法，更是刷新到了52%。

而此時(shí)，AI的加權(quán)得分約為37%。

Epoch AI指出，o4-mini-medium得分提升，是因?yàn)楸荣愔械腡ier 1/Tier 2問題相對完整基準(zhǔn)的同級(jí)問題較簡單，說明了這一調(diào)整方法仍不理想。

設(shè)計(jì)巧思：推理而非知識(shí)

FrontierMath比賽的獨(dú)特之處在于，它更注重?cái)?shù)學(xué)推理能力，而非單純的知識(shí)儲(chǔ)備。

當(dāng)前，AI在知識(shí)廣度上遠(yuǎn)超人類——可以輕松調(diào)用數(shù)學(xué)、微分幾何等龐大知識(shí)庫，而人類很難精通所有領(lǐng)域。

因此，比賽題目被精心設(shè)計(jì)，盡量減少對背景知識(shí)的依賴。

比如，研究人員選用了7道適合優(yōu)秀本科生的「通用問題」，以及16道專為專家定制的「高級(jí)問題」。

這些題目主要覆蓋了四大類：拓?fù)鋵W(xué)、代數(shù)幾何、組合數(shù)學(xué)和數(shù)論。

為了激勵(lì)參賽者挑戰(zhàn)高難度題目，比賽還采用了特殊計(jì)分規(guī)則：

高級(jí)題目每題2分，通用題目每題1分；每個(gè)領(lǐng)域至少答對一題可額外加1分。

此外，獎(jiǎng)金池也非常誘人，第一名1000美元，第二名800美元，第三名400美元。

全面超越人類，指日可待？

盡管o4-mini-medium在FrontierMath上，尚未完全超越人類，但其表現(xiàn)已令人矚目。

它在比賽的得分不僅于人類頂尖團(tuán)隊(duì)相當(dāng)，而且在知識(shí)廣度上占據(jù)巨大優(yōu)勢。

Epoch AI預(yù)測，到2025年底，AI和可能明確超越30%-50%的人類基準(zhǔn)。

有網(wǎng)友對此表示，要讓AI成為超人的存在，必須定期解決人類數(shù)學(xué)家無法解決的問題。

然而，AI的成功機(jī)制依然是一道謎題。

它們究竟是靠猜測解題，還是真正掌握了數(shù)學(xué)推理？與人類的方法相比，有何不同？

在研究人員看來，這些問題有待進(jìn)一步探索。

此外，F(xiàn)rontierMath的題目并非實(shí)際數(shù)學(xué)研究的直接代表，o4-mini的超人表現(xiàn)是否會(huì)轉(zhuǎn)化為研究突破，仍需要時(shí)間來驗(yàn)證。

參考資料：

https://x.com/EpochAIResearch/status/1926031207482953794

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.