新智元報(bào)道
編輯:桃子
【新智元導(dǎo)讀】不到兩年,我們會(huì)見證AI數(shù)學(xué)家的重大突破!最新實(shí)驗(yàn)中,o4-mini與40位數(shù)學(xué)家,一同挑戰(zhàn)300道菲爾茲獎(jiǎng)級(jí)難題。o4-mini一舉擊敗6組團(tuán)隊(duì),超越人類平均水平。
八支「數(shù)學(xué)家天團(tuán)」和o4-mini-medium同臺(tái)競技,誰會(huì)最終勝出?
最近,Epoch AI團(tuán)隊(duì)舉辦了一場競賽,專門考察AI數(shù)學(xué)能力的進(jìn)展。
這場比賽邀請了約40位數(shù)學(xué)精英,分成8組,每組由學(xué)科專家和優(yōu)秀本科生組成。
他們要與AI一同在陶哲軒等人提出的FrontierMath基準(zhǔn)上,展開終極對決。
比賽一共23題,限時(shí)4.5小時(shí),實(shí)驗(yàn)最終得出:
o4-mini-medium碾壓人類平均水平(19%),解決了約22%題目。
不過,o4-mini能夠解決的問題,至少被一組數(shù)學(xué)家團(tuán)隊(duì)破解。由此,人類團(tuán)隊(duì)總體上解決了約35%的題目。
結(jié)果顯示,o4-mini一共擊敗六組團(tuán)隊(duì),在數(shù)學(xué)領(lǐng)域展現(xiàn)了驚人的潛力。
谷歌前CEO Eric Schmidt預(yù)測,未來1-2年內(nèi),「超級(jí)程序員」和「AI數(shù)學(xué)家」將取得重大突破。
o4-mini,作為AI的代表,便是一個(gè)很好的開始。
菲爾茲獎(jiǎng)得主出題,AI擊敗6隊(duì)
提及FrontierMath,想必圈內(nèi)人無人不知。
這一基準(zhǔn)于24年11月首次亮相,由菲爾茲獎(jiǎng)得主與業(yè)內(nèi)多位著名數(shù)學(xué)家共同出題,挑戰(zhàn)AI數(shù)學(xué)能力的極限。
它包含300個(gè)問題,難度從高年級(jí)本科生水平到菲爾茲獎(jiǎng)得主都認(rèn)為具有挑戰(zhàn)性的問題。
那么,這么多數(shù)學(xué)難題,人類在其表現(xiàn)中如何呢?
為了確定人類極限,Epoch AI便在MIT組織了這場比賽——FrontierMath Competition。
如上所述,每組被分成4-5人的8組團(tuán)隊(duì),在聯(lián)網(wǎng)情況下,最多用4.5h去解決23個(gè)數(shù)學(xué)題。最后,再與o4-mini-medium進(jìn)行比拼。
o4-mini-medium的表現(xiàn)雖超過了平均人類團(tuán)隊(duì),但不如所有團(tuán)隊(duì)的綜合得分。
因此,在FrontierMath上,AI尚未完全超越人類,但Epoch AI認(rèn)為頂尖模型很快就會(huì)做到。
目前,這份數(shù)據(jù)僅代表FrontierMath的一個(gè)小型非代表性子集。
若綜合考慮,人類整體基準(zhǔn)大約在30-50%之間。
接下來,Epoch AI詳細(xì)解釋了關(guān)于人類基準(zhǔn)結(jié)果的四個(gè)關(guān)鍵點(diǎn),包括其中來源和含義。
人類選手,并不代表數(shù)學(xué)SOTA
人類團(tuán)隊(duì)的表現(xiàn),因團(tuán)隊(duì)而異構(gòu)成。
由于參賽者主要來自波士頓數(shù)學(xué)社區(qū),分析領(lǐng)域的專家較少,導(dǎo)致了整體專長分布不均。
每隊(duì)雖至少有一名某一領(lǐng)域的專家,但也沒有哪支隊(duì)伍在所有高級(jí)領(lǐng)域,如拓?fù)鋵W(xué)、代數(shù)幾何、組合數(shù)學(xué)、數(shù)論等都有專家覆蓋。
這使得人類平均分,可能低估了真實(shí)水平。
最重要的是,比賽4.5小時(shí)時(shí)間,可能限制了人類的表現(xiàn)。AI解決每題只需5-20分鐘,而人類平均耗時(shí)約40分鐘。
此前研究表明,人類在長時(shí)間任務(wù)上表現(xiàn)更具潛力,而AI性能可能在一定時(shí)間后趨于平穩(wěn)。
為了更全面評估,研究團(tuán)隊(duì)采用了兩種方式計(jì)算人類基準(zhǔn):
1. 團(tuán)隊(duì)平均得分:每支隊(duì)伍獨(dú)立表現(xiàn),得分約19%
2. 綜合得分:如果任一隊(duì)答對某題就算正確,得分提升至約35%
若要為整個(gè)FrontierMath設(shè)定人類基準(zhǔn),還需解決第二個(gè)問題:比賽問題的難度分布與完整 FrontierMath數(shù)據(jù)集不同。
為此,研究人員按難度層級(jí)拆分結(jié)果,并根據(jù)完整基準(zhǔn)的難度分布加權(quán)總體得分。
結(jié)果,按整體難度分布加權(quán)后,人類基準(zhǔn)提升到約30%,基于「多次嘗試」方法,更是刷新到了52%。
而此時(shí),AI的加權(quán)得分約為37%。
Epoch AI指出,o4-mini-medium得分提升,是因?yàn)楸荣愔械腡ier 1/Tier 2問題相對完整基準(zhǔn)的同級(jí)問題較簡單,說明了這一調(diào)整方法仍不理想。
設(shè)計(jì)巧思:推理而非知識(shí)
FrontierMath比賽的獨(dú)特之處在于,它更注重?cái)?shù)學(xué)推理能力,而非單純的知識(shí)儲(chǔ)備。
當(dāng)前,AI在知識(shí)廣度上遠(yuǎn)超人類——可以輕松調(diào)用數(shù)學(xué)、微分幾何等龐大知識(shí)庫,而人類很難精通所有領(lǐng)域。
因此,比賽題目被精心設(shè)計(jì),盡量減少對背景知識(shí)的依賴。
比如,研究人員選用了7道適合優(yōu)秀本科生的「通用問題」,以及16道專為專家定制的「高級(jí)問題」。
這些題目主要覆蓋了四大類:拓?fù)鋵W(xué)、代數(shù)幾何、組合數(shù)學(xué)和數(shù)論。
為了激勵(lì)參賽者挑戰(zhàn)高難度題目,比賽還采用了特殊計(jì)分規(guī)則:
高級(jí)題目每題2分,通用題目每題1分;每個(gè)領(lǐng)域至少答對一題可額外加1分。
此外,獎(jiǎng)金池也非常誘人,第一名1000美元,第二名800美元,第三名400美元。
全面超越人類,指日可待?
盡管o4-mini-medium在FrontierMath上,尚未完全超越人類,但其表現(xiàn)已令人矚目。
它在比賽的得分不僅于人類頂尖團(tuán)隊(duì)相當(dāng),而且在知識(shí)廣度上占據(jù)巨大優(yōu)勢。
Epoch AI預(yù)測,到2025年底,AI和可能明確超越30%-50%的人類基準(zhǔn)。
有網(wǎng)友對此表示,要讓AI成為超人的存在,必須定期解決人類數(shù)學(xué)家無法解決的問題。
然而,AI的成功機(jī)制依然是一道謎題。
它們究竟是靠猜測解題,還是真正掌握了數(shù)學(xué)推理?與人類的方法相比,有何不同?
在研究人員看來,這些問題有待進(jìn)一步探索。
此外,F(xiàn)rontierMath的題目并非實(shí)際數(shù)學(xué)研究的直接代表,o4-mini的超人表現(xiàn)是否會(huì)轉(zhuǎn)化為研究突破,仍需要時(shí)間來驗(yàn)證。
參考資料:
https://x.com/EpochAIResearch/status/1926031207482953794
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.