99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

o4-mini暴擊六大數(shù)學(xué)天團(tuán),攻破陶哲軒難題!4.5h激戰(zhàn)人類陣地失守

0
分享至


新智元報(bào)道

編輯:桃子

【新智元導(dǎo)讀】不到兩年,我們會(huì)見證AI數(shù)學(xué)家的重大突破!最新實(shí)驗(yàn)中,o4-mini與40位數(shù)學(xué)家,一同挑戰(zhàn)300道菲爾茲獎(jiǎng)級(jí)難題。o4-mini一舉擊敗6組團(tuán)隊(duì),超越人類平均水平。

八支「數(shù)學(xué)家天團(tuán)」和o4-mini-medium同臺(tái)競技,誰會(huì)最終勝出?

最近,Epoch AI團(tuán)隊(duì)舉辦了一場競賽,專門考察AI數(shù)學(xué)能力的進(jìn)展。


這場比賽邀請了約40位數(shù)學(xué)精英,分成8組,每組由學(xué)科專家和優(yōu)秀本科生組成。

他們要與AI一同在陶哲軒等人提出的FrontierMath基準(zhǔn)上,展開終極對決。

比賽一共23題,限時(shí)4.5小時(shí),實(shí)驗(yàn)最終得出:

o4-mini-medium碾壓人類平均水平(19%),解決了約22%題目。

不過,o4-mini能夠解決的問題,至少被一組數(shù)學(xué)家團(tuán)隊(duì)破解。由此,人類團(tuán)隊(duì)總體上解決了約35%的題目。


結(jié)果顯示,o4-mini一共擊敗六組團(tuán)隊(duì),在數(shù)學(xué)領(lǐng)域展現(xiàn)了驚人的潛力。

谷歌前CEO Eric Schmidt預(yù)測,未來1-2年內(nèi),「超級(jí)程序員」和「AI數(shù)學(xué)家」將取得重大突破。


o4-mini,作為AI的代表,便是一個(gè)很好的開始。

菲爾茲獎(jiǎng)得主出題,AI擊敗6隊(duì)

提及FrontierMath,想必圈內(nèi)人無人不知。

這一基準(zhǔn)于24年11月首次亮相,由菲爾茲獎(jiǎng)得主與業(yè)內(nèi)多位著名數(shù)學(xué)家共同出題,挑戰(zhàn)AI數(shù)學(xué)能力的極限。


它包含300個(gè)問題,難度從高年級(jí)本科生水平到菲爾茲獎(jiǎng)得主都認(rèn)為具有挑戰(zhàn)性的問題。

那么,這么多數(shù)學(xué)難題,人類在其表現(xiàn)中如何呢?

為了確定人類極限,Epoch AI便在MIT組織了這場比賽——FrontierMath Competition。


如上所述,每組被分成4-5人的8組團(tuán)隊(duì),在聯(lián)網(wǎng)情況下,最多用4.5h去解決23個(gè)數(shù)學(xué)題。最后,再與o4-mini-medium進(jìn)行比拼。

o4-mini-medium的表現(xiàn)雖超過了平均人類團(tuán)隊(duì),但不如所有團(tuán)隊(duì)的綜合得分。

因此,在FrontierMath上,AI尚未完全超越人類,但Epoch AI認(rèn)為頂尖模型很快就會(huì)做到。

目前,這份數(shù)據(jù)僅代表FrontierMath的一個(gè)小型非代表性子集。

若綜合考慮,人類整體基準(zhǔn)大約在30-50%之間。

接下來,Epoch AI詳細(xì)解釋了關(guān)于人類基準(zhǔn)結(jié)果的四個(gè)關(guān)鍵點(diǎn),包括其中來源和含義。

人類選手,并不代表數(shù)學(xué)SOTA

人類團(tuán)隊(duì)的表現(xiàn),因團(tuán)隊(duì)而異構(gòu)成。

由于參賽者主要來自波士頓數(shù)學(xué)社區(qū),分析領(lǐng)域的專家較少,導(dǎo)致了整體專長分布不均。

每隊(duì)雖至少有一名某一領(lǐng)域的專家,但也沒有哪支隊(duì)伍在所有高級(jí)領(lǐng)域,如拓?fù)鋵W(xué)、代數(shù)幾何、組合數(shù)學(xué)、數(shù)論等都有專家覆蓋。

這使得人類平均分,可能低估了真實(shí)水平。

最重要的是,比賽4.5小時(shí)時(shí)間,可能限制了人類的表現(xiàn)。AI解決每題只需5-20分鐘,而人類平均耗時(shí)約40分鐘。

此前研究表明,人類在長時(shí)間任務(wù)上表現(xiàn)更具潛力,而AI性能可能在一定時(shí)間后趨于平穩(wěn)。

為了更全面評估,研究團(tuán)隊(duì)采用了兩種方式計(jì)算人類基準(zhǔn):

1. 團(tuán)隊(duì)平均得分:每支隊(duì)伍獨(dú)立表現(xiàn),得分約19%

2. 綜合得分:如果任一隊(duì)答對某題就算正確,得分提升至約35%

若要為整個(gè)FrontierMath設(shè)定人類基準(zhǔn),還需解決第二個(gè)問題:比賽問題的難度分布與完整 FrontierMath數(shù)據(jù)集不同。

為此,研究人員按難度層級(jí)拆分結(jié)果,并根據(jù)完整基準(zhǔn)的難度分布加權(quán)總體得分。


結(jié)果,按整體難度分布加權(quán)后,人類基準(zhǔn)提升到約30%,基于「多次嘗試」方法,更是刷新到了52%。

而此時(shí),AI的加權(quán)得分約為37%。

Epoch AI指出,o4-mini-medium得分提升,是因?yàn)楸荣愔械腡ier 1/Tier 2問題相對完整基準(zhǔn)的同級(jí)問題較簡單,說明了這一調(diào)整方法仍不理想。

設(shè)計(jì)巧思:推理而非知識(shí)

FrontierMath比賽的獨(dú)特之處在于,它更注重?cái)?shù)學(xué)推理能力,而非單純的知識(shí)儲(chǔ)備。

當(dāng)前,AI在知識(shí)廣度上遠(yuǎn)超人類——可以輕松調(diào)用數(shù)學(xué)、微分幾何等龐大知識(shí)庫,而人類很難精通所有領(lǐng)域。


因此,比賽題目被精心設(shè)計(jì),盡量減少對背景知識(shí)的依賴。

比如,研究人員選用了7道適合優(yōu)秀本科生的「通用問題」,以及16道專為專家定制的「高級(jí)問題」。

這些題目主要覆蓋了四大類:拓?fù)鋵W(xué)、代數(shù)幾何、組合數(shù)學(xué)和數(shù)論。

為了激勵(lì)參賽者挑戰(zhàn)高難度題目,比賽還采用了特殊計(jì)分規(guī)則:

高級(jí)題目每題2分,通用題目每題1分;每個(gè)領(lǐng)域至少答對一題可額外加1分。

此外,獎(jiǎng)金池也非常誘人,第一名1000美元,第二名800美元,第三名400美元。

全面超越人類,指日可待?

盡管o4-mini-medium在FrontierMath上,尚未完全超越人類,但其表現(xiàn)已令人矚目。

它在比賽的得分不僅于人類頂尖團(tuán)隊(duì)相當(dāng),而且在知識(shí)廣度上占據(jù)巨大優(yōu)勢。

Epoch AI預(yù)測,到2025年底,AI和可能明確超越30%-50%的人類基準(zhǔn)。


有網(wǎng)友對此表示,要讓AI成為超人的存在,必須定期解決人類數(shù)學(xué)家無法解決的問題。


然而,AI的成功機(jī)制依然是一道謎題。

它們究竟是靠猜測解題,還是真正掌握了數(shù)學(xué)推理?與人類的方法相比,有何不同?

在研究人員看來,這些問題有待進(jìn)一步探索。

此外,F(xiàn)rontierMath的題目并非實(shí)際數(shù)學(xué)研究的直接代表,o4-mini的超人表現(xiàn)是否會(huì)轉(zhuǎn)化為研究突破,仍需要時(shí)間來驗(yàn)證。

參考資料:

https://x.com/EpochAIResearch/status/1926031207482953794


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
李敖女兒辣評馬筱梅:鄉(xiāng)下人,老北京人3點(diǎn)不具備,建議她學(xué)禮儀

李敖女兒辣評馬筱梅:鄉(xiāng)下人,老北京人3點(diǎn)不具備,建議她學(xué)禮儀

洲洲影視娛評
2025-05-27 18:26:33
伊朗徹底完了?是的!哈梅內(nèi)伊神操作,總是在正確時(shí)候做錯(cuò)誤選擇

伊朗徹底完了?是的!哈梅內(nèi)伊神操作,總是在正確時(shí)候做錯(cuò)誤選擇

步論天下事
2025-05-26 16:04:21
大型食肉猛禽驚現(xiàn)河北!市民注意!

大型食肉猛禽驚現(xiàn)河北!市民注意!

掌中邯鄲
2025-05-28 18:28:21
恩里克時(shí)隔十年再進(jìn)歐冠決賽,但小女兒莎娜已不在人世

恩里克時(shí)隔十年再進(jìn)歐冠決賽,但小女兒莎娜已不在人世

雷速體育
2025-05-28 17:27:42
18年前母親帶著我嫁給繼父,18年后我被婆家欺負(fù),繼父兒子挺身而出

18年前母親帶著我嫁給繼父,18年后我被婆家欺負(fù),繼父兒子挺身而出

澤澤先生
2025-05-27 14:51:23
中央列出違反八項(xiàng)規(guī)定清單80條

中央列出違反八項(xiàng)規(guī)定清單80條

小江網(wǎng)評
2025-05-28 13:57:25
名牌大學(xué)66歲教授凌晨墜崖,救援趕到時(shí),竟發(fā)現(xiàn)旁邊躺一女學(xué)生

名牌大學(xué)66歲教授凌晨墜崖,救援趕到時(shí),竟發(fā)現(xiàn)旁邊躺一女學(xué)生

罪案洞察者
2025-05-28 14:01:04
農(nóng)歷五月初,哪些生肖財(cái)源廣進(jìn)?快來看看有你嗎?

農(nóng)歷五月初,哪些生肖財(cái)源廣進(jìn)?快來看看有你嗎?

富貴說
2025-05-29 00:01:05
鄭欽文在法網(wǎng)賽場上的系鞋帶速度為何能驚呆外國人?

鄭欽文在法網(wǎng)賽場上的系鞋帶速度為何能驚呆外國人?

大眼瞄世界
2025-05-28 23:54:22
吉布森:德拉普并非霍伊倫的升級(jí)版,曼聯(lián)更需要奧斯梅恩

吉布森:德拉普并非霍伊倫的升級(jí)版,曼聯(lián)更需要奧斯梅恩

直播吧
2025-05-29 00:05:11
王紫璇寫真美圖

王紫璇寫真美圖

TVB的四小花
2025-05-29 00:11:04
女子一天送66單外賣后去世,法醫(yī)尸檢后驚呼:不是累死的!

女子一天送66單外賣后去世,法醫(yī)尸檢后驚呼:不是累死的!

懸案解密檔案
2025-05-23 09:34:33
歐拉弄穿皇室藍(lán)泰裝外出公務(wù),效仿詩麗吉太后,盤“滿天星”發(fā)髻

歐拉弄穿皇室藍(lán)泰裝外出公務(wù),效仿詩麗吉太后,盤“滿天星”發(fā)髻

曉徙娛樂
2025-05-28 15:26:23
地下人乳交易到底有多變態(tài)?躺懷里喝,可包天也可包月

地下人乳交易到底有多變態(tài)?躺懷里喝,可包天也可包月

韋一同說
2023-09-21 20:15:56
亞洲田徑錦標(biāo)賽女子1500米決賽,李春輝以本賽季亞洲最佳成績奪冠

亞洲田徑錦標(biāo)賽女子1500米決賽,李春輝以本賽季亞洲最佳成績奪冠

直播吧
2025-05-28 18:46:08
連續(xù)四部電影票房為0,《哪吒2》透支內(nèi)地市場,年度票房創(chuàng)新低

連續(xù)四部電影票房為0,《哪吒2》透支內(nèi)地市場,年度票房創(chuàng)新低

影視高原說
2025-05-26 12:07:49
48城房租下降!從業(yè)者直呼:租客少了,有房東直降900元留客

48城房租下降!從業(yè)者直呼:租客少了,有房東直降900元留客

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-05-28 21:40:20
海濱綺夢:邂逅那一抹絢爛的永恒

海濱綺夢:邂逅那一抹絢爛的永恒

青蘋果sht
2025-05-28 05:16:51
天吶!這是著名歌手周筆暢?演唱會(huì)造型誰想的太尷尬 辣眼睛太別扭

天吶!這是著名歌手周筆暢?演唱會(huì)造型誰想的太尷尬 辣眼睛太別扭

小椰的奶奶
2025-05-20 09:48:59
當(dāng)自己的廠房被人燒掉時(shí)老板才明白原來每個(gè)人都有掀桌子的權(quán)利!

當(dāng)自己的廠房被人燒掉時(shí)老板才明白原來每個(gè)人都有掀桌子的權(quán)利!

逍遙論經(jīng)
2025-05-28 11:50:03
2025-05-29 02:23:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12781文章數(shù) 66046關(guān)注度
往期回顧 全部

科技要聞

DeepSeek R1完成小版本升級(jí),已可體驗(yàn)

頭條要聞

90后作家獲獎(jiǎng)追憶已故女友流淚:越過山丘發(fā)現(xiàn)無人等候

頭條要聞

90后作家獲獎(jiǎng)追憶已故女友流淚:越過山丘發(fā)現(xiàn)無人等候

體育要聞

東決G4的哈利交出了一場無瑕疵的比賽

娛樂要聞

19歲榮梓杉和混血美女疑似戀情曝光

財(cái)經(jīng)要聞

74歲王石罕見發(fā)聲,能為萬科做些什么?

汽車要聞

25萬級(jí)純電SUV飛坡 特斯拉Model Y來回跳?

態(tài)度原創(chuàng)

教育
家居
本地
健康
公開課

教育要聞

重點(diǎn)班的拓展題,這道題無實(shí)數(shù)根

家居要聞

開闊實(shí)用 技術(shù)控的大平層

本地新聞

中國最費(fèi)腿的城市,不止重慶

唇皰疹和口腔潰瘍是"同伙"嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 德昌县| 洪雅县| 鹰潭市| 荣成市| 长葛市| 罗江县| 昆山市| 呼图壁县| 丽水市| 射阳县| 黎平县| 通州区| 乌拉特前旗| 承德市| 牡丹江市| 确山县| 武山县| 德惠市| 桃源县| 南岸区| 南溪县| 栾川县| 钟祥市| 郑州市| 海阳市| 民勤县| 定结县| 琼结县| 稻城县| 新邵县| 长兴县| 遂昌县| 竹北市| 新竹县| 平顶山市| 康平县| 新疆| 博兴县| 资溪县| 永和县| 舟曲县|