99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

全球30名頂尖數學家秘密集會圍剿AI,當場破防!驚呼已接近數學天才

0
分享至


新智元報道

編輯:Aeneas 好困

【新智元導讀】最近,30位世界頂尖數學家親自出馬,在UC伯克利對OpenAI o4-mini展開「圍剿」,兩天連出教授級難題,結果卻當場集體「破防」!有人直言:這個AI,的確已接近數學天才的水平。曾經以為AGI遙遙無期,如今仿佛只剩臨門一腳了……

AI做數學,到底有多強?

就在最近,30位世界著名數學家齊聚UC伯克利,希望在一次秘密數學會議上超越AI。

在連續兩天用教授級難題轟炸這個AI后,研究者們驚愕地發現,它居然能解除一部分這世界上最難的可解問題!

其中一位數學家當場折服,直言這些模型已經接近了數學天才的水平。


頂尖數學家們,服了

在五月中旬的一個周末,一場秘密數學峰會悄然召開。

三十位全球頂尖數學家與一個推理聊天機器人展開對決,后者需要解答專家們專門設計的難題。

結果如開頭所見,數學家們徹底服了。

本次參賽的這個機器人,背后就是OpenAI的o4-mini,它已經能進行極其復雜的推理。

當然,它并不是世界上唯一有此能力的模型,谷歌的Gemini 2.5 Flash也具備相似的能力。

為什么o4-mini做起數學題來,能這么強?

這是因為,它是基于專門的數據集訓練,并獲得了更強的RLHF。這種方法,就能讓它比傳統的LLM更深入地鉆研復雜數學問題。

Epoch AI,尋根問底

而訓出o4-mini后,OpenAI也一直十分關注它的解題能力。

為了追蹤o4-mini的進展,OpenAI此前曾委托非營利組織Epoch AI設計300道解法尚未公開的數學題,專門來考驗大模型。

這些題的亮點就在于,因為解法并未問世,就絕不可能存在于訓練數據中。

果然,當Epoch AI用這些與訓練數據截然不同的問題去測試幾款推理模型時,它們幾乎全部翻車了。

即使表現最好的模型,解出率也不到2%。

LLM做數學,真的不行么?Epoch AI沒有放棄探索。

2024年9月,Epoch AI 聘請了剛獲得數學博士學位的Elliot Glazer,參與到一個代號為FrontierMath的全新新基準測試項目中。


這個項目的目的,就是收集不同難度登機的全新數學題。其中,T1-T3分別覆蓋本科、研究生及研究級別的挑戰。

結果,o4-mini讓人刮目相看。

到2025年2月,Glazer發現,o4-mini竟然能解出約20%的題目!

他們要與AI一同在陶哲軒等人提出的FrontierMath基準上,展開終極對決。

比賽一共23題,限時4.5小時,實驗最終得出:

o4-mini-medium碾壓人類平均水平(19%),解決了約22%題目。

不過,o4-mini能夠解決的問題,至少被一組數學家團隊破解。由此,人類團隊總體上解決了約35%的題目。


結果顯示,o4-mini一共擊敗六組團隊,在數學領域展現了驚人的潛力。

T4級測試,開始

隨后,他開始著手進行第四等級的測試——這次,要找出100道即使對專業數學家也極具挑戰性的難題。

放眼全球,能提出這種問題的人寥寥無幾,更不用說給出解答了。

為此,他要求了全球頂尖的數學家,要求他們必須簽署保密協議,甚至只能通過加密通訊應用Signal交流。

因為他擔心,如果用電子郵件這類傳統的聯絡方式,有可能就會被LLM掃描到,無意中成為訓練數據,從而污染整個測試數據集。

由于采用的方式格外嚴謹,起初項目的進展十分緩慢。

為了加快進度,Glazer推動Epoch AI 在5月17日(周六)和18日(周日)這兩天,舉辦了這場線下會議。

在會上,數學家們將敲定最后一批最高階的數學難題。

絞盡腦汁,誓要難倒AI

弗吉尼亞大學數學家、會議領導者兼評委Ken Ono將30名與會者分為六人一組。


在為期兩天的會議中,這些頂尖學者需要相互比拼,看誰能設計出自己能解、卻又能難倒 AI推理機器人的題目。

這個項目的獎勵,也是十分誘人。

o4-mini每解不出一道題,該題的出題人便能獲得7500美元的獎勵。

結果誰都沒想到,o4-mini給了數學家們致命一擊!

在周六深夜,全場數學家,都感覺十分挫敗——o4-mini出人意料的數學天賦,直接讓整個小組的努力付諸東流。

Ono出了一道題,是他專業領域內的專家都公認的數論開放性問題,可以說是一道非常不錯的考題,已經達到了博士生的水平。

他充滿信心地把這道題給了o4-mini,結果在接下來的十分鐘里,他直接遭受了暴擊!

只見o4-mini如行云流水一般,實時演算出了完整的解法,還同步展示出了自己的推理過程。

它先花了兩分鐘,檢索并吃透了相關領域的文獻,然后在屏幕上寫道,為了學習,它想先嘗試一個簡化的「玩具」版本。

幾分鐘后,它寫道,自己已準備好解決那個更難的原題。

又過了五分鐘,o4-mini 給出了一個正確卻又俏皮得意的解答。

Ono描述道:它開始變得得意洋洋,甚至還加上一句,「無需引用,因為這個神秘數字由我算出!」

數學家大受打擊:我以為AGI永遠不會到來

大受打擊的Ono在周日一大早就趕緊登上Signal,向所有與會者通報了情況。

我完全沒料到,要跟這樣的LLM交手,也從未在模型中見過如此強大的推理能力。這分明是科學家的工作方式。這太可怕了。

最終,團隊還是成功找到了10道難倒機器人的題,但AI的驚人能力,仍然讓所有研究人員驚嘆不已。

Ono感覺,與它共事就好像與一位「強大的合作者」協作。

倫敦數學科學研究所的數學家、AI數學應用先驅之一的Yang Hui He說:「這是一個頂尖優秀的研究生才能做到的事——不,實際上它做得更多。」


而且,o4-mini的速度也令人驚異。它遠遠超越了專業的數學家,人類專家需要數周甚至數月才能完成的工作,它只需要幾分鐘。

不僅如此,這次o4-mini的進步,也給人類敲響了警鐘。

Ono和He都擔心,o4-mini給出的結果可能會被人們過度信賴。

「證明方法有歸納法、反證法,現在又多了個恐嚇法。」Yang Hui He說。

「當某人用足夠權威的口吻說話時,人們會感到敬畏。我認為o4-mini已經掌握了恐嚇式證明的精髓,因為它說每句話時都帶著不容置疑的自信。」

會議臨近結束時,整個團隊也開始思考,數學家的未來將何去何從。

討論轉向了那個無法回避的T5——那些連最頂尖的數學家也無法解決的問題。

如果最終,AI達到了那個層次,那么顯然,數學家的角色將經歷劇變。

到那時,數學家或許將轉向只負責提出問題,并與推理機器人互動,引導它們發現新的數學真理,就像教授指導研究生一樣。

因此,Ono預測,在高等教育中培養創造力,將是讓數學這門學科薪火相傳的關鍵。

「我一直告訴我的同事們,那種認為AGI永遠不會到來,認為它不過是臺計算機的想法,是大錯特錯的。」Ono說。

「我不想渲染恐慌,但在許多方面,這些LLM已經超越了我們世界上絕大多數最優秀的研究生。

陶哲軒:早就知道了

其實AI做數學研究的這種超絕能力,陶哲軒早就心知肚明了。

最近,他一直在社交平臺上做出密集分享,給我們匯報AI解數學題的驚人進展。

比如就在幾天前,他剛剛分享了這個消息。


6月2日,Fan Zheng在arXiv亮出的最新論文——又又又一次把和差集指數θ紀錄往上推了0.000027,從1.173050提升到了1.173077。

0.000027——一個在顯微鏡下才分辨得出的跨度,卻把加法組合學的天花板又往上頂了一寸。


論文地址:https://arxiv.org/abs/2506.01896

如此迅速、連續的取得進展,都離不開數學家與AI(AlphaEvolve)的相互配合。

這種突破讓陶哲軒都驚嘆:「對我而言,這是一個引人入勝的例證。」

陶哲軒認為,這展示了未來的數學研究中,高度計算機輔助、中度計算機輔助與傳統「紙筆」方法之間將如何相互作用。

這些范式各有優劣。

例如,當前的AlphaEvolve還極難用上后續論文中使用的漸近構造;但另一方面,若沒有AlphaEvolve的暴力搜索,人類方法也很難發現這些改進的切入點。


GitHub Copilot在幫助新手入門和處理基礎任務時表現得相當不錯。

它能幫助用戶快速上手Lean語言,提供語法提示,并智能補全基本定義和聲明。

在比較簡單的證明,比如函數極限的和定理中,Copilot還能準確預測證明結構和關鍵步驟,表現得就像個得力助手一樣。

但當證明變得復雜時,Copilot的短板就暴露出來了。

比如在處理函數極限的差和積定理時,它在復雜的代數推導、尋找合適的數學引理(比如與絕對值相關的引理)等方面顯得力不從心。

Copilot有時還會出現「幻覺」,生成壓根不存在的策略,或者犯一些低級錯誤,導致證明過程亂成一團。

這時,陶哲軒不得不親自出馬,修正錯誤,甚至完全接管證明。


但總之,現在LLM的發展,已經讓我們愈發接近曾經陶哲軒的那個預言了——

在2026年,AI將與搜索和符號數學工具相結合,成為數學研究中值得信賴的合著者。

參考資料:

https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

責任編輯:郜雪丹_NT5097

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“長沙腕豪大戰成都大母O并取得MVP”

“長沙腕豪大戰成都大母O并取得MVP”

一個島島
2025-06-09 15:11:06
92年我在西北冒死救下一女軍官,回到單位之后,上級緊急傳喚我

92年我在西北冒死救下一女軍官,回到單位之后,上級緊急傳喚我

紅豆講堂
2025-06-08 12:00:10
C羅:我將留在利雅得勝利,明年世界杯葡萄牙可以和任何強隊競爭

C羅:我將留在利雅得勝利,明年世界杯葡萄牙可以和任何強隊競爭

直播吧
2025-06-09 08:22:11
內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

書雁飛史oh
2025-05-08 21:22:23
百萬耳環小花移民跑路?井柏然劉雯領證?黃圣依追求賈乃亮?許嵩鬧分手?姨太問答

百萬耳環小花移民跑路?井柏然劉雯領證?黃圣依追求賈乃亮?許嵩鬧分手?姨太問答

毒舌扒姨太
2025-06-08 22:36:53
泡泡瑪特股價創新高!一娃難求的Labubu捧出河南新首富

泡泡瑪特股價創新高!一娃難求的Labubu捧出河南新首富

財聯社
2025-06-09 15:17:55
臺島以南發生激烈對峙,美軍剛發射反艦導彈,遼寧艦直接貼臉開大

臺島以南發生激烈對峙,美軍剛發射反艦導彈,遼寧艦直接貼臉開大

起喜電影
2025-06-09 05:15:46
中國稀土突發暴量10倍,股價大漲44%,核心邏輯有4個

中國稀土突發暴量10倍,股價大漲44%,核心邏輯有4個

鵬哥投研
2025-06-09 11:35:05
10歲女孩在濕地公園蕩網紅秋千墜河,十分鐘后才被發現不幸去世 家屬起訴索賠40余萬

10歲女孩在濕地公園蕩網紅秋千墜河,十分鐘后才被發現不幸去世 家屬起訴索賠40余萬

紅星新聞
2025-06-09 18:40:36
職工醫保個人賬戶余額可以轉賬啦!

職工醫保個人賬戶余額可以轉賬啦!

子長融媒體中心
2025-05-31 13:15:43
劉濤和王雷這么親密拍照, 王珂看到會不會吃醋呢

劉濤和王雷這么親密拍照, 王珂看到會不會吃醋呢

東方不敗然多多
2025-06-09 00:27:23
15分+18分+14分,鎖定3.7億超級頂薪!NBA新王登基,但聯盟失策了

15分+18分+14分,鎖定3.7億超級頂薪!NBA新王登基,但聯盟失策了

老梁體育漫談
2025-06-10 00:33:27
馬筱梅回應,玥兒補習班嫌貴事件!是一小時2000!不是一天!

馬筱梅回應,玥兒補習班嫌貴事件!是一小時2000!不是一天!

鑫鑫說說
2025-06-09 09:16:54
孫子高考只差1分考上清華,奶奶執意查卷,卷上一句話讓她癱軟在地

孫子高考只差1分考上清華,奶奶執意查卷,卷上一句話讓她癱軟在地

故事秘棧
2025-06-07 18:42:42
笑不活,網友與李雪琴合影,林更新成了背景墻,網友:太奢侈了!

笑不活,網友與李雪琴合影,林更新成了背景墻,網友:太奢侈了!

鄭丁嘉話
2025-06-09 10:37:41
美團閃購“突襲”酒水市場,飛天茅臺低至1988元!華致酒行、歌德老酒行等入駐

美團閃購“突襲”酒水市場,飛天茅臺低至1988元!華致酒行、歌德老酒行等入駐

紅星資本局
2025-06-09 20:27:02
中國“第一女神探”聶海芬,光環背后是多少老百姓含冤入獄?

中國“第一女神探”聶海芬,光環背后是多少老百姓含冤入獄?

星宇共鳴
2025-05-21 18:05:05
爆了!央視新劇斬獲兩個第一!這次岳云鵬沒拉跨,雷佳音慫出高度

爆了!央視新劇斬獲兩個第一!這次岳云鵬沒拉跨,雷佳音慫出高度

一娛三分地
2025-06-10 00:00:03
飲料“殺精”實錘?每天1杯,精子濃度下降22%,Nutrients發文

飲料“殺精”實錘?每天1杯,精子濃度下降22%,Nutrients發文

醫脈通
2025-06-08 18:07:03
奇葩一幕!輸球后女排一人抱著主任哭,領導兩手插褲兜反應冷冰冰

奇葩一幕!輸球后女排一人抱著主任哭,領導兩手插褲兜反應冷冰冰

南海浪花
2025-06-09 07:19:04
2025-06-10 01:44:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12848文章數 66061關注度
往期回顧 全部

科技要聞

中國汽車行業告別"內卷",從"重慶論壇"開始?

頭條要聞

洛杉磯已經失控 有人用可致命煙花攻擊警察

頭條要聞

洛杉磯已經失控 有人用可致命煙花攻擊警察

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

本地
手機
房產
數碼
公開課

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

手機要聞

蘋果全平臺軟件版本號統一:iOS/iPadOS/macOS 26 時代來臨

房產要聞

海南地王,方案曝光!三亞灣豪宅,神仙打架!

數碼要聞

蘋果tvOS 26 支持機型名單曝光, 10 年前的 Apple TV HD 也能升

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 永平县| 齐河县| 林芝县| 且末县| 西宁市| 绥宁县| 东光县| 锡林浩特市| 马山县| 林西县| 新乡市| 福海县| 大竹县| 上虞市| 三都| 永修县| 长武县| 尚义县| 平和县| 虞城县| 东阳市| 桦甸市| 彝良县| 八宿县| 高州市| 安阳市| 金门县| 贡山| 长顺县| 嘉鱼县| 滨海县| 北宁市| 柯坪县| 思茅市| 常州市| 鲜城| 米脂县| 昆山市| 那坡县| 陵川县| 名山县|