99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<sub id="94xbl"><p id="94xbl"></p></sub>

<em id="94xbl"></em>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

全球30名頂尖數學家秘密集會圍剿AI，當場破防！驚呼已接近數學天才

2025-06-07 16:04:37　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：Aeneas 好困

【新智元導讀】最近，30位世界頂尖數學家親自出馬，在UC伯克利對OpenAI o4-mini展開「圍剿」，兩天連出教授級難題，結果卻當場集體「破防」！有人直言：這個AI，的確已接近數學天才的水平。曾經以為AGI遙遙無期，如今仿佛只剩臨門一腳了……

AI做數學，到底有多強？

就在最近，30位世界著名數學家齊聚UC伯克利，希望在一次秘密數學會議上超越AI。

在連續兩天用教授級難題轟炸這個AI后，研究者們驚愕地發現，它居然能解除一部分這世界上最難的可解問題！

其中一位數學家當場折服，直言這些模型已經接近了數學天才的水平。

頂尖數學家們，服了

在五月中旬的一個周末，一場秘密數學峰會悄然召開。

三十位全球頂尖數學家與一個推理聊天機器人展開對決，后者需要解答專家們專門設計的難題。

結果如開頭所見，數學家們徹底服了。

本次參賽的這個機器人，背后就是OpenAI的o4-mini，它已經能進行極其復雜的推理。

當然，它并不是世界上唯一有此能力的模型，谷歌的Gemini 2.5 Flash也具備相似的能力。

為什么o4-mini做起數學題來，能這么強？

這是因為，它是基于專門的數據集訓練，并獲得了更強的RLHF。這種方法，就能讓它比傳統的LLM更深入地鉆研復雜數學問題。

Epoch AI，尋根問底

而訓出o4-mini后，OpenAI也一直十分關注它的解題能力。

為了追蹤o4-mini的進展，OpenAI此前曾委托非營利組織Epoch AI設計300道解法尚未公開的數學題，專門來考驗大模型。

這些題的亮點就在于，因為解法并未問世，就絕不可能存在于訓練數據中。

果然，當Epoch AI用這些與訓練數據截然不同的問題去測試幾款推理模型時，它們幾乎全部翻車了。

即使表現最好的模型，解出率也不到2%。

LLM做數學，真的不行么？Epoch AI沒有放棄探索。

2024年9月，Epoch AI 聘請了剛獲得數學博士學位的Elliot Glazer，參與到一個代號為FrontierMath的全新新基準測試項目中。

這個項目的目的，就是收集不同難度登機的全新數學題。其中，T1-T3分別覆蓋本科、研究生及研究級別的挑戰。

結果，o4-mini讓人刮目相看。

到2025年2月，Glazer發現，o4-mini竟然能解出約20%的題目！

他們要與AI一同在陶哲軒等人提出的FrontierMath基準上，展開終極對決。

比賽一共23題，限時4.5小時，實驗最終得出：

o4-mini-medium碾壓人類平均水平（19%），解決了約22%題目。

不過，o4-mini能夠解決的問題，至少被一組數學家團隊破解。由此，人類團隊總體上解決了約35%的題目。

結果顯示，o4-mini一共擊敗六組團隊，在數學領域展現了驚人的潛力。

T4級測試，開始

隨后，他開始著手進行第四等級的測試——這次，要找出100道即使對專業數學家也極具挑戰性的難題。

放眼全球，能提出這種問題的人寥寥無幾，更不用說給出解答了。

為此，他要求了全球頂尖的數學家，要求他們必須簽署保密協議，甚至只能通過加密通訊應用Signal交流。

因為他擔心，如果用電子郵件這類傳統的聯絡方式，有可能就會被LLM掃描到，無意中成為訓練數據，從而污染整個測試數據集。

由于采用的方式格外嚴謹，起初項目的進展十分緩慢。

為了加快進度，Glazer推動Epoch AI 在5月17日（周六）和18日（周日）這兩天，舉辦了這場線下會議。

在會上，數學家們將敲定最后一批最高階的數學難題。

絞盡腦汁，誓要難倒AI

弗吉尼亞大學數學家、會議領導者兼評委Ken Ono將30名與會者分為六人一組。

在為期兩天的會議中，這些頂尖學者需要相互比拼，看誰能設計出自己能解、卻又能難倒 AI推理機器人的題目。

這個項目的獎勵，也是十分誘人。

o4-mini每解不出一道題，該題的出題人便能獲得7500美元的獎勵。

結果誰都沒想到，o4-mini給了數學家們致命一擊！

在周六深夜，全場數學家，都感覺十分挫敗——o4-mini出人意料的數學天賦，直接讓整個小組的努力付諸東流。

Ono出了一道題，是他專業領域內的專家都公認的數論開放性問題，可以說是一道非常不錯的考題，已經達到了博士生的水平。

他充滿信心地把這道題給了o4-mini，結果在接下來的十分鐘里，他直接遭受了暴擊！

只見o4-mini如行云流水一般，實時演算出了完整的解法，還同步展示出了自己的推理過程。

它先花了兩分鐘，檢索并吃透了相關領域的文獻，然后在屏幕上寫道，為了學習，它想先嘗試一個簡化的「玩具」版本。

幾分鐘后，它寫道，自己已準備好解決那個更難的原題。

又過了五分鐘，o4-mini 給出了一個正確卻又俏皮得意的解答。

Ono描述道：它開始變得得意洋洋，甚至還加上一句，「無需引用，因為這個神秘數字由我算出！」

數學家大受打擊：我以為AGI永遠不會到來

大受打擊的Ono在周日一大早就趕緊登上Signal，向所有與會者通報了情況。

我完全沒料到，要跟這樣的LLM交手，也從未在模型中見過如此強大的推理能力。這分明是科學家的工作方式。這太可怕了。

最終，團隊還是成功找到了10道難倒機器人的題，但AI的驚人能力，仍然讓所有研究人員驚嘆不已。

Ono感覺，與它共事就好像與一位「強大的合作者」協作。

倫敦數學科學研究所的數學家、AI數學應用先驅之一的Yang Hui He說：「這是一個頂尖優秀的研究生才能做到的事——不，實際上它做得更多。」

而且，o4-mini的速度也令人驚異。它遠遠超越了專業的數學家，人類專家需要數周甚至數月才能完成的工作，它只需要幾分鐘。

不僅如此，這次o4-mini的進步，也給人類敲響了警鐘。

Ono和He都擔心，o4-mini給出的結果可能會被人們過度信賴。

「證明方法有歸納法、反證法，現在又多了個恐嚇法。」Yang Hui He說。

「當某人用足夠權威的口吻說話時，人們會感到敬畏。我認為o4-mini已經掌握了恐嚇式證明的精髓，因為它說每句話時都帶著不容置疑的自信。」

會議臨近結束時，整個團隊也開始思考，數學家的未來將何去何從。

討論轉向了那個無法回避的T5——那些連最頂尖的數學家也無法解決的問題。

如果最終，AI達到了那個層次，那么顯然，數學家的角色將經歷劇變。

到那時，數學家或許將轉向只負責提出問題，并與推理機器人互動，引導它們發現新的數學真理，就像教授指導研究生一樣。

因此，Ono預測，在高等教育中培養創造力，將是讓數學這門學科薪火相傳的關鍵。

「我一直告訴我的同事們，那種認為AGI永遠不會到來，認為它不過是臺計算機的想法，是大錯特錯的。」Ono說。

「我不想渲染恐慌，但在許多方面，這些LLM已經超越了我們世界上絕大多數最優秀的研究生。

陶哲軒：早就知道了

其實AI做數學研究的這種超絕能力，陶哲軒早就心知肚明了。

最近，他一直在社交平臺上做出密集分享，給我們匯報AI解數學題的驚人進展。

比如就在幾天前，他剛剛分享了這個消息。

6月2日，Fan Zheng在arXiv亮出的最新論文——又又又一次把和差集指數θ紀錄往上推了0.000027，從1.173050提升到了1.173077。

0.000027——一個在顯微鏡下才分辨得出的跨度，卻把加法組合學的天花板又往上頂了一寸。

論文地址：https://arxiv.org/abs/2506.01896

如此迅速、連續的取得進展，都離不開數學家與AI（AlphaEvolve）的相互配合。

這種突破讓陶哲軒都驚嘆：「對我而言，這是一個引人入勝的例證。」

陶哲軒認為，這展示了未來的數學研究中，高度計算機輔助、中度計算機輔助與傳統「紙筆」方法之間將如何相互作用。

這些范式各有優劣。

例如，當前的AlphaEvolve還極難用上后續論文中使用的漸近構造；但另一方面，若沒有AlphaEvolve的暴力搜索，人類方法也很難發現這些改進的切入點。

GitHub Copilot在幫助新手入門和處理基礎任務時表現得相當不錯。

它能幫助用戶快速上手Lean語言，提供語法提示，并智能補全基本定義和聲明。

在比較簡單的證明，比如函數極限的和定理中，Copilot還能準確預測證明結構和關鍵步驟，表現得就像個得力助手一樣。

但當證明變得復雜時，Copilot的短板就暴露出來了。

比如在處理函數極限的差和積定理時，它在復雜的代數推導、尋找合適的數學引理（比如與絕對值相關的引理）等方面顯得力不從心。

Copilot有時還會出現「幻覺」，生成壓根不存在的策略，或者犯一些低級錯誤，導致證明過程亂成一團。

這時，陶哲軒不得不親自出馬，修正錯誤，甚至完全接管證明。

但總之，現在LLM的發展，已經讓我們愈發接近曾經陶哲軒的那個預言了——

在2026年，AI將與搜索和符號數學工具相結合，成為數學研究中值得信賴的合著者。

參考資料：

https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

責任編輯：郜雪丹_NT5097

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

陶哲軒：o3-mini糾正了我一個數學錯誤

量子位 2025-03-18 11:16:41
80 跟貼 80
質疑DeepSeek-R1、Claude Thinking不會推理！蘋果爭議論文翻車？

機器之心Pro 2025-06-09 15:10:27
36 跟貼 36

給大模型裝上「思維分段引擎」：浙大InftyThink解鎖無限深度推理

量子位 2025-06-09 23:15:37
0 跟貼 0

WWDC前夕，蘋果論文“炮轟”AI推理模型“假思考”，測試方法遭質疑

每日經濟新聞 2025-06-09 19:11:09
4 跟貼 4
AGI最后拼圖，一文看懂什么是強化學習？其護城河是什么？

華爾街見聞官方 2025-06-09 18:45:27
1 跟貼 1

數學宇宙二維破壁成功！四人組230頁證明阿貝爾曲面鏡像通道

機器之心Pro 2025-06-09 10:38:14
3 跟貼 3

瞭望 | 中國數學的新生力量是如何煉成的？

新華社 2025-06-09 19:23:12
1 跟貼 1
他入獄10年自學數學，如今憑借手稿發了篇論文，被同行評價“足以開辟數論新領域”

超級數學建模 2025-06-08 22:36:54
5 跟貼 5

25年數學高考背后還蘊含有哪些深意

開心的思天 2025-06-09 04:29:49
1 跟貼 1
數學圈地震！o3靠直覺刷爆人類頂尖難題，14位專家集體破防

新智元 2025-06-09 20:00:02
13 跟貼 13
朝鮮數學天才的叛逃，到底有多瘋狂

古瑟解說 2025-06-09 10:28:15
1 跟貼 1
同學們在面對這種復雜的方程，要怎么化簡呢？

三樂大掌柜 2025-06-07 23:10:14
2 跟貼 2
上海市中考題，難度有點大，這種解題思路很新穎

三樂大掌柜 2025-06-07 23:09:15
1 跟貼 1
1359廣東初中數學競賽題，解方程。法2，高手用韋達定理來解

我服子佩 2025-06-07 20:18:57
1 跟貼 1
今年高考錄取分數線有可能會下降，聽聽老師怎么說的

申屠文康 2025-06-09 02:23:38
7 跟貼 7
從姜萍到韋東奕：假崇拜，真消費

文軒觀察 2025-06-09 22:31:06
0 跟貼 0
數學競賽題，X、y是整數，求x+y的值

三樂大掌柜 2025-06-07 23:09:43
1 跟貼 1
六安市數學競賽題，難度很大，除非你找到合適的方法

三樂大掌柜 2025-06-06 23:28:13
1 跟貼 1
大爺想看父親的病歷被醫生嘲諷看不懂大爺：你們教授都是我學生

果丸影視 2025-06-05 11:45:12
1 跟貼 1
全國1卷數學考試再升級，140分成為難以逾越的鴻溝

輝煌靠自我 2025-06-09 20:49:27
0 跟貼 0
上海市中考題，學霸的解題方法絕了

三樂大掌柜 2025-06-07 23:09:24
1 跟貼 1
40位數學家與AI對戰，只贏了兩隊

機器之心Pro 2025-05-28 22:32:20
0 跟貼 0
中考題，你知道什么是非負性么？

三樂大掌柜 2025-06-08 23:27:39
1 跟貼 1
中考語文標點符號修改題強化訓練5 PPT版視頻

初中語文精品原創文檔 2025-06-08 07:00:00
0 跟貼 0
印度學者警告莫迪，別招惹中國，人家只是欠缺一個收拾你的理由！

熱心市民謠淼 2025-06-07 12:01:22
58 跟貼 58
陶哲軒用Lean重寫教科書，寫代碼也能學數學

機器之心Pro 2025-06-03 21:48:31
0 跟貼 0
韋東奕要“注銷”賬號？最擔心的事還是發生了！

槽三刀 2025-06-09 22:32:46
0 跟貼 0
今年高考數學到底難不難？聽聽這些考生咋說

時拾影像 2025-06-07 20:57:15
0 跟貼 0
韋東奕研究成果編入北大教材！黑粉可以閉嘴了

商悟社 2025-06-09 23:25:37
2 跟貼 2
華為小藝迎戰2025高考數學，看看能考多少分？

天極網 2025-06-09 22:51:28
2 跟貼 2
“北大天才”韋東奕，他的數學境界到底有多高？

科普壹號 2025-06-08 17:25:49
3 跟貼 3
從「記憶解題」到「深度推理」：港科大推出首個本科數學動態評測基準 UGMathBench

AI科技大本營 2025-06-09 19:26:27
2 跟貼 2
上海市數學競賽題，巧用換元法解題

三樂大掌柜 2025-06-07 23:08:20
1 跟貼 1
兩個冪相等，底數相同，指數必然相等

三樂大掌柜 2025-06-06 23:27:58
1 跟貼 1
牛彈琴：美國爆發激烈"內戰" 警察當街向抗議人群開槍

上觀新聞 2025-06-09 07:59:26
18096 跟貼 18096
蘋果分析R1遇到復雜度閾值后準確率崩潰問題，Gary Marcus聲援

DeepTech深科技 2025-06-09 21:03:18
0 跟貼 0
高志凱教授舌戰國外專家，中印邊境地區

凱叔閑聊 2025-06-09 20:08:20
0 跟貼 0
老外看北大數學天才韋東奕入駐短視頻平臺僅2天粉絲超1700萬

夜里的海風 2025-06-08 05:08:13
0 跟貼 0
高考第一天收官!數學考完后的同學們沖出考場，你覺得今年的數學難不難？

逛吃青島 2025-06-07 20:55:45
0 跟貼 0
高考數學上演“冰火兩重天”選填送分，大題虐哭考生!

澀會小阿敏 2025-06-09 10:49:44
4 跟貼 4

“長沙腕豪大戰成都大母O并取得MVP”

“長沙腕豪大戰成都大母O并取得MVP”

一個島島

2025-06-09 15:11:06

92年我在西北冒死救下一女軍官，回到單位之后，上級緊急傳喚我

92年我在西北冒死救下一女軍官，回到單位之后，上級緊急傳喚我

紅豆講堂

2025-06-08 12:00:10

C羅：我將留在利雅得勝利，明年世界杯葡萄牙可以和任何強隊競爭

C羅：我將留在利雅得勝利，明年世界杯葡萄牙可以和任何強隊競爭

直播吧

2025-06-09 08:22:11

內娛最大的笑話，一個連路都走不利索的歌手，78歲開演唱會撈錢？

內娛最大的笑話，一個連路都走不利索的歌手，78歲開演唱會撈錢？

書雁飛史oh

2025-05-08 21:22:23

百萬耳環小花移民跑路？井柏然劉雯領證？黃圣依追求賈乃亮？許嵩鬧分手？姨太問答

百萬耳環小花移民跑路？井柏然劉雯領證？黃圣依追求賈乃亮？許嵩鬧分手？姨太問答

毒舌扒姨太

2025-06-08 22:36:53

泡泡瑪特股價創新高！一娃難求的Labubu捧出河南新首富

泡泡瑪特股價創新高！一娃難求的Labubu捧出河南新首富

財聯社

2025-06-09 15:17:55

臺島以南發生激烈對峙，美軍剛發射反艦導彈，遼寧艦直接貼臉開大

臺島以南發生激烈對峙，美軍剛發射反艦導彈，遼寧艦直接貼臉開大

起喜電影

2025-06-09 05:15:46

中國稀土突發暴量10倍，股價大漲44%，核心邏輯有4個

中國稀土突發暴量10倍，股價大漲44%，核心邏輯有4個

鵬哥投研

2025-06-09 11:35:05

10歲女孩在濕地公園蕩網紅秋千墜河，十分鐘后才被發現不幸去世家屬起訴索賠40余萬

10歲女孩在濕地公園蕩網紅秋千墜河，十分鐘后才被發現不幸去世家屬起訴索賠40余萬

紅星新聞

2025-06-09 18:40:36

職工醫保個人賬戶余額可以轉賬啦！

職工醫保個人賬戶余額可以轉賬啦！

子長融媒體中心

2025-05-31 13:15:43

劉濤和王雷這么親密拍照，王珂看到會不會吃醋呢

劉濤和王雷這么親密拍照，王珂看到會不會吃醋呢

東方不敗然多多

2025-06-09 00:27:23

15分+18分+14分，鎖定3.7億超級頂薪！NBA新王登基，但聯盟失策了

15分+18分+14分，鎖定3.7億超級頂薪！NBA新王登基，但聯盟失策了

老梁體育漫談

2025-06-10 00:33:27

馬筱梅回應，玥兒補習班嫌貴事件！是一小時2000！不是一天！

馬筱梅回應，玥兒補習班嫌貴事件！是一小時2000！不是一天！

鑫鑫說說

2025-06-09 09:16:54

孫子高考只差1分考上清華，奶奶執意查卷,卷上一句話讓她癱軟在地

孫子高考只差1分考上清華，奶奶執意查卷,卷上一句話讓她癱軟在地

故事秘棧

2025-06-07 18:42:42

笑不活，網友與李雪琴合影，林更新成了背景墻，網友：太奢侈了！

笑不活，網友與李雪琴合影，林更新成了背景墻，網友：太奢侈了！

鄭丁嘉話

2025-06-09 10:37:41

美團閃購“突襲”酒水市場，飛天茅臺低至1988元！華致酒行、歌德老酒行等入駐

美團閃購“突襲”酒水市場，飛天茅臺低至1988元！華致酒行、歌德老酒行等入駐

紅星資本局

2025-06-09 20:27:02

中國“第一女神探”聶海芬，光環背后是多少老百姓含冤入獄？

中國“第一女神探”聶海芬，光環背后是多少老百姓含冤入獄？

星宇共鳴

2025-05-21 18:05:05

爆了！央視新劇斬獲兩個第一！這次岳云鵬沒拉跨，雷佳音慫出高度

爆了！央視新劇斬獲兩個第一！這次岳云鵬沒拉跨，雷佳音慫出高度

一娛三分地

2025-06-10 00:00:03

飲料“殺精”實錘？每天1杯，精子濃度下降22%，Nutrients發文

飲料“殺精”實錘？每天1杯，精子濃度下降22%，Nutrients發文

醫脈通

2025-06-08 18:07:03

奇葩一幕！輸球后女排一人抱著主任哭，領導兩手插褲兜反應冷冰冰

奇葩一幕！輸球后女排一人抱著主任哭，領導兩手插褲兜反應冷冰冰

南海浪花

2025-06-09 07:19:04

AI產業主平臺領航智能+時代

12848文章數 66061關注度

往期回顧全部

科技要聞

中國汽車行業告別"內卷"，從"重慶論壇"開始？

頭條要聞

洛杉磯已經失控有人用可致命煙花攻擊警察

頭條要聞

洛杉磯已經失控有人用可致命煙花攻擊警察

體育要聞

雷霆55號秀，NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣崴腳時被照顧打動

財經要聞

重磅級民生文件公布如何改變你我生活？

汽車要聞

首次搭載奧特能2.0平臺新別克E5即將煥新上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

手機

房產

數碼

公開課

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶，寫字都帶仙氣兒～

手機要聞

蘋果全平臺軟件版本號統一：iOS/iPadOS/macOS 26 時代來臨

房產要聞

海南地王，方案曝光！三亞灣豪宅，神仙打架！

數碼要聞

蘋果tvOS 26 支持機型名單曝光， 10 年前的 Apple TV HD 也能升

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：永平县| 齐河县| 林芝县| 且末县| 西宁市| 绥宁县| 东光县| 锡林浩特市| 马山县| 林西县| 新乡市| 福海县| 大竹县| 上虞市| 三都| 永修县| 长武县| 尚义县| 平和县| 虞城县| 东阳市| 桦甸市| 彝良县| 八宿县| 高州市| 安阳市| 金门县| 贡山| 长顺县| 嘉鱼县| 滨海县| 北宁市| 柯坪县| 思茅市| 常州市| 鲜城| 米脂县| 昆山市| 那坡县| 陵川县| 名山县|