網易首頁 > 網易號 > 正文申請入駐

30位數學家出題也差點沒難倒AI，但這似乎還不意味著它“懂數學”

2025-06-08 22:25:50　來源: DeepTech深科技

北京舉報

分享至

據知名科普雜志《科學美國人》的報道，今年五月中旬，一場由非營利組織 Epoch AI 主辦的 FrontierMath 研討會在加州伯克利秘密舉行。三十位被稱為“全球最負盛名的數學家”齊聚一堂，他們的任務只有一個：設計出人類專家能夠解決、但最先進的 AI 卻會束手無策的數學難題。

（來源：Epoch AI）

這場對決的主角，是來自 OpenAI 的推理大語言模型 o4-mini。與早期版本的 ChatGPT 相比，o4-mini 在專門的數據集上進行訓練，得到了更強的人類反饋強化，能夠進行更加復雜和深入的數學推理。

與會的數學家們，包括弗吉尼亞大學的著名數學家 Ken Ono，在兩天的時間里，向這個數字大腦拋出了一系列教授級別的難題。

然而，結果令所有人驚訝。

報道提到，Ken Ono 在會議中遇到了一個令他十分難忘的時刻。他設計了一個在他所在領域（數論）被認為是“開放性問題”的博士級別難題，并將其交給了 o4-mini。在接下來的十分鐘里，Ono 和其他與會者在驚愕中見證了 AI 實時展開解題過程。模型首先花了大約兩分鐘，迅速檢索并“掌握”了該領域的相關文獻。緊接著，它提出先解決一個簡化的“玩具版本”問題以進行學習。幾分鐘后，它宣布已準備好應對真正的挑戰。最終，在總共不到十分鐘的時間里，o4-mini 不僅給出了正確答案，其輸出的文字甚至帶有一種俏皮的自信，結尾寫道：“無需引用，因為這個神秘數字是由我計算出來的！”

圖丨Ken Ono（來源：University of Virginia）

這一幕給 Ono 帶來相當大的沖擊，他坦言：“我從未在模型中見過那種推理方式。那是科學家的工作方式。這太嚇人了。”他甚至在周日清晨就迫不及待地通過加密通訊軟件 Signal 提醒其他與會者，他感覺自己面對的不再是一個程序，而是一個“強大的合作者”。

類似的震撼場面在會議期間反復上演。其他數學家發現，即使是涉及最近研究成果的問題，AI 也表現出驚人的文獻檢索和應用能力。它能夠迅速找到、引用并應用相關的研究結果，這種速度和準確性遠超人類專家的預期。倫敦數學科學研究所的 Yang-Hui He 也給出了極高的評價，認為 AI 的表現“比一個非常非常優秀的博士生做得還要多”。

在這場挑戰中，o4-mini 在處理需要深度幾何直覺和拓撲理解的問題時表現尤其出色，而且其速度遠超人類，能在幾分鐘內完成人類專家需要數周甚至數月才能完成的工作。盡管最終與會者們還是成功找到了 10 個能夠難住 AI 的問題，但這個結果本身還是給數學家們帶來極大沖擊——相比于傳統語言模型在類似基準測試中不到 2% 的成功率，o4-mini 展現出的數學推理能力已經達到了前所未有的水平。

不過在這篇文章引發熱烈討論后，一位參與了此次研討會的數學家、Hyperbolic 創始人 Jasper Zhang 提出了一些異議，他表示，雖然 AI 的進步確實驚人，但原始報道在某些方面“有些夸張，需要澄清”。

圖丨相關推文（來源：X）

Jasper 首先指出了一個被報道淡化，卻對整個挑戰性質有決定性影響的關鍵約束：“每個問題都需要一個數值答案”。他解釋說，這與高等數學的核心有顯著區別?，F代數學研究的中心通常是推理與證明，而非純粹的計算。一個問題可以有復雜的邏輯結構和深刻的理論內涵，但最終被要求輸出一個具體的數字，這本身就改變了問題的性質，使得它更偏向于一個可以被計算工具優化的任務。

Jasper 所在的幾何與拓撲小組，最初的策略是設計一些需要深刻幾何直覺和關鍵定理理解的博士級別問題。他們相信，這是當前 AI 模型的弱點。但令他們驚訝的是，o4-mini 模型成功解決了他們提出的大部分問題。但這里的“解決”需要打上引號。Jasper 特別提到：“盡管其推理過程有時是錯誤的，但它仍然設法得出了正確的數值答案。”

這就說明，AI 可能并非通過類似人類的、嚴謹的邏輯推演來“理解”問題，而是利用其強大的模式匹配和計算能力，找到了一條通往正確數字的路徑，哪怕這條路徑在數學邏輯上并不完美。

基于這一發現，Jasper 和他的同事調整了策略。他從一篇數學論文中提取了幾個中間定理，然后設計了一個新問題，要求將這些定理綜合起來，形成一種計算方法。這一次，AI“正如預期地陷入了困境”。Jasper 寫道：“它無法將中間步驟聯系起來，也無法有效地進行邏輯鏈條的推理?！边@次失敗，恰恰揭示了當前 LLM 的深層局限：在需要從零開始進行多步驟、跨概念的邏輯綜合與創造時，它仍然力不從心。

除了個別非常吸引眼球的案例，這次會議還揭示了 AI 數學能力的其他重要特征。參與者們發現，o4-mini 在處理涉及最新研究成果的問題時表現出色，能夠有效地搜索、理解并應用最新的學術文獻。這種能力在某種程度上彌補了人類專家在信息處理速度上的不足。

同時，會議也暴露出 AI 系統的一個潛在風險：過度自信的表達方式。Ono 和 He 都表達了對 o4-mini 結果可能被過度信任的擔憂。“有歸納證明、反證法，然后還有恐嚇證明，”He 說，“如果你用足夠的權威說某件事，人們就會感到害怕。我認為 o4-mini 已經掌握了恐嚇證明；它說每件事都充滿自信?！?/p>

從那 10 個成功“難倒”AI 的問題來看，它們往往需要復雜的多步驟推理和創新性的概念綜合，而這也說明，當前 AI 系統的局限還是主要體現在原創性思維和深度邏輯綜合能力上。

最后，我們可以用 Jasper 的幾點核心看法作為總結：AI 在過去兩年確實取得了巨大進步，但目前的 LLM 在很大程度上仍然依賴于模式匹配，其深度推理能力有限。它們尚不具備生成全新數學成果的能力，但極其擅長收集相關文獻和起草初步解決方案。人類的監督，尤其是在驗證和綜合方面，仍然是不可或缺的。

他的預測也更為溫和：在未來一到兩年內，AI 將主要作為數學家的“助手”，幫助發現新理論和解決開放問題，就像陶哲軒與 DeepMind 的合作那樣。之后，AI 才會開始作為“合作者”，并最終獨立地推動數學前沿。

參考資料：

1.https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

2.https://x.com/zjasper666/status/1931481071952293930

排版：溪樹

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.