99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

30位數學家出題也差點沒難倒AI,但這似乎還不意味著它“懂數學”

0
分享至

據知名科普雜志《科學美國人》的報道,今年五月中旬,一場由非營利組織 Epoch AI 主辦的 FrontierMath 研討會在加州伯克利秘密舉行。三十位被稱為“全球最負盛名的數學家”齊聚一堂,他們的任務只有一個:設計出人類專家能夠解決、但最先進的 AI 卻會束手無策的數學難題。


(來源:Epoch AI)

這場對決的主角,是來自 OpenAI 的推理大語言模型 o4-mini。與早期版本的 ChatGPT 相比,o4-mini 在專門的數據集上進行訓練,得到了更強的人類反饋強化,能夠進行更加復雜和深入的數學推理。

與會的數學家們,包括弗吉尼亞大學的著名數學家 Ken Ono,在兩天的時間里,向這個數字大腦拋出了一系列教授級別的難題。

然而,結果令所有人驚訝。

報道提到,Ken Ono 在會議中遇到了一個令他十分難忘的時刻。他設計了一個在他所在領域(數論)被認為是“開放性問題”的博士級別難題,并將其交給了 o4-mini。在接下來的十分鐘里,Ono 和其他與會者在驚愕中見證了 AI 實時展開解題過程。模型首先花了大約兩分鐘,迅速檢索并“掌握”了該領域的相關文獻。緊接著,它提出先解決一個簡化的“玩具版本”問題以進行學習。幾分鐘后,它宣布已準備好應對真正的挑戰。最終,在總共不到十分鐘的時間里,o4-mini 不僅給出了正確答案,其輸出的文字甚至帶有一種俏皮的自信,結尾寫道:“無需引用,因為這個神秘數字是由我計算出來的!”


圖丨Ken Ono(來源:University of Virginia)

這一幕給 Ono 帶來相當大的沖擊,他坦言:“我從未在模型中見過那種推理方式。那是科學家的工作方式。這太嚇人了。”他甚至在周日清晨就迫不及待地通過加密通訊軟件 Signal 提醒其他與會者,他感覺自己面對的不再是一個程序,而是一個“強大的合作者”。

類似的震撼場面在會議期間反復上演。其他數學家發現,即使是涉及最近研究成果的問題,AI 也表現出驚人的文獻檢索和應用能力。它能夠迅速找到、引用并應用相關的研究結果,這種速度和準確性遠超人類專家的預期。倫敦數學科學研究所的 Yang-Hui He 也給出了極高的評價,認為 AI 的表現“比一個非常非常優秀的博士生做得還要多”。

在這場挑戰中,o4-mini 在處理需要深度幾何直覺和拓撲理解的問題時表現尤其出色,而且其速度遠超人類,能在幾分鐘內完成人類專家需要數周甚至數月才能完成的工作。盡管最終與會者們還是成功找到了 10 個能夠難住 AI 的問題,但這個結果本身還是給數學家們帶來極大沖擊——相比于傳統語言模型在類似基準測試中不到 2% 的成功率,o4-mini 展現出的數學推理能力已經達到了前所未有的水平。

不過在這篇文章引發熱烈討論后,一位參與了此次研討會的數學家、Hyperbolic 創始人 Jasper Zhang 提出了一些異議,他表示,雖然 AI 的進步確實驚人,但原始報道在某些方面“有些夸張,需要澄清”。


圖丨相關推文(來源:X)

Jasper 首先指出了一個被報道淡化,卻對整個挑戰性質有決定性影響的關鍵約束:“每個問題都需要一個數值答案”。他解釋說,這與高等數學的核心有顯著區別?,F代數學研究的中心通常是推理與證明,而非純粹的計算。一個問題可以有復雜的邏輯結構和深刻的理論內涵,但最終被要求輸出一個具體的數字,這本身就改變了問題的性質,使得它更偏向于一個可以被計算工具優化的任務。

Jasper 所在的幾何與拓撲小組,最初的策略是設計一些需要深刻幾何直覺和關鍵定理理解的博士級別問題。他們相信,這是當前 AI 模型的弱點。但令他們驚訝的是,o4-mini 模型成功解決了他們提出的大部分問題。但這里的“解決”需要打上引號。Jasper 特別提到:“盡管其推理過程有時是錯誤的,但它仍然設法得出了正確的數值答案。”

這就說明,AI 可能并非通過類似人類的、嚴謹的邏輯推演來“理解”問題,而是利用其強大的模式匹配和計算能力,找到了一條通往正確數字的路徑,哪怕這條路徑在數學邏輯上并不完美。

基于這一發現,Jasper 和他的同事調整了策略。他從一篇數學論文中提取了幾個中間定理,然后設計了一個新問題,要求將這些定理綜合起來,形成一種計算方法。這一次,AI“正如預期地陷入了困境”。Jasper 寫道:“它無法將中間步驟聯系起來,也無法有效地進行邏輯鏈條的推理?!边@次失敗,恰恰揭示了當前 LLM 的深層局限:在需要從零開始進行多步驟、跨概念的邏輯綜合與創造時,它仍然力不從心。

除了個別非常吸引眼球的案例,這次會議還揭示了 AI 數學能力的其他重要特征。參與者們發現,o4-mini 在處理涉及最新研究成果的問題時表現出色,能夠有效地搜索、理解并應用最新的學術文獻。這種能力在某種程度上彌補了人類專家在信息處理速度上的不足。

同時,會議也暴露出 AI 系統的一個潛在風險:過度自信的表達方式。Ono 和 He 都表達了對 o4-mini 結果可能被過度信任的擔憂。“有歸納證明、反證法,然后還有恐嚇證明,”He 說,“如果你用足夠的權威說某件事,人們就會感到害怕。我認為 o4-mini 已經掌握了恐嚇證明;它說每件事都充滿自信?!?/p>

從那 10 個成功“難倒”AI 的問題來看,它們往往需要復雜的多步驟推理和創新性的概念綜合,而這也說明,當前 AI 系統的局限還是主要體現在原創性思維和深度邏輯綜合能力上。

最后,我們可以用 Jasper 的幾點核心看法作為總結:AI 在過去兩年確實取得了巨大進步,但目前的 LLM 在很大程度上仍然依賴于模式匹配,其深度推理能力有限。它們尚不具備生成全新數學成果的能力,但極其擅長收集相關文獻和起草初步解決方案。人類的監督,尤其是在驗證和綜合方面,仍然是不可或缺的。

他的預測也更為溫和:在未來一到兩年內,AI 將主要作為數學家的“助手”,幫助發現新理論和解決開放問題,就像陶哲軒與 DeepMind 的合作那樣。之后,AI 才會開始作為“合作者”,并最終獨立地推動數學前沿。

參考資料:

1.https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

2.https://x.com/zjasper666/status/1931481071952293930

排版:溪樹

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
原來給印度稀土裝上GPS定位器!稀土可以賣印度,用稀土礦換稀土

原來給印度稀土裝上GPS定位器!稀土可以賣印度,用稀土礦換稀土

奇思妙想生活家
2025-06-15 18:02:49
以色列:我們不針對伊朗人民

以色列:我們不針對伊朗人民

寰宇大觀察
2025-06-15 22:18:37
美媒:特朗普稱美國與針對伊朗的最新襲擊無關,警告伊朗不要將美方列為報復對象

美媒:特朗普稱美國與針對伊朗的最新襲擊無關,警告伊朗不要將美方列為報復對象

環球網資訊
2025-06-15 14:07:27
17年首次!618價格戰退潮,生態戰開打

17年首次!618價格戰退潮,生態戰開打

時代周報
2025-06-15 19:58:08
無底線榜一大哥:拿兒子用命換的60萬,討女主歡心,錢沒了被拉黑

無底線榜一大哥:拿兒子用命換的60萬,討女主歡心,錢沒了被拉黑

子芫伴你成長
2025-06-13 22:02:00
大冷門!中國男排0-3輸墊底隊,損失10.17分,跌出TOP20,4戰6分

大冷門!中國男排0-3輸墊底隊,損失10.17分,跌出TOP20,4戰6分

劉姚堯的文字城堡
2025-06-15 16:50:18
社會真正害怕的并非經濟蕭條、房價下跌、失業增多

社會真正害怕的并非經濟蕭條、房價下跌、失業增多

流蘇晚晴
2025-06-15 21:33:06
從100枚下降到10幾枚,伊朗報復無力,以色列完全奪取制空權

從100枚下降到10幾枚,伊朗報復無力,以色列完全奪取制空權

山河路口
2025-06-16 00:02:15
前利物浦球員卡里烏斯妻子在世俱杯大放異彩,并采訪因凡蒂諾

前利物浦球員卡里烏斯妻子在世俱杯大放異彩,并采訪因凡蒂諾

懂球帝
2025-06-15 18:54:15
網友問:陳震你買的勞斯萊斯閃靈是二手的?陳震:是的!

網友問:陳震你買的勞斯萊斯閃靈是二手的?陳震:是的!

說說史事
2025-06-15 20:45:29
“最慘”高考狀元白湘菱,總分第一清北拒絕錄取,如今發展如何?

“最慘”高考狀元白湘菱,總分第一清北拒絕錄取,如今發展如何?

歷史縱觀
2025-06-15 22:01:52
汪小菲搞笑曬父親節禮物,兒子女兒各送一幅畫,一家四口互動溫馨

汪小菲搞笑曬父親節禮物,兒子女兒各送一幅畫,一家四口互動溫馨

鋭娛之樂
2025-06-15 08:54:23
禁酒令初衷良好,執行中層層加碼導致基層困境

禁酒令初衷良好,執行中層層加碼導致基層困境

老羴學科普
2025-06-13 02:39:50
伊朗公布首批秘密文件,以色列總能精準找到科學家,內鬼終于曝光

伊朗公布首批秘密文件,以色列總能精準找到科學家,內鬼終于曝光

碳基生物關懷組織
2025-06-13 16:33:57
沖突爆發48小時,以色列威脅暗殺伊朗最高領袖哈梅內伊?

沖突爆發48小時,以色列威脅暗殺伊朗最高領袖哈梅內伊?

上觀新聞
2025-06-15 14:31:06
少婦天花板!

少婦天花板!

貴圈真亂
2025-06-10 12:03:31
蘇超墊底!常州隊主帥:關注度超預期,球員教練壓力不自覺增大了

蘇超墊底!常州隊主帥:關注度超預期,球員教練壓力不自覺增大了

直播吧
2025-06-15 15:32:06
4-0!登貝萊缺陣 三大中場輪番破門 巴黎完爆馬競 世俱杯開門紅

4-0!登貝萊缺陣 三大中場輪番破門 巴黎完爆馬競 世俱杯開門紅

狍子歪解體壇
2025-06-16 05:05:37
上海主持人金昀去世后續!老公出面辟謠,曝料人白瑞黑歷史被扒

上海主持人金昀去世后續!老公出面辟謠,曝料人白瑞黑歷史被扒

裕豐娛間說
2025-06-15 13:17:07
說法丨利用壟斷優勢搞“搭售”?司法維護市場競爭秩序

說法丨利用壟斷優勢搞“搭售”?司法維護市場競爭秩序

人民資訊
2025-06-15 09:52:04
2025-06-16 05:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15297文章數 513784關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網友

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

一汽豐田bZ5:試圖掀桌的“合資新力量”王牌

態度原創

藝術
本地
家居
數碼
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

家居要聞

森林幾何 極簡灰調原木風

數碼要聞

消息稱蘋果 AirPods Pro 3 明年發布

軍事要聞

伊朗最高領袖高級顧問沙姆哈尼 因傷勢過重離世

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 琼海市| 西充县| 甘肃省| 六枝特区| 九龙坡区| 宝坻区| 延安市| 建阳市| 城步| 青州市| 南开区| 攀枝花市| 蒙城县| 绵阳市| 南投县| 巴彦县| 自治县| 祁连县| 安化县| 达尔| 北流市| 兴山县| 万宁市| 睢宁县| 潜江市| 祁连县| 镇宁| 东光县| 无极县| 丽江市| 榆树市| 浦江县| 阜新市| 西乌珠穆沁旗| 平顺县| 万山特区| 邹城市| 永年县| 兴安盟| 瓮安县| 漾濞|