數(shù)學(xué)圈地震！o3靠直覺刷爆人類頂尖難題，14位專家集體破防

2025-06-09 20:00:02　來源: 新智元

北京舉報

分享至

　　新智元報道

　　編輯：桃子犀牛

　　【新智元導(dǎo)讀】推理模型如何攻克數(shù)學(xué)難題？Epoch AI新研究發(fā)現(xiàn)，o3-mini-high不僅具備淵博學(xué)識，還會基于直覺解題。然而，它的推理風(fēng)格過于依賴直覺，缺乏嚴(yán)謹(jǐn)性和創(chuàng)造力，甚至偶爾「投機取巧」。

　　推理模型不會推理，一夜成為硅谷最熱門的話題。

　　來自Epoch AI最新報告稱，o3-mini-high不僅會推理，還能破解頂尖數(shù)學(xué)難題。

　　14位數(shù)學(xué)家組團，共同評估o3在29道FrontierMath推理能力。

　　結(jié)果驚奇地發(fā)現(xiàn)，o3-mini-high完全憑借「數(shù)學(xué)直覺」破解了難題，并非依靠單純死記硬背完成。

　　他們還發(fā)現(xiàn)，o3具備一種類似物理學(xué)家思維方式，許多推理步驟缺少嚴(yán)格的論證、精確的證明。

　　一位數(shù)學(xué)家稱之為，「基于直覺的歸納推理器」。

　　缺乏創(chuàng)造力和深入的理解，成為o3最大的弱點。

　　在29道數(shù)學(xué)題考試中，o3-mini-high都有哪些表現(xiàn)，以下是報告所有細(xì)節(jié)。

　　o3攻克13題，學(xué)識直覺兼具

　　在29個推理過程中，有13個得出了正確答案——o3-mini-high到底是怎么搞定這些數(shù)學(xué)難題的呢？

　　超強學(xué)識——不只是死記硬背

　　一個關(guān)鍵因素是它那驚人的學(xué)識，這一點毫不意外，畢竟它接受了海量數(shù)據(jù)的訓(xùn)練。

　　o3-mini-high能應(yīng)對各種領(lǐng)域的FrontierMath問題，數(shù)學(xué)家們一致認(rèn)為它的知識儲備非常豐富。

　　一位數(shù)學(xué)家評價說：「o3-mini-high能準(zhǔn)確擴展問題的數(shù)學(xué)背景，涉及一些非常高深的概念。它的通用知識和對問題的理解完全不是瓶頸。」

　　而且，這可不是單純的死記硬背。

　　即使問題設(shè)計者故意隱藏了解題所需的關(guān)鍵技術(shù)，數(shù)學(xué)家們普遍發(fā)現(xiàn)，o3-mini-high依然有不錯的能力調(diào)用正確的定理來推進解題。

　　特別是在大約66%的推理中，數(shù)學(xué)家們對模型調(diào)用相關(guān)數(shù)學(xué)結(jié)果的能力給出了至少3分（滿分5分）的高評價。

　　評審數(shù)學(xué)家普遍發(fā)現(xiàn)，o3-mini-high在調(diào)用數(shù)學(xué)文獻中的相關(guān)結(jié)果方面表現(xiàn)尚可，在約三分之二的問題上獲得了3/5或更高的評分

　　全憑直覺，缺少精確

　　如前所述，o3-mini-high推理過程，更傾向于非正式的風(fēng)格。

　　簡言之，它是一個「基于直覺的歸納推理器」，并且擁有類似數(shù)學(xué)家好奇心，找出解決問題的最簡單的方法。

　　不過，在數(shù)學(xué)家看來，o3思考過程略顯隨意，不夠精確。

　　而且，其初始思路表述往往很粗糙，用語也不夠嚴(yán)謹(jǐn)。存在一些在正式數(shù)學(xué)論文中不被接受的特殊情況。

　　o3-mini-high為何不采用更形式化的推理？

　　Epoch尚未完全弄清其中緣由，但至少可以確定，并不僅僅是「模型偷懶」那么簡單。

　　比如，他們發(fā)現(xiàn)，o3在需要的時候，會毫不猶豫地進行計算和寫代碼。

　　這一看似并不起眼的繁瑣步驟，卻可以讓模型能夠保持更扎實、更少抽象的風(fēng)格。

　　不可否認(rèn)，其推理依舊依賴的是直覺。

　　而且，另一種可能是，預(yù)訓(xùn)練中「形式化推理」數(shù)據(jù)集占比少，后期難以完美激發(fā)o3所有潛力。

　　三大短板曝出

　　缺乏精確性

　　上面提到的形式化精確性不足問題，是o3-mini-high的主要短板之一。

　　比如，一位數(shù)學(xué)家指出：「o3-mini-high相比人類數(shù)學(xué)家的一個明顯不足在于，它不會在發(fā)現(xiàn)某個結(jié)論后嘗試去證明它?！?/p>

　　在一個案例中，o3-mini-high通過非正式推理提出了一個正確的猜想，但完全沒有嘗試去證明這個猜想，而是直接用這個猜想來解決問題。

　　最后還得到了正確答案。

　　他們把這種情況稱之為「投機取巧」（cheesing）。

　　也就是說，模型基本上是靠猜答案，而沒有經(jīng)過完整的推理過程，完整的推理應(yīng)該包括去證明相關(guān)的猜想。

　　在模型得出正確答案的推理過程中，投機取巧的情況占了相當(dāng)少的部分：

　　「投機取巧」現(xiàn)象相對常見，但o3-mini-high在絕大多數(shù)情況下都能正確解決問題，且沒有任何投機取巧行為（即得分為5）。該圖僅適用于o3-mini-high正確回答所提問題的推理軌跡

　　有時，o3-mini-high的思路大致是對的，但未能得出正確答案，僅僅是因為它未能建立起最后關(guān)鍵的聯(lián)系。

　　比如，在一個關(guān)于劃分理論的問題中，模型只差一步就能答對，作者評論說：「如果它把n=0到某個數(shù)的輸出求和，答案就對了。我對它的表現(xiàn)真的很佩服。」

　　不過，更多時候，o3-mini-high并沒有這么接近解決問題，如下圖所示：

　　只有大約18%的情況下，o3-mini-high得到錯誤解的情況非常接近正確解——總體而言，推理的正確程度分布更為廣泛

　　缺乏創(chuàng)造力和深刻理解

　　數(shù)學(xué)家們認(rèn)為，o3-mini-high最大的局限性在于缺乏創(chuàng)造力和深刻的理解，尤其是與具有同等知識水平的人類相比。

　　一位數(shù)學(xué)家這樣總結(jié)道：

　　這個模型就像一個勤奮的研究生，讀了很多書，能隨口說出很多結(jié)果和作者的名字。初看之下挺厲害，但專家很快就會發(fā)現(xiàn)，這個「學(xué)生」并沒有真正深入理解這些內(nèi)容，大多只是鸚鵡學(xué)舌般地復(fù)述。

　　模型的表現(xiàn)也是如此——它擅長識別相關(guān)內(nèi)容，但無法以創(chuàng)新的方式擴展或應(yīng)用這些知識。

　　另一位數(shù)學(xué)家則說：

　　這個模型有幾個它偏愛的思路，總是試圖套用這些想法。

　　一旦這幾個思路用盡，就沒有實質(zhì)性進展了。

　　我覺得這挺讓人失望的，作為一個專業(yè)組合數(shù)學(xué)家，我會期待它能更具創(chuàng)造性地解決問題，或者換個角度去思考（即便這些嘗試可能會失?。?。

　　有位數(shù)學(xué)家甚至打趣道：「讓AI解一道需要新思路的八年級數(shù)學(xué)競賽題，可能比算一個大有限域上的超橢圓曲線有多少個點還難。」

　　雖然這話聽起來夸張，但它反映的情況和大多數(shù)數(shù)學(xué)家的觀察差不多。

　　幻覺問題

　　模型還表現(xiàn)出許多其他失敗模式。

　　一個顯著問題是，大約75%的推理過程包含「幻覺」，經(jīng)常記錯數(shù)學(xué)術(shù)語和公式。

　　例如，一位數(shù)學(xué)家指出：「雖然它常常能回憶起相關(guān)公式的名字，但卻無法準(zhǔn)確復(fù)現(xiàn)，經(jīng)常在無法回憶細(xì)節(jié)的地方插入占位符，如(…)?！?/p>

　　o3-mini-high在使用工具和資源（如網(wǎng)絡(luò)搜索）時也存在問題。

　　比如，有人描述它「試圖從許多它幻想出來的不存在的URL中獲取信息」。這類問題在需要準(zhǔn)確表達非常冷門的數(shù)學(xué)結(jié)果時就顯得尤為關(guān)鍵。

　　的確，有一位受訪者認(rèn)為：「一個能夠執(zhí)行類似瀏覽Google或arXiv，以查找潛在相關(guān)結(jié)果的智能體系統(tǒng)將大大提高它們在實際問題中的表現(xiàn)?！?/p>

　　推理像人，又不像人，為何？

　　o3-mini-high推理過程，與人類數(shù)學(xué)家有相似之處嗎？

　　對此，Epoch AI針對模型CoT和人類數(shù)學(xué)家進行了比對。整體講，最終答案因不同數(shù)學(xué)家、推理過程而異。

　　如下圖所示，數(shù)學(xué)家對o3-mini-high推理像人程度，進行了打分。

　　雖沒有達到完全無法區(qū)分的程度，但AI在解答四道題目中，拿下了與人類數(shù)學(xué)家思維過程類似的成績。

　　1分表示推理完全不像人類，5分表示推理與人類數(shù)學(xué)家無法區(qū)分

　　此外，在其他區(qū)間，o3均有涉及。為何跨度如此廣泛？

　　研究團隊分析稱，之所以有這么大的差異，與o3-mini-high具備多樣化能力組合有關(guān)，至少對于人類來說是這樣。

　　一方面，它似乎非常擅長像人類一樣推理問題，表現(xiàn)出好奇心并探索問題的不同解決路徑。

　　另一方面，它似乎知識過于淵博，缺乏創(chuàng)造力和嚴(yán)謹(jǐn)性，而且還有一些奇怪的「怪癖」。

　　做題過程中，o3-mini-high推理過程往往非常冗長。甚至數(shù)學(xué)家形象地將其比作——口試中長篇大論的學(xué)生，倒也不是壞事。

　　然而，并非所有的冗長推理細(xì)節(jié)，都明顯有用。有時，AI在提交最終答案時，會出現(xiàn)類人的「焦慮」情緒。

　　舉個例子，o3-mini-high會最終陷入一種「反復(fù)重述」的循環(huán)怪圈——

　　已完成解答，上面推理過程就是最終答案，還夾雜著自我懷疑的內(nèi)心OS，然后又重新一步步計算得出最終公式的某些算術(shù)。

　　不僅是o3，任何一個推理模型，都會陷入這類的死循環(huán)。

　　至少在這種情況下，模型的推理過程明顯不像一個冷靜的人類數(shù)學(xué)家。

　　基于以上內(nèi)容，我們可以簡單地將o3-mini-high總結(jié)為「一個博學(xué)但基于感覺的推理者，缺乏專業(yè)數(shù)學(xué)家的創(chuàng)造力和嚴(yán)謹(jǐn)性，且傾向于奇怪地冗長或重復(fù)」。

　　這似乎與我們在網(wǎng)上看到的數(shù)學(xué)家的觀點大體一致。

　　他們認(rèn)為，這一分析自然而然地引出了兩個關(guān)鍵問題。

　　第一個問題是：為什么像o3-mini-high這樣的推理模型會展現(xiàn)出這些特性？

　　一部分原因顯而易見——這些模型之所以博學(xué)，是因為它們在大量數(shù)據(jù)上接受了訓(xùn)練，其中包括了大量公開的數(shù)學(xué)文獻。

　　但更讓人好奇的是，為什么這些模型并不能更深入地利用已有知識，在不同數(shù)學(xué)子領(lǐng)域之間建立更多聯(lián)系，或者更具創(chuàng)造性地提出新想法？

　　這個問題的答案仍不明朗。

　　第二個問題是：這些推理模型在目前的弱項（比如創(chuàng)造力和形式化推理）方面，未來還能改進到什么程度？而這樣的進步，又會怎樣重塑整個數(shù)學(xué)推理的方式？

　　比如，我們可以把o3-mini-high的推理方式和AlphaProof這樣的系統(tǒng)作比較——后者主要甚至完全基于合成數(shù)據(jù)訓(xùn)練，因此它「見過」的數(shù)學(xué)世界可能完全不同。

　　考慮到數(shù)學(xué)本身對合成數(shù)據(jù)的高度適應(yīng)性，有理由認(rèn)為，未來的推理模型在思維方式上可能會和人類數(shù)學(xué)家越來越不一樣。

　　當(dāng)然，我們現(xiàn)在的理解還只是剛剛觸及這些模型工作機制的表層。希望未來能有更多類似的分析，來揭示這些系統(tǒng)背后的深層邏輯。

　　參考資料：

　　https://x.com/EpochAIResearch/status/1931746761221025914

　　https://epoch.ai/gradient-updates/beyond-benchmark-scores-analysing-o3-mini-math-reasoning

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.