99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

數(shù)學(xué)圈地震!o3靠直覺刷爆人類頂尖難題,14位專家集體破防

0
分享至

  

  新智元報道

  編輯:桃子 犀牛

  【新智元導(dǎo)讀】推理模型如何攻克數(shù)學(xué)難題?Epoch AI新研究發(fā)現(xiàn),o3-mini-high不僅具備淵博學(xué)識,還會基于直覺解題。然而,它的推理風(fēng)格過于依賴直覺,缺乏嚴(yán)謹(jǐn)性和創(chuàng)造力,甚至偶爾「投機取巧」。

  推理模型不會推理,一夜成為硅谷最熱門的話題。

  來自Epoch AI最新報告稱,o3-mini-high不僅會推理,還能破解頂尖數(shù)學(xué)難題。

  

  14位數(shù)學(xué)家組團,共同評估o3在29道FrontierMath推理能力。

  結(jié)果驚奇地發(fā)現(xiàn),o3-mini-high完全憑借「數(shù)學(xué)直覺」破解了難題,并非依靠單純死記硬背完成。

  

  他們還發(fā)現(xiàn),o3具備一種類似物理學(xué)家思維方式,許多推理步驟缺少嚴(yán)格的論證、精確的證明。

  一位數(shù)學(xué)家稱之為,「基于直覺的歸納推理器」。

  缺乏創(chuàng)造力和深入的理解,成為o3最大的弱點。

  

  在29道數(shù)學(xué)題考試中,o3-mini-high都有哪些表現(xiàn),以下是報告所有細(xì)節(jié)。

  o3攻克13題,學(xué)識直覺兼具

  在29個推理過程中,有13個得出了正確答案——o3-mini-high到底是怎么搞定這些數(shù)學(xué)難題的呢?

  超強學(xué)識——不只是死記硬背

  一個關(guān)鍵因素是它那驚人的學(xué)識,這一點毫不意外,畢竟它接受了海量數(shù)據(jù)的訓(xùn)練。

  o3-mini-high能應(yīng)對各種領(lǐng)域的FrontierMath問題,數(shù)學(xué)家們一致認(rèn)為它的知識儲備非常豐富。

  一位數(shù)學(xué)家評價說:「o3-mini-high能準(zhǔn)確擴展問題的數(shù)學(xué)背景,涉及一些非常高深的概念。它的通用知識和對問題的理解完全不是瓶頸。」

  而且,這可不是單純的死記硬背。

  即使問題設(shè)計者故意隱藏了解題所需的關(guān)鍵技術(shù),數(shù)學(xué)家們普遍發(fā)現(xiàn),o3-mini-high依然有不錯的能力調(diào)用正確的定理來推進解題。

  特別是在大約66%的推理中,數(shù)學(xué)家們對模型調(diào)用相關(guān)數(shù)學(xué)結(jié)果的能力給出了至少3分(滿分5分)的高評價。

  

  評審數(shù)學(xué)家普遍發(fā)現(xiàn),o3-mini-high在調(diào)用數(shù)學(xué)文獻中的相關(guān)結(jié)果方面表現(xiàn)尚可,在約三分之二的問題上獲得了3/5或更高的評分

  全憑直覺,缺少精確

  如前所述,o3-mini-high推理過程,更傾向于非正式的風(fēng)格。

  簡言之,它是一個「基于直覺的歸納推理器」,并且擁有類似數(shù)學(xué)家好奇心,找出解決問題的最簡單的方法。

  不過,在數(shù)學(xué)家看來,o3思考過程略顯隨意,不夠精確。

  而且,其初始思路表述往往很粗糙,用語也不夠嚴(yán)謹(jǐn)。存在一些在正式數(shù)學(xué)論文中不被接受的特殊情況。

  o3-mini-high為何不采用更形式化的推理?

  Epoch尚未完全弄清其中緣由,但至少可以確定,并不僅僅是「模型偷懶」那么簡單。

  比如,他們發(fā)現(xiàn),o3在需要的時候,會毫不猶豫地進行計算和寫代碼。

  這一看似并不起眼的繁瑣步驟,卻可以讓模型能夠保持更扎實、更少抽象的風(fēng)格。

  不可否認(rèn),其推理依舊依賴的是直覺。

  而且,另一種可能是,預(yù)訓(xùn)練中「形式化推理」數(shù)據(jù)集占比少,后期難以完美激發(fā)o3所有潛力。

  三大短板曝出

  缺乏精確性

  上面提到的形式化精確性不足問題,是o3-mini-high的主要短板之一。

  比如,一位數(shù)學(xué)家指出:「o3-mini-high相比人類數(shù)學(xué)家的一個明顯不足在于,它不會在發(fā)現(xiàn)某個結(jié)論后嘗試去證明它?!?/p>

  在一個案例中,o3-mini-high通過非正式推理提出了一個正確的猜想,但完全沒有嘗試去證明這個猜想,而是直接用這個猜想來解決問題。

  最后還得到了正確答案。

  他們把這種情況稱之為「投機取巧」(cheesing)。

  也就是說,模型基本上是靠猜答案,而沒有經(jīng)過完整的推理過程,完整的推理應(yīng)該包括去證明相關(guān)的猜想。

  在模型得出正確答案的推理過程中,投機取巧的情況占了相當(dāng)少的部分:

  

  「投機取巧」現(xiàn)象相對常見,但o3-mini-high在絕大多數(shù)情況下都能正確解決問題,且沒有任何投機取巧行為(即得分為5)。該圖僅適用于o3-mini-high正確回答所提問題的推理軌跡

  有時,o3-mini-high的思路大致是對的,但未能得出正確答案,僅僅是因為它未能建立起最后關(guān)鍵的聯(lián)系。

  比如,在一個關(guān)于劃分理論的問題中,模型只差一步就能答對,作者評論說:「如果它把n=0到某個數(shù)的輸出求和,答案就對了。我對它的表現(xiàn)真的很佩服。」

  不過,更多時候,o3-mini-high并沒有這么接近解決問題,如下圖所示:

  

  只有大約18%的情況下,o3-mini-high得到錯誤解的情況非常接近正確解——總體而言,推理的正確程度分布更為廣泛

  缺乏創(chuàng)造力和深刻理解

  數(shù)學(xué)家們認(rèn)為,o3-mini-high最大的局限性在于缺乏創(chuàng)造力和深刻的理解,尤其是與具有同等知識水平的人類相比。

  一位數(shù)學(xué)家這樣總結(jié)道:

  這個模型就像一個勤奮的研究生,讀了很多書,能隨口說出很多結(jié)果和作者的名字。初看之下挺厲害,但專家很快就會發(fā)現(xiàn),這個「學(xué)生」并沒有真正深入理解這些內(nèi)容,大多只是鸚鵡學(xué)舌般地復(fù)述。

  模型的表現(xiàn)也是如此——它擅長識別相關(guān)內(nèi)容,但無法以創(chuàng)新的方式擴展或應(yīng)用這些知識。

  另一位數(shù)學(xué)家則說:

  這個模型有幾個它偏愛的思路,總是試圖套用這些想法。

  一旦這幾個思路用盡,就沒有實質(zhì)性進展了。

  我覺得這挺讓人失望的,作為一個專業(yè)組合數(shù)學(xué)家,我會期待它能更具創(chuàng)造性地解決問題,或者換個角度去思考(即便這些嘗試可能會失?。?。

  有位數(shù)學(xué)家甚至打趣道:「讓AI解一道需要新思路的八年級數(shù)學(xué)競賽題,可能比算一個大有限域上的超橢圓曲線有多少個點還難。」

  雖然這話聽起來夸張,但它反映的情況和大多數(shù)數(shù)學(xué)家的觀察差不多。

  幻覺問題

  模型還表現(xiàn)出許多其他失敗模式。

  一個顯著問題是,大約75%的推理過程包含「幻覺」,經(jīng)常記錯數(shù)學(xué)術(shù)語和公式。

  例如,一位數(shù)學(xué)家指出:「雖然它常常能回憶起相關(guān)公式的名字,但卻無法準(zhǔn)確復(fù)現(xiàn),經(jīng)常在無法回憶細(xì)節(jié)的地方插入占位符,如(…)?!?/p>

  o3-mini-high在使用工具和資源(如網(wǎng)絡(luò)搜索)時也存在問題。

  比如,有人描述它「試圖從許多它幻想出來的不存在的URL中獲取信息」。這類問題在需要準(zhǔn)確表達非常冷門的數(shù)學(xué)結(jié)果時就顯得尤為關(guān)鍵。

  的確,有一位受訪者認(rèn)為:「一個能夠執(zhí)行類似瀏覽Google或arXiv,以查找潛在相關(guān)結(jié)果的智能體系統(tǒng)將大大提高它們在實際問題中的表現(xiàn)?!?/p>

  推理像人,又不像人,為何?

  o3-mini-high推理過程,與人類數(shù)學(xué)家有相似之處嗎?

  對此,Epoch AI針對模型CoT和人類數(shù)學(xué)家進行了比對。整體講,最終答案因不同數(shù)學(xué)家、推理過程而異。

  如下圖所示,數(shù)學(xué)家對o3-mini-high推理像人程度,進行了打分。

  雖沒有達到完全無法區(qū)分的程度,但AI在解答四道題目中,拿下了與人類數(shù)學(xué)家思維過程類似的成績。

  

  1分表示推理完全不像人類,5分表示推理與人類數(shù)學(xué)家無法區(qū)分

  此外,在其他區(qū)間,o3均有涉及。為何跨度如此廣泛?

  研究團隊分析稱,之所以有這么大的差異,與o3-mini-high具備多樣化能力組合有關(guān),至少對于人類來說是這樣。

  一方面,它似乎非常擅長像人類一樣推理問題,表現(xiàn)出好奇心并探索問題的不同解決路徑。

  另一方面,它似乎知識過于淵博,缺乏創(chuàng)造力和嚴(yán)謹(jǐn)性,而且還有一些奇怪的「怪癖」。

  做題過程中,o3-mini-high推理過程往往非常冗長。甚至數(shù)學(xué)家形象地將其比作——口試中長篇大論的學(xué)生,倒也不是壞事。

  然而,并非所有的冗長推理細(xì)節(jié),都明顯有用。有時,AI在提交最終答案時,會出現(xiàn)類人的「焦慮」情緒。

  舉個例子,o3-mini-high會最終陷入一種「反復(fù)重述」的循環(huán)怪圈——

  已完成解答,上面推理過程就是最終答案,還夾雜著自我懷疑的內(nèi)心OS,然后又重新一步步計算得出最終公式的某些算術(shù)。

  不僅是o3,任何一個推理模型,都會陷入這類的死循環(huán)。

  至少在這種情況下,模型的推理過程明顯不像一個冷靜的人類數(shù)學(xué)家。

  

  基于以上內(nèi)容,我們可以簡單地將o3-mini-high總結(jié)為「一個博學(xué)但基于感覺的推理者,缺乏專業(yè)數(shù)學(xué)家的創(chuàng)造力和嚴(yán)謹(jǐn)性,且傾向于奇怪地冗長或重復(fù)」。

  這似乎與我們在網(wǎng)上看到的數(shù)學(xué)家的觀點大體一致。

  他們認(rèn)為,這一分析自然而然地引出了兩個關(guān)鍵問題。

  第一個問題是:為什么像o3-mini-high這樣的推理模型會展現(xiàn)出這些特性?

  一部分原因顯而易見——這些模型之所以博學(xué),是因為它們在大量數(shù)據(jù)上接受了訓(xùn)練,其中包括了大量公開的數(shù)學(xué)文獻。

  但更讓人好奇的是,為什么這些模型并不能更深入地利用已有知識,在不同數(shù)學(xué)子領(lǐng)域之間建立更多聯(lián)系,或者更具創(chuàng)造性地提出新想法?

  這個問題的答案仍不明朗。

  第二個問題是:這些推理模型在目前的弱項(比如創(chuàng)造力和形式化推理)方面,未來還能改進到什么程度?而這樣的進步,又會怎樣重塑整個數(shù)學(xué)推理的方式?

  比如,我們可以把o3-mini-high的推理方式和AlphaProof這樣的系統(tǒng)作比較——后者主要甚至完全基于合成數(shù)據(jù)訓(xùn)練,因此它「見過」的數(shù)學(xué)世界可能完全不同。

  考慮到數(shù)學(xué)本身對合成數(shù)據(jù)的高度適應(yīng)性,有理由認(rèn)為,未來的推理模型在思維方式上可能會和人類數(shù)學(xué)家越來越不一樣。

  當(dāng)然,我們現(xiàn)在的理解還只是剛剛觸及這些模型工作機制的表層。希望未來能有更多類似的分析,來揭示這些系統(tǒng)背后的深層邏輯。

  參考資料:

  https://x.com/EpochAIResearch/status/1931746761221025914

  https://epoch.ai/gradient-updates/beyond-benchmark-scores-analysing-o3-mini-math-reasoning

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王毅回京不到2小時,深夜接到中東急電,中方對伊朗已是仁至義盡

王毅回京不到2小時,深夜接到中東急電,中方對伊朗已是仁至義盡

墨印齋
2025-06-22 05:08:39
陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認(rèn)不出,17歲兒子1米8長得像媽

陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認(rèn)不出,17歲兒子1米8長得像媽

果娛
2025-05-14 12:19:32
《慶余年》男演員轉(zhuǎn)型拍短劇,演長劇18年無人理,一朝霸總天下知

《慶余年》男演員轉(zhuǎn)型拍短劇,演長劇18年無人理,一朝霸總天下知

易同學(xué)愛談娛樂
2025-06-22 16:10:05
今天這么多預(yù)測楊紫榮獲白玉蘭視后,真的是年輕一輩勢不可擋

今天這么多預(yù)測楊紫榮獲白玉蘭視后,真的是年輕一輩勢不可擋

動物奇奇怪怪
2025-06-23 00:04:25
哈梅內(nèi)伊一聲令下,伊朗導(dǎo)彈轟炸美國海軍,將封鎖霍爾木茲海峽?

哈梅內(nèi)伊一聲令下,伊朗導(dǎo)彈轟炸美國海軍,將封鎖霍爾木茲海峽?

近史博覽
2025-06-22 13:02:49
李雪琴事件升級!舉報人再曬證據(jù)實錘,被曝學(xué)歷造假只是冰山一角

李雪琴事件升級!舉報人再曬證據(jù)實錘,被曝學(xué)歷造假只是冰山一角

果娛
2025-06-22 14:36:49
18歲男孩因尿毒癥急需換腎,親媽配型成功,但反應(yīng)前后判若兩人:換給他,我就死定了!

18歲男孩因尿毒癥急需換腎,親媽配型成功,但反應(yīng)前后判若兩人:換給他,我就死定了!

坦然風(fēng)云
2025-06-21 12:47:47
“五物不送人,后代一直富”,這五種東西千萬不要送人!有道理嗎

“五物不送人,后代一直富”,這五種東西千萬不要送人!有道理嗎

聞心品閣
2025-06-17 07:22:54
成交價翻倍!深圳兩套豪宅法拍,公司老板賣房還債?

成交價翻倍!深圳兩套豪宅法拍,公司老板賣房還債?

南方都市報
2025-06-22 12:49:13
荔枝的“死對頭”,醫(yī)生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

荔枝的“死對頭”,醫(yī)生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

阿龍美食記
2025-06-16 15:19:56
燒烤店贊助蘇超常州比賽,老板娘回應(yīng):長期關(guān)注常州體育,通過審核很意外

燒烤店贊助蘇超常州比賽,老板娘回應(yīng):長期關(guān)注常州體育,通過審核很意外

現(xiàn)代快報
2025-06-22 15:12:13
父親扛完大包回家,發(fā)現(xiàn)兒子點2頓外賣崩潰:我一小時才賺16塊

父親扛完大包回家,發(fā)現(xiàn)兒子點2頓外賣崩潰:我一小時才賺16塊

熙熙說教
2025-06-21 19:33:34
違規(guī)吃喝標(biāo)準(zhǔn)確定!杜絕“一刀切”式整治,誰亂加碼誰擔(dān)責(zé)

違規(guī)吃喝標(biāo)準(zhǔn)確定!杜絕“一刀切”式整治,誰亂加碼誰擔(dān)責(zé)

王五說說看
2025-06-22 16:07:36
湖北小縣城:體制內(nèi)女教師的貧富差距

湖北小縣城:體制內(nèi)女教師的貧富差距

英軍眼
2025-06-22 11:59:00
警惕!北京多地出現(xiàn)大蛇!

警惕!北京多地出現(xiàn)大蛇!

美麗大北京
2025-06-22 19:04:44
美國終于明白,當(dāng)年自己“誤炸”中國大使館,中國為什么不反擊?

美國終于明白,當(dāng)年自己“誤炸”中國大使館,中國為什么不反擊?

鐘裹雜談歷史
2023-11-22 09:07:16
吃霸王婚宴的錢總“社會性死亡”了,生意被曝,新婚女兒也被連累

吃霸王婚宴的錢總“社會性死亡”了,生意被曝,新婚女兒也被連累

知鑒明史
2025-06-19 16:42:38
即將HWG!羅馬諾:32歲博格巴自由加盟摩納哥,時隔兩年再就業(yè)!

即將HWG!羅馬諾:32歲博格巴自由加盟摩納哥,時隔兩年再就業(yè)!

直播吧
2025-06-23 02:28:30
吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠(yuǎn)了

吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠(yuǎn)了

boss外傳
2025-05-04 17:20:03
不出意外,7月起,將迎來新一波降價潮,4類商品價格或會“跳水”

不出意外,7月起,將迎來新一波降價潮,4類商品價格或會“跳水”

小談食刻美食
2025-06-20 17:01:49
2025-06-23 02:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12929文章數(shù) 66077關(guān)注度
往期回顧 全部

教育要聞

主播說聯(lián)播丨高考查分季,做好三件事

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內(nèi)伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內(nèi)伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負(fù)收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經(jīng)要聞

蘋果后院起火

科技要聞

"你應(yīng)該靠嘴吃飯",羅永浩自述被梁文鋒勸退

汽車要聞

首搭華為雙王牌/6月24日預(yù)售 嵐圖FREE+正式下線

態(tài)度原創(chuàng)

親子
本地
時尚
教育
公開課

親子要聞

我與兒子與同學(xué)之間的稱呼

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

伊姐周日熱推:電視劇《完美的救贖》;電視劇《書卷一夢》......

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學(xué)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 台南市| 牙克石市| 通河县| 长乐市| 濉溪县| 土默特右旗| 平凉市| 铜鼓县| 巴里| 綦江县| 宝鸡市| 高安市| 册亨县| 沙雅县| 隆子县| 泊头市| 天津市| 龙海市| 乃东县| 迁西县| 德令哈市| 邹平县| 温宿县| 麻栗坡县| 沈阳市| 绥芬河市| 开阳县| 遵义县| 金堂县| 临泉县| 日喀则市| 盖州市| 黑山县| 枞阳县| 石泉县| 鸡东县| 和平区| 吴旗县| 永康市| 乌兰浩特市| 潮州市|