99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<pre id="jsurm"><p id="jsurm"><menu id="jsurm"></menu></p></pre>

^{<blockquote id="jsurm"></blockquote>}

<em id="jsurm"></em>

<sub id="jsurm"></sub>

<cite id="jsurm"></cite>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

陶哲軒攜AI再戰數學！o4-mini秒慫棄賽，Claude 20分鐘通關

2025-05-14 14:58:51　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：桃子

【新智元導讀】陶哲軒YouTube視頻第二彈震撼來襲！這一次，他讓AI挑戰在Lean中形式化代數蘊含證明，結果Claude約20分通關，o4-mini太過謹慎直接「棄賽」。

3天后，陶哲軒YouTube視頻二更來了。

這次，他嘗試了一種更短、更概念化的證明版本，并測試Claude、o4-mini能否基于之前的非形式和形式證明，生成類似的形式化代碼。

實驗的核心是，在Lean中形式化同一個代數蘊含的證明。

此外，他還發文深入剖析了，自動化工具不同尺度上的效率表現，以及自動化與人工干預之間的微妙平衡。

Claude 20分完成，o4-mini棄題

最新實驗中，陶哲軒圍繞一個代數蘊含展開（algebraic implication）：證明方程1689蘊含方程2。

錄制前，他已進行了一次測試。

這里直接在Claude/o4-mini中粘貼prompt，然后附上非形式證明、形式證明、方程三個附件。

接下來，一起看看這兩個模型具體表現如何？

Claude

實驗中，Claude整體表現出色，能夠快速將非形式證明的單行，轉化為看似合理的Lean代碼。

它生成了與之前形式化證明結構相似的代碼，并成功定義了關鍵的冪函數。

然而，陶哲軒創建一個新文件，在Claude編譯過程中，卻發現錯誤——它假設從自然數1開始，而Lean中的自然數從0開始。

另外，Claude未能正確處理方程的對稱性，比如x=(y·x)·z，導致了證明邏輯出現偏差。

盡管單行代碼生成高效，但缺乏對整體結構的理解，使得錯誤診斷和修復變得困難。

通過人工干預，陶哲軒修復了這些問題，最終在20分鐘內完成形式化。

o4-mini

相比之下，o4-mini表現得更為謹慎。

與Claude類似，o4-mini一上來也創建了一個冪函數，卻勝過前者。

它正確識別了冪函數定義中的問題，magmas中沒有單位元1，因此不能簡單假設0=>x設置為等于1。

然而，o4-mini在關鍵時刻卻選擇了「放棄」，僅生成了部分證明代碼，并在修復步驟中輸出「抱歉」。

最終，o4-mini未能完成形式化證明。

陶哲軒表示，它的謹慎策略雖避免了嚴重錯誤，但也限制了其在復雜任務中的實用性。

有趣的是，o4-mini和Claude同樣遇到了類似對稱性問題，表明LLM在處理數學邏輯的細微差別時，存在共同的局限。

總之，整個實驗目標看似簡單，即讓AI工具將人類可讀的證明轉化為Lean代碼，并在證明助手中成功編譯。

然而，陶哲軒的實驗揭示了自動化的復雜性，尤其是在效率和正確性之間的平衡。

100%過度自動化，毀掉數學未來？

在長達一周的自動形式化實驗中，陶哲軒得出了一個教訓——

即使純粹專注于效率，僅接受在證明助手中實際編譯并產生預期結果的形式化，衡量效率的尺度現在也產生了顯著差異。

在形式化數學證明過程中，效率可以從以下四個不同尺度衡量。

1. 單形式化：加快證明中任意一行的形式化

2. 單一引理形式化：加快形式化證明中的任一引理

3. 單一證明形式化：加快形式化定理的任一證明

4. 「整個教科書」形式化：加快形式化整個教科書的成果

每個尺度看似都在指向同一個目標：更快地完成形式化。然而，實際操作中，這些尺度的優化策略可能互相沖突。

陶哲軒以自己最近的實驗為例，嘗試用一些自動化工具，加速形式化過程。

我意識到，許多當前的自動化工具可以在其中一個尺度上加速形式化，但出乎意料的是，過度依賴此類工具可能會削弱在其他尺度上形式化的能力。

比如，依賴類型匹配工具canonical在「單行形式化」（尺度1）的任務中，表現出色。

它能快速解析，并生成正確的代碼，在此過程中，陶哲軒幾乎無需手動干預。

然而，當過于依賴canonical，盲目接受它對某一步的解析，并迅速進入下一步時，他發現自己逐漸失去了對證明整體結構的把握。

這導致了，在「引理形式化」（尺度2）上，診斷和修復錯誤變得更加困難，因為到了此刻，陶哲軒對證明步驟之間的聯系缺乏深入的理解。

有趣的是，修復這些錯誤的過程，卻讓陶哲軒本人受益匪淺。

通過手動檢查和調整，他逐漸理解了引理之間的作用，這反過來提升了其解決「單一證明形式化」（尺度3）任務的能力。

這種「意外收獲」讓他意識到，完全依賴自動化工具，可能會讓自己錯過對證明結構的深刻洞察，而這些這些洞察在更大尺度上至關重要。

陶哲軒認為結論是，「最優的自動化水平并不是100%，而是介于0%和100%之間的某個值」。

從每個尺度上來說，自動化工具應該被用來減少重復性的繁瑣工作，但同時必須保留足夠的人為干預，以審查和修復局部問題，從加深人類對所有尺度任務結構的理解。

更廣義地看，如果我們100%依賴自動化工具解決所有任務，可能會失去對任務空間的熟悉度。

在面對中等，甚至高難度任務時，自動化工具可靠性下降，我們卻可能因缺乏經驗而束手無策。

值得警醒的是，過度聚焦于單一尺度的效率優化，可能會違背數學形式化的長遠目標。

其終極目標，不僅是生成在證明助手中編譯的代碼，更是要創造一個靈活、可用、不斷演變且富有啟發性的形式化數學語料庫。

參考資料：

https://mathstodon.xyz/@tao/114498906474280949

https://mathstodon.xyz/@tao/114501119350851281

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

陶哲軒：o3-mini糾正了我一個數學錯誤

量子位 2025-03-18 11:16:41
85 跟貼 85
Copilot上大分，僅數天，陶哲軒的估計驗證工具卷到2.0！

機器之心Pro 2025-05-12 16:16:49
3 跟貼 3

陶哲軒油管首秀：33分鐘，AI速證「人類需要寫滿一頁紙」的證明

量子位 2025-05-12 13:01:46
22 跟貼 22

Claude 25000字提示詞泄漏，我看到了AI的秘密，和AI的笑話

鈦媒體APP 2025-05-13 11:37:18
43 跟貼 43
Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0

所有AI工具共享記憶！MCP協議無需云端，Cursor、Claude都能用

量子位 2025-05-14 14:00:47
11 跟貼 11

當輔助駕駛企業卷入機器人賽道，一場產業的技術閉環正在上演

經濟觀察報 2025-05-14 18:49:05
0 跟貼 0
Qwen3訓練秘籍公開：思考/非思考融進一個模型，大模型蒸餾小模型

量子位 2025-05-14 15:30:56
1 跟貼 1

國產AI搜索終于開竅！復雜問題分步拆解，讓直男也能交出520的滿分答案

智東西 2025-05-14 18:21:56
0 跟貼 0
中國最佳AI“賦能者”：動態PE12倍的阿里巴巴

華爾街見聞官方 2025-05-14 17:42:13
0 跟貼 0
8秒極速生成！復雜場景圖像定制低成本輕松駕馭，已開源

量子位 2025-05-14 17:33:28
1 跟貼 1
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
學霸與學渣的數學較量，一個運算對答案錯，一個運算錯答案對！

搞笑儲備站 2025-05-12 11:57:13
1 跟貼 1
再次用數學統治NBA！塔圖姆連續兩記3分打停尼克斯，綠軍首節9記3分命中率高達64.2%！

咪咕體育 2025-05-13 16:00:13
23 跟貼 23
印巴停火背后的沖突邏輯，空戰成唯一亮點，核威懾下難升級

陳虎點兵 2025-05-12 14:28:54
1 跟貼 1
湖北省數學奧林匹克競賽試題，正確率很低

公考客棧店小二 2025-05-10 23:38:48
0 跟貼 0
女大學生看不起小哥不料小哥竟是數學天才

小小熊看劇 2025-05-14 09:57:05
1 跟貼 1
從核威懾到經濟絞殺，印巴突然停火背后，暗藏五重邏輯

飽飽科普 2025-05-13 00:06:05
0 跟貼 0
美國與沙特簽署1420億美元軍售協議

新華社 2025-05-14 07:20:03
12404 跟貼 12404
今天全家移民美國了，告別一切的不舍。祝我們新的旅程愉快！

鹽系手札i 2025-05-14 01:36:25
13147 跟貼 13147
北京市初中數學競賽題，會做這道題的人寥寥無幾

三樂大掌柜 2025-05-13 20:51:30
1 跟貼 1
卷子VS計算器！3個數學開竅核心策略

吳一鈳 2025-05-13 17:34:01
0 跟貼 0
Claude1.7萬系統提示詞全網刷屏！Karpathy銳評：LLM缺乏關鍵范式

量子位 2025-05-13 15:56:57
1 跟貼 1
影視：小孩子的數學最難教，瞅瞅這一家子都被孩子的軸勁兒氣到了

山村小伙熊大丫 2025-05-12 22:32:00
0 跟貼 0
中考數學沖刺高分！這道解方程題你會了嗎

大力小學數學 2025-05-13 16:11:00
0 跟貼 0
不懂數學思維的話，解這道題目簡直毫無頭緒

三樂大掌柜 2025-05-12 11:30:46
1 跟貼 1
郎咸平：假如我的孩子只能選擇學兩門學科，我只選英語和數學！

長河小吏股海論道 2025-05-11 21:27:50
15 跟貼 15
著名的麥凱猜想終獲證明！數學家夫婦終結了一個未解群論難題

機器之心Pro 2025-03-04 13:25:01
0 跟貼 0
七年級數學，有理數的加法，老師教你2步輕松搞定，收藏吧

大力小學數學 2025-05-12 15:35:00
0 跟貼 0
華春瑩回應揭示中國底氣，關稅談判背后的深層邏輯

烽火三月佳人三千 2025-05-12 03:29:22
0 跟貼 0
1151復旦附中自主招生數學題，好多人有思路，但難度大！試試看！

我服子佩 2025-05-13 19:37:16
1 跟貼 1
思想與思考者：論對象與過程的互補性

CreateAMind 2025-05-12 12:13:43
0 跟貼 0
中企電話被美國客戶打爆：現在一船難求已接近爆艙

每日經濟新聞 2025-05-13 23:10:02
4825 跟貼 4825
30年懸案告破，平均曲率流奇點真相曝光，揭曉「冰塊融化」的秘密

機器之心Pro 2025-04-15 17:29:28
0 跟貼 0
33min搞定整頁證明，陶哲軒飛升成AI工具神，他的AI和我的不一樣

機器之心Pro 2025-05-13 19:31:33
0 跟貼 0
印度對美加征關稅：以斗爭求團結的博弈邏輯解析

智庫林 2025-05-13 20:32:30
1 跟貼 1
柴桑大姐說毛毛姐是強盜邏輯。上海王律師：兩宗罪，最高死刑

渤海草堂2 2025-05-11 03:21:26
167 跟貼 167
富士回應“拍立得相紙二手市場漲價”：官方價格暫未變動

齊魯壹點 2025-05-13 14:09:10
41 跟貼 41
富士辟謠拍立得相紙停產，但長期缺貨導致二手價格炒翻倍

熱點科技 2025-05-14 14:20:08
1 跟貼 1

凌晨突然傳來巨響，上海一小區多車燒成空殼

凌晨突然傳來巨響，上海一小區多車燒成空殼

環球網資訊

2025-05-14 12:45:04

怪不得美國主動求停火，F-35差點被干下來，再打下去就成印度了

怪不得美國主動求停火，F-35差點被干下來，再打下去就成印度了

妙知

2025-05-14 18:07:00

剛打了7枚火箭彈，解放軍機群迅速圍了上來，臺軍海馬斯掉頭就跑

剛打了7枚火箭彈，解放軍機群迅速圍了上來，臺軍海馬斯掉頭就跑

明月聊史

2025-05-14 14:02:47

A股：盤后重磅，證監會等七部門將設立創投基金，周四將有大動作

A股：盤后重磅，證監會等七部門將設立創投基金，周四將有大動作

星光看娛樂

2025-05-14 17:57:24

領導最煩的4種員工，工作再努力，也不會提拔

領導最煩的4種員工，工作再努力，也不會提拔

細說職場

2025-05-13 07:22:09

降價4億多！重慶地標雙子塔土豪金樓拍賣，被人1.7188億接手了

降價4億多！重慶地標雙子塔土豪金樓拍賣，被人1.7188億接手了

天天話事

2025-05-14 11:28:04

大反轉！知名博主證實小米挖孔版機蓋有用的！雷總不應該道歉

大反轉！知名博主證實小米挖孔版機蓋有用的！雷總不應該道歉

小人物看盡人間百態

2025-05-13 17:31:58

這方面，申花已經領先了！

新民晚報

2025-05-14 09:21:32

連續14個漲停板！股民：妖股在狂歡！

連續14個漲停板！股民：妖股在狂歡！

數據挖掘分析

2025-05-14 15:11:20

記者：馬刺對交易榜眼簽持開放態度，可能會考慮用于交易字母哥

記者：馬刺對交易榜眼簽持開放態度，可能會考慮用于交易字母哥

懂球帝

2025-05-14 15:28:12

不輸楊瀚森！廣東內線“新力量”即將上位，杜鋒為他放棄莫蘭德？

不輸楊瀚森！廣東內線“新力量”即將上位，杜鋒為他放棄莫蘭德？

緋雨兒

2025-05-14 14:28:47

11年前，那個美國通緝俄羅斯收留的斯諾登，現在怎么樣了？

11年前，那個美國通緝俄羅斯收留的斯諾登，現在怎么樣了？

匹夫來搞笑

2025-05-04 11:11:33

巴基斯坦空軍公開空戰細節，霹靂15導彈每一次擊中都有數據傳回

巴基斯坦空軍公開空戰細節，霹靂15導彈每一次擊中都有數據傳回

包明說

2025-05-13 16:54:14

西方武官齊聚印度，逼問：快告訴我，殲-10C是怎么干翻你們陣風？

西方武官齊聚印度，逼問：快告訴我，殲-10C是怎么干翻你們陣風？

說天說地說實事

2025-05-13 03:46:17

比亞迪經銷商也崩了？多地4S店爆關門跑路！

比亞迪經銷商也崩了？多地4S店爆關門跑路！

鷂石周說

2025-05-13 20:25:52

A股：大盤重回3400點，主力資金逼空了？股民：越來越難操作了！

A股：大盤重回3400點，主力資金逼空了？股民：越來越難操作了！

虎哥閑聊

2025-05-14 15:42:39

知情人曝料：或許已離開小賣部，最后那個坡頂到小賣部最多20分鐘

知情人曝料：或許已離開小賣部，最后那個坡頂到小賣部最多20分鐘

說說史事

2025-05-14 16:53:42

市場上的“奪命花”別再買了，白給你都不能要，有些人還在花錢買

市場上的“奪命花”別再買了，白給你都不能要，有些人還在花錢買

野山歷史

2025-05-14 14:14:33

10萬股民血賺！又一超級大妖股徹底爆了

10萬股民血賺！又一超級大妖股徹底爆了

財經銳眼

2025-05-14 17:59:30

為何97年多支球隊為鄧肯擺爛，但03年卻沒這種盛況？這5點是關鍵

為何97年多支球隊為鄧肯擺爛，但03年卻沒這種盛況？這5點是關鍵

大衛的籃球故事

2025-05-14 18:08:15

AI產業主平臺領航智能+時代

12700文章數 66034關注度

往期回顧全部

科技要聞

騰訊一季度營收1800億同比增13% 凈利478億

頭條要聞

國補版iPhone 16 Pro被搶空上熱搜授權店:可能還會降

頭條要聞

國補版iPhone 16 Pro被搶空上熱搜授權店:可能還會降

體育要聞

NBA最被低估球員，帶隊爆殺東部第一

娛樂要聞

趙麗穎趙德胤戀愛時間線被扒！

財經要聞

4月M2同增8% 前4個月存款增加12.55萬億

汽車要聞

配獵鷹駕駛輔助系統/軸距超3米風云A9L預計6月交付

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時尚

數碼

手機

公開課

本地新聞

比演唱會還貴，這個新型理財產品收割了多少錢包

女人夏天別總穿黑白灰，試試“藍色系”穿搭，清爽減齡又耐看

數碼要聞

跑分突破294萬！iQOO Pad5 Pro宣布全球首發天璣9400+

手機要聞

小米16系列再次被確認：內部架構有大變化，畫質做了一致性調教

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
比鋼硬200倍，比紙輕1000倍，石墨烯到底是啥？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：师宗县| 陇川县| 亳州市| 同仁县| 芒康县| 汶上县| 南昌市| 弥渡县| 永康市| 亚东县| 抚松县| 山西省| 稷山县| 鄂托克旗| 溧水县| 九江县| 金寨县| 黑山县| 新民市| 建昌县| 陇西县| 商南县| 德阳市| 衡阳县| 秭归县| 泉州市| 东海县| 嘉定区| 河西区| 青铜峡市| 丹阳市| 攀枝花市| 乡城县| 宜昌市| 浦江县| 泽库县| 鄂伦春自治旗| 新建县| 柳林县| 乐都县| 息烽县|

<em id="80sse"></em>

<cite id="80sse"></cite>

<cite id="80sse"></cite>