99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

陶哲軒攜AI再戰數學!o4-mini秒慫棄賽,Claude 20分鐘通關

0
分享至


新智元報道

編輯:桃子

【新智元導讀】陶哲軒YouTube視頻第二彈震撼來襲!這一次,他讓AI挑戰在Lean中形式化代數蘊含證明,結果Claude約20分通關,o4-mini太過謹慎直接「棄賽」。

3天后,陶哲軒YouTube視頻二更來了。

這次,他嘗試了一種更短、更概念化的證明版本,并測試Claude、o4-mini能否基于之前的非形式和形式證明,生成類似的形式化代碼。


實驗的核心是,在Lean中形式化同一個代數蘊含的證明。


此外,他還發文深入剖析了,自動化工具不同尺度上的效率表現,以及自動化與人工干預之間的微妙平衡。

Claude 20分完成,o4-mini棄題

最新實驗中,陶哲軒圍繞一個代數蘊含展開(algebraic implication):證明方程1689蘊含方程2。


錄制前,他已進行了一次測試。

這里直接在Claude/o4-mini中粘貼prompt,然后附上非形式證明、形式證明、方程三個附件。

接下來,一起看看這兩個模型具體表現如何?

Claude

實驗中,Claude整體表現出色,能夠快速將非形式證明的單行,轉化為看似合理的Lean代碼。


它生成了與之前形式化證明結構相似的代碼,并成功定義了關鍵的冪函數。

然而,陶哲軒創建一個新文件,在Claude編譯過程中,卻發現錯誤——它假設從自然數1開始,而Lean中的自然數從0開始。


另外,Claude未能正確處理方程的對稱性,比如x=(y·x)·z,導致了證明邏輯出現偏差。


盡管單行代碼生成高效,但缺乏對整體結構的理解,使得錯誤診斷和修復變得困難。

通過人工干預,陶哲軒修復了這些問題,最終在20分鐘內完成形式化。

o4-mini

相比之下,o4-mini表現得更為謹慎。


與Claude類似,o4-mini一上來也創建了一個冪函數,卻勝過前者。

它正確識別了冪函數定義中的問題,magmas中沒有單位元1,因此不能簡單假設0=>x設置為等于1。

然而,o4-mini在關鍵時刻卻選擇了「放棄」,僅生成了部分證明代碼,并在修復步驟中輸出「抱歉」。


最終,o4-mini未能完成形式化證明。

陶哲軒表示,它的謹慎策略雖避免了嚴重錯誤,但也限制了其在復雜任務中的實用性。

有趣的是,o4-mini和Claude同樣遇到了類似對稱性問題,表明LLM在處理數學邏輯的細微差別時,存在共同的局限。

總之,整個實驗目標看似簡單,即讓AI工具將人類可讀的證明轉化為Lean代碼,并在證明助手中成功編譯。

然而,陶哲軒的實驗揭示了自動化的復雜性,尤其是在效率和正確性之間的平衡。

100%過度自動化,毀掉數學未來?

在長達一周的自動形式化實驗中,陶哲軒得出了一個教訓——

即使純粹專注于效率,僅接受在證明助手中實際編譯并產生預期結果的形式化,衡量效率的尺度現在也產生了顯著差異。

在形式化數學證明過程中,效率可以從以下四個不同尺度衡量。

1. 單形式化:加快證明中任意一行的形式化

2. 單一引理形式化:加快形式化證明中的任一引理

3. 單一證明形式化:加快形式化定理的任一證明

4. 「整個教科書」形式化:加快形式化整個教科書的成果

每個尺度看似都在指向同一個目標:更快地完成形式化。然而,實際操作中,這些尺度的優化策略可能互相沖突。


陶哲軒以自己最近的實驗為例,嘗試用一些自動化工具,加速形式化過程。

我意識到,許多當前的自動化工具可以在其中一個尺度上加速形式化,但出乎意料的是,過度依賴此類工具可能會削弱在其他尺度上形式化的能力。

比如,依賴類型匹配工具canonical在「單行形式化」(尺度1)的任務中,表現出色。

它能快速解析,并生成正確的代碼,在此過程中,陶哲軒幾乎無需手動干預。

然而,當過于依賴canonical,盲目接受它對某一步的解析,并迅速進入下一步時,他發現自己逐漸失去了對證明整體結構的把握。

這導致了,在「引理形式化」(尺度2)上,診斷和修復錯誤變得更加困難,因為到了此刻,陶哲軒對證明步驟之間的聯系缺乏深入的理解。

有趣的是,修復這些錯誤的過程,卻讓陶哲軒本人受益匪淺。


通過手動檢查和調整,他逐漸理解了引理之間的作用,這反過來提升了其解決「單一證明形式化」(尺度3)任務的能力。

這種「意外收獲」讓他意識到,完全依賴自動化工具,可能會讓自己錯過對證明結構的深刻洞察,而這些這些洞察在更大尺度上至關重要。

陶哲軒認為結論是,「最優的自動化水平并不是100%,而是介于0%和100%之間的某個值」。

從每個尺度上來說,自動化工具應該被用來減少重復性的繁瑣工作,但同時必須保留足夠的人為干預,以審查和修復局部問題,從加深人類對所有尺度任務結構的理解。

更廣義地看,如果我們100%依賴自動化工具解決所有任務,可能會失去對任務空間的熟悉度。

在面對中等,甚至高難度任務時,自動化工具可靠性下降,我們卻可能因缺乏經驗而束手無策。

值得警醒的是,過度聚焦于單一尺度的效率優化,可能會違背數學形式化的長遠目標。

其終極目標,不僅是生成在證明助手中編譯的代碼,更是要創造一個靈活、可用、不斷演變且富有啟發性的形式化數學語料庫。

參考資料:

https://mathstodon.xyz/@tao/114498906474280949

https://mathstodon.xyz/@tao/114501119350851281

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
凌晨突然傳來巨響,上海一小區多車燒成空殼

凌晨突然傳來巨響,上海一小區多車燒成空殼

環球網資訊
2025-05-14 12:45:04
怪不得美國主動求停火,F-35差點被干下來,再打下去就成印度了

怪不得美國主動求停火,F-35差點被干下來,再打下去就成印度了

妙知
2025-05-14 18:07:00
剛打了7枚火箭彈,解放軍機群迅速圍了上來,臺軍海馬斯掉頭就跑

剛打了7枚火箭彈,解放軍機群迅速圍了上來,臺軍海馬斯掉頭就跑

明月聊史
2025-05-14 14:02:47
A股:盤后重磅,證監會等七部門將設立創投基金,周四將有大動作

A股:盤后重磅,證監會等七部門將設立創投基金,周四將有大動作

星光看娛樂
2025-05-14 17:57:24
領導最煩的4種員工,工作再努力,也不會提拔

領導最煩的4種員工,工作再努力,也不會提拔

細說職場
2025-05-13 07:22:09
降價4億多!重慶地標雙子塔土豪金樓拍賣,被人1.7188億接手了

降價4億多!重慶地標雙子塔土豪金樓拍賣,被人1.7188億接手了

天天話事
2025-05-14 11:28:04
大反轉!知名博主證實小米挖孔版機蓋有用的!雷總不應該道歉

大反轉!知名博主證實小米挖孔版機蓋有用的!雷總不應該道歉

小人物看盡人間百態
2025-05-13 17:31:58
這方面,申花已經領先了!

這方面,申花已經領先了!

新民晚報
2025-05-14 09:21:32
連續14個漲停板!股民:妖股在狂歡!

連續14個漲停板!股民:妖股在狂歡!

數據挖掘分析
2025-05-14 15:11:20
記者:馬刺對交易榜眼簽持開放態度,可能會考慮用于交易字母哥

記者:馬刺對交易榜眼簽持開放態度,可能會考慮用于交易字母哥

懂球帝
2025-05-14 15:28:12
不輸楊瀚森!廣東內線“新力量”即將上位,杜鋒為他放棄莫蘭德?

不輸楊瀚森!廣東內線“新力量”即將上位,杜鋒為他放棄莫蘭德?

緋雨兒
2025-05-14 14:28:47
11年前,那個美國通緝俄羅斯收留的斯諾登,現在怎么樣了?

11年前,那個美國通緝俄羅斯收留的斯諾登,現在怎么樣了?

匹夫來搞笑
2025-05-04 11:11:33
巴基斯坦空軍公開空戰細節,霹靂15導彈每一次擊中都有數據傳回

巴基斯坦空軍公開空戰細節,霹靂15導彈每一次擊中都有數據傳回

包明說
2025-05-13 16:54:14
西方武官齊聚印度,逼問:快告訴我,殲-10C是怎么干翻你們陣風?

西方武官齊聚印度,逼問:快告訴我,殲-10C是怎么干翻你們陣風?

說天說地說實事
2025-05-13 03:46:17
比亞迪經銷商也崩了?多地4S店爆關門跑路!

比亞迪經銷商也崩了?多地4S店爆關門跑路!

鷂石周說
2025-05-13 20:25:52
A股:大盤重回3400點,主力資金逼空了?股民:越來越難操作了!

A股:大盤重回3400點,主力資金逼空了?股民:越來越難操作了!

虎哥閑聊
2025-05-14 15:42:39
知情人曝料:或許已離開小賣部,最后那個坡頂到小賣部最多20分鐘

知情人曝料:或許已離開小賣部,最后那個坡頂到小賣部最多20分鐘

說說史事
2025-05-14 16:53:42
市場上的“奪命花”別再買了,白給你都不能要,有些人還在花錢買

市場上的“奪命花”別再買了,白給你都不能要,有些人還在花錢買

野山歷史
2025-05-14 14:14:33
10萬股民血賺!又一超級大妖股徹底爆了

10萬股民血賺!又一超級大妖股徹底爆了

財經銳眼
2025-05-14 17:59:30
為何97年多支球隊為鄧肯擺爛,但03年卻沒這種盛況?這5點是關鍵

為何97年多支球隊為鄧肯擺爛,但03年卻沒這種盛況?這5點是關鍵

大衛的籃球故事
2025-05-14 18:08:15
2025-05-14 19:56:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12700文章數 66034關注度
往期回顧 全部

科技要聞

騰訊一季度營收1800億同比增13% 凈利478億

頭條要聞

國補版iPhone 16 Pro被搶空上熱搜 授權店:可能還會降

頭條要聞

國補版iPhone 16 Pro被搶空上熱搜 授權店:可能還會降

體育要聞

NBA最被低估球員,帶隊爆殺東部第一

娛樂要聞

趙麗穎趙德胤戀愛時間線被扒!

財經要聞

4月M2同增8% 前4個月存款增加12.55萬億

汽車要聞

配獵鷹駕駛輔助系統/軸距超3米 風云A9L預計6月交付

態度原創

本地
時尚
數碼
手機
公開課

本地新聞

比演唱會還貴,這個新型理財產品收割了多少錢包

女人夏天別總穿黑白灰,試試“藍色系”穿搭,清爽減齡又耐看

數碼要聞

跑分突破294萬!iQOO Pad5 Pro宣布全球首發天璣9400+

手機要聞

小米16系列再次被確認:內部架構有大變化,畫質做了一致性調教

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 师宗县| 陇川县| 亳州市| 同仁县| 芒康县| 汶上县| 南昌市| 弥渡县| 永康市| 亚东县| 抚松县| 山西省| 稷山县| 鄂托克旗| 溧水县| 九江县| 金寨县| 黑山县| 新民市| 建昌县| 陇西县| 商南县| 德阳市| 衡阳县| 秭归县| 泉州市| 东海县| 嘉定区| 河西区| 青铜峡市| 丹阳市| 攀枝花市| 乡城县| 宜昌市| 浦江县| 泽库县| 鄂伦春自治旗| 新建县| 柳林县| 乐都县| 息烽县|