99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<var id="wj0jf"></var>

<nav id="wj0jf"><fieldset id="wj0jf"></fieldset></nav>

<code id="wj0jf"><dl id="wj0jf"></dl></code>

<dfn id="wj0jf"></dfn>

<abbr id="wj0jf"><menu id="wj0jf"><input id="wj0jf"></input></menu></abbr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

全球最強開源「定理證明器」出世！十位華人核心，8B暴擊671B DeepSeek

2025-07-17 19:50:06　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：桃子好困

【新智元導讀】迄今為止最強大的開源定理證明器登場！Goedel-Prover-V2僅用8B參數擊敗671B的DeepSeek-Prover，并再次奪下數學PutnamBench冠軍。十位核心貢獻者，八大頂尖機構，讓AI形式化證明再破紀錄。

全球最強的開源「定理證明器」誕生了！

來自普林斯頓、清華、英偉達、斯坦福等八大頂尖機構聯手，祭出了第二版Goedel-Prover-V2模型。

項目地址：https://blog.goedel-prover.com/

初代Goedel-Prover已被COLM 2025頂會錄用，曾在miniF2F Pass@32刷新SOTA，位列PutnamBench榜首。

這一次，新版模型一共有兩個參數版本：32B和8B。

歷經數月迭代，Goedel-Prover-V2再次在PutnamBench上奪冠，用更少的算力，解決了64道數學難題。

而且，在IMO級別的基準——MathOlympiadBench，新模型刷爆SOTA，一舉攻克了73個問題。

相比之下，DeepSeek-Prover-671B僅解決了50個問題。

另外，在匯集三大國際奧數競賽難題的MiniF2F基準上，32B在Pass@32上拿下90.4%成績，擊敗了DeepSeek-Prover-V2-671B（82.4%），8B模型與之實力相當。

它的出世，標志著AI又在在自動形式化證明生成領域實現了全新技術突破。

對此，有網友期待地表示，「當前，IMO 2025正在激烈比拼中，不知接下來Goedel-Prover-V2的實戰表現如何」？

8B模型

一舉擊敗671B DeepSeek Prover

目前，研究團隊暫未放出arXiv論文。

不過，在項目主頁和Hugging Face，對最新Goedel-Prover-V2模型背后技術和性能基準，展開了詳實的介紹。

那么，小參數的模型是如何超越了671B？

這里，Goedel-Prover-V2以Qwen3?8B?和Qwen3?32B?作為基座模型，采用了標準的「專家迭代與強化學習」框架。

具體來說，研究團隊在一個完整流程中——形式化問題、生成并驗證證明，再利用新發現的正確證明訓練下一代模型，并通過RL進一步提升性能。

接下來，他們還融入了三大創新技術：

1. 分層式數據合成（Scaffolded data synthesis）

生成難度逐步遞增的合成證明任務，對模型進行漸進式訓練，使其能夠掌握愈發復雜的定理；

自動生成介于已解決簡單問題與未解復雜問題之間的中級難度題目，形成更平滑的難度遞進，為訓練提供更密集、信息量更高的信號。

2. 驗證器引導的自我修正（Verifier-guided self-correction）

訓練模型有效利用?Lean?編譯反饋，反復修訂自身證明，高度模擬人類完善證明的過程，并將這一任務融入監督微調與強化學習階段。

3. 模型平均（Model averaging）

為防止后期訓練導致多樣性喪失，將已訓練的檢查點與基座模型進行平均。

這一簡潔技術能夠恢復多樣性，并在更大的?K?值下顯著提升?Pass@K?表現。

簡言之，融合多個模型檢查點，提升魯棒性與整體性能。

極少算力刷爆SOTA，Scaling超強

Goedel-Prover-V2首先會生成一個初始候選證明，再借助?Lean?編譯器的反饋進行迭代修正，以提高證明質量。

研究中，模型進行了兩輪自我修正，但計算開銷依然可控——總輸出長度（包含初始證明及兩次修正）僅從標準的?32K? token適度增加到40K? token。

如下表所示，展示了Goedel-Prover-V2在Pass@32下的所有結果。

首先，在全部三個數據集中，旗艦32B?模型均顯著超越此前SOTA模型，即DeepSeek?Prover?V2?671B與Kimina?Prover?72B。

其次，在miniF2F數據集上，8B模型在性能上與DeepSeek?Prover?V2?671B相當，但模型規模僅為其?1/100。

如下成績是，Goedel-Prover-V2在PutnamBench基準上，用更少的算力，擊敗所有SOTA位居榜首。

下面的Scaling曲線表明，在整個推理計算范圍內，Goedel-Prover-V2-32B始終優于所有的頂尖模型。

也就意味著，新模型具備了出色的Scaling能力。

論文核心貢獻者之一Chi Jin稱，Goedel-Prover只用了高校實驗室里的GPU，就實現了超強性能。

十位核心作者，清北上交在列

Yong Lin

Yong Lin是普林斯頓大學語言與智能（PLI）的博士后研究員，導師是Chi Jin、Sanjeev Arora和Danqi Chen。

此前，他在香港科技大學獲得博士學位，師從張潼教授；在浙江大學獲得學士和碩士學位，專業排名1/207。

在攻讀博士學位之前，他于2017年至2021年在阿里擔任高級機器學習工程師。

他的研究聚焦于機器學習和LLM的后訓練技術。主要研究方向包括：

形式化數學推理：讓大語言模型能夠使用可驗證的語言（即形式化語言，如 LEAN）進行推理。
LLM后訓練：提升模型的有益性、無害性與誠實性等特質。

Shange Tang

Shange Tang是普林斯頓大學運籌學與金融工程系的博士生，導師是Jianqing Fan教授與金馳教授。

此前，他在北京大學數學科學學院獲得學士學位。

他的研究興趣為統計學和機器學習的理論與應用。

Bohan Lyu

Bohan Lyu目前在普林斯頓大學PLI，從事基于大語言模型與形式化語言的自動化數學定理證明研究，師從金馳教授。

此前，他在清華大學獲得學士學位。并曾在清華大學NLP實驗室（導師是劉知遠教授）和加州大學圣地亞哥分校Rose-STL-Lab（導師是虞琦教授）進行科研實習。

他的研究興趣為機器學習（ML）和自然語言處理（NLP）。

Ziran Yang（楊子然）

楊子然是普林斯頓大學電子與計算機工程系的博士生，師從金馳教授。

此前，他在北京大學元培學院獲得學士學位，到時是朱毅鑫教授、朱松純教授。

Jui-Hui Chung（鐘瑞輝）

鐘瑞輝是普林斯頓大學應用與計算數學項目的博士生，師從Jacob Shapiro教授。

他本科及碩士畢業于臺灣大學物理系，師從Ying-Jer Kao教授，期間主要從事計算物理研究。

他的研究方向是拓撲絕緣體的數學物理特性。近期在Chi Jin教授指導下，開展基于LLM的自動定理證明研究。

Haoyu Zhao

Haoyu Zhao是普林斯頓大學的博士生，師從Sanjeev Arora教授。

此前，他在清華大學計算機科學實驗班（姚班）獲得學士學位，導師是陳衛教授。

他的研究興趣橫跨數學、算法與學習的交叉領域。

Lai Jiang

上海交通大學。

Yihan Geng

北京大學。

Hongzhou Lin

Hongzhou Lin是亞馬遜應用研究科學家，隸屬于AGI基礎團隊。

此前，他在法國INRIA格勒諾布爾中心獲得了博士學位，師從Zaid Harchaoui和Julien Mairal教授。期間，他首創了一階優化算法的通用加速框架，為后續應用科學研究奠定了重要理論基礎。

隨后在MIT的Stefanie Jegelka教授指導下完成機器學習方向的博士后研究。

目前，他主要從事LLM開發工作，專注于數學推理與問題解決能力的研究，涵蓋非形式化與形式化（如LEAN）兩大方向。

Chi Jin（金馳）

金馳是普林斯頓大學電氣與計算機工程學系助理教授，計算機科學系聯合聘任教員。

此前，他在加州大學伯克利分校獲得計算機科學博士學位，在北京大學獲得物理學學士學位。

他的研究方向包括，大模型推理與智能體、博弈論與多智能體學習、強化學習、統計學習理論、優化方法。

參考資料：

https://blog.goedel-prover.com/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

黃仁勛與王堅對話！盛贊Kimi、DeepSeek，對年輕人提了這些建議

每日經濟新聞 2025-07-17 17:42:22
6 跟貼 6
剛剛，奧特曼放出ChatGPT「統一智能體」！驚呼真AGI，最卷打工人來了

新智元 2025-07-18 06:31:16
1 跟貼 1

思維鏈之父跳槽Meta，不只因為1億美元！離開OpenAI前泄天機

新智元 2025-07-18 06:30:06
0 跟貼 0

垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0

揭示顯式CoT訓練機制：思維鏈如何增強推理泛化能力

機器之心Pro 2025-03-12 10:44:56
0 跟貼 0

我在哪？要去哪？字節跳動Astra雙模型架構助力機器人自由導航

機器之心Pro 2025-06-23 17:44:23
0 跟貼 0
大模型轉行土木工程！首個「打灰人」評估基準：檢驗讀、改工程圖紙能力

新智元 2025-07-18 06:27:15
0 跟貼 0

OpenAI放“王炸”！ChatGPT Agent重磅發布：能上網搜、會做PPT、精通Excel，甚至能規劃全美看球路線！但炒股？它說“NO”！

每日經濟新聞 2025-07-18 07:31:03
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
2 跟貼 2
如果這題孩子學會了，考式會多拿10分

徐幫陽 2025-07-15 13:38:34
3 跟貼 3
西湖大學再迎“強援”，頂尖數學家全職加入，學校崛起指日可待！

凱旋學長 2025-07-14 22:33:20
12 跟貼 12
浙江杭州初中數學解方程，不要做成八次冪在求解此題！

三樂大掌柜 2025-07-15 09:00:53
16 跟貼 16
1702，美國數學競賽題，化同底數，提公因式，約分，輕松

我服子佩 2025-07-17 20:50:10
1 跟貼 1
2023吉林通化關于三角函數的一道高中數學題

三樂大掌柜 2025-07-14 12:06:04
3 跟貼 3
警校分數大漲，你們還會讓孩子報考嗎？聽聽這位老師的分析

貓咪妞妞 2025-07-14 03:10:00
1 跟貼 1
六年級附加題，填不同數，難住不少家長

大力小學數學 2025-07-15 13:58:00
13 跟貼 13
中考數學，求值3-5

大力小學數學 2025-07-16 07:05:00
0 跟貼 0
沈逸談島內所謂城鎮戰沈逸：這一個島內是要有所預防的！

正經娛閱 2025-07-16 23:17:46
4 跟貼 4
速算比賽選手各展絕招，現場如倍速播放，網友：計算器都按不過來

星視頻 2025-07-15 12:10:23
0 跟貼 0
1713，北京中考數學題，因式分解，好多人覺得難！學霸兩種解法

我服子佩 2025-07-17 20:53:20
1 跟貼 1
小學數學思維訓練，這是一道六年級競賽題，有難度

公考客棧店小二 2025-07-14 09:00:00
0 跟貼 0
計算機專業真有必要花大把時間學數學嗎？

玉辭心 2025-07-17 07:22:42
0 跟貼 0
世界三大數學猜想之一，四色問題，人力無解！顛覆你對世界的認知

胡曉閑 2025-07-14 18:10:19
0 跟貼 0
如何高效提升AEIS數學成績

新加坡留學助手 2025-07-17 10:06:49
3 跟貼 3
湖南湘潭初中數學冪的運算拔高題，構建結構是關鍵！

三樂大掌柜 2025-07-17 07:48:22
2 跟貼 2
1705，清華大學附中自主招生數學題，怎么快速計算？

我服子佩 2025-07-17 20:51:13
1 跟貼 1
江西贛州高考數學應會題求f(x)的周期

三樂大掌柜 2025-07-15 09:00:03
3 跟貼 3
高二數學上學期輕松學：立體幾何空間向量，法向量證平行技巧

六維坐標系 2025-07-15 18:12:09
3 跟貼 3
【刀郎的歌聲飄到了臺灣，臺灣大學教授聽了淚流滿面，這就是影響

狗剩小白菜 2025-07-16 12:43:12
17 跟貼 17
為什么要學數學？

數學高分老曹 2025-07-17 17:29:08
4 跟貼 4
2026年軍考培訓輔導，軍考數學考點精講，概率-4

易軍考 2025-07-16 20:33:52
0 跟貼 0
【優學領航】2025屆畢業生李子禾：數學學習的認知進化圖譜

連云港大鬼 2025-07-17 19:01:07
0 跟貼 0
數學題答案的抽象瞬間，好一個“直覺告訴我們”，網友：那我那些年做的證明題算什么

重慶熱點 2025-07-17 15:23:52
0 跟貼 0
單招三校生高考基礎數學知識點---對數與對數運算

晨曦來了 2025-07-16 13:06:56
4 跟貼 4
多個AI測試語文高考作文穩拿高分，卻敗在了數學壓軸題上

量子位 2025-06-10 20:24:14
0 跟貼 0
高一數學學霸進階之路：函數不等式解法大公開，秒變解題高手！

六維坐標系 2025-07-15 18:01:44
1 跟貼 1
美國名校逼死華裔教授？吳瑛女兒首度發聲：為母親討回公道

私鮮盤點 2025-07-17 02:20:24
0 跟貼 0
1956年高考數學題，韋達定理與三角函數結合求解！

三樂大掌柜 2025-07-16 08:37:51
1 跟貼 1

杜建英同學發聲：怒斥宗馥莉沒教養是惡人，杜建英一直郁郁寡歡

杜建英同學發聲：怒斥宗馥莉沒教養是惡人，杜建英一直郁郁寡歡

葉公子

2025-07-17 20:43:32

真相很扎心！杜建英兒子長相酷似宗澤后，宗慶后的五弟妹倒戈小三

真相很扎心！杜建英兒子長相酷似宗澤后，宗慶后的五弟妹倒戈小三

熱點菌本君

2025-07-17 11:49:15

囂張男別停摩托后續：中聯重科連夜否認，身份曝光，已被行政拘留

囂張男別停摩托后續：中聯重科連夜否認，身份曝光，已被行政拘留

鋭娛之樂

2025-07-17 22:35:49

春秋航空一航班疑起飛離地后發生故障“砸下來”落地，航司回應：機械故障

春秋航空一航班疑起飛離地后發生故障“砸下來”落地，航司回應：機械故障

瀟湘晨報

2025-07-17 20:55:36

睡完首富睡首相：從廠妹到頂級名媛，靠男人撈到百億，她憑什么

睡完首富睡首相：從廠妹到頂級名媛，靠男人撈到百億，她憑什么

不寫散文詩

2025-07-17 20:26:05

官方價沒套路，捷豹XEL官降，15.98w起

官方價沒套路，捷豹XEL官降，15.98w起

熱點科技

2025-07-17 17:59:31

娃哈哈長公主海外資產：2500萬美金豪宅背后與娃哈哈內斗繼承戰爭

娃哈哈長公主海外資產：2500萬美金豪宅背后與娃哈哈內斗繼承戰爭

藍鯨新聞

2025-07-18 00:35:04

杜建英在美豪宅曝光！99年購入，宗馥莉留學住過，價值300萬美元

杜建英在美豪宅曝光！99年購入，宗馥莉留學住過，價值300萬美元

火山詩話

2025-07-17 19:05:28

事實證明，曾經為安倍晉三哭喪的影后呂麗萍，如今已成為“笑話”

事實證明，曾經為安倍晉三哭喪的影后呂麗萍，如今已成為“笑話”

寒士之言本尊

2025-07-17 23:05:28

未來首發中鋒？美媒曬利拉德重返開拓者全新陣容：楊瀚森位列五虎之中

未來首發中鋒？美媒曬利拉德重返開拓者全新陣容：楊瀚森位列五虎之中

雷速體育

2025-07-18 06:39:10

炸裂！曝沙特正準備報價維尼修斯：砸3.5億歐轉會費 5年10億合同

炸裂！曝沙特正準備報價維尼修斯：砸3.5億歐轉會費 5年10億合同

風過鄉

2025-07-18 06:02:50

印度全國振奮不已!12000公里戰略轟炸機項目曝光，不加油直飛紐約

印度全國振奮不已!12000公里戰略轟炸機項目曝光，不加油直飛紐約

掌青說歷史

2025-07-17 22:21:58

誰讓汽車芯片成了不能說、不敢說的秘密？

誰讓汽車芯片成了不能說、不敢說的秘密？

汽車預言家

2025-07-16 17:49:27

江蘇太倉市委書記落馬！曝舉報者是其情人，曾是同濟大學學霸?；?>
</a>
<h3>
<a href=

江蘇太倉市委書記落馬！曝舉報者是其情人，曾是同濟大學學霸校花 180視角

2025-07-17 21:37:58

12比0壓倒性通過，中國選擇棄權，只能“幫”胡塞武裝到這了

12比0壓倒性通過，中國選擇棄權，只能“幫”胡塞武裝到這了

素年文史

2025-07-17 10:20:45

鎮江一工廠發生火災，七層廠房被燒得只?？蚣埽俜交貞?>
</a>
<h3>
<a href=

鎮江一工廠發生火災，七層廠房被燒得只剩框架，官方回應極目新聞

2025-07-17 18:40:31

風暴眼丨宗慶后家族，海外資產布局有多少？

風暴眼丨宗慶后家族，海外資產布局有多少？

鳳凰網財經

2025-07-17 20:26:36

吃相太難看！陳佩斯砸上億的電影還沒上映，令人惡心一幕就上演！

吃相太難看！陳佩斯砸上億的電影還沒上映，令人惡心一幕就上演！

春秋論娛

2025-07-17 19:46:54

東風導彈泄密案：間諜郭萬鈞一家三口，全部被處以死刑

東風導彈泄密案：間諜郭萬鈞一家三口，全部被處以死刑

冰點歷史

2025-07-15 09:33:13

官媒曝宗慶后私生活，72歲色心不改，網友：被4房姨太太掏空身體

官媒曝宗慶后私生活，72歲色心不改，網友：被4房姨太太掏空身體

悠閑歷史

2025-07-17 15:27:11

AI產業主平臺領航智能+時代

13088文章數 66098關注度

往期回顧全部

科技要聞

沒有老黃不夸的中國公司了吧？？

頭條要聞

馮德萊恩預算提案引發罕見內部阻力歐爾班:她該走了

頭條要聞

馮德萊恩預算提案引發罕見內部阻力歐爾班:她該走了

體育要聞

楊力維和楊舒予，是姐妹，也是戰友

娛樂要聞

又相信愛情了，董璇二婚現場照曝光！

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市奧迪A6L e-tron申報信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

親子

健康

數碼

教育

宗氏家族爭產案，一個細節讓人反感

親子要聞

娃情緒化搞破壞，快抓住機會教習慣

呼吸科專家破解呼吸道九大謠言！

數碼要聞

AMD 銳龍 Zen5 TR PRO 處理器和 AI PRO R9700 顯卡 23 日起發售

教育要聞

看著孩子們發射自制的二級水火箭感動得熱淚盈眶

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：天祝| 兖州市| 丹阳市| 壶关县| 金乡县| 濮阳市| 皋兰县| 营山县| 通化市| 兴文县| 安宁市| 旺苍县| 琼海市| 汪清县| 翁牛特旗| 广河县| 神农架林区| 历史| 宣化县| 昭觉县| 岳阳市| 大兴区| 景谷| 漾濞| 新兴县| 望奎县| 青冈县| 萨嘎县| 奇台县| 巴里| 家居| 鄂尔多斯市| 华池县| 德阳市| 多伦县| 嵊州市| 黄山市| 陈巴尔虎旗| 临汾市| 高安市| 轮台县|

<thead id="o1iul"></thead>

<samp id="o1iul"></samp>

<code id="o1iul"></code>

<sup id="o1iul"><tfoot id="o1iul"></tfoot></sup>