網易首頁 > 網易號 > 正文申請入駐

DeepSeek-R1超級外掛！“人類最后的考試”首次突破30分

2025-07-09 13:24:11　來源: 量子位

北京舉報

分享至

西風發自凹非寺
量子位 | 公眾號 QbitAI

“人類最后的考試”首次突破30分，還是咱國內團隊干的！

該測試集是出了名的超難，剛推出時無模型得分能超過10分。

直到最近，最高分也不過26.9，由Kimi-Research和Gemini Deep Research并列取得。

現在，上海交大聯合深勢科技團隊突然發布了一項新研究，在“人類最后的考試”（HLE，Humanity’s Last Exam）上一舉拿下32.1分，創下新紀錄。

在這項研究中，團隊推出工具增強推理智能體X-Master多智能體工作流系統X-Masters。

劃重點：還直接把這套方案給開源了。

網友們紛紛感嘆現在AI競賽太激烈，一天一個樣。

另外值得一提的是，這項研究使用了DeepSeek-R1-0528作為驅動智能體的推理模型，由此也有網友表示：

R1在函數調用上表現仍欠佳，而且在這項研究里甚至沒有針對這一點進行微調。但即便如此，只要給它搭配合適的框架，它在HLE這個難度很高的測試中就能拿到32%的成績。
雖然大家可能會習慣性地稱R1為“最佳基礎模型”，但我覺得這其實是給V4打下了基礎。我敢肯定，V4一出來就會自帶智能體功能。

怎么做到的？

具體來看X-Master和X-Masters，這是該團隊SciMaster系列研究的第一部分，旨在開發通用科學AI智能體。

X-Master是一個由開源模型（如DeepSeek-R1）驅動的工具增強型推理智能體，其核心設計理念是模擬人類研究者的動態問題解決過程，在內部推理和外部工具使用之間流暢切換。

這一過程形成了一個共生循環：

工具輸出為智能體的推理提供關鍵反饋，幫助其完善推理；而更清晰的推理又能引導智能體更智能、更高效地使用工具。

實現這一過程的核心機制是將代碼概念化為一種交互語言

當X-Master遇到無法通過內部推理解決的問題時，它會將精確的行動計劃編寫為代碼塊。這個“計劃”隨后會被執行，與任何所需資源進行接口連接，這些資源既包括NumPy和SciPy的強大數值計算能力，也包括團隊專門設計的用于實時網絡搜索和數據提取的工具包。

執行結果會被無縫吸收回智能體的上下文環境中，豐富其知識儲備，并為后續推理提供依據。

具體而言，在智能體的思考過程中，即在token“”和“”之間，智能體既可以生成非代碼文本用于推理，也可以在特殊token“”之間生成代碼以與環境進行交互。

”和“

一旦通過字符串匹配檢測到這種模式，其中的代碼就會被提取出來，并在一個沙盒環境中執行，在該環境中可以訪問各種Python庫和工具。

執行結果隨后會被附加到模型的上下文中，并由特殊token“”和“”包裹。

之后，推理模型會繼續其思考過程，解讀執行結果并進一步推理，直到發起下一次交互或思考結束。

由于當前可用的強推理模型（如DeepSeek-R1）本質上是非智能體的，并且往往在遵循指令方面能力有限，僅依靠傳統的提示工程不足以可靠地引導這些模型展現出預期的智能體行為。

因此，團隊還引入了一個簡單而有效的機制：初始推理引導

該機制不會讓推理模型在收到用戶查詢后立即開始不受約束的思考過程，而是在模型的初始“”token之后直接嵌入一系列引導文本。

這些引導文本特意從推理智能體自身的角度出發來設計，采用第一人稱表述，例如“我可以通過訪問外部環境有效回答這個查詢”“每當我確定需要與外部工具交互時，我會生成包裹在token之間的Python代碼”。

團隊表示，通過將這些精心設計的自我陳述拼接至模型的上下文中，可有效地引導模型“相信”自身具備增強的能力。

即便沒有針對智能體行為進行明確的微調，該模型也能夠自主生成和執行代碼，與環境交互，并最終發揮出強大的智能體功能。

接下來，為充分發揮X-Master的潛力，團隊設計X-Masters，這是一種分散-堆疊式智能體工作流，通過編排多智能體認知過程，系統地增強推理的廣度和深度。

在這個過程中，X-Master的不同實例承擔著多種專門角色。

“分散”階段旨在拓寬思路，多個求解器（Solver）智能體并行工作，生成多樣化的解決方案，同時批評者（Critic）智能體對這些方案可能存在的缺陷進行修正。

接著“堆疊”階段用于深化思考重寫器（Rewriter）智能體將所有先前的輸出綜合成更優的解決方案，最后由選擇器（Selector）智能體裁定出最佳答案。

團隊表示，其分散-堆疊架構本質上是一種結構化探索和利用策略，與強化學習（RL）中的“Rollouts”概念有很強的相似性。

“分散”階段類似于強化學習中Rollouts的探索原理，即模擬多條未來軌跡以評估不同行動的潛力。后續的“堆疊”階段類似于強化學習中Rollouts之后的聚合和“利用”步驟。

首個在HLE上得分超過30%的系統

實驗部分，團隊使用DeepSeek-R1-0528作為驅動智能體的推理模型，最大完成token數設置為64k，temperature為0.6。

測試重點關注HLE的純文本子集，包含2518個樣本。評估運行工作流三次并報告平均分數，同時按照官方設置，使用o3-mini作為評判模型。

基線模型在HLE上的結果均來自現有的排行榜。

主要結果顯示，X-Masters取得了32.1%的最高分，超過了所有現有智能體和模型，這也是首個在HLE上得分超過30%的系統

跨不同類別的性能顯示，與DeepSeek-R1-0528相比，X-Masters在所有類別中都顯示出顯著改善：

消融研究結果揭示了智能體工作流中的漸進收益：

工具增強推理（求解器）使基線準確率提高了3.4%，迭代優化（批評者和重寫器）又增加了 9.5%，最終選擇（選擇器）則實現了32.1%的紀錄成績。

另外，團隊還將X-Masters與生物學領域科學智能體進行對比。

近期研究成果，如Biomni和STELLA，通過利用配備大量專業工具的大語言模型智能體，在應對生物學難題方面取得了一定進展。

而X-Masters，在HLE的生物學/醫學類別中，表現優于現有系統，Biomni的正確率是17.3%，STELLA大概 26%，而 X-Masters達到了27.6%。

并且Biomni和STELLA是從生物學/醫學類題目里挑了一部分來測試的，而X-Masters是考了這一類里所有222道純文字題，說明它在復雜生物醫學問題上的能力確實突出。

在一個叫TRQA-lit（choice）的生物學專門測試中，X-Masters也取得了目前最好的成績。這個測試里有172道多選題，都是生物學研究里的復雜任務，比如找治療靶點、研究生物醫學機制等

獨立的X-Master達到了62.1%的準確率，借助智能體工作流，X-Masters取得了67.4%的SOTA成績，體現了分散探索和堆疊選擇的有效性。

與整合了500多種專家工具的多智能體系統 OriGene相比，X-Master僅使用兩種網絡工具（網頁搜索和網頁解析），卻獲得了更高的準確率，進一步印證了X-Master工具增強推理過程的高效性，即通過廣泛探索和堆疊選擇，它能夠有效解決復雜的生物學任務。

“人類最后的考試”是什么？

“人類最后的考試”由AI安全中心和Scale AI發起，今年年初發布。剛發布時，包括o1在內，沒有一個模型得分超過10%，被稱作是史上最難大模型測試集。

題目來自500多家機構的1000多名學者，涉及機構包括高校、研究所和企業，還有來自醫療機構的學者以及一些獨立研究者等。OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。

團隊收集到的題目需要經歷大模型和人工的雙重審查。不僅要達到研究生難度，而且還要確保不能被檢索到。當然題目還應當有明確的答案和評判方式，證明等開放式問題不會入選。

最終入圍的題目有3000多道。

入選的問題涵蓋了數理化、生物醫藥、工程和社會科學等多種學科，按細分學科來算則多達100余個。按大類來分，可分為八大類，其中占比最多的是數學（42%），然后是物理和生物醫藥（均為11%）。

其中有些題目，還會考察模型的視覺能力，比如解讀這種上古文字（翻譯由GPT-4o生成）。

有些題目還需要結合視覺信息和文本共同理解，比如在化學，特別是有機化學當中，需要用圖來表示相關物質的結構。

數學題計算機科學的題目，對推理的要求很高，難度be like：

足以見得，X-Masters拿下32.1分實屬不易，而這項突破性成果還是出自我們國內團隊之手。

共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du全部來自上海交通大學人工智能研究院，上海交大陳思衡副教授指導。

深勢科技方面，創始人兼首席科學家張林峰親自署名。

論文鏈接：https://arxiv.org/abs/2507.05241
GitHub鏈接：https://github.com/sjtu-sai-agents/X-Master
參考鏈接：https://x.com/gm8xx8/status/1942486326726611421

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

實在智能歐陽小剛：Agent端側性能超GPT-4o 10%，一體機30分鐘開箱部署

智東西 2025-07-08 18:35:28
0 跟貼 0
Agent RL與智能體進化關鍵一步：TaskCraft實現復雜任務自動生成

機器之心Pro 2025-07-04 13:05:41
0 跟貼 0

大模型「越用越快」！SpeedupLLM首次驗證，大降56%推理預算

新智元 2025-07-09 18:40:02
1 跟貼 1

Transformer死角,只需500步后訓練,循環模型突破256k長度泛化極限

機器之心Pro 2025-07-08 15:27:36
0 跟貼 0
CVPR 2025 多模態大一統：斯坦福 x 復旦符號主義建模生成式任務

機器之心Pro 2025-06-13 10:11:44
0 跟貼 0

頂尖AI如何發揮最大戰力？UIUC用一個新多智能體協作基準尋找答案

機器之心Pro 2025-07-09 16:20:14
0 跟貼 0

天工不止造物,也能修bug:Skywork-SWE給代碼智能體補上軟件工程課

機器之心Pro 2025-06-20 10:50:40
0 跟貼 0
4B小模型數學推理首超Claude 4，700步RL訓練逼近235B性能

量子位 2025-07-09 14:52:18
4 跟貼 4

為什么只有AI編程成功落地？

虎嗅APP 2025-01-14 12:02:04
301 跟貼 301
Tokens是胡扯，Mamba作者顛覆性觀點，揭露Transformer深層缺陷

機器之心Pro 2025-07-09 18:14:42
2 跟貼 2
Vidu上線“參考生”功能，可讓諸葛亮和拿破侖同屏對話

智東西 2025-07-09 21:37:28
0 跟貼 0
背靠英偉達的Perplexity發布AI智能體瀏覽器挑戰市場霸主谷歌

財聯社 2025-07-10 02:30:08
0 跟貼 0
真·能干活的Agent來了，飛書海量上新多款AI產品 | 最前線

36氪 2025-07-09 19:35:12
0 跟貼 0
施一公呼吁青年科學家擁抱AI

經濟觀察報 2025-07-09 22:34:17
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
行車記錄儀內容，白車雖然沒有責任，但他是真的壞！

小軒搞笑街坊 2025-07-09 09:25:33
2933 跟貼 2933
MIT發布自適應語言模型！新任務，自生成遠超「GPT-4.1合成訓練數據」

新智元 2025-07-09 09:28:30
1 跟貼 1
科學都解釋不了的游泳，你要是見了，指定得驚掉下巴

愛笑集中營 2025-07-10 00:00:00
183 跟貼 183
反轉！金毛主人理虧收5000了事，寵物醫院爆內幕，餐館老板虧大了

葡萄說娛 2025-07-09 09:36:47
4559 跟貼 4559
"和尚爸爸"道祿被指有多棟別墅曾"染指"數名救助寶媽

紅星新聞 2025-07-09 16:48:45
4868 跟貼 4868
從爭議到預算提案：F-35外掛油箱緣何“重獲生機”？

華語智庫 2025-07-06 08:06:13
1 跟貼 1
RL 圈的夏夜之約！12 人嘮嗑局：當強化學習撞上大模型 Agent

機器之心Pro 2025-07-08 15:43:31
1 跟貼 1
騰訊野心之作為何5年涼透？上線即巔峰，毀于匹配拉胯與外掛泛濫

17173游戲網 2025-07-08 09:44:10
36 跟貼 36
拼接門原來是這樣做，師傅安裝前敲凹里面，這是什么原理！

老沾看生活 2025-07-08 14:06:33
0 跟貼 0
一口鍋、一把勺，全網300萬粉絲的東莞“炒粉姐”選擇回武漢打拼創業

極目新聞 2025-07-09 11:53:39
3004 跟貼 3004
勤哲Excel服務器自動生成生產型企業BOM管理系統

新聞先鋒 2025-07-07 17:50:28
0 跟貼 0
美國兩名幼兒被鎖車里在47°C高溫下哇哇大哭父親一回來就被銬上手銬 #美國兩名幼兒在47°C高溫

海外網 2025-07-09 10:30:42
250 跟貼 250
組裝三臺模型

制造科技 2025-07-08 20:02:41
0 跟貼 0
AGI的關鍵在于怎樣把智能體組織起來

量子位 2025-04-22 12:59:08
0 跟貼 0
在職設計師做了一套AI工作流把自己優化了，我決定把它公開！

卡爾的AI沃茨 2025-07-06 20:42:22
0 跟貼 0
Scale AI 創始人談AI：智能體部署最后10%太難，還需人類兜底

機器之心Pro 2025-06-23 20:20:02
0 跟貼 0
【DeepSeek談藝】林濤筆下的豹 | 形具神生，靜中見性

文化視界網 2025-07-09 17:28:34
0 跟貼 0
多模態模型學會“按需搜索”，少搜30%還更準！字節&NTU新研究

量子位 2025-07-09 13:31:58
0 跟貼 0
港大新學院啟航！

中國工程報 2025-07-10 02:16:56
0 跟貼 0
保持創新自我的沖動

中國教育新聞網 2025-07-10 07:10:13
0 跟貼 0
科技創新要堅持長期主義，也要保持戰略敏捷｜上觀時評

上觀新聞 2025-07-10 06:34:27
0 跟貼 0
日本漫畫家龍樹諒曝真相：末日地震預言不是她寫的，是編輯寫的

瀟湘晨報 2025-07-05 17:03:28
3551 跟貼 3551
印度先進取水設備，類似中國抓娃娃的原理，果真沒讓人失望！

爆笑大槐樹 2025-07-07 13:50:34
1 跟貼 1
搭載浩瀚-S架構，極氪9X展示新能源時代豪華SUV天花板

EV世紀 2025-07-09 23:33:13
1 跟貼 1

量子位

追蹤人工智能動態

10827文章數 176182關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

數碼

教育

藝術

手機

手機 / 數碼

房產 / 家居

DeepSeek-R1超級外掛！“人類最后的考試”首次突破30分

怎么做到的？

首個在HLE上得分超過30%的系統

“人類最后的考試”是什么？

三星推三款折疊屏機 Fold 7起售價1999美元

媒體：商務部對8家臺實體出手 臺軍的麻煩大了

媒體：商務部對8家臺實體出手 臺軍的麻煩大了

東亞杯-姚偉傳射+世界波邵子欽頭槌 女足2-2韓國

周杰倫開抖音號瘋漲三百萬粉絲

潮玩規模破千億的幕后故事

比亞迪為智能泊車安全兜底 天神之眼全面OTA升級

態度原創

口碑爆棚！《死亡擱淺2》獲得6月PS玩家選擇獎

索尼發布 Hi-Res 高解析麥克風與高速大容量存儲卡、讀卡器

老師逼學生報清北事件后續：網傳家長對處理結果不滿意，要求開除

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

爆料稱iPhone 17 Air搭載特供版A19 Pro芯片，至少提供四種配色！

媒體：商務部對8家臺實體出手臺軍的麻煩大了

媒體：商務部對8家臺實體出手臺軍的麻煩大了

東亞杯-姚偉傳射+世界波邵子欽頭槌女足2-2韓國

比亞迪為智能泊車安全兜底天神之眼全面OTA升級