網易首頁 > 網易號 > 正文申請入駐

DeepSeek-R1超級外掛！“人類最后的考試”首次突破30分

2025-07-09 13:24:11　來源: 量子位

北京舉報

分享至

西風發自凹非寺
量子位 | 公眾號 QbitAI

“人類最后的考試”首次突破30分，還是咱國內團隊干的！

該測試集是出了名的超難，剛推出時無模型得分能超過10分。

直到最近，最高分也不過26.9，由Kimi-Research和Gemini Deep Research并列取得。

現在，上海交大聯合深勢科技團隊突然發布了一項新研究，在“人類最后的考試”（HLE，Humanity’s Last Exam）上一舉拿下32.1分，創下新紀錄。

在這項研究中，團隊推出工具增強推理智能體X-Master多智能體工作流系統X-Masters。

劃重點：還直接把這套方案給開源了。

網友們紛紛感嘆現在AI競賽太激烈，一天一個樣。

另外值得一提的是，這項研究使用了DeepSeek-R1-0528作為驅動智能體的推理模型，由此也有網友表示：

R1在函數調用上表現仍欠佳，而且在這項研究里甚至沒有針對這一點進行微調。但即便如此，只要給它搭配合適的框架，它在HLE這個難度很高的測試中就能拿到32%的成績。
雖然大家可能會習慣性地稱R1為“最佳基礎模型”，但我覺得這其實是給V4打下了基礎。我敢肯定，V4一出來就會自帶智能體功能。

怎么做到的？

具體來看X-Master和X-Masters，這是該團隊SciMaster系列研究的第一部分，旨在開發通用科學AI智能體。

X-Master是一個由開源模型（如DeepSeek-R1）驅動的工具增強型推理智能體，其核心設計理念是模擬人類研究者的動態問題解決過程，在內部推理和外部工具使用之間流暢切換。

這一過程形成了一個共生循環：

工具輸出為智能體的推理提供關鍵反饋，幫助其完善推理；而更清晰的推理又能引導智能體更智能、更高效地使用工具。

實現這一過程的核心機制是將代碼概念化為一種交互語言

當X-Master遇到無法通過內部推理解決的問題時，它會將精確的行動計劃編寫為代碼塊。這個“計劃”隨后會被執行，與任何所需資源進行接口連接，這些資源既包括NumPy和SciPy的強大數值計算能力，也包括團隊專門設計的用于實時網絡搜索和數據提取的工具包。

執行結果會被無縫吸收回智能體的上下文環境中，豐富其知識儲備，并為后續推理提供依據。

具體而言，在智能體的思考過程中，即在token“”和“”之間，智能體既可以生成非代碼文本用于推理，也可以在特殊token“”之間生成代碼以與環境進行交互。

”和“

一旦通過字符串匹配檢測到這種模式，其中的代碼就會被提取出來，并在一個沙盒環境中執行，在該環境中可以訪問各種Python庫和工具。

執行結果隨后會被附加到模型的上下文中，并由特殊token“”和“”包裹。

之后，推理模型會繼續其思考過程，解讀執行結果并進一步推理，直到發起下一次交互或思考結束。

由于當前可用的強推理模型（如DeepSeek-R1）本質上是非智能體的，并且往往在遵循指令方面能力有限，僅依靠傳統的提示工程不足以可靠地引導這些模型展現出預期的智能體行為。

因此，團隊還引入了一個簡單而有效的機制：初始推理引導

該機制不會讓推理模型在收到用戶查詢后立即開始不受約束的思考過程，而是在模型的初始“”token之后直接嵌入一系列引導文本。

這些引導文本特意從推理智能體自身的角度出發來設計，采用第一人稱表述，例如“我可以通過訪問外部環境有效回答這個查詢”“每當我確定需要與外部工具交互時，我會生成包裹在token之間的Python代碼”。

團隊表示，通過將這些精心設計的自我陳述拼接至模型的上下文中，可有效地引導模型“相信”自身具備增強的能力。

即便沒有針對智能體行為進行明確的微調，該模型也能夠自主生成和執行代碼，與環境交互，并最終發揮出強大的智能體功能。

接下來，為充分發揮X-Master的潛力，團隊設計X-Masters，這是一種分散-堆疊式智能體工作流，通過編排多智能體認知過程，系統地增強推理的廣度和深度。

在這個過程中，X-Master的不同實例承擔著多種專門角色。

“分散”階段旨在拓寬思路，多個求解器（Solver）智能體并行工作，生成多樣化的解決方案，同時批評者（Critic）智能體對這些方案可能存在的缺陷進行修正。

接著“堆疊”階段用于深化思考重寫器（Rewriter）智能體將所有先前的輸出綜合成更優的解決方案，最后由選擇器（Selector）智能體裁定出最佳答案。

團隊表示，其分散-堆疊架構本質上是一種結構化探索和利用策略，與強化學習（RL）中的“Rollouts”概念有很強的相似性。

“分散”階段類似于強化學習中Rollouts的探索原理，即模擬多條未來軌跡以評估不同行動的潛力。后續的“堆疊”階段類似于強化學習中Rollouts之后的聚合和“利用”步驟。

首個在HLE上得分超過30%的系統

實驗部分，團隊使用DeepSeek-R1-0528作為驅動智能體的推理模型，最大完成token數設置為64k，temperature為0.6。

測試重點關注HLE的純文本子集，包含2518個樣本。評估運行工作流三次并報告平均分數，同時按照官方設置，使用o3-mini作為評判模型。

基線模型在HLE上的結果均來自現有的排行榜。

主要結果顯示，X-Masters取得了32.1%的最高分，超過了所有現有智能體和模型，這也是首個在HLE上得分超過30%的系統

跨不同類別的性能顯示，與DeepSeek-R1-0528相比，X-Masters在所有類別中都顯示出顯著改善：

消融研究結果揭示了智能體工作流中的漸進收益：

工具增強推理（求解器）使基線準確率提高了3.4%，迭代優化（批評者和重寫器）又增加了 9.5%，最終選擇（選擇器）則實現了32.1%的紀錄成績。

另外，團隊還將X-Masters與生物學領域科學智能體進行對比。

近期研究成果，如Biomni和STELLA，通過利用配備大量專業工具的大語言模型智能體，在應對生物學難題方面取得了一定進展。

而X-Masters，在HLE的生物學/醫學類別中，表現優于現有系統，Biomni的正確率是17.3%，STELLA大概 26%，而 X-Masters達到了27.6%。

并且Biomni和STELLA是從生物學/醫學類題目里挑了一部分來測試的，而X-Masters是考了這一類里所有222道純文字題，說明它在復雜生物醫學問題上的能力確實突出。

在一個叫TRQA-lit（choice）的生物學專門測試中，X-Masters也取得了目前最好的成績。這個測試里有172道多選題，都是生物學研究里的復雜任務，比如找治療靶點、研究生物醫學機制等

獨立的X-Master達到了62.1%的準確率，借助智能體工作流，X-Masters取得了67.4%的SOTA成績，體現了分散探索和堆疊選擇的有效性。

與整合了500多種專家工具的多智能體系統 OriGene相比，X-Master僅使用兩種網絡工具（網頁搜索和網頁解析），卻獲得了更高的準確率，進一步印證了X-Master工具增強推理過程的高效性，即通過廣泛探索和堆疊選擇，它能夠有效解決復雜的生物學任務。

“人類最后的考試”是什么？

“人類最后的考試”由AI安全中心和Scale AI發起，今年年初發布。剛發布時，包括o1在內，沒有一個模型得分超過10%，被稱作是史上最難大模型測試集。

題目來自500多家機構的1000多名學者，涉及機構包括高校、研究所和企業，還有來自醫療機構的學者以及一些獨立研究者等。OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。

團隊收集到的題目需要經歷大模型和人工的雙重審查。不僅要達到研究生難度，而且還要確保不能被檢索到。當然題目還應當有明確的答案和評判方式，證明等開放式問題不會入選。

最終入圍的題目有3000多道。

入選的問題涵蓋了數理化、生物醫藥、工程和社會科學等多種學科，按細分學科來算則多達100余個。按大類來分，可分為八大類，其中占比最多的是數學（42%），然后是物理和生物醫藥（均為11%）。

其中有些題目，還會考察模型的視覺能力，比如解讀這種上古文字（翻譯由GPT-4o生成）。

有些題目還需要結合視覺信息和文本共同理解，比如在化學，特別是有機化學當中，需要用圖來表示相關物質的結構。

數學題計算機科學的題目，對推理的要求很高，難度be like：

足以見得，X-Masters拿下32.1分實屬不易，而這項突破性成果還是出自我們國內團隊之手。

共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du全部來自上海交通大學人工智能學院，上海交大陳思衡副教授指導。

深勢科技方面，創始人兼首席科學家張林峰親自署名。

論文鏈接：https://arxiv.org/abs/2507.05241
GitHub鏈接：https://github.com/sjtu-sai-agents/X-Master
參考鏈接：https://x.com/gm8xx8/status/1942486326726611421

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

中美澳15位科學家定義AI新時代學科，揭示大模型存在根本性不對稱

DeepTech深科技 2025-07-19 20:56:22
6 跟貼 6
「DeepSeek二代」來襲！數學暴擊o3，英偉達開源LLM登頂

新智元 2025-07-20 18:21:04
0 跟貼 0

Manus“撤退”，智能體“退潮”了？

鈦媒體APP 2025-07-20 09:34:18
2 跟貼 2

Agent RL與智能體進化關鍵一步：TaskCraft實現復雜任務自動生成

機器之心Pro 2025-07-04 13:05:41
0 跟貼 0
AI教父Hinton暴論：AI永生之日，全人類變烤面包倒計時！

新智元 2025-07-18 19:54:53
36 跟貼 36

ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0

CVPR 2025 多模態大一統：斯坦福 x 復旦符號主義建模生成式任務

機器之心Pro 2025-06-13 10:11:44
0 跟貼 0
RISC-V 芯片全球出貨量突破百億顆 AI大模型推理帶來新機遇

財聯社 2025-07-19 21:05:06
18 跟貼 18

OpenAI會殺死Manus們嗎？

虎嗅APP 2025-07-20 17:47:23
3 跟貼 3
OpenAI發布ChatGPT Agent：AI"代理人"已至，人類準備好交出操作權了嗎？

鈦媒體APP 2025-07-18 12:44:12
0 跟貼 0
會「進化」的合成數據！無需上傳隱私，也能生成高質量垂域數據

機器之心Pro 2025-07-11 18:44:13
3 跟貼 3
AI打假AI，拿下SOTA丨廈大&騰訊優圖

量子位 2025-07-20 15:00:58
0 跟貼 0
飛書WPS們大戰AI辦公：不拼功能拼「閉環」

雷科技 2025-07-18 22:31:07
2 跟貼 2
告別遙控器！鏈博會上英偉達展臺無人控制“獅子狗”罕見現身

每日經濟新聞 2025-07-20 18:19:06
0 跟貼 0
《AI 2027》揭秘：人類會被超級智能取代嗎？等等，還有另一個結局！

新智元 2025-07-20 09:11:34
1 跟貼 1
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
軍事智能中指揮與控制系統的智能體工作流

白駒談人機 2025-07-19 00:07:17
0 跟貼 0
大家要相信科學,要相信科學呀!.mp4

萌寵喵喵叫 2025-07-19 12:34:17
0 跟貼 0
中國人工智能市場規模可能會達到500億美元

每日經濟新聞 2025-05-08 22:13:42
0 跟貼 0
上海最貴？一碗面1588元，另收10%服務費，網友直呼：太瘋狂

環球網資訊 2025-07-16 09:10:08
13167 跟貼 13167
廣西AI賦能千行百業超級聯賽#人工智能e企興桂

羅富強說 2025-07-20 08:32:30
16 跟貼 16
包明觀察#人工智能e企興桂

包明說 2025-07-20 08:41:18
0 跟貼 0
中介"做局"銀行放水男子沒有償還能力竟成功貸款48萬

央視新聞客戶端 2025-07-20 07:35:42
11942 跟貼 11942
上下文工程的關鍵及發展趨勢

白駒談人機 2025-07-20 00:04:05
0 跟貼 0
南部網友投訴：備受噪音所擾至今已有6年時間！官方回復

尋美南部 2025-07-19 17:39:13
0 跟貼 0
為什么說跑順風車，打死也不要用外掛？

出行行業那些事兒 2025-07-17 17:09:28
0 跟貼 0
AGI的關鍵在于怎樣把智能體組織起來

量子位 2025-04-22 12:59:08
0 跟貼 0
趨勢是由實態的計算與虛態的算計共同完形出來的

白駒談人機 2025-07-17 06:38:36
0 跟貼 0
相當神奇，無法用科學來解釋

阿文旅吃 2025-07-20 14:04:57
4 跟貼 4
兒童攝影3分鐘出片，像素蛋糕發布AI修圖一體化智能工作流

南方都市報 2025-07-17 20:59:24
1 跟貼 1
自我進化的人工智能，找到拯救人類的方法，卻被人類囚禁50年

白鴿電影 2025-07-17 18:48:08
7 跟貼 7
拓總出海|教你短視頻出海AI智能體獲客方法

四季平安88 2025-07-18 21:15:03
0 跟貼 0
Scale AI 創始人談AI：智能體部署最后10%太難，還需人類兜底

機器之心Pro 2025-06-23 20:20:02
0 跟貼 0
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
5 跟貼 5
【DeepSeek談藝】張新權·油畫寫生 | 在筆觸與肌理間凝固的詩意

文化視界網 2025-07-20 16:28:58
0 跟貼 0
數智檢測與主動健康專題論壇在京舉辦

環球網資訊 2025-07-20 17:44:13
1 跟貼 1
怪不得走近科學會被停播，原來那么多年他們從未接觸過科學！

蘇子Vlog一 2025-07-18 19:03:41
0 跟貼 0
臺積電嘉義科學園區基建兩月四起重大安全事故致兩死，遭勒令停工

IT之家 2025-07-20 22:51:05
0 跟貼 0

量子位

追蹤人工智能動態

10893文章數 176192關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

游戲

旅游

時尚

教育

手機 / 數碼

房產 / 家居

DeepSeek-R1超級外掛！“人類最后的考試”首次突破30分

怎么做到的？

首個在HLE上得分超過30%的系統

“人類最后的考試”是什么？

Manus"跑路新加坡"后，創始人首次復盤

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

中國女籃輸日本，天賦完敗給努力和戰術

肖戰改名官宣！徹底不裝了，要自由

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

呼吸科專家破解呼吸道九大謠言！

時隔2年，暗黑刷子游戲《火炬之光：無限》變成啥樣了？

熱聞|清明假期將至，熱門目的地有哪些?

不要懷疑任何一張能進內娛的臉

英國留學的本質就是無腦刷名校！

輔助駕駛五維測評蔚來世界模型:大智小糙