99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

前沿分享丨DeepSeek-R1超級外掛!“人類最后的考試”首次突破30分,上海交大等開源方案碾壓OpenAI、谷歌

0
分享至

轉自 量子位

“人類最后的考試”首次突破30分,還是咱國內團隊干的!

該測試集是出了名的超難,剛推出時無模型得分能超過10分。

直到最近,最高分也不過26.9,由Kimi-Research和Gemini Deep Research并列取得。

現在,上海交大聯合深勢科技團隊突然發布了一項新研究,在“人類最后的考試”(HLE,Humanity’s Last Exam)上一舉拿下32.1分,創下新紀錄。


在這項研究中,團隊推出工具增強推理智能體X-Master多智能體工作流系統X-Masters。

劃重點:還直接把這套方案給開源了。

網友們紛紛感嘆現在AI競賽太激烈,一天一個樣。


另外值得一提的是,這項研究使用了DeepSeek-R1-0528作為驅動智能體的推理模型,由此也有網友表示:

R1在函數調用上表現仍欠佳,而且在這項研究里甚至沒有針對這一點進行微調。但即便如此,只要給它搭配合適的框架,它在HLE這個難度很高的測試中就能拿到32%的成績。

雖然大家可能會習慣性地稱R1為“最佳基礎模型”,但我覺得這其實是給V4打下了基礎。我敢肯定,V4一出來就會自帶智能體功能。


怎么做到的?

具體來看X-Master和X-Masters,這是該團隊SciMaster系列研究的第一部分,旨在開發通用科學AI智能體。

X-Master是一個由開源模型(如DeepSeek-R1)驅動的工具增強型推理智能體,其核心設計理念是模擬人類研究者的動態問題解決過程,在內部推理和外部工具使用之間流暢切換。

這一過程形成了一個共生循環:

工具輸出為智能體的推理提供關鍵反饋,幫助其完善推理;而更清晰的推理又能引導智能體更智能、更高效地使用工具。

實現這一過程的核心機制是將代碼概念化為一種交互語言

當X-Master遇到無法通過內部推理解決的問題時,它會將精確的行動計劃編寫為代碼塊。這個“計劃”隨后會被執行,與任何所需資源進行接口連接,這些資源既包括NumPy和SciPy的強大數值計算能力,也包括團隊專門設計的用于實時網絡搜索和數據提取的工具包。

執行結果會被無縫吸收回智能體的上下文環境中,豐富其知識儲備,并為后續推理提供依據。


具體而言,在智能體的思考過程中,即在token“ ”和“ ”之間,智能體既可以生成非代碼文本用于推理,也可以在特殊token“”和“”之間生成代碼以與環境進行交互。

一旦通過字符串匹配檢測到這種模式,其中的代碼就會被提取出來,并在一個沙盒環境中執行,在該環境中可以訪問各種Python庫和工具。

執行結果隨后會被附加到模型的上下文中,并由特殊token“ ”和“ ”包裹。

之后,推理模型會繼續其思考過程,解讀執行結果并進一步推理,直到發起下一次交互或思考結束。

由于當前可用的強推理模型(如DeepSeek-R1)本質上是非智能體的,并且往往在遵循指令方面能力有限,僅依靠傳統的提示工程不足以可靠地引導這些模型展現出預期的智能體行為。

因此,團隊還引入了一個簡單而有效的機制:初始推理引導

該機制不會讓推理模型在收到用戶查詢后立即開始不受約束的思考過程,而是在模型的初始“ ”token之后直接嵌入一系列引導文本。

這些引導文本特意從推理智能體自身的角度出發來設計,采用第一人稱表述,例如“我可以通過訪問外部環境有效回答這個查詢”“每當我確定需要與外部工具交互時,我會生成包裹在token之間的Python代碼”。

團隊表示,通過將這些精心設計的自我陳述拼接至模型的上下文中,可有效地引導模型“相信”自身具備增強的能力。

即便沒有針對智能體行為進行明確的微調,該模型也能夠自主生成和執行代碼,與環境交互,并最終發揮出強大的智能體功能。

接下來,為充分發揮X-Master的潛力,團隊設計X-Masters,這是一種分散-堆疊式智能體工作流,通過編排多智能體認知過程,系統地增強推理的廣度和深度。


在這個過程中,X-Master的不同實例承擔著多種專門角色。

“分散”階段旨在拓寬思路,多個求解器(Solver)智能體并行工作,生成多樣化的解決方案,同時批評者(Critic)智能體對這些方案可能存在的缺陷進行修正。

接著“堆疊”階段用于深化思考重寫器(Rewriter)智能體將所有先前的輸出綜合成更優的解決方案,最后由選擇器(Selector)智能體裁定出最佳答案。

團隊表示,其分散-堆疊架構本質上是一種結構化探索和利用策略,與強化學習(RL)中的“Rollouts”概念有很強的相似性。

“分散”階段類似于強化學習中Rollouts的探索原理,即模擬多條未來軌跡以評估不同行動的潛力。后續的“堆疊”階段類似于強化學習中Rollouts之后的聚合和“利用”步驟。

首個在HLE上得分超過30%的系統

實驗部分,團隊使用DeepSeek-R1-0528作為驅動智能體的推理模型,最大完成token數設置為64k,temperature為0.6。

測試重點關注HLE的純文本子集,包含2518個樣本。評估運行工作流三次并報告平均分數,同時按照官方設置,使用o3-mini作為評判模型。

基線模型在HLE上的結果均來自現有的排行榜。

主要結果顯示,X-Masters取得了32.1%的最高分,超過了所有現有智能體和模型,這也是首個在HLE上得分超過30%的系統

跨不同類別的性能顯示,與DeepSeek-R1-0528相比,X-Masters在所有類別中都顯示出顯著改善:


消融研究結果揭示了智能體工作流中的漸進收益:

工具增強推理(求解器)使基線準確率提高了3.4%,迭代優化(批評者和重寫器)又增加了 9.5%,最終選擇(選擇器)則實現了32.1%的紀錄成績。


另外,團隊還將X-Masters與生物學領域科學智能體進行對比。

近期研究成果,如Biomni和STELLA,通過利用配備大量專業工具的大語言模型智能體,在應對生物學難題方面取得了一定進展。

而X-Masters,在HLE的生物學/醫學類別中,表現優于現有系統,Biomni的正確率是17.3%,STELLA大概 26%,而 X-Masters達到了27.6%。

并且Biomni和STELLA是從生物學/醫學類題目里挑了一部分來測試的,而X-Masters是考了這一類里所有222道純文字題,說明它在復雜生物醫學問題上的能力確實突出。


在一個叫TRQA-lit(choice)的生物學專門測試中,X-Masters也取得了目前最好的成績。這個測試里有172道多選題,都是生物學研究里的復雜任務,比如找治療靶點、研究生物醫學機制等

獨立的X-Master達到了62.1%的準確率,借助智能體工作流,X-Masters取得了67.4%的SOTA成績,體現了分散探索和堆疊選擇的有效性。

與整合了500多種專家工具的多智能體系統 OriGene相比,X-Master僅使用兩種網絡工具(網頁搜索和網頁解析),卻獲得了更高的準確率,進一步印證了X-Master工具增強推理過程的高效性,即通過廣泛探索和堆疊選擇,它能夠有效解決復雜的生物學任務。


“人類最后的考試”是什么?

“人類最后的考試”由AI安全中心和Scale AI發起,今年年初發布。剛發布時,包括o1在內,沒有一個模型得分超過10%,被稱作是史上最難大模型測試集。


題目來自500多家機構的1000多名學者,涉及機構包括高校、研究所和企業,還有來自醫療機構的學者以及一些獨立研究者等。OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。

團隊收集到的題目需要經歷大模型和人工的雙重審查。不僅要達到究生難度,而且要確保不能被檢索到。當然題目還應當有明確的答案和評判方式,證明等開放式問題不會入選。

最終入圍的題目有3000多道。

入選的問題涵蓋了數理化、生物醫藥、工程和社會科學等多種學科,按細分學科來算則多達100余個。按大類來分,可分為八大類,其中占比最多的是數學(42%),然后是物理和生物醫藥(均為11%)。

其中有些題目,還會考察模型的視覺能力,比如解讀這種上古文字(翻譯由GPT-4o生成)。


有些題目還需要結合視覺信息和文本共同理解,比如在化學,特別是有機化學當中,需要用圖來表示相關物質的結構。


數學題計算機科學的題目,對推理的要求很高,難度be like:


足以見得,X-Masters拿下32.1分實屬不易,而這項突破性成果還是出自我們國內團隊之手。

共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du全部來自上海交通大學人工智能研究院,上海交大陳思衡副教授指導。

深勢科技方面,創始人兼首席科學家張林峰親自署名。


論文鏈接:https://arxiv.org/abs/2507.05241
GitHub鏈接:https://github.com/sjtu-sai-agents/X-Master
參考鏈接:https://x.com/gm8xx8/status/1942486326726611421

【免責聲明】轉載出于非商業性的教育和科研目的,只為學術新聞信息的傳播,版權歸原作者所有,如有侵權請立即與我們聯系,我們將及時刪除。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
北大女博士說破股市:長期持股,反復輪動“做T”,賺到懷疑人生

北大女博士說破股市:長期持股,反復輪動“做T”,賺到懷疑人生

股經縱橫談
2025-07-14 13:18:34
離開大巴黎1年!恩里克棄將爆發:22球12助,1500萬身價變7500萬

離開大巴黎1年!恩里克棄將爆發:22球12助,1500萬身價變7500萬

球場沒跑道
2025-07-18 11:58:42
全面開戰!中東!更大的雷要爆了!

全面開戰!中東!更大的雷要爆了!

大嘴說天下
2025-07-18 21:40:52
五常聯合起來的能量到底有多大?史詩級副本《觸犯天條》了解下!

五常聯合起來的能量到底有多大?史詩級副本《觸犯天條》了解下!

大又元
2025-07-18 17:39:29
中超積分榜大變:上港殺瘋了,距榜首僅1分,黑馬下跌,具體如下

中超積分榜大變:上港殺瘋了,距榜首僅1分,黑馬下跌,具體如下

大秦壁虎白話體育
2025-07-18 23:49:31
芬蘭總統稱普京為“蠢貨和失敗者”,俄軍的坦克已經按捺不住了

芬蘭總統稱普京為“蠢貨和失敗者”,俄軍的坦克已經按捺不住了

科羅廖夫
2025-07-18 16:20:31
天津球迷暴行:辱罵韋世豪家人+毆打成都球迷!官博侮辱殘疾記者

天津球迷暴行:辱罵韋世豪家人+毆打成都球迷!官博侮辱殘疾記者

念洲
2025-07-19 06:39:23
特朗普突傳噩耗,79歲的特朗普確診患病,美國人:至少焦慮四年

特朗普突傳噩耗,79歲的特朗普確診患病,美國人:至少焦慮四年

涵豆說娛
2025-07-18 18:30:59
現在雞蛋為什么這么便宜?便宜的雞蛋能夠吃多久呢?

現在雞蛋為什么這么便宜?便宜的雞蛋能夠吃多久呢?

特特農村生活
2025-07-18 11:04:09
宗慶后生前購買的美國頂級豪宅曝光:奢華至極!僅浴室就有16間

宗慶后生前購買的美國頂級豪宅曝光:奢華至極!僅浴室就有16間

17譚
2025-07-18 12:28:37
難怪沒錢!媒體人透露廣東宏遠俱樂部虧損 拖累財務報表

難怪沒錢!媒體人透露廣東宏遠俱樂部虧損 拖累財務報表

胖子噴球
2025-07-18 19:31:04
山東泰山隊醞釀徹底變革:文旅退出,新資方入主,年輕化戰略啟航

山東泰山隊醞釀徹底變革:文旅退出,新資方入主,年輕化戰略啟航

體壇小鵬
2025-07-18 22:53:19
大鵬動手動腳,摟楊冪的腰,楊冪全程的肢體和表情都在抗拒和躲避

大鵬動手動腳,摟楊冪的腰,楊冪全程的肢體和表情都在抗拒和躲避

八斗小先生
2025-07-18 07:38:39
央視曝光:都是假的!價格不菲卻銷量驚人,很多人每天吃

央視曝光:都是假的!價格不菲卻銷量驚人,很多人每天吃

芳芳歷史燴
2025-07-18 18:09:47
美記:克里斯·保羅仍在與快船隊洽談重聚事宜

美記:克里斯·保羅仍在與快船隊洽談重聚事宜

雷速體育
2025-07-19 06:36:06
企業老板開房車去崗仁波齊 在拉薩之歌門口去世,疑勞累飲酒高反

企業老板開房車去崗仁波齊 在拉薩之歌門口去世,疑勞累飲酒高反

史行途
2025-07-17 22:30:09
耳環小花被老頭子“開苞”!小黃鴨抓娃娃!

耳環小花被老頭子“開苞”!小黃鴨抓娃娃!

八卦瘋叔
2025-07-17 15:13:58
相聲名家李金祥離世!他早年離異,癱瘓后康復,多次被兒子氣哭

相聲名家李金祥離世!他早年離異,癱瘓后康復,多次被兒子氣哭

手工制作阿殲
2025-07-19 02:11:12
今年“很慘”的4個專業!補錄都無人問津,已被家長集體“避雷”

今年“很慘”的4個專業!補錄都無人問津,已被家長集體“避雷”

錘不倒的拖油瓶
2025-07-18 05:15:37
女子分手后想把和前男友養的狗買回來,花了60多萬元!結果傻眼……

女子分手后想把和前男友養的狗買回來,花了60多萬元!結果傻眼……

大風新聞
2025-07-18 16:36:23
2025-07-19 07:11:00
中國人工智能學會
中國人工智能學會
中國人工智能學會網易官方賬號
3471文章數 1482關注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

娃哈哈員工:宗慶后曾欲將51%股份給長子 宗馥莉僅40%

頭條要聞

娃哈哈員工:宗慶后曾欲將51%股份給長子 宗馥莉僅40%

體育要聞

夏聯-楊瀚森8+8+5+3帽 開拓者大勝火箭

娛樂要聞

王琳自曝被兒子打,承認自己水性楊花

財經要聞

娃哈哈爭產大戰:杜建英的進擊

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達/車載無人機

態度原創

健康
游戲
家居
房產
公開課

呼吸科專家破解呼吸道九大謠言!

Epic 免費送《文明 6 白金版》 / 《黑神話》音樂會 2025 確定巡演城市

家居要聞

簡構智居 現代功能美學

房產要聞

一梯一戶純板樓!斷貨三年,海口這一核心區,硬貨出場!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 辽宁省| 南靖县| 临潭县| 曲靖市| 伊金霍洛旗| 准格尔旗| 梅州市| 泸水县| 綦江县| 江津市| 宁南县| 新蔡县| 武陟县| 留坝县| 桂林市| 杨浦区| 灌阳县| 碌曲县| 泽普县| 丰镇市| 乐清市| 辛集市| 全州县| 满城县| 榕江县| 古蔺县| 洪江市| 东乡县| 广汉市| 石台县| 乌兰察布市| 扎赉特旗| 绥芬河市| 双流县| 会同县| 安福县| 屏南县| 定安县| 宁陕县| 枣阳市| 南皮县|