網易首頁 > 網易號 > 正文申請入駐

超越微軟，全球第一！上交AI智能體煉成「Kaggle特級大師」，登頂OpenAI MLE-bench

2025-07-02 06:55:57　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ 好困

【新智元導讀】剛剛，由上海交通大學人工智能學院Agents團隊提出的AI專家智能體，在OpenAI權威基準測試MLE-bench中擊敗了業界AI頂流微軟，奪冠登頂！

就在剛剛，一支來自中國高校的團隊成功刷榜了OpenAI發布的權威基準測試MLE-bench！

這一次，榮耀屬于上海交通大學人工智能學院Agents團隊。

他們提出的AI專家智能體「ML-Master」，憑借著29.3%的平均獎牌率，拿下第一！大幅領先微軟的RD-Agent（22.4%）和OpenAI展示的AIDE（16.9%）。

MLE-bench是衡量AI在機器學習工程（MLE）中表現的權威基準。它精選Kaggle上的75個相關競賽，構建多樣任務，測試AI在模型訓練、數據準備、實驗運行等機器學習工程中的能力

這不僅意味著，ML-Master已達到了Kaggle比賽「Grandmaster」（特級大師）級的水平。

而且還標志著，團隊在AI自主優化AI領域，邁出了關鍵一步。

那么，這支學術界的團隊，是如何擊敗業界頂尖團隊的呢？

AI開發AI的時代已來

ML-Master引領變革

隨著人工智能（AI）能力在多個任務中逐步逼近甚至超過人類水平，AI-for-AI（AI4AI）正成為重要發展方向——

利用AI技術自動化和優化AI系統自身的設計、訓練和部署。

AI4AI的終極形態是實現具備自主演進能力的AI系統，能夠獨立完成從問題建模、實驗設計到算法探索與驗證的全過程。

類似于AlphaGo向AlphaZero的演進路徑，該過程經歷了從人類輔助訓練到完全自主優化的階段，體現出AI系統在自我演進上的潛力和可行性。

為助力AI4AI發展，上海交通大學人工智能學院Agents團隊提出了面向機器學習（Machine Learning）的AI專家智能體「ML-Master」。

項目主頁：

https://sjtu-sai-agents.github.io/ML-Master

代碼地址：

https://github.com/sjtu-sai-agents/ML-Master

論文地址：

https://arxiv.org/pdf/2506.16499

MLE-bench主頁：

https://github.com/openai/MLE-bench

ML-Master通過創新的「探索-推理深度融合」范式，模擬人類專家的認知策略，整合廣泛探索與深度推理，顯著提升AI4AI性能。

在OpenAI MLE-bench基準測試中，ML-Master以29.3%的平均獎牌率居于榜首，超越微軟R&D-Agent（22.4%）和OpenAI展示的AIDE系統（16.9%）。

與先前方法相比，ML-Master在所有評價維度上均全面領先，尤其在中等難度任務上獎牌率提升2.2倍（20.2% vs 9.0%），計算效率翻倍（僅需12小時 vs 基線24小時）。

??AI4AI的挑戰

探索與推理彼此割裂

盡管大型語言模型（LLM）和自主智能體在AI4AI領域取得顯著進展，但現有方法仍面臨核心挑戰：探索與推理的割裂限制了性能提升。

受人類專家開發AI的迭代與探索過程啟發，研究團隊觀察到，高效的AI開發需要探索與推理的有機結合。

其中，探索通過實驗和發現獲取新洞察，而推理則通過分析已有知識和歷史經驗進行深度思考。

兩者缺一不可——缺乏推理的探索會導致低效的試錯，而缺乏探索的推理則容易陷入停滯。

然而，現有AI4AI方法在整合探索與推理時存在以下問題：

?探索效率低下：傳統方法常依賴單一路徑探索，易陷入局部最優，缺乏系統性導航解決方案空間的能力。
?推理能力受限：現有推理模型難以有效提煉探索過程中的豐富經驗，導致決策缺乏歷史依據，產生幻覺或不可靠輸出。
?深度融合困難：探索與推理往往各自為戰，缺乏有效整合機制，限制了整體性能的突破。

因此，如何有效整合探索與推理，讓AI系統能夠像人類專家一樣在解決復雜問題時既能廣泛探索又能深度思考，成為AI4AI領域的核心挑戰。

雙模塊協同

探索與推理深度融合

ML-Master通過統一的認知框架，模擬人類專家的開發流程，實現了探索與推理的有機協同。

其核心在于平衡多軌跡探索（Balanced Multi-trajectory Exploration）和可控推理（Steerable Reasoning）兩大模塊，并通過自適應記憶機制（Adaptive Memory）實現兩大模塊的高效協同。

平衡多軌跡探索

Balanced Multi-trajectory Exploration

MCTS啟發的樹搜索：利用蒙特卡洛樹搜索，將研發AI過程建模為決策樹，每個節點代表一個AI方案的狀態。
并行探索策略：同時探索多個解決方案分支，突破串行限制，多條路徑同時探索，大幅提升探索效率，提高解決方案多樣性。
動態優先級調整：根據潛在價值分配計算資源，實時評估不同分支的潛力，將更多計算資源投入到更有希望的方向，避免無效探索。

可控推理

Steerable Reasoning

自適應記憶機制：精準提取關鍵洞察，避免信息過載，智能篩選歷史探索中的有效信息，既保留寶貴經驗又避免冗余干擾，讓每次推理都建立在更相關的知識基礎上。
情境化決策：基于歷史經驗進行有根據的分析，不再是「拍腦袋」決策，而是結合具體執行反饋和成功案例，讓AI的每個決定都有據可依。
閉環學習系統：持續從執行反饋中學習優化，探索結果實時反哺推理過程，形成「探索→推理→優化→再探索」的良性循環，實現持續自我提升。

核心融合機制：自適應記憶機制

Adaptive Memory

ML-Master通過自適應記憶機制實現了兩大模塊的深度融合：

智能記憶構建：探索模塊自動收集執行結果、代碼片段和性能指標，同時選擇性整合來自父節點和并行兄弟節點的關鍵信息，避免信息過載。
嵌入推理決策：記憶信息直接嵌入到推理模型的「think」部分中，讓每次推理都基于具體的歷史執行反饋和多樣化探索的經驗進行精準決策。
協同進化機制：推理結果指導后續探索方向，探索經驗持續豐富推理過程，真正實現了探索驅動推理進化，推理反哺探索路徑的良性循環。

MLE-bench實測

ML-Master位居榜首

ML-Master在OpenAI發布的MLE-bench基準上進行了全面評測。

MLE-bench是OpenAI于2024年10月推出的類人機器學習能力評測基準，旨在衡量大模型是否具備像人類AI工程師一樣獨立完成項目的能力。

該基準由75個來自Kaggle的真實機器學習任務組成，涵蓋從代碼編寫、模型調參到結果提交的完整流程，是目前最權威、最貼近實際工程場景的AI測試之一。其中不少任務取材自CVPR等國際頂級學術會議。

ML-Master僅在MLE-bench上探索學習900機器小時，即達成Kaggle比賽的Grandmaster級別，獲取獎牌數位居20余萬Kaggle的參賽者中的259位。

ML-Master在MLE-bench上實現了以下突破：

?頂級性能：29.3%平均獎牌率，位居MLE-bench榜首
?廣泛覆蓋：93.3%任務提交有效解，44.9%任務超半數人類參賽者
?超高效率：僅用12小時完成測試，計算成本僅為基線方法一半

??全面領先，展現多維度優勢

ML-Master在MLE-bench的所有評價維度上均表現卓越。

采用「Bronze+」和「Silver+」指標（表示達到或超過銅牌/銀牌閾值），ML-Master展現全面實力：

??有效提交率：93.3%，接近完美
??超越中位率：44.9%，力超半數人類參賽者
?榮獲獎牌率：17.3%/7.6%/4.4%的任務斬獲金/銀/銅牌，實現全方面領先

這樣的全面領先展現了ML-Master作為「六邊形戰士」的綜合實力。

卓越適應性，覆蓋各個難度等級

ML-Master在不同難度級別任務中展現出壓倒性優勢：

低難度任務：48.5%vs 48.2%，穩定領先保持優勢
中難度任務：20.2%vs 9.0%，2.2倍暴擊提升
高難度任務：24.4%vs 18.7%，30%大幅超越

ML-Master在各難度級別的領先表現體現了其卓越的泛化能力，能夠在不同復雜度的挑戰中保持高水平的穩定性。

持續進化，潛力巨大

ML-Master展現出強大的自我演進能力，在多輪任務執行過程中持續提升其解決方案質量。

與初始版本相比，最終平均性能提升超過120%。

該系統通過動態結合探索與推理機制，實現了針對任務特性的逐步適應與優化，體現出在AI4AI方向上的穩步推進潛力。

解密ML-Master

智能探索樹生成全過程

通過可視化展示ML-Master的解決方案樹生成過程，可直觀看到：

多分支并行展開：ML-Master同時探索多個解決方案路徑
動態優化調整：ML-Master根據執行反饋實時調整策略
智能決策收斂：ML-Master逐步聚焦更優解決方案

這一過程展示了在性能優化中，探索與推理深度協同的關鍵作用。

展望未來

AI4AI新征程

ML-Master的突破驗證了AI4AI的巨大潛力，其探索與推理融合的創新框架為AI自主開發和自我演進提供了新的方向。

在OpenAI MLE-bench上的領先表現為AI4AI技術樹立了新的標桿。

當前，AI4AI處于快速發展的初期階段，隨著技術的不斷進步，AI的智能化、效率和應用前景將持續拓展。

后續，ML-Master也會集成在即將發布的AI輔助學習智能體和AI輔助研究智能體中。

除了推出面向機器學習的專家智能體ML-Master，上海交通大學人工智能學院Agents團隊后續將依托上海交通大學AI-X研究院，陸續推出覆蓋各領域的專家智能體，構建有影響力的智能體生態體系，為人工智能技術的創新發展與廣泛應用注入新動能。

上海交通大學人工智能學院簡介

上海交通大學人工智能學院是上海交通大學順應發展趨勢、對接國家戰略、服務城市先導產業而成立的實體學院，是舉全校之力組建的特區學院。

學院通過高層次定位和全新體制機制，致力于培養中國自主的人工智能卓越人才，為國家高水平科技自立自強提供有力支撐。學院基礎雄厚、生源拔尖、設施完備、條件優越，為上海交通大學百年徐匯校區注入了全新的活力。

學院秉承「用人工智能變革世界，用人才變革人工智能」的愿景，以「引育頂尖人才、產出頂尖成果、孵化頂尖企業」為目標，致力于構建全鏈條創新體系，打造中國人工智能領域的「黃埔軍校」，引領中國人工智能發展。

人工智能學院主頁：https://sai.sjtu.edu.cn

Agents團隊聯系方式：sjtu.sai.agents@gmail.com

參考資料：

https://arxiv.org/pdf/2506.16499

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Meta抄襲DeepSeek大翻車？

新智元 2025-07-02 09:23:20
59 跟貼 59
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0

智能體洗牌“六小虎”，模型廠商如何轉型？

虎嗅APP 2025-07-02 06:00:54
0 跟貼 0

微軟 AI 診斷準確率超人類醫生4倍，以后看病前先問問它？

愛范兒 2025-07-02 19:54:13
0 跟貼 0
美國現在最貴的，是中國 AI 人才：清北中科大學霸正在「統治」硅谷 AI 圈

愛范兒 2025-07-02 19:37:27
0 跟貼 0

Grok 4源代碼剛剛泄露！上線倒計時，馬斯克xAI估值破1130億，大模型要變天

新智元 2025-07-02 12:46:05
10 跟貼 10

騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1
創新科技大咖說｜“網絡攻擊主流大模型時成功率超60%” 專訪思科公司大中華區資深副總裁兼首席技術官侯勝利：AI加速落地需同步關注安全與技術創新

每日經濟新聞 2025-07-02 18:39:16
0 跟貼 0

AI Agent、傳統聊天機器人有何區別？這篇30頁綜述講明白了

機器之心Pro 2025-07-02 16:11:51
0 跟貼 0
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0
剛剛，神秘模型火了！網友：是OpenAI要開源？

機器之心Pro 2025-07-02 19:59:41
2 跟貼 2
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
讓GUI智能體不再過度執行，上海交大、Meta聯合發布OS-Kairos系統

機器之心Pro 2025-07-02 20:52:56
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
AI的母語是什么？人類進化花了200萬年，AI只需一個晚上

量子位 2025-05-23 19:24:56
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
科大訊飛：AI孫悟空用日語回答日本老爺爺的提問

智東西 2025-04-18 23:31:04
0 跟貼 0
4年3億、首年1億！扎克伯格的“挖人支票”震撼AI圈

華爾街見聞官方 2025-07-02 12:06:42
1 跟貼 1
谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0
AI的母語是什么？不是英語，不是漢語

量子位 2025-05-23 17:58:54
0 跟貼 0
這家盯上年輕女孩生意的機器人公司，憑啥拿到朱嘯虎的錢｜AI原生100

虎嗅APP 2025-07-02 21:30:12
0 跟貼 0
免費約飯！加拿大ICML 2025，相聚機器之心人才晚宴

機器之心Pro 2025-07-01 17:49:04
0 跟貼 0
百度AI，終于對搜索下手了

鈦媒體APP 2025-07-02 21:06:08
0 跟貼 0
12名工程師，估值190億，AI黑馬的夢幻故事

智東西 2025-01-14 20:23:26
0 跟貼 0
傳Anthropic年化營收達40億美元，編程工具核心負責人被Cursor挖走

智東西 2025-07-02 20:30:10
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
主機都快輸麻了，微軟為什么還要去掌機行業“送人頭”？

差評XPIN 2025-07-01 19:30:00
3 跟貼 3
郭正亮談加拿大禁止中企海康威視：無法理解這種愚蠢行為！

胡萊克修斯 2025-06-30 11:32:16
11 跟貼 11
清華女老師、微軟高管，敦煌網創始人做電商

每日經濟新聞 2025-04-17 14:16:14
0 跟貼 0
《明末：淵虛之羽》XGP臨時工意外開預載容量41.1G

3DM游戲 2025-07-02 11:57:12
1 跟貼 1
小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
0 跟貼 0
何小鵬和雷軍真正的塑料兄弟

雷科技 2025-06-06 21:23:05
43 跟貼 43
英超聯賽與微軟宣布建立五年戰略合作伙伴關系

界面新聞 2025-07-02 07:40:30
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

12975文章數 66081關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

房產

健康

時尚

軍事航空

手機 / 數碼

房產 / 家居

超越微軟，全球第一！上交AI智能體煉成「Kaggle特級大師」，登頂OpenAI MLE-bench

卷不動大模型，李志飛只好去做硬件

白宮證實美國暫停對烏部分軍援 烏方回應

白宮證實美國暫停對烏部分軍援 烏方回應

亞洲人的身體素質，怎么打NBA？

楊冪別再營銷幼態審美了！美是多元的

浙江中涌連環案：詐騙集團狡兔三窟

17.3英寸的巨幕中控 全新零跑C11把"影院"搬上車

態度原創

這座低調城市，怎么就成了追星女的夸夸天花板

10000+房源集體降價！海口二手房東，自刀太狠了！

呼吸科專家破解呼吸道九大謠言！

穿裙子的李宇春，需要向誰解釋嗎？

普京、馬克龍時隔近3年再通話

白宮證實美國暫停對烏部分軍援烏方回應

白宮證實美國暫停對烏部分軍援烏方回應

17.3英寸的巨幕中控全新零跑C11把"影院"搬上車