99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

超越微軟,全球第一!上交AI智能體煉成「Kaggle特級大師」,登頂OpenAI MLE-bench

0
分享至


新智元報道

編輯:KingHZ 好困

【新智元導讀】剛剛,由上海交通大學人工智能學院Agents團隊提出的AI專家智能體,在OpenAI權威基準測試MLE-bench中擊敗了業界AI頂流微軟,奪冠登頂!

就在剛剛,一支來自中國高校的團隊成功刷榜了OpenAI發布的權威基準測試MLE-bench!

這一次,榮耀屬于上海交通大學人工智能學院Agents團隊。

他們提出的AI專家智能體「ML-Master」,憑借著29.3%的平均獎牌率,拿下第一!大幅領先微軟的RD-Agent(22.4%)和OpenAI展示的AIDE(16.9%)。


MLE-bench是衡量AI在機器學習工程(MLE)中表現的權威基準。它精選Kaggle上的75個相關競賽,構建多樣任務,測試AI在模型訓練、數據準備、實驗運行等機器學習工程中的能力

這不僅意味著,ML-Master已達到了Kaggle比賽「Grandmaster」(特級大師)級的水平。

而且還標志著,團隊在AI自主優化AI領域,邁出了關鍵一步。

那么,這支學術界的團隊,是如何擊敗業界頂尖團隊的呢?

AI開發AI的時代已來

ML-Master引領變革

隨著人工智能(AI)能力在多個任務中逐步逼近甚至超過人類水平,AI-for-AI(AI4AI)正成為重要發展方向——

利用AI技術自動化和優化AI系統自身的設計、訓練和部署。

AI4AI的終極形態是實現具備自主演進能力的AI系統,能夠獨立完成從問題建模、實驗設計到算法探索與驗證的全過程。

類似于AlphaGo向AlphaZero的演進路徑,該過程經歷了從人類輔助訓練到完全自主優化的階段,體現出AI系統在自我演進上的潛力和可行性。

為助力AI4AI發展,上海交通大學人工智能學院Agents團隊提出了面向機器學習(Machine Learning)的AI專家智能體「ML-Master」。


項目主頁:

https://sjtu-sai-agents.github.io/ML-Master

代碼地址:

https://github.com/sjtu-sai-agents/ML-Master

論文地址:

https://arxiv.org/pdf/2506.16499

MLE-bench主頁:

https://github.com/openai/MLE-bench

ML-Master通過創新的「探索-推理深度融合范式,模擬人類專家的認知策略,整合廣泛探索與深度推理,顯著提升AI4AI性能。

在OpenAI MLE-bench基準測試中,ML-Master以29.3%的平均獎牌率居于榜首,超越微軟R&D-Agent(22.4%)和OpenAI展示的AIDE系統(16.9%)。

與先前方法相比,ML-Master在所有評價維度上均全面領先,尤其在中等難度任務上獎牌率提升2.2倍(20.2% vs 9.0%),計算效率翻倍(僅需12小時 vs 基線24小時)。

??AI4AI的挑戰

探索與推理彼此割裂

盡管大型語言模型(LLM)和自主智能體在AI4AI領域取得顯著進展,但現有方法仍面臨核心挑戰:探索與推理的割裂限制了性能提升。

受人類專家開發AI的迭代與探索過程啟發,研究團隊觀察到,高效的AI開發需要探索與推理的有機結合。

其中,探索通過實驗和發現獲取新洞察,而推理則通過分析已有知識和歷史經驗進行深度思考。

兩者缺一不可——缺乏推理的探索會導致低效的試錯,而缺乏探索的推理則容易陷入停滯。

然而,現有AI4AI方法在整合探索與推理時存在以下問題:

  • ?探索效率低下:傳統方法常依賴單一路徑探索,易陷入局部最優,缺乏系統性導航解決方案空間的能力。

  • ?推理能力受限:現有推理模型難以有效提煉探索過程中的豐富經驗,導致決策缺乏歷史依據,產生幻覺或不可靠輸出。

  • ?深度融合困難:探索與推理往往各自為戰,缺乏有效整合機制,限制了整體性能的突破。

因此,如何有效整合探索與推理,讓AI系統能夠像人類專家一樣在解決復雜問題時既能廣泛探索又能深度思考,成為AI4AI領域的核心挑戰。

雙模塊協同

探索與推理深度融合

ML-Master通過統一的認知框架,模擬人類專家的開發流程,實現了探索與推理的有機協同。

其核心在于平衡多軌跡探索(Balanced Multi-trajectory Exploration)可控推理(Steerable Reasoning)兩大模塊,并通過自適應記憶機制(Adaptive Memory)實現兩大模塊的高效協同。


平衡多軌跡探索

Balanced Multi-trajectory Exploration

  • MCTS啟發的樹搜索:利用蒙特卡洛樹搜索,將研發AI過程建模為決策樹,每個節點代表一個AI方案的狀態。

  • 并行探索策略:同時探索多個解決方案分支,突破串行限制,多條路徑同時探索,大幅提升探索效率,提高解決方案多樣性。

  • 動態優先級調整:根據潛在價值分配計算資源,實時評估不同分支的潛力,將更多計算資源投入到更有希望的方向,避免無效探索。


可控推理

Steerable Reasoning

  • 自適應記憶機制:精準提取關鍵洞察,避免信息過載,智能篩選歷史探索中的有效信息,既保留寶貴經驗又避免冗余干擾,讓每次推理都建立在更相關的知識基礎上。

  • 情境化決策:基于歷史經驗進行有根據的分析,不再是「拍腦袋」決策,而是結合具體執行反饋和成功案例,讓AI的每個決定都有據可依。

  • 閉環學習系統:持續從執行反饋中學習優化,探索結果實時反哺推理過程,形成「探索→推理→優化→再探索」的良性循環,實現持續自我提升。


核心融合機制:自適應記憶機制

Adaptive Memory

ML-Master通過自適應記憶機制實現了兩大模塊的深度融合:

  • 智能記憶構建:探索模塊自動收集執行結果、代碼片段和性能指標,同時選擇性整合來自父節點和并行兄弟節點的關鍵信息,避免信息過載。

  • 嵌入推理決策:記憶信息直接嵌入到推理模型的「think」部分中,讓每次推理都基于具體的歷史執行反饋和多樣化探索的經驗進行精準決策。

  • 協同進化機制:推理結果指導后續探索方向,探索經驗持續豐富推理過程,真正實現了探索驅動推理進化,推理反哺探索路徑的良性循環。

MLE-bench實測

ML-Master位居榜首

ML-Master在OpenAI發布的MLE-bench基準上進行了全面評測。

MLE-bench是OpenAI于2024年10月推出的類人機器學習能力評測基準,旨在衡量大模型是否具備像人類AI工程師一樣獨立完成項目的能力。

該基準由75個來自Kaggle的真實機器學習任務組成,涵蓋從代碼編寫、模型調參到結果提交的完整流程,是目前最權威、最貼近實際工程場景的AI測試之一。其中不少任務取材自CVPR等國際頂級學術會議。

ML-Master僅在MLE-bench上探索學習900機器小時,即達成Kaggle比賽的Grandmaster級別,獲取獎牌數位居20余萬Kaggle的參賽者中的259位。

ML-Master在MLE-bench上實現了以下突破:

  • ?頂級性能:29.3%平均獎牌率,位居MLE-bench榜首

  • ?廣泛覆蓋:93.3%任務提交有效解,44.9%任務超半數人類參賽者

  • ?超高效率:僅用12小時完成測試,計算成本僅為基線方法一半


??全面領先,展現多維度優勢

ML-Master在MLE-bench的所有評價維度上均表現卓越。

采用「Bronze+」和「Silver+」指標(表示達到或超過銅牌/銀牌閾值),ML-Master展現全面實力:

  • ??有效提交率93.3%,接近完美

  • ??超越中位率:44.9%,力超半數人類參賽者

  • ?榮獲獎牌率:17.3%/7.6%/4.4%的任務斬獲金/銀/銅牌,實現全方面領先

這樣的全面領先展現了ML-Master作為「六邊形戰士」的綜合實力。



卓越適應性,覆蓋各個難度等級

ML-Master在不同難度級別任務中展現出壓倒性優勢:

  • 低難度任務48.5%vs 48.2%,穩定領先保持優勢

  • 中難度任務20.2%vs 9.0%,2.2倍暴擊提升

  • 高難度任務24.4%vs 18.7%,30%大幅超越

ML-Master在各難度級別的領先表現體現了其卓越的泛化能力,能夠在不同復雜度的挑戰中保持高水平的穩定性。


持續進化,潛力巨大

ML-Master展現出強大的自我演進能力,在多輪任務執行過程中持續提升其解決方案質量。

與初始版本相比,最終平均性能提升超過120%

該系統通過動態結合探索與推理機制,實現了針對任務特性的逐步適應與優化,體現出在AI4AI方向上的穩步推進潛力。


解密ML-Master

智能探索樹生成全過程

通過可視化展示ML-Master的解決方案樹生成過程,可直觀看到:

  • 多分支并行展開:ML-Master同時探索多個解決方案路徑

  • 動態優化調整:ML-Master根據執行反饋實時調整策略

  • 智能決策收斂:ML-Master逐步聚焦更優解決方案

這一過程展示了在性能優化中,探索與推理深度協同的關鍵作用。

展望未來

AI4AI新征程

ML-Master的突破驗證了AI4AI的巨大潛力,其探索與推理融合的創新框架為AI自主開發和自我演進提供了新的方向。

在OpenAI MLE-bench上的領先表現為AI4AI技術樹立了新的標桿。

當前,AI4AI處于快速發展的初期階段,隨著技術的不斷進步,AI的智能化、效率和應用前景將持續拓展。


后續,ML-Master也會集成在即將發布的AI輔助學習智能體和AI輔助研究智能體中。

除了推出面向機器學習的專家智能體ML-Master,上海交通大學人工智能學院Agents團隊后續將依托上海交通大學AI-X研究院,陸續推出覆蓋各領域的專家智能體,構建有影響力的智能體生態體系,為人工智能技術的創新發展與廣泛應用注入新動能。

上海交通大學人工智能學院簡介

上海交通大學人工智能學院是上海交通大學順應發展趨勢、對接國家戰略、服務城市先導產業而成立的實體學院,是舉全校之力組建的特區學院。

學院通過高層次定位和全新體制機制,致力于培養中國自主的人工智能卓越人才,為國家高水平科技自立自強提供有力支撐。學院基礎雄厚、生源拔尖、設施完備、條件優越,為上海交通大學百年徐匯校區注入了全新的活力。

學院秉承「用人工智能變革世界,用人才變革人工智能」的愿景,以「引育頂尖人才、產出頂尖成果、孵化頂尖企業」為目標,致力于構建全鏈條創新體系,打造中國人工智能領域的「黃埔軍校」,引領中國人工智能發展。


人工智能學院主頁:https://sai.sjtu.edu.cn

Agents團隊聯系方式:sjtu.sai.agents@gmail.com

參考資料:

https://arxiv.org/pdf/2506.16499


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗證實要買我國殲-10CE后,以色列突然向我國喊話,提一個要求

伊朗證實要買我國殲-10CE后,以色列突然向我國喊話,提一個要求

DS北風
2025-07-02 17:32:52
內蒙古呼倫貝爾市陳巴爾虎旗發生3.8級地震,震源深度10千米

內蒙古呼倫貝爾市陳巴爾虎旗發生3.8級地震,震源深度10千米

界面新聞
2025-07-02 20:21:10
被逮捕的四位央視主持人,以權謀私,出賣國家,個個都是階下囚

被逮捕的四位央視主持人,以權謀私,出賣國家,個個都是階下囚

林輕吟
2025-07-01 10:54:30
5個省級政府常務副職密集調整

5個省級政府常務副職密集調整

魯中晨報
2025-07-02 18:55:02
貝加爾湖是淡水湖,又遠離海洋2000多公里,為什么會有海洋生物?

貝加爾湖是淡水湖,又遠離海洋2000多公里,為什么會有海洋生物?

半解智士
2025-06-30 18:46:33
為什么說抗日相持階段,中國的主要抗戰力量就已經是八路軍

為什么說抗日相持階段,中國的主要抗戰力量就已經是八路軍

輪回歷史
2025-07-01 21:55:13
馬斯克又“認慫”了!反復“瘋狂”背后是深謀遠慮的冷靜?到底有何“引擎”

馬斯克又“認慫”了!反復“瘋狂”背后是深謀遠慮的冷靜?到底有何“引擎”

紅星新聞
2025-07-02 18:31:21
朝鮮女博士來上海后整整15年未出門,民警破門后,當場愣住

朝鮮女博士來上海后整整15年未出門,民警破門后,當場愣住

獅拓一葉知秋
2025-05-08 20:43:57
知情人:南航一機長傷4人后跳樓身亡

知情人:南航一機長傷4人后跳樓身亡

大象新聞
2025-07-02 19:59:03
何君堯提議,將香港皇后大道改名,并移走女王雕像,換成林則徐像

何君堯提議,將香港皇后大道改名,并移走女王雕像,換成林則徐像

小嵩
2025-07-02 17:35:14
51:50,美參議院剛剛通過“大而美”法案!驅逐馬斯克?特朗普:得考慮一下!馬斯克回擊:我太想上點強度了;特斯拉股價一度大跌7%

51:50,美參議院剛剛通過“大而美”法案!驅逐馬斯克?特朗普:得考慮一下!馬斯克回擊:我太想上點強度了;特斯拉股價一度大跌7%

每日經濟新聞
2025-07-02 01:22:08
馬斯克建黨概率飆升至41%,特朗普威脅:取消補貼,送他回南非!

馬斯克建黨概率飆升至41%,特朗普威脅:取消補貼,送他回南非!

后廠村胖胖
2025-07-02 14:34:08
日本向大陸發出抗議,臺灣人也不忍了!事關主權,中國沒有軟肋

日本向大陸發出抗議,臺灣人也不忍了!事關主權,中國沒有軟肋

紅色國際
2025-07-01 20:10:03
俄羅斯與烏克蘭戰火加劇:本是同根生,相煎何太急。

俄羅斯與烏克蘭戰火加劇:本是同根生,相煎何太急。

小皮霸2025
2025-07-02 12:31:13
一夜之間,都在限產,傳出什么信號?

一夜之間,都在限產,傳出什么信號?

販財局
2025-07-02 16:00:30
百度前副總裁璩靜開醫美診所:位于華為總部附近,出資100萬,人均消費2218元;此前因短視頻爭議道歉辭職

百度前副總裁璩靜開醫美診所:位于華為總部附近,出資100萬,人均消費2218元;此前因短視頻爭議道歉辭職

極目新聞
2025-07-02 19:55:51
同一天,華為、百度傳來大消息!

同一天,華為、百度傳來大消息!

每日經濟新聞
2025-06-30 21:52:05
沉默已久的外媒,終于忍不住!對我國閱兵進行分析,強調了殲-20S

沉默已久的外媒,終于忍不住!對我國閱兵進行分析,強調了殲-20S

紅色國際
2025-07-01 19:50:03
中央紀委國家監委通報

中央紀委國家監委通報

政知新媒體
2025-07-02 17:00:21
“騙”了我們30年,韓紅父親竟是家喻戶曉的他,難怪都不敢得罪她

“騙”了我們30年,韓紅父親竟是家喻戶曉的他,難怪都不敢得罪她

七公子娛樂
2025-07-01 19:16:31
2025-07-02 21:40:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12975文章數 66081關注度
往期回顧 全部

科技要聞

卷不動大模型,李志飛只好去做硬件

頭條要聞

白宮證實美國暫停對烏部分軍援 烏方回應

頭條要聞

白宮證實美國暫停對烏部分軍援 烏方回應

體育要聞

亞洲人的身體素質,怎么打NBA?

娛樂要聞

楊冪別再營銷幼態審美了!美是多元的

財經要聞

浙江中涌連環案:詐騙集團狡兔三窟

汽車要聞

17.3英寸的巨幕中控 全新零跑C11把"影院"搬上車

態度原創

本地
房產
健康
時尚
軍事航空

本地新聞

這座低調城市,怎么就成了追星女的夸夸天花板

房產要聞

10000+房源集體降價!海口二手房東,自刀太狠了!

呼吸科專家破解呼吸道九大謠言!

穿裙子的李宇春,需要向誰解釋嗎?

軍事要聞

普京、馬克龍時隔近3年再通話

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 子长县| 台江县| 健康| 柘城县| 威海市| 洛隆县| 荆州市| 什邡市| 遵义县| 德昌县| 潮州市| 合江县| 岳阳县| 浮梁县| 邓州市| 永康市| 乌拉特后旗| 农安县| 隆化县| 耒阳市| 龙泉市| 邯郸县| 韩城市| 辰溪县| 蒙城县| 阜城县| 盐津县| 寻乌县| 龙胜| 衡水市| 大田县| 昌黎县| 兴义市| 泰宁县| 安岳县| 利津县| 巫溪县| 泰顺县| 蒙自县| 佛教| 方城县|