OpenAI 在通向 AGI(通用人工智能)的五大階段中,將「組織級」智能列為最終目標:即 AI 能像一個組織般管理復雜流程、決策高層任務、協調大規模操作。 近兩年來,大量多智能體系統(Multi-Agent Systems, MAS)研究陸續涌出,不斷朝這這一里程碑邁進。
為了推動該領域加速健康發展,由上海交通大學、上海 AI 實驗室、牛津大學、普林斯頓大學、Meta 等十個機構聯合推出的MASLab,帶來首個統一、全面、研究友好的大模型多智能體系統代碼庫:
- 論文地址:https://arxiv.org/pdf/2505.16988
- 代碼地址:https://github.com/MASWorks/MASLab
「一鍵橫評」「快速上手」「復現無憂」
你是否也曾:
- 看了幾十篇 MAS 論文,卻發現代碼實現千差萬別?
- 打開一個 MAS 項目的倉庫,一眼望去配置亂、接口雜?
- 想嘗試復現或二次開發,但總是無從下手,Debug 到天亮?
那你一定不能錯過 MASLab!
MASLab 有多好用?
MASLab 統一化集成了超過 20 種主流 MAS 方法,涵蓋過去兩年內各大頂會的成果、多個領域、多種任務類型。并且每種方法都經過研究者們逐步輸出比對,確保過程和結果嚴格遵循原始實現!
三大核心特性,一次到位:
? 方法全:包含AgentVerse、ChatDev、LLM Debate、AFlow、MAS-GPT 等 20 多種多智能體方法,為廣大研究者省去復現煩惱!
? 評估準:統一輸入預處理、LLM 配置、評估協議,確保橫評公平性與可重復性!
? 結構清晰:統一方法實現結構,新手也能輕松上手,輕松拓展!
跨域橫評,真實力一目了然!
研究者們利用 MASLab 進行了大量實驗分析,覆蓋 10 余種評測基準(MATH、GPQA、GAIA等),包括 LLaMA-3.3、Qwen-2.5 系列、GPT-4o 等 8 大主流模型,首次系統地刻畫大模型多智能體(MAS) 方法在多個任務維度下的性能圖譜。
通過大量實驗,為廣大研究者們展示了當前多智能體系統方法的發展現狀、有劣勢等。
MASLab 研究團隊不僅緊跟多智能體(MAS)領域前沿,更基于現有成果,創新性地提出了更高效的 MAS 方法 ——MASLab-ReAct。該方法支持搜索、讀圖、讀語音等多種工具,并在 GAIA 驗證集上取得了更優結果!實驗數據更是有力證明,尤其在需要代碼執行、圖像解析等工具調用能力的場景下,MAS 展現出無可比擬的顯著優勢,預示著其在真實世界應用中蘊藏的巨大潛力!
多維剖析:不只是簡單跑跑實驗!
MASLab 進一步探索:
?? 僅因評估協議不同,不同 MAS 方法排名可發生巨大變動!
MASLab 研究團隊探討了不同 MAS 方法使用的評估協議,實驗證明 ——評估方式選擇,直接影響科研結論!這一結果直接地證明了 MASLab 這一統一代碼框架對多智能體領域的重要性!
擴展性分析:
考察不同多智能體方法 Test-time Compute 的拓展性:
考察不同模型尺寸(7B~72B)對多智能體方法表現的影響:
失敗分析:詳細追蹤格式錯誤、工具調用失敗等常見問題源。MAS 系統的表現不僅依賴模型「聰明」,更依賴其是否能「聽懂指令」。
共建未來:開源共享,共創智能新生態!
MASLab 不是閉門造車的項目,而是為社區而生的開源平臺,歡迎社區貢獻!共同打造 MAS 的標準實驗平臺!
未來 MASLab 將持續開源更多方法與基準,推動構建真正可持續發展的 MAS 研究社區!
MASWorks 大模型多智能體開源社區
與此同時,MASLab 研究團隊近期發起了一個全新的倡議 ——MASWorks 開源社區!愿景是連接全球研究者,匯聚智慧,一同分享、貢獻與協作,共同推動 MAS 領域的蓬勃發展。
作為社區啟動的首個重磅活動,MASWorks 將在ICML 2025舉辦聚焦大語言模型多智能體的 Workshop:MAS-2025!期待全球廣大學者的積極參與,共同探討、碰撞思想,描繪 MAS 的未來藍圖!
- MASWorks:https://github.com/MASWorks MAS-2025
- ICML 2025 Workshop on MAS:https://mas-2025.github.io/MAS-2025/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.