99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

頂尖AI如何發(fā)揮最大戰(zhàn)力?UIUC用一個新多智能體協(xié)作基準尋找答案

0
分享至



朱昆侖是伊利諾伊大學香檳分校(UIUC)計算機科學系的研究生,現(xiàn)隸屬于Ulab與Blender Lab,曾在斯坦福大學、卡內(nèi)基梅隆大學(CMU)與蒙特利爾學習算法研究所(Mila)進行學術(shù)訪問。他的研究方向包括大語言模型(LLM)智能體、多智能體系統(tǒng)、AI科學家與工具學習等,在ICML、ICLR、ACL、TMLR等頂級會議與期刊發(fā)表論文10余篇,總引用超過1500次。 他積極參與多個廣泛影響的開源項目,包括OpenManus(RL)、ChatDev(MACNET)、ToolBench 等,累計在 GitHub 上獲得超過 5萬+ stars。此外,他曾受邀在 AMD 開發(fā)者大會、阿里巴巴云棲大會等重要學術(shù)與工業(yè)會議中作報告,分享其在AI智能體方面的開源成果。

我們正在見證一個全新的時代:AI 的浪潮從強大的「個體」奔涌向復雜的「團隊」,它們像人類團隊一樣協(xié)作開發(fā)軟件、進行科學研究,甚至在虛擬世界中展開激烈的策略對抗。

然而,一個問題也隨之浮出水面:我們?nèi)绾闻袛噙@些 AI 團隊是「三個臭皮匠,賽過諸葛亮」,還是「三個和尚沒水喝」?

現(xiàn)有的評測基準,如AgentBench、GAIA 等,大多聚焦于單個智能體的推理和工具使用能力,卻無法衡量多智能體系統(tǒng)內(nèi)部至關(guān)重要的協(xié)作效率、溝通質(zhì)量和競爭策略。這在 AI 能力評估領(lǐng)域,形成了一個巨大的「盲區(qū)」。

為了填補這一空白,來自伊利諾伊大學厄巴納-香檳分校的研究者們,近日推出了 MultiAgentBench。該成果近日被自然語言處理頂級會議 ACL 2025 主會正式接收。



  • 論文標題:MultiAgentBench:Evaluating the Collaboration and Competition of LLM agents
  • 論文鏈接:
  • https://arxiv.org/pdf/2503.01935
  • 代碼鏈接:
  • https://github.com/Ulab-UIUC/MARBLE

這不僅是一個評測集,更是首個能夠全面、系統(tǒng)化地評估 LLM 多智能體系統(tǒng)協(xié)作與競爭能力的綜合性基準。它不僅僅是一套「考題」,而更像一個「模擬真實社會動態(tài)的實驗室」,旨在揭示多智能體協(xié)作的奧秘,并回答一系列關(guān)鍵問題:

  • 智能體的能力與協(xié)作,哪個更重要?
  • AI 團隊采用哪種組織架構(gòu)和協(xié)作策略效率最高?
  • 當 AI 被賦予共同或者沖突的目標時,它們會演化出怎樣的社會行為?



圖 1:MultiAgentBench 評估流程概覽

MARBLE 的主要貢獻包括:

  • 提出了 MultiAgentBench 這一綜合性基準,在六種多樣化交互場景中評估基于 LLM 的多智能體系統(tǒng)的協(xié)作與競爭。

  • 提出了創(chuàng)新的評估指標:不僅評估任務的完成質(zhì)量,還衡量智能體的協(xié)作、規(guī)劃與溝通的質(zhì)量。

  • 揭示了多智能體協(xié)作中的一些「頓悟時刻」——智能體開始展現(xiàn)出涌現(xiàn)的社會行為,為實現(xiàn)類 AGI 級別的協(xié)作帶來了有希望的啟示。

研究結(jié)果揭示了幾個關(guān)鍵結(jié)論:在眾多模型中,gpt-4o-mini 展現(xiàn)出最強的綜合任務能力;在協(xié)作模式上,「圖結(jié)構(gòu)」的去中心化協(xié)作模式效率最高;而在規(guī)劃策略上,相比于「小組討論」等規(guī)劃方法,「認知自演化規(guī)劃」方法能有效提升任務達成率。更重要的是,實驗觀察到了智能體在復雜博弈中自發(fā)產(chǎn)生的「社會智慧」。



圖 2:MARBLE 核心框架設計展示

框架設計

MultiAgentBench 的核心在于其背后的協(xié)作引擎 MARBLE (Multi-agent coordination Backbone with LLM Engine)。它將評測重點從單個智能體能力拓展到智能體之間的關(guān)系動態(tài)與組織結(jié)構(gòu),使研究者能夠系統(tǒng)性分析多智能體協(xié)作和對抗過程中的效率與行為模式。在多智能體系統(tǒng)中,如何高效組織和協(xié)作,可能與個體能力同樣重要。

圖 2 展示了 MARBLE 的整體架構(gòu),其中包含三個核心模塊:

協(xié)作引擎

協(xié)作引擎作為整個系統(tǒng)的大腦中樞,負責整合并調(diào)度所有模塊,明確區(qū)分「規(guī)劃者」(Planners) 和「執(zhí)行者」(Actors) 的角色。這種分工幫助實現(xiàn)從整體規(guī)劃到具體執(zhí)行的順暢銜接,使評測能夠更好地觀測協(xié)作效率與執(zhí)行效果。

智能體圖

智能體圖模塊不僅記錄智能體是誰,還通過 (agent1, 關(guān)系, agent2) 的三元組形式,建立起智能體之間的關(guān)系網(wǎng)絡,包括「協(xié)作」、「監(jiān)督」等。這種結(jié)構(gòu)化關(guān)系使得智能體之間的互動具有可控性和方向性,更接近真實團隊中的組織架構(gòu)。

認知模塊

認知模塊為每個智能體提供個性化信息、獨立的記憶,以及多樣化的推理方式,使其能夠根據(jù)上下文和交互過程靈活調(diào)整策略,而非簡單執(zhí)行固定指令。這一設計使智能體在多智能體環(huán)境中展現(xiàn)出更具適應性和靈活度的行為,為研究智能體間協(xié)作與互動提供了支持。

交互策略與環(huán)境



圖 3:(a) 協(xié)作協(xié)議(如星型、樹型、圖結(jié)構(gòu)與鏈式);(b) 規(guī)劃策略。

交互策略

MARBLE 框架內(nèi)置了四種協(xié)作協(xié)議,如圖 3 所示,包括中心化協(xié)議(星型、樹型)與去中心化協(xié)議(圖型、鏈型),來模擬現(xiàn)實世界中典型的團隊協(xié)作模式。

評測場景

MultiAgentBench 設計了六個覆蓋不同領(lǐng)域的評測場景,全面模擬了從團隊合作到利益沖突的各種應用環(huán)境:

  • 共同目標

  • 科研 (Research):AI 科學家團隊,合作撰寫研究報告。
  • 我的世界 (Minecraft):AI 游戲團隊,合作完成游戲目標。
  • 數(shù)據(jù)庫 (Database):AI 數(shù)據(jù)庫工程師團隊,合作完成數(shù)據(jù)庫開發(fā)項目。
  • 編程 (Coding):AI 軟件工程師團隊,合作完成軟件工程開發(fā)項目。

  • 沖突目標

  • 狼人殺 (Werewolf):模擬狼人殺游戲。AI 智能體需要進行欺騙和偽裝來獲得游戲勝利。
  • 談判 (Bargaining):模擬真實的商業(yè)談判場景。AI 智能體需要在資源有限的情況下,通過策略性的讓步、聯(lián)盟或施壓,為自己爭取最大的利益。

評價指標



圖 4:基準創(chuàng)建過程及動態(tài)里程碑檢測機制。

任務完成度

  • 基于里程碑的 KPI (Milestone-based KPI):這是 MultiAgentBench 評測體系的一大亮點。它不再將任務視為一個整體,而是將其分解為一系列關(guān)鍵的「里程碑」(例如,在科研任務中,「完成 5 個關(guān)鍵問題的定義」或「對上一版提案進行實質(zhì)性改進」)。系統(tǒng)通過一個 LLM 裁判,動態(tài)地檢測團隊是否達成了這些里程碑,并自動記錄做出核心貢獻的智能體。

  • 任務得分 (Task Score,以下簡稱 TS):這是對多智能體系統(tǒng)最終產(chǎn)出質(zhì)量的綜合評分,會根據(jù)任務類型(如科研、編程、游戲勝負)采用不同的評價標準。

協(xié)作質(zhì)量

這是對團隊「軟實力」的量化評估,由兩個核心分數(shù)構(gòu)成:

  • 溝通分數(shù) (Communication score):評估團隊內(nèi)部溝通的效率、清晰度以及信息的有效傳遞。

  • 規(guī)劃分數(shù) (Planning score):評估任務分配的合理性、角色維護的一致性以及戰(zhàn)略的連貫性。

  • 協(xié)作總分 (Coordination Score, 以下簡稱 CS):上述兩者的平均值,直觀地反映了團隊的整體協(xié)作水平。

實驗結(jié)論

高效的協(xié)作 ≠ 優(yōu)異的成果,個體能力是基石



表 1:Minecraft、Database、Coding、Bargaining 與 Werewolf 五個場景中的平均 TS 與協(xié)作 CS。在三個任務場景中,均為同一模型同時取得最高 TS 與 CS,表明 CS 是衡量 TS 的良好指標。

溝通順暢、配合默契的 AI 團隊是否就能更加高質(zhì)量地完成任務?直覺告訴我們「是的」,但實驗數(shù)據(jù)(如表 1 所示)卻指出——在多智能體系統(tǒng)中,協(xié)作與個體能力并非總能齊頭并進。

例如,在 Minecraft 任務中,Meta-Llama-3.1-70B 模型展現(xiàn)出了高達 75.00 的 CS,但其最終的 TS 僅為 0.21。協(xié)作分高,意味著智能體之間在頻繁、清晰地溝通,并嚴格遵循著既定規(guī)劃。但如果單個智能體的某項執(zhí)行能力存在根本性缺陷,那么再完美的溝通和規(guī)劃,也是空中樓閣。

這表明,在當前階段,多智能體系統(tǒng)的性能瓶頸首先在于單個智能體的核心能力。協(xié)作是能力的「放大器」,而非能力的「替代品」。

AI 團隊的「組織內(nèi)耗」:警惕冗余層級與無效討論



圖 5:不同協(xié)作協(xié)議在多種評估指標下的表現(xiàn)。



圖 6:不同規(guī)劃提示策略下研究任務的平均指標。認知自演化規(guī)劃在 CS 上表現(xiàn)最佳。

如圖 5 所示,在四種協(xié)作協(xié)議中,圖結(jié)構(gòu)這種允許所有智能體自由溝通、并行協(xié)作的模式,在任務得分、規(guī)劃質(zhì)量和效率上全面占優(yōu),緊隨其后的是星型,而表現(xiàn)最差的是樹型結(jié)構(gòu),其層級過多的設計,導致溝通成本和信息損耗急劇增加,任務得分和協(xié)作分均為最低。這表明,對于需要復雜協(xié)作的任務,扁平、去中心化的組織架構(gòu)比層級結(jié)構(gòu)更有效。

如圖 6 所示,一個反直覺的結(jié)論出現(xiàn)了:讓多個 AI 規(guī)劃師進行「小組討論」,效果竟是所有策略中最差的。這或許說明,當前階段的 AI 的小組討論不僅沒能集思廣益,反而可能陷入「集體降智」。與之形成對比的是,進行「認知自演化規(guī)劃」的智能體表現(xiàn)出最佳的協(xié)作能力。這種策略的核心在于「復盤」——從過去的成敗中學習,動態(tài)調(diào)整策略,實現(xiàn)持續(xù)進化。對于 AI 團隊而言,一個懂得自我迭代和反思的「大腦」,比一場七嘴八舌的「頭腦風暴」更加寶貴。

AI 團隊的「林格曼效應」



圖 7:不同智能體數(shù)量對 KPI、CS 與 TS 的影響。

在探究團隊規(guī)模的影響時,實驗發(fā)現(xiàn),將智能體數(shù)量從 1 個增加到 3 個時,協(xié)作分數(shù)和任務分數(shù)得到了提升。然而,當繼續(xù)增加智能體數(shù)量時,整體的 KPI 反而開始下降。

這一現(xiàn)象與組織行為學中的「林格曼效應」(團隊規(guī)模越大,個體貢獻越傾向于減少)高度吻合。團隊規(guī)模的擴大并非簡單的「人多力量大」,這意味著,未來構(gòu)建大規(guī)模 AI 智能體系統(tǒng)的關(guān)鍵,將是如何設計出高效、低開銷的協(xié)作機制,以克服規(guī)模擴張帶來的內(nèi)在復雜性。

「Aha-Moments」:當 AI 開始展現(xiàn)社會智慧

MultiAgentBench 最重要的發(fā)現(xiàn),或許是在「狼人殺」和「談判」這類競爭性場景中,觀察到的一系列驚人的「涌現(xiàn)行為」。這些復雜的社會策略并非由人類編碼設計,而是 AI 為了贏得勝利這一最終目標,自發(fā)「學習」和「演化」出來的。

  • 戰(zhàn)略性沉默:在「狼人殺」游戲中,「預言家」智能體學會了不再第一時間公布自己的驗人結(jié)果。它會評估風險,選擇性地、在最關(guān)鍵的時刻才披露信息,以求最大化收益并保護自己。這是一種基于風險評估的「戰(zhàn)略性沉默」,是高級博弈能力的體現(xiàn)。

  • 信任與猜忌:實驗中,村民陣營會因為內(nèi)部猜忌而產(chǎn)生「內(nèi)斗」,互相攻擊;而狼人陣營則能通過高度一致的欺騙和內(nèi)部協(xié)作,制造「虛假共識」來迷惑對手。這表明,智能體正在根據(jù)角色和信任關(guān)系,自發(fā)地形成動態(tài)的聯(lián)盟和敵對關(guān)系。

  • 動態(tài)適應環(huán)境:游戲中的「女巫」角色,其行為策略會隨著戰(zhàn)局的演進而動態(tài)變化。在游戲早期,它傾向于「囤積」寶貴的藥水;而到了游戲后期,為了求勝,它會變得更具「冒險精神」。這展示了智能體策略的高度動態(tài)性和對環(huán)境的適應性。

這些「Aha-Moments」標志著 LLM 智能體正在經(jīng)歷一次從純粹的「邏輯推理機器」,向具備初級社會行為能力的角色的轉(zhuǎn)變。它們正在學習和運用人類社會互動中最核心的元素:欺騙、信任、策略和權(quán)衡。當一個智能體開始思考「其他智能體正在思考什么」時,這正是「心智理論」的雛形。

總結(jié)

MultiAgentBench 的推出,為我們打開了一扇觀察和理解 AI 群體智能的窗戶。它不僅僅是一個評測工具,更是一個強大的「社會模擬器」,系統(tǒng)性地揭示了構(gòu)建高效 AI 團隊的幾條重要準則:

  • 個體能力是基石:協(xié)作是能力的放大器,而非替代品。沒有強大的個體,再好的團隊協(xié)作也只是空中樓閣。

  • 組織結(jié)構(gòu)定成敗:扁平、去中心化的網(wǎng)絡結(jié)構(gòu)勝于層級的樹型模式,后者會帶來巨大的「組織內(nèi)耗」。

  • 規(guī)模并非多多益善:AI 團隊同樣受「林格曼效應」的約束,盲目擴大規(guī)模反而會降低效率,如何設計低成本的協(xié)作機制是關(guān)鍵。

  • 社會智能的涌現(xiàn):在合適的博弈環(huán)境下,AI 能夠自發(fā)學習并展現(xiàn)出「戰(zhàn)略性沉默」、「信任分化」等高級社會行為,這是通往更高級別人工智能的希望所在。

總而言之,這項工作標志著我們對 AI 的研究,正在從關(guān)注「個體智商」邁向理解「群體情商」的新階段。未來,通過構(gòu)建更復雜的交互環(huán)境,我們將能更好地理解、引導并最終利用這種強大的新興智能,為解決現(xiàn)實世界中的復雜問題,邁出堅實的一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
李斌豁出去了!5米大車預售不到20萬,為銷量和四季度盈利拼了

李斌豁出去了!5米大車預售不到20萬,為銷量和四季度盈利拼了

車東西
2025-07-11 00:30:35
46歲陳喬恩公開回應不生育原因

46歲陳喬恩公開回應不生育原因

東方不敗然多多
2025-07-11 12:10:31
2025高考錄?。呵迦A已跌落神壇,公費師范生殺瘋了,985大學爆冷

2025高考錄?。呵迦A已跌落神壇,公費師范生殺瘋了,985大學爆冷

二月侃事
2025-07-10 08:32:40
《淬火年代》大結(jié)局!錢宏明自殺,崔冰冰才徹底看清柳鈞的真面目

《淬火年代》大結(jié)局!錢宏明自殺,崔冰冰才徹底看清柳鈞的真面目

比利
2025-07-11 13:36:25
反轉(zhuǎn)!女孩因男友開車癱瘓,對方消失含淚控訴,她卻被扒個底朝天

反轉(zhuǎn)!女孩因男友開車癱瘓,對方消失含淚控訴,她卻被扒個底朝天

削桐作琴
2025-07-09 18:06:12
還記得嗎?八年前周琦夏聯(lián)首秀驚艷 24分鐘13中7砍17+6填滿數(shù)據(jù)欄

還記得嗎?八年前周琦夏聯(lián)首秀驚艷 24分鐘13中7砍17+6填滿數(shù)據(jù)欄

直播吧
2025-07-11 11:00:16
厄爾-克拉克:我打得好布朗把我換下 回來后詹姆斯跟我說不理解

厄爾-克拉克:我打得好布朗把我換下 回來后詹姆斯跟我說不理解

直播吧
2025-07-11 11:43:15
70年代的漢字二次簡化,雖然失敗,但很多人的姓氏由此改變

70年代的漢字二次簡化,雖然失敗,但很多人的姓氏由此改變

阿器談史
2025-06-11 01:30:32
2025暑期保護月取消,國產(chǎn)片3連撲,觀眾集體倒戈,進口片殺瘋了

2025暑期保護月取消,國產(chǎn)片3連撲,觀眾集體倒戈,進口片殺瘋了

電影票房預告片
2025-07-10 15:57:21
2.07米德明打控衛(wèi)0助:賽后直言想得太簡單 美媒炮轟籃網(wǎng)選秀眼光

2.07米德明打控衛(wèi)0助:賽后直言想得太簡單 美媒炮轟籃網(wǎng)選秀眼光

顏小白的籃球夢
2025-07-11 10:48:27
假牙泡水白發(fā)稀疏!72歲趙雅芝啃泡面吸氧養(yǎng)全家,兒子開豪車炫富

假牙泡水白發(fā)稀疏!72歲趙雅芝啃泡面吸氧養(yǎng)全家,兒子開豪車炫富

一盅情懷
2025-07-11 14:53:57
央媒官宣!46歲霍啟剛再升職,級別有些高,背后是誰在為他鋪路?

央媒官宣!46歲霍啟剛再升職,級別有些高,背后是誰在為他鋪路?

白面書誏
2025-07-11 16:58:12
中國工商銀行(澳門)股份有限公司原董事長姜壹盛接受審查調(diào)查

中國工商銀行(澳門)股份有限公司原董事長姜壹盛接受審查調(diào)查

界面新聞
2025-07-11 17:02:03
女籃14人名單正式公布!6后衛(wèi)5鋒線3內(nèi)線,裁掉2鋒線,2核心退賽

女籃14人名單正式公布!6后衛(wèi)5鋒線3內(nèi)線,裁掉2鋒線,2核心退賽

星Xin辰大海
2025-07-11 04:54:18
69歲大媽稱71歲老伴天天過夫妻生活,老伴給的原因讓人瞠目結(jié)舌

69歲大媽稱71歲老伴天天過夫妻生活,老伴給的原因讓人瞠目結(jié)舌

娛樂洞察點點
2025-07-08 04:28:23
以法之名:同樣拿了護照,為何孫飛跑不掉而王華山能成功出逃?

以法之名:同樣拿了護照,為何孫飛跑不掉而王華山能成功出逃?

情感大頭說說
2025-07-11 12:42:29
激光照射事件真相大白,德國鬧出烏龍,中國軍艦根本沒去紅海

激光照射事件真相大白,德國鬧出烏龍,中國軍艦根本沒去紅海

說說史事
2025-07-11 11:54:36
楊少華住院照曝光!大兒子透露送醫(yī)過程,孫子和老汪哭到泣不成聲

楊少華住院照曝光!大兒子透露送醫(yī)過程,孫子和老汪哭到泣不成聲

興史興談
2025-07-10 15:42:24
甘肅天水“幼兒血鉛異?!笔录芍醒雽用娴恼{(diào)查組提級調(diào)查

甘肅天水“幼兒血鉛異常”事件應由中央層面的調(diào)查組提級調(diào)查

煮酒論法
2025-07-11 12:05:47
演員陳龍上父母家突擊檢查,40多度不開空調(diào),爸媽一起抹汗還嘴硬

演員陳龍上父母家突擊檢查,40多度不開空調(diào),爸媽一起抹汗還嘴硬

娛圈小愚
2025-07-11 11:57:14
2025-07-11 18:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10843文章數(shù) 142365關(guān)注度
往期回顧 全部

科技要聞

稚暉君神操作 宇樹痛失"人形機器人第一股"

頭條要聞

特朗普對援烏態(tài)度"巨大轉(zhuǎn)變" 或動用"總統(tǒng)特別撥款權(quán)"

頭條要聞

特朗普對援烏態(tài)度"巨大轉(zhuǎn)變" 或動用"總統(tǒng)特別撥款權(quán)"

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

新聞聯(lián)播鏡頭下的宋佳面相變了

財經(jīng)要聞

管濤:百年美元信用將崩塌?

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙 嵐圖FREE+閉眼沖

態(tài)度原創(chuàng)

游戲
房產(chǎn)
家居
藝術(shù)
公開課

下一代Xbox主機新爆料:或不再兼容Xbox One游戲

房產(chǎn)要聞

8大新盤曝光!2025下半場,廣州主城開卷廝殺!

家居要聞

生活憧憬 自由浪漫之境

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 竹北市| 雅安市| 四平市| 高碑店市| 长武县| 吴川市| 卫辉市| 邵阳县| 龙南县| 长武县| 维西| 眉山市| 乌什县| 宣威市| 大余县| 韩城市| 漳平市| 商洛市| 资溪县| 花莲市| 钟山县| 曲阳县| 巨野县| 韩城市| 东丽区| 山东省| 晋宁县| 临夏市| 渝北区| 梅州市| 丹棱县| 望城县| 乐安县| 勐海县| 开平市| 阿城市| 延川县| 修水县| 莫力| 宁都县| 绥阳县|