99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI竟會「自己認錯」?破解多智能體協作「羅生門」,斬獲ICML 2025 Spotlight

0
分享至


新智元報道

編輯:定慧 好困

【新智元導讀】在多智能體AI系統中,一旦任務失敗,開發者常陷入「誰錯了、錯在哪」的謎團。PSU、杜克大學與谷歌DeepMind等機構首次提出「自動化失敗歸因」,發布Who&When數據集,探索三種歸因方法,揭示該問題的復雜性與挑戰性。

你打造了一支「超級AI戰隊」——戰隊里每個AI都各司其職:有的收集信息、有的負責判斷,還有的協調執行,一起協作攻克復雜任務。

這個愿望看似天衣無縫,結果卻往往以失敗告終。問題就出在:當「問題」出現的時候,如何知道是哪個AI干的

就像代碼Debug一樣,從堆積如山的模型對話記錄、調用日志和中間結果找到哪個AI掉鏈子幾乎不可能,而且AI本身還是個「黑箱」。

這就是今天多智能體AI系統面臨的真實困境:不僅頻繁失敗,而且溯源問題困難。

為了解決這個「AI版羅生門」,賓夕法尼亞州立大學杜克大學聯合Google DeepMind等機構的研究者們首次提出了自動化失敗歸因(Automated Failure Attribution)——讓AI自己舉手:我錯了!

目前,這篇論文不僅成功斬獲了頂會ICML 2025 Spotlight,而且配套的首個專用基準數據集Who&When和相關代碼也已全部開源。


論文地址:https://arxiv.org/pdf/2505.00212

代碼地址:https://github.com/mingyin1/Agents_Failure_Attribution

都說模型即產品,就像現在的OpenAI o3、Gemini 2.5 Pro還有新發的DeepSeek-R1-0528越來越強大,那為何還需要多智能體的AI系統?

這是因為目前階段依然單個AI能力有限,而LLM驅動的多智能體系統在很多領域展現出巨大潛力。

然而,這些系統也存在著脆弱性:單個Agent的失誤,Agent之間的誤解,以及信息傳遞錯誤,都可能導致整體任務失敗。


目前,一旦多智能體的AI系統「翻車」,開發者往往只能:

  • 手動考古:逐條翻閱冗長的交互日志,試圖找出問題所在。

  • 依賴經驗:這種調試過程高度依賴開發者對系統和任務的深入理解。

這種「大海撈針」式的排錯方式,不僅效率低下,更嚴重阻礙了系統的快速迭代和可信賴度的提升。

目前迫切需要一種自動化、系統化的方法來定位失敗原因,將「評估結果」與「系統改進」有效連接起來。


核心貢獻

針對上述挑戰,這篇論文做出了開創性的貢獻:

1. 提出并定義新問題

首次將「自動化失敗歸因」形式化為一個具體的研究任務,明確了要找出導致失敗的責任Agent(failure-responsible agent)決定性錯誤步驟(decisive error step)

2. 構建首個數據集——Who&When

該數據集包含了從127個LLMMulti-Agent系統中收集的廣泛失敗日志。這些系統既有算法自動生成的,也有人類專家精心打造的,確保了場景的真實性和多樣性。

每條失敗日志都配有細粒度的人工標注

  • (Who)哪個Agent是「罪魁禍首」。

  • 何時(When)決定性錯誤發生在交互的哪一步。

  • 為何(Why)對失敗原因的自然語言解釋。


標注關鍵錯誤代理以及確定出錯的具體步驟,對普通人和領域專家來說都是一項挑戰。

注釋者需要解析復雜的日志,理清每個代理的解決問題邏輯,并判斷每個動作是正確的,還是會誤導整個問題解決過程。

例如,如果某個代理使用網頁瀏覽器獲取解決問題所需的重要信息,注釋者就必須檢查瀏覽器歷史記錄,并訪問每一個網站,以判斷失敗是由于網站上本身沒有相關信息,還是代理未能成功獲取。

如上圖(a)所示,三位注釋者分別花費了30.9小時、30.2小時和23.2小時來完成注釋。這表明注釋過程非常耗時,因此開始考慮開展自動化故障歸因的研究。

此外,在很多數據實例中,出錯的并不只是某一個代理,而是多個代理。人們需要識別出這些錯誤,并挑選出其中最嚴重的錯誤,因為這些錯誤會直接導致問題解決失敗。由于錯誤的嚴重程度有時較為細微,甚至帶有一定的主觀性,這一過程就變得更加困難。

如上圖(b)所示,展示了三位注釋者「不確定」標注的比例,范圍從15%到30%不等。

圖(c)則可視化了不同注釋者在互相投票判斷彼此「不確定」數據時的分歧率。

可以看到,即使在投票環節仍存在一定程度的分歧,進一步突顯了注釋工作本身的復雜性與挑戰性。

3. 探索初步的自動化歸因方法

基于Who&When數據集,論文設計并評估了三種不同的自動化失敗歸因方法:全局審視法(All-at-Once)逐步偵查法(Step-by-Step)二分定位法(Binary Search)

實驗結果表明:這三種方法在準確性、成本和分析粒度上各有千秋,沒有一種能在所有指標上完勝。它們共同構成了自動化失敗歸因任務的初步「解法庫」。

· All-at-Once:一次性完成

向LLM提供用戶查詢和完整的故障日志,要求其一次性識別出故障責任Agent以及發生決定性錯誤的具體步驟。

優點:一步到位,成本較低,可能擅長宏觀判斷責任。

缺點:可能面臨「大海撈針」問題,難以從長上下文中精確定位具體錯誤步驟。

· Step-by-Step:逐步

模擬人工調試,讓LLM從頭開始,一步步檢查交互日志,在每個環節判斷當前是否出現錯誤,直到揪出「真兇」。

優點:如同剝洋蔥般細致,在定位具體錯誤環節上更具優勢。

缺點:需要多次詢問模型,調用成本較高,且局部判斷的累積誤差可能導致「誤判」。

· Binary Search:二分查找

這是一種折中策略,總成本和效果介于前兩者之間。

方法是將日志對半切分,利用LLM判斷錯誤發生在前半段還是后半段,然后不斷在確定的半段中遞歸「二分」,最終鎖定問題步驟和相關Agent。

實驗結果與主要發現

實驗在兩種設定下進行:LLM知道Multi-Agent系統需要解決的問題的真實答案(WithGround Truth不知道真實答案(Without Ground Truth)

主要使用GPT-4o,但也測試了其他模型(如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1)

通過在Who&When數據集上對上述方法進行了系統評估,得到了許多重要的發現

· 任重道遠,表現堪憂

目前的方法離完美還差得很遠。即便是表現最好的單一方法,在識別「背鍋Agent」上的準確率也僅有約53.5%,而在準確定位「錯誤步驟」上,準確率更是低至14.2%!

這意味著,最牛的策略也只能勉強過半猜對誰是「內鬼」,至于錯在哪一步,基本靠「蒙」。

有些方法的表現甚至不如隨機猜測,足見任務之艱巨。

· 各有所長,難有全能冠軍

不同方法在不同子任務上表現各異,沒有萬能冠軍。

例如,All-at-Once方法對「Who」的判斷相對最好,能夠更準確地找出哪個Agent應該負責;而Step-by-Step方法在鎖定具體錯誤步驟(「When」)上效果更勝一籌,細粒度檢查帶來了優勢;Binary Search方法則各方面居中,表現中規中矩。

由此體現出每種方案的權衡取舍:要么整體掃描擅長找「人」,要么逐步追查利于找「步驟」。


· 「組合拳效果更優,但代價高昂

研究者嘗試了組合不同方法的策略(例如,先使用「全局法」初步判斷責任Agent,再運用「逐步法」精確定位錯誤步驟)。

結果表明,這種混合方法確實能夠提升整體的歸因性能,但同時也帶來了顯著的計算成本增加。



· 現有SOTA模型集體啞火

最令人驚訝的是,即便是當前最先進的推理模型(如OpenAI o1和DeepSeek R1),在處理這一任務時也顯得力不從心。

這進一步凸顯了「自動化失敗歸因」任務本身的固有難度,其對AI推理能力的要求超越了當前SOTA模型在常規任務上的表現。


明確的推理提示至關重要:在All-at-Once和Step-by-Step的提示中明確要求LLM給出歸因的理由,能起到提升性能的作用。


上下文長度對性能構成制約:實驗還發現,隨著失敗日志上下文長度的增加,所有歸因方法的性能均呈現下降趨勢,尤其是在錯誤步驟定位的準確性方面更為敏感。


邁向更智能、更可靠的Multi-Agent系統

「自動化失敗歸因」是Multi-Agent系統開發流程中不可或缺的一環。

它將幫助我們更深入地洞察Multi-Agent的失敗模式,將「哪里出錯、誰之過」從令人頭疼的謎題,轉變為可量化分析的問題。

通過架起「評估」與「改進」之間的橋梁,未來終將能夠打造出更可靠、更智能、更值得信賴的Multi-Agent協作系統。

作者介紹

Shaokun Zhang


賓夕法尼亞州立大學的三年級博士生,導師為Qingyun Wu教授。

近期的研究興趣集中在Agentic AI與強化學習的交叉領域。

目前,在NVIDIA實習,專注于LLM智能體的研究。在此之前,于西安電子科技大學獲得計算機科學學士學位。

Ming Yin


杜克大學的一年級博士生,導師是陳怡然教授。

于2024年20歲時在中國科學技術大學少年班學院獲得了學士學位。

目前對LLM智能體、LLM推理和可信人工智能感興趣。

從2025年5月到8月在位于西雅圖的Zoom擔任生成式人工智能研究實習生。

參考資料:

https://arxiv.org/pdf/2505.00212

https://skzhang1.github.io/

https://mingyin1.github.io/



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
職工醫保個人賬戶余額可以轉賬啦!

職工醫保個人賬戶余額可以轉賬啦!

子長融媒體中心
2025-05-31 13:15:43
為什么水在地球上幾億年都不會過期,而放到瓶子里卻會過期?| 博覽日報

為什么水在地球上幾億年都不會過期,而放到瓶子里卻會過期?| 博覽日報

中國科普博覽
2025-06-03 23:25:58
記者:加拉塔薩雷給奧斯梅恩開1500萬歐年薪,新月提供4000萬

記者:加拉塔薩雷給奧斯梅恩開1500萬歐年薪,新月提供4000萬

懂球帝
2025-06-04 04:44:31
影響極為惡劣!四川省委:成都金牛區有關黨員干部違規吃喝,嚴重損害四川干部隊伍形象

影響極為惡劣!四川省委:成都金牛區有關黨員干部違規吃喝,嚴重損害四川干部隊伍形象

政知新媒體
2025-06-03 13:27:35
醫院人妻通奸后續:開房幾十次,多次用咬,人妻美照曝光

醫院人妻通奸后續:開房幾十次,多次用咬,人妻美照曝光

蜉蝣說
2024-10-24 16:07:30
我國超千萬人患冠心病?醫生呼吁:多食用“7物”,或保護心臟

我國超千萬人患冠心病?醫生呼吁:多食用“7物”,或保護心臟

華庭講美食
2025-06-03 12:40:29
存款超2000美元就取消白卡!加州數百萬老人將失去醫保,非法移民仍可享受

存款超2000美元就取消白卡!加州數百萬老人將失去醫保,非法移民仍可享受

大洛杉磯LA
2025-06-03 05:29:22
美國新任防長太沒有禮貌了,他竟然用了整整30分鐘,來問責中國

美國新任防長太沒有禮貌了,他竟然用了整整30分鐘,來問責中國

西樓知趣雜談
2025-06-03 11:12:40
日媒夸獎吳艷妮顏值:頂級女神,臉蛋完美,深受日本網友喜愛

日媒夸獎吳艷妮顏值:頂級女神,臉蛋完美,深受日本網友喜愛

史行途
2025-06-03 09:40:21
花4萬體驗子宮激活療法,能持續高潮兩小時,治療方法:有手就行

花4萬體驗子宮激活療法,能持續高潮兩小時,治療方法:有手就行

社會醬
2025-06-01 09:51:58
裁錫伯杜只是開始!美媒爆尼克斯兩大核心或將離隊:去換杜蘭特?

裁錫伯杜只是開始!美媒爆尼克斯兩大核心或將離隊:去換杜蘭特?

你的籃球頻道
2025-06-04 07:17:49
這款完全是我的菜!

這款完全是我的菜!

白宸侃片
2025-06-04 09:36:50
“國家隊”公布量產時間表!全固態電池進入產業催化期

“國家隊”公布量產時間表!全固態電池進入產業催化期

CBEA電池網
2025-06-03 14:35:23
“出賣”父親,下場凄涼?傅作義的女兒傅冬菊為何被黑得這么慘?

“出賣”父親,下場凄涼?傅作義的女兒傅冬菊為何被黑得這么慘?

歷史詳說官
2025-06-03 09:43:19
0.04秒絕殺!中國隊終于奪冠,12年,等了整整12年,十大官媒盛贊

0.04秒絕殺!中國隊終于奪冠,12年,等了整整12年,十大官媒盛贊

墨印齋
2025-05-29 14:46:17
錯過了比特幣,別錯過穩定幣!

錯過了比特幣,別錯過穩定幣!

平點金基
2025-06-04 02:18:57
位某(女,29歲)當街持械打砸多輛汽車!官方通報:已送精神衛生機構治療

位某(女,29歲)當街持械打砸多輛汽車!官方通報:已送精神衛生機構治療

新民晚報
2025-06-03 17:18:06
李在明當選韓國總統,推行"務實主義均衡外交"理念

李在明當選韓國總統,推行"務實主義均衡外交"理念

綠樹林子
2025-06-04 08:07:03
善惡終有報,惡人自有惡人磨,馬筱梅終于演不下去了賬號關閉評論

善惡終有報,惡人自有惡人磨,馬筱梅終于演不下去了賬號關閉評論

尋墨閣
2025-05-05 16:43:34
港星戚冠軍慶76歲生日!一身腱子肉無老年斑,滿頭黑發曝凍齡秘訣

港星戚冠軍慶76歲生日!一身腱子肉無老年斑,滿頭黑發曝凍齡秘訣

農村教育光哥
2025-06-03 10:20:50
2025-06-04 10:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12811文章數 66059關注度
往期回顧 全部

科技要聞

馬斯克放話:SpaceX明年營收超NASA全年預算

頭條要聞

牛彈琴:韓國又創造了歷史 結果對中國是一個小小驚喜

頭條要聞

牛彈琴:韓國又創造了歷史 結果對中國是一個小小驚喜

體育要聞

帶著6冠告別國米,他已不僅是“皮波的弟弟”

娛樂要聞

彭于晏爆和Jolin復合6年?工作室否認

財經要聞

清流|中國車企到底有沒有“恒大”?

汽車要聞

擲彈兵 最不像“豪華車”的豪華車

態度原創

教育
藝術
親子
數碼
軍事航空

教育要聞

2025年南京市第九初級中學初中藝術特定類型招生簡章 (歌舞、民樂)

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

熱搜第一!可能造成孩子性早熟、患哮喘!夏天很多人買,家里有的趕緊扔

數碼要聞

森海塞爾藍牙適配器 BTD 700:支持 aptX、Auracast、低延遲游戲

軍事要聞

互換各6000具士兵遺體 俄烏談判數字細節展現沖突慘烈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 泸定县| 乐至县| 望都县| 富平县| 鄂伦春自治旗| 鸡泽县| 岳阳县| 永昌县| 乌鲁木齐市| 阿合奇县| 信阳市| 新津县| 佛学| 收藏| 阿巴嘎旗| 二连浩特市| 工布江达县| 福贡县| 屏山县| 田东县| 莱州市| 依安县| 屯门区| 三台县| 汶上县| 长海县| 维西| 武威市| 阳朔县| 瑞安市| 焉耆| 上犹县| 东乌珠穆沁旗| 达尔| 紫金县| 宿州市| 西乌| 临海市| 滦平县| 隆安县| 陇西县|