99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

誰導致了多智能體系統的失敗?首個「自動化失敗歸因」研究出爐

0
分享至




想象這樣一個場景:你開發了一個由多個大型語言模型 Agent 組成的智能團隊,它們協作完成復雜任務,比如一個 Agent 負責檢索,一個負責決策。然而任務失敗了,結果不對。

問題來了:到底是哪個 Agent 出了錯?又是在對話流程的哪一環節?調試這樣的多智能體系統如同大海撈針,需要翻閱大量復雜日志,極其耗時。

這并非虛構。在多智能體 LLM 系統中,失敗常見但難以診斷。隨著這類系統愈加普及,我們急需新方法快速定位錯誤。正因如此,ICML 2025 的一篇 Spotlight 論文提出了「自動化失敗歸因(Automated Failure Attribution)」的新研究方向,目標是讓 AI 自動回答:是誰、在哪一步導致了失敗。

該工作由 Penn State、Duke、UW、Goolge DeepMind 等機構的多位研究人員合作完成。



  • 論文標題:Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
  • arXiv 地址:https://arxiv.org/pdf/2505.00212
  • 代碼地址:https://github.com/mingyin1/Agents_Failure_Attribution

背景挑戰

LLM 驅動的多智能體系統在諸多領域展現出巨大潛力,從自動化助手協同辦公到多 Agent 合作完成 Web 復雜操作等。然而,這些系統脆弱性也逐漸顯現:多個 Agent 之間的誤解、信息傳遞錯誤或決策不當,都可能導致整體任務失敗。



對于開發者來說,一個失敗案例往往意味著必須手動審閱長長的對話日志,試圖找出哪個 Agent 在哪一步出了差錯。這種調試過程既費時費力,也需要調試者對整個任務邏輯非常熟悉。更大的挑戰在于,缺乏系統化的方法來定位失敗原因 —— 傳統評估只關注任務成功與否,但很少深入到「失敗責任」這一層面上。

結果就是,多智能體系統一旦出錯,我們往往只能知道「出了問題」卻無法快速知道「問題出在哪、因何而起」。這種局面嚴重限制了多智能體系統的改進和可信度。如果無法自動歸因失敗,我們就難以針對性地加強某個 Agent 的能力或優化協作策略。換言之,失敗歸因是連接評估與改進的缺失環節

研究內容

針對上述挑戰,這篇 ICML 2025 Spotlight 論文率先提出并 formalize 了LLM 多智能體系統的自動化失敗歸因這一新任務。

研究的核心目標:給定一個多 Agent 協作任務的失敗日志,自動確定導致失敗的罪魁禍首是哪個 Agent(「Who」),以及決定性錯誤發生在交互的哪一步(「When」)

為推動這一方向,作者構建了首個用于失敗歸因研究的基準數據集 ——「Who&When」。該數據集精心收集了127 個多智能體系統的失敗日志,涵蓋了多個公開基準(如 GAIA、AssistantBench 等)中的復雜任務,具有相當的多樣性。更重要的是,作者為每條失敗日志都提供了細粒度的人工標注

  • 標記出導致任務失敗的責任 Agent(即「Who」,哪個智能體犯了錯)
  • 標記出導致失敗的關鍵錯誤步驟(即「When」,在整個對話 / 操作序列中的第幾步出了錯)
  • 以及相應的自然語言解釋(即「Why」,為什么這個錯誤會導致失敗)

基準數據集地址:https://huggingface.co/datasets/Kevin355/Who_and_When

這種標注使得數據集既可用于訓練模型自動定位「誰」和「何時」出錯,也方便人類分析失敗的原因。數據集中「Who」和「When」標注的引入填補了以往多智能體評測中對失敗原因關注的空白。可以說,Who&When 數據集為自動失敗歸因任務提供了首個標準測試床,讓研究者能夠在統一語境下探索讓 AI 自動當「故障偵探」的可能性。

技術細節

有了數據集,接下來作者設計了三種用于自動失敗歸因的初步方法,并對它們進行了系統比較:

  • All-at-Once 方法:將完整的多 Agent 日志一次性交給 LLM,讓其整體判斷 「哪個 Agent 在哪一步出錯」。優點是調用少、成本低,擅長宏觀歸因;缺點是信息量大,易錯過細節。
  • Step-by-Step 方法:模擬人工調試,讓 LLM 逐輪分析每一步交互,逐步定位錯誤。優點是粒度細、定位準;缺點是調用頻繁、成本高,且誤判可能累積。
  • Binary Search 方法:對日志進行二分,逐步縮小范圍,最終鎖定出錯步驟。在調用次數和定位精度之間取得平衡,適合長日志。缺點是需要多輪交互,復雜度居中。值得注意的是,每種方法在準確性、成本和粒度上各有權衡,沒有一種方法能在所有指標上全面勝出。這三種方案共同構成了自動失敗歸因任務的初步解法庫,探索了從「一步到位」到「循序漸進」再到「折中求解」的不同思路。作者在論文中詳細討論了它們各自的優劣。

實驗結果

作者在 Who&When 數據集上對上述方法進行了系統評估,帶來了許多發人深省的發現

  • 整體表現有限:當前方法效果仍較差。最佳模型在識別出錯 Agent 上準確率僅約 53.5%,而準確定位錯誤步驟的準確率更低,僅 14.2%,幾乎接近瞎猜。一些方法甚至表現不如隨機,顯示任務本身極具挑戰性。
  • 各有所長:不同方法擅長不同子任務。All-at-Once 更擅長識別「誰」出錯,Step-by-Step 更適合找出「何時」出錯,而 Binary Search 表現居中,平衡調用成本和定位精度。



  • 混合策略更優但代價高:將多種方法結合(如先用 All-at-Once 找嫌疑 Agent,再用 Step-by-Step 精查)確實提升了準確率,驗證了方法間的互補性。但計算成本顯著增加,需在效果與資源之間權衡。



  • 現有 SOTA 模型乏力:OpenAI o1 或者 DeepSeek R1,表現仍不理想,遠未達到實用水平。可見,失敗歸因任務對 AI 推理與理解能力的要求,遠超當前模型在常規任務中的表現,凸顯了其挑戰性和研究價值。



結論

自動化失敗歸因有望成為多智能體 AI 系統開發中的重要一環,它將幫助我們更深入地理解 AI 代理的失敗模式,將「哪里出錯、誰之過」從令人頭疼的謎題變成可量化分析的問題。因此,我們可以在評估與改進之間架起橋梁,打造更可靠、更智能的多 Agent 協作系統。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
湖南一高校成立燒烤研究院?多方回應

湖南一高校成立燒烤研究院?多方回應

大象新聞
2025-07-20 07:08:15
30個學員無一人道謝!孫繼海問家長:你們教出來的是什么樣的孩子

30個學員無一人道謝!孫繼海問家長:你們教出來的是什么樣的孩子

風過鄉
2025-07-20 11:13:17
后續!暴走團領隊囂張回應,央媒發文嚴厲批評,這下警方尷尬了!

后續!暴走團領隊囂張回應,央媒發文嚴厲批評,這下警方尷尬了!

譚談社會
2025-07-19 16:09:27
印度“學乖了”,雅魯藏布江開工,莫迪一聲不吭,美要失望了

印度“學乖了”,雅魯藏布江開工,莫迪一聲不吭,美要失望了

南宮一二
2025-07-20 09:15:49
給了15塊,就把屎吃了

給了15塊,就把屎吃了

虬髯客好忙
2025-07-19 16:21:03
越南游船傾覆事故官方通報:游船實載49人,確認35人死亡4人失蹤

越南游船傾覆事故官方通報:游船實載49人,確認35人死亡4人失蹤

極目新聞
2025-07-20 13:17:14
宗老葬禮現場畫面被扒:私生子捧骨灰,宗馥莉痛哭,豪門恩怨曝光

宗老葬禮現場畫面被扒:私生子捧骨灰,宗馥莉痛哭,豪門恩怨曝光

青橘罐頭
2025-07-20 09:30:22
103歲奶奶還在世,是第一位繼承人!杜建英魚死網破目的逐漸清晰

103歲奶奶還在世,是第一位繼承人!杜建英魚死網破目的逐漸清晰

大魚簡科
2025-07-19 21:35:08
今日入伏,老人說最怕“入伏一日雨”,入伏天下雨有啥預兆?

今日入伏,老人說最怕“入伏一日雨”,入伏天下雨有啥預兆?

阿傖說事
2025-07-20 08:02:46
沈騰林允緋聞再添新料!兩人前后現身偏僻公園,孩子疑似也去了

沈騰林允緋聞再添新料!兩人前后現身偏僻公園,孩子疑似也去了

古希臘掌管月桂的神
2025-07-20 09:53:27
豬頭肉再次被關注!醫生發現:常食用豬頭肉,可能帶來六大好處

豬頭肉再次被關注!醫生發現:常食用豬頭肉,可能帶來六大好處

華庭講美食
2025-07-19 11:37:37
關于稀土這事,網友們發現了它的另一面內情

關于稀土這事,網友們發現了它的另一面內情

清暉有墨
2025-07-18 10:39:47
貝佐斯花359億買下《Vogue》送老婆?!網友:難怪女魔頭連夜離職

貝佐斯花359億買下《Vogue》送老婆?!網友:難怪女魔頭連夜離職

每日一見
2025-07-17 23:04:40
71歲陳佩斯深夜痛哭!執導電影被聯合絞殺,被迫延期,官媒力挺

71歲陳佩斯深夜痛哭!執導電影被聯合絞殺,被迫延期,官媒力挺

銀河史記
2025-07-18 13:09:30
三峽大壩“賬本”曝光:運行了20余年,2500億投入如今回本了嗎?

三峽大壩“賬本”曝光:運行了20余年,2500億投入如今回本了嗎?

霽寒飄雪
2025-07-20 09:18:01
同樣是“長公主”,43歲宗馥莉對比53歲孟晚舟,面相、衣品大不同

同樣是“長公主”,43歲宗馥莉對比53歲孟晚舟,面相、衣品大不同

鋭娛之樂
2025-07-19 22:50:06
官方通報自來水異味原因 多篇論文顯示藻類確可造成水體嗅味,并出現沼澤或化糞池味

官方通報自來水異味原因 多篇論文顯示藻類確可造成水體嗅味,并出現沼澤或化糞池味

紅星新聞
2025-07-19 17:47:14
球迷侮辱謾罵球員及其家屬,中足聯凌晨聲明:堅決反對,強烈譴責

球迷侮辱謾罵球員及其家屬,中足聯凌晨聲明:堅決反對,強烈譴責

魯中晨報
2025-07-20 09:12:06
杭州34年前命案告破!嫌兇一直隱姓埋名,被捕時他用的還是電話手表

杭州34年前命案告破!嫌兇一直隱姓埋名,被捕時他用的還是電話手表

都市快報橙柿互動
2025-07-20 09:37:00
與美開戰中必敗?中科院士罵主戰派,吸取甲午教訓,小心全軍覆沒

與美開戰中必敗?中科院士罵主戰派,吸取甲午教訓,小心全軍覆沒

丁懰驚悚影視解說
2025-07-20 06:20:33
2025-07-20 16:20:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10898文章數 142385關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

男子殺人后隱姓埋名34年 被捕時用的還是電話手表

頭條要聞

男子殺人后隱姓埋名34年 被捕時用的還是電話手表

體育要聞

女籃無緣亞洲杯決賽 韓旭淚灑發布會

娛樂要聞

宗馥莉被起訴,富二代們坐不住了?

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

手機
健康
旅游
家居
軍事航空

手機要聞

小米相冊編輯煥新版將優化底部 Tab 圖標,默認更新為純文字版本

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

簡構智居 現代功能美學

軍事要聞

美記者:若特朗普決定 澤連斯基或被流放

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 马鞍山市| 大埔县| 黄大仙区| 岳阳县| 玉山县| 隆德县| 克什克腾旗| 博野县| 娄底市| 临沭县| 陵水| 新安县| 中宁县| 新巴尔虎左旗| 赤城县| 温州市| 大化| 芜湖市| 耒阳市| 类乌齐县| 台江县| 西乌| 乡宁县| 苍南县| 巨野县| 漯河市| 镇江市| 龙岩市| 嵊泗县| 阜阳市| 东辽县| 齐齐哈尔市| 大港区| 长阳| 隆回县| 洪泽县| 河津市| 灵寿县| 金阳县| 江永县| 新沂市|