網易首頁 > 網易號 > 正文申請入駐

誰導致了多智能體系統的失敗？首個「自動化失敗歸因」研究出爐

2025-05-30 14:13:44　來源: 機器之心Pro

北京舉報

分享至

想象這樣一個場景：你開發了一個由多個大型語言模型 Agent 組成的智能團隊，它們協作完成復雜任務，比如一個 Agent 負責檢索，一個負責決策。然而任務失敗了，結果不對。

問題來了：到底是哪個 Agent 出了錯？又是在對話流程的哪一環節？調試這樣的多智能體系統如同大海撈針，需要翻閱大量復雜日志，極其耗時。

這并非虛構。在多智能體 LLM 系統中，失敗常見但難以診斷。隨著這類系統愈加普及，我們急需新方法快速定位錯誤。正因如此，ICML 2025 的一篇 Spotlight 論文提出了「自動化失敗歸因（Automated Failure Attribution）」的新研究方向，目標是讓 AI 自動回答：是誰、在哪一步導致了失敗。

該工作由 Penn State、Duke、UW、Goolge DeepMind 等機構的多位研究人員合作完成。

論文標題：Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
arXiv 地址：https://arxiv.org/pdf/2505.00212
代碼地址：https://github.com/mingyin1/Agents_Failure_Attribution

背景挑戰

LLM 驅動的多智能體系統在諸多領域展現出巨大潛力，從自動化助手協同辦公到多 Agent 合作完成 Web 復雜操作等。然而，這些系統脆弱性也逐漸顯現：多個 Agent 之間的誤解、信息傳遞錯誤或決策不當，都可能導致整體任務失敗。

對于開發者來說，一個失敗案例往往意味著必須手動審閱長長的對話日志，試圖找出哪個 Agent 在哪一步出了差錯。這種調試過程既費時費力，也需要調試者對整個任務邏輯非常熟悉。更大的挑戰在于，缺乏系統化的方法來定位失敗原因 —— 傳統評估只關注任務成功與否，但很少深入到「失敗責任」這一層面上。

結果就是，多智能體系統一旦出錯，我們往往只能知道「出了問題」卻無法快速知道「問題出在哪、因何而起」。這種局面嚴重限制了多智能體系統的改進和可信度。如果無法自動歸因失敗，我們就難以針對性地加強某個 Agent 的能力或優化協作策略。換言之，失敗歸因是連接評估與改進的缺失環節

研究內容

針對上述挑戰，這篇 ICML 2025 Spotlight 論文率先提出并 formalize 了LLM 多智能體系統的自動化失敗歸因這一新任務。

研究的核心目標：給定一個多 Agent 協作任務的失敗日志，自動確定導致失敗的罪魁禍首是哪個 Agent（「Who」），以及決定性錯誤發生在交互的哪一步（「When」）

為推動這一方向，作者構建了首個用于失敗歸因研究的基準數據集 ——「Who&When」。該數據集精心收集了127 個多智能體系統的失敗日志，涵蓋了多個公開基準（如 GAIA、AssistantBench 等）中的復雜任務，具有相當的多樣性。更重要的是，作者為每條失敗日志都提供了細粒度的人工標注

標記出導致任務失敗的責任 Agent（即「Who」，哪個智能體犯了錯）
標記出導致失敗的關鍵錯誤步驟（即「When」，在整個對話 / 操作序列中的第幾步出了錯）
以及相應的自然語言解釋（即「Why」，為什么這個錯誤會導致失敗）

基準數據集地址：https://huggingface.co/datasets/Kevin355/Who_and_When

這種標注使得數據集既可用于訓練模型自動定位「誰」和「何時」出錯，也方便人類分析失敗的原因。數據集中「Who」和「When」標注的引入填補了以往多智能體評測中對失敗原因關注的空白。可以說，Who&When 數據集為自動失敗歸因任務提供了首個標準測試床，讓研究者能夠在統一語境下探索讓 AI 自動當「故障偵探」的可能性。

技術細節

有了數據集，接下來作者設計了三種用于自動失敗歸因的初步方法，并對它們進行了系統比較：

All-at-Once 方法：將完整的多 Agent 日志一次性交給 LLM，讓其整體判斷「哪個 Agent 在哪一步出錯」。優點是調用少、成本低，擅長宏觀歸因；缺點是信息量大，易錯過細節。
Step-by-Step 方法：模擬人工調試，讓 LLM 逐輪分析每一步交互，逐步定位錯誤。優點是粒度細、定位準；缺點是調用頻繁、成本高，且誤判可能累積。
Binary Search 方法：對日志進行二分，逐步縮小范圍，最終鎖定出錯步驟。在調用次數和定位精度之間取得平衡，適合長日志。缺點是需要多輪交互，復雜度居中。值得注意的是，每種方法在準確性、成本和粒度上各有權衡，沒有一種方法能在所有指標上全面勝出。這三種方案共同構成了自動失敗歸因任務的初步解法庫，探索了從「一步到位」到「循序漸進」再到「折中求解」的不同思路。作者在論文中詳細討論了它們各自的優劣。

實驗結果

作者在 Who&When 數據集上對上述方法進行了系統評估，帶來了許多發人深省的發現

整體表現有限：當前方法效果仍較差。最佳模型在識別出錯 Agent 上準確率僅約 53.5%，而準確定位錯誤步驟的準確率更低，僅 14.2%，幾乎接近瞎猜。一些方法甚至表現不如隨機，顯示任務本身極具挑戰性。
各有所長：不同方法擅長不同子任務。All-at-Once 更擅長識別「誰」出錯，Step-by-Step 更適合找出「何時」出錯，而 Binary Search 表現居中，平衡調用成本和定位精度。

混合策略更優但代價高：將多種方法結合（如先用 All-at-Once 找嫌疑 Agent，再用 Step-by-Step 精查）確實提升了準確率，驗證了方法間的互補性。但計算成本顯著增加，需在效果與資源之間權衡。

現有 SOTA 模型乏力：OpenAI o1 或者 DeepSeek R1，表現仍不理想，遠未達到實用水平。可見，失敗歸因任務對 AI 推理與理解能力的要求，遠超當前模型在常規任務中的表現，凸顯了其挑戰性和研究價值。

結論

自動化失敗歸因有望成為多智能體 AI 系統開發中的重要一環，它將幫助我們更深入地理解 AI 代理的失敗模式，將「哪里出錯、誰之過」從令人頭疼的謎題變成可量化分析的問題。因此，我們可以在評估與改進之間架起橋梁，打造更可靠、更智能的多 Agent 協作系統。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.