網易首頁 > 網易號 > 正文申請入駐

AI竟會「自己認錯」？破解多智能體協作「羅生門」，斬獲ICML 2025 Spotlight

2025-06-03 10:05:51　來源: 硅星人

北京舉報

分享至

文章轉載于新智元

你打造了一支「超級AI戰隊」——戰隊里每個AI都各司其職：有的收集信息、有的負責判斷，還有的協調執行，一起協作攻克復雜任務。

這個愿望看似天衣無縫，結果卻往往以失敗告終。問題就出在：當「問題」出現的時候，如何知道是哪個AI干的？

就像代碼Debug一樣，從堆積如山的模型對話記錄、調用日志和中間結果找到哪個AI掉鏈子幾乎不可能，而且AI本身還是個「黑箱」。

這就是今天多智能體AI系統面臨的真實困境：不僅頻繁失敗，而且溯源問題困難。

為了解決這個「AI版羅生門」，賓夕法尼亞州立大學與杜克大學聯合Google DeepMind等機構的研究者們首次提出了：自動化失敗歸因（Automated Failure Attribution）——讓AI自己舉手：我錯了！

目前，這篇論文不僅成功斬獲了頂會ICML 2025 Spotlight，而且配套的首個專用基準數據集Who&When和相關代碼也已全部開源。

論文地址：https://arxiv.org/pdf/2505.00212

代碼地址：https://github.com/mingyin1/Agents_Failure_Attribution

都說模型即產品，就像現在的OpenAI o3、Gemini 2.5 Pro還有新發的DeepSeek-R1-0528越來越強大，那為何還需要多智能體的AI系統？

這是因為目前階段依然單個AI能力有限，而LLM驅動的多智能體系統在很多領域展現出巨大潛力。

然而，這些系統也存在著脆弱性：單個Agent的失誤，Agent之間的誤解，以及信息傳遞錯誤，都可能導致整體任務失敗。

目前，一旦多智能體的AI系統「翻車」，開發者往往只能：

手動「考古」：逐條翻閱冗長的交互日志，試圖找出問題所在。
依賴經驗：這種調試過程高度依賴開發者對系統和任務的深入理解。

這種「大海撈針」式的排錯方式，不僅效率低下，更嚴重阻礙了系統的快速迭代和可信賴度的提升。

目前迫切需要一種自動化、系統化的方法來定位失敗原因，將「評估結果」與「系統改進」有效連接起來。

核心貢獻

針對上述挑戰，這篇論文做出了開創性的貢獻：

1. 提出并定義新問題

首次將「自動化失敗歸因」形式化為一個具體的研究任務，明確了要找出導致失敗的責任Agent（failure-responsible agent）和決定性錯誤步驟（decisive error step）。

2. 構建首個數據集——Who&When

該數據集包含了從127個LLMMulti-Agent系統中收集的廣泛失敗日志。這些系統既有算法自動生成的，也有人類專家精心打造的，確保了場景的真實性和多樣性。

每條失敗日志都配有細粒度的人工標注：

「誰」（Who）：哪個Agent是「罪魁禍首」。
「何時」（When）：決定性錯誤發生在交互的哪一步。
「為何」（Why）：對失敗原因的自然語言解釋。

標注關鍵錯誤代理以及確定出錯的具體步驟，對普通人和領域專家來說都是一項挑戰。

注釋者需要解析復雜的日志，理清每個代理的解決問題邏輯，并判斷每個動作是正確的，還是會誤導整個問題解決過程。

例如，如果某個代理使用網頁瀏覽器獲取解決問題所需的重要信息，注釋者就必須檢查瀏覽器歷史記錄，并訪問每一個網站，以判斷失敗是由于網站上本身沒有相關信息，還是代理未能成功獲取。

如上圖（a）所示，三位注釋者分別花費了30.9小時、30.2小時和23.2小時來完成注釋。這表明注釋過程非常耗時，因此開始考慮開展自動化故障歸因的研究。

此外，在很多數據實例中，出錯的并不只是某一個代理，而是多個代理。人們需要識別出這些錯誤，并挑選出其中最嚴重的錯誤，因為這些錯誤會直接導致問題解決失敗。由于錯誤的嚴重程度有時較為細微，甚至帶有一定的主觀性，這一過程就變得更加困難。

如上圖（b）所示，展示了三位注釋者「不確定」標注的比例，范圍從15%到30%不等。

圖（c）則可視化了不同注釋者在互相投票判斷彼此「不確定」數據時的分歧率。

可以看到，即使在投票環節仍存在一定程度的分歧，進一步突顯了注釋工作本身的復雜性與挑戰性。

3. 探索初步的「自動化歸因」方法

基于Who&When數據集，論文設計并評估了三種不同的自動化失敗歸因方法：全局審視法（All-at-Once），逐步偵查法（Step-by-Step），二分定位法（Binary Search）。

實驗結果表明：這三種方法在準確性、成本和分析粒度上各有千秋，沒有一種能在所有指標上完勝。它們共同構成了自動化失敗歸因任務的初步「解法庫」。

· All-at-Once：一次性完成

向LLM提供用戶查詢和完整的故障日志，要求其一次性識別出故障責任Agent以及發生決定性錯誤的具體步驟。

優點：一步到位，成本較低，可能擅長宏觀判斷責任。

缺點：可能面臨「大海撈針」問題，難以從長上下文中精確定位具體錯誤步驟。

· Step-by-Step：逐步

模擬人工調試，讓LLM從頭開始，一步步檢查交互日志，在每個環節判斷當前是否出現錯誤，直到揪出「真兇」。

優點：如同剝洋蔥般細致，在定位具體錯誤環節上更具優勢。

缺點：需要多次詢問模型，調用成本較高，且局部判斷的累積誤差可能導致「誤判」。

· Binary Search：二分查找

這是一種折中策略，總成本和效果介于前兩者之間。

方法是將日志對半切分，利用LLM判斷錯誤發生在前半段還是后半段，然后不斷在確定的半段中遞歸「二分」，最終鎖定問題步驟和相關Agent。

實驗結果與主要發現

實驗在兩種設定下進行：LLM知道Multi-Agent系統需要解決的問題的真實答案（WithGround Truth）和不知道真實答案（Without Ground Truth）。

主要使用GPT-4o，但也測試了其他模型（如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1）

通過在Who&When數據集上對上述方法進行了系統評估，得到了許多重要的發現：

· 任重道遠，表現堪憂

目前的方法離完美還差得很遠。即便是表現最好的單一方法，在識別「背鍋Agent」上的準確率也僅有約53.5%，而在準確定位「錯誤步驟」上，準確率更是低至14.2%！

這意味著，最牛的策略也只能勉強過半猜對誰是「內鬼」，至于錯在哪一步，基本靠「蒙」。

有些方法的表現甚至不如隨機猜測，足見任務之艱巨。

· 各有所長，難有「全能冠軍」

不同方法在不同子任務上表現各異，沒有萬能冠軍。

例如，All-at-Once方法對「Who」的判斷相對最好，能夠更準確地找出哪個Agent應該負責；而Step-by-Step方法在鎖定具體錯誤步驟（「When」）上效果更勝一籌，細粒度檢查帶來了優勢；Binary Search方法則各方面居中，表現中規中矩。

由此體現出每種方案的權衡取舍：要么整體掃描擅長找「人」，要么逐步追查利于找「步驟」。

· 「組合拳」效果更優，但代價高昂

研究者嘗試了組合不同方法的策略（例如，先使用「全局法」初步判斷責任Agent，再運用「逐步法」精確定位錯誤步驟）。

結果表明，這種混合方法確實能夠提升整體的歸因性能，但同時也帶來了顯著的計算成本增加。

· 現有SOTA模型集體「啞火」

最令人驚訝的是，即便是當前最先進的推理模型（如OpenAI o1和DeepSeek R1），在處理這一任務時也顯得力不從心。

這進一步凸顯了「自動化失敗歸因」任務本身的固有難度，其對AI推理能力的要求超越了當前SOTA模型在常規任務上的表現。

明確的推理提示至關重要：在All-at-Once和Step-by-Step的提示中明確要求LLM給出歸因的理由，能起到提升性能的作用。

上下文長度對性能構成制約：實驗還發現，隨著失敗日志上下文長度的增加，所有歸因方法的性能均呈現下降趨勢，尤其是在錯誤步驟定位的準確性方面更為敏感。

邁向更智能、更可靠的Multi-Agent系統

「自動化失敗歸因」是Multi-Agent系統開發流程中不可或缺的一環。

它將幫助我們更深入地洞察Multi-Agent的失敗模式，將「哪里出錯、誰之過」從令人頭疼的謎題，轉變為可量化分析的問題。

通過架起「評估」與「改進」之間的橋梁，未來終將能夠打造出更可靠、更智能、更值得信賴的Multi-Agent協作系統。

作者介紹

Shaokun Zhang

賓夕法尼亞州立大學的三年級博士生，導師為Qingyun Wu教授。

近期的研究興趣集中在Agentic AI與強化學習的交叉領域。

目前，在NVIDIA實習，專注于LLM智能體的研究。在此之前，于西安電子科技大學獲得計算機科學學士學位。

Ming Yin

杜克大學的一年級博士生，導師是陳怡然教授。

于2024年20歲時在中國科學技術大學少年班學院獲得了學士學位。

目前對LLM智能體、LLM推理和可信人工智能感興趣。

從2025年5月到8月在位于西雅圖的Zoom擔任生成式人工智能研究實習生。

參考資料：

https://arxiv.org/pdf/2505.00212

https://skzhang1.github.io/

https://mingyin1.github.io/

點個愛心，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型智能體如何突破規模化應用瓶頸，核心在于Agentic ROI

機器之心Pro 2025-05-30 19:30:03
1 跟貼 1
誰導致了多智能體系統的失敗？首個「自動化失敗歸因」研究出爐

機器之心Pro 2025-05-30 14:13:44
0 跟貼 0

谷歌Transformer過時了？清華姚班校友等三連擊，爆改注意力！

新智元 2025-06-07 13:21:22
1 跟貼 1

你永遠叫不醒裝睡的大模型！多輪對話全軍覆沒，性能暴跌39%

新智元 2025-06-07 13:23:14
42 跟貼 42
RLHF已死，RLVR引爆AGI革命！Claude 4核心成員萬字對談

新智元 2025-06-07 09:04:24
26 跟貼 26

蘋果拆解AI大腦，推理模型全是「裝」的？Bengio兄弟合著

新智元 2025-06-06 13:16:46
3 跟貼 3

算力終結者來了！華人天團「降維打擊」注意力瓶頸，AI狂飆進對數時代

新智元 2025-06-08 12:51:58
0 跟貼 0
創辦三年估值近百億美元，AI編程工具Cursor再獲9億美元融資

DeepTech深科技 2025-06-06 22:52:34
4 跟貼 4

比你還像你的AI，來了！

華商韜略 2025-04-29 10:31:57
0 跟貼 0
所有AI工具共享記憶！MCP協議無需云端，Cursor、Claude都能用

量子位 2025-05-14 14:00:47
46 跟貼 46
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
o3不聽指令拒絕關機，7次破壞關機腳本！AI正在學會「自我保護」

量子位 2025-05-27 15:11:47
1294 跟貼 1294
又一開源AI神器！將機器學習論文自動轉為可運行代碼庫

量子位 2025-05-01 11:42:03
31 跟貼 31
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
阿爾法“狩獵者”朱劍濤：用機器學習模型捕獲量化投資的市場紅利

華爾街見聞官方 2025-04-29 11:36:23
1 跟貼 1
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1
準備干掉360整個市場部？周鴻祎：將挑戰一個人完成一場完整的新品發布會

每日經濟新聞 2025-06-07 16:50:24
37 跟貼 37
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
0 跟貼 0
大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
AI的母語是什么？人類進化花了200萬年，AI只需一個晚上

量子位 2025-05-23 19:24:56
0 跟貼 0
AI的母語是什么？不是英語，不是漢語

量子位 2025-05-23 17:58:54
0 跟貼 0
網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
全球圈粉6000萬，被國內粉絲催著上線，PixVerse國內版一手實測

機器之心Pro 2025-06-08 11:21:55
0 跟貼 0
生數科技CEO駱怡航：從模型到生產，多模態AI如何推動視頻創作更高效

華爾街見聞官方 2025-06-08 12:51:16
0 跟貼 0
AI轉型的認知躍遷

經濟觀察報 2025-06-08 11:39:12
0 跟貼 0
河南周口，農機夫婦夜間偶遇8旬獨居老人，幫其收割麥子！

大象新聞 2025-06-08 12:21:07
51 跟貼 51
公開即威懾！東方哲學的止戈智慧，苑舉正：東風-5亮劍背后的邏輯

華山論舌 2025-06-07 08:32:58
0 跟貼 0
紐約挖烏杜卡啥邏輯？尼克斯能否把他換來？

籃視角 2025-06-06 23:41:26
9 跟貼 9
差分注意力機制引領變革，DIFF Transformer攻克長序列建模難題

機器之心Pro 2025-04-29 11:03:19
25 跟貼 25
DNA羅生門：錯換人生28年，鑒定疑云還是炒作鬧劇？

A娛樂小王子 2025-06-08 07:06:53
0 跟貼 0
這活干完，腿都軟了！您若喜歡這種維修實例，請給點個關住唄！

城陽電工電路 2025-06-05 14:15:24
12 跟貼 12
烏克蘭稱擊落俄羅斯蘇-35戰斗機

北京日報客戶端 2025-06-07 17:17:15
53053 跟貼 53053
百度升級高考服務，接入多款大模型支持方案對比

經濟觀察報 2025-06-07 10:54:06
0 跟貼 0
6大模型決戰高考數學新一卷:豆包、元寶并列第一,OpenAI o3竟墊底

機器之心Pro 2025-06-08 11:17:11
3 跟貼 3

硅星人

硅（Si）是創造未來的基礎，歡迎來到這個星球。

2242文章數 10341關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

旅游

家居

房產

健康

手機 / 數碼

房產 / 家居

AI竟會「自己認錯」？破解多智能體協作「羅生門」，斬獲ICML 2025 Spotlight

馬斯克"越紅線"，美政府急尋SpaceX替代品

24歲頻繁改名小伙參加高考 稱猜對作文題預估可得40分

24歲頻繁改名小伙參加高考 稱猜對作文題預估可得40分

冠軍高芙：只要專注自己 太陽就會照常升起

結婚15年紀念！孫儷發長文談夫妻感情

暴漲超9%！白銀狂飆，“搶奪”黃金光環！

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

“無痛”分娩會影響寶寶智力嗎？

熱聞|清明假期將至，熱門目的地有哪些?

現代風格 意式奢華空間

與亞沙共鑒，新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發

減重專家破解減肥九大謠言！

24歲頻繁改名小伙參加高考稱猜對作文題預估可得40分

24歲頻繁改名小伙參加高考稱猜對作文題預估可得40分

冠軍高芙：只要專注自己太陽就會照常升起

復古造型樂趣依舊寶馬R12 nineT又帥又好騎

現代風格意式奢華空間