99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI竟會「自己認錯」?破解多智能體協作「羅生門」,斬獲ICML 2025 Spotlight

0
分享至


文章轉載于新智元

你打造了一支「超級AI戰隊」——戰隊里每個AI都各司其職:有的收集信息、有的負責判斷,還有的協調執行,一起協作攻克復雜任務。

這個愿望看似天衣無縫,結果卻往往以失敗告終。問題就出在:當「問題」出現的時候,如何知道是哪個AI干的

就像代碼Debug一樣,從堆積如山的模型對話記錄、調用日志和中間結果找到哪個AI掉鏈子幾乎不可能,而且AI本身還是個「黑箱」。

這就是今天多智能體AI系統面臨的真實困境:不僅頻繁失敗,而且溯源問題困難。

為了解決這個「AI版羅生門」,賓夕法尼亞州立大學杜克大學聯合Google DeepMind等機構的研究者們首次提出了自動化失敗歸因(Automated Failure Attribution)——讓AI自己舉手:我錯了!

目前,這篇論文不僅成功斬獲了頂會ICML 2025 Spotlight,而且配套的首個專用基準數據集Who&When和相關代碼也已全部開源。


論文地址:https://arxiv.org/pdf/2505.00212

代碼地址:https://github.com/mingyin1/Agents_Failure_Attribution

都說模型即產品,就像現在的OpenAI o3、Gemini 2.5 Pro還有新發的DeepSeek-R1-0528越來越強大,那為何還需要多智能體的AI系統?

這是因為目前階段依然單個AI能力有限,而LLM驅動的多智能體系統在很多領域展現出巨大潛力。

然而,這些系統也存在著脆弱性:單個Agent的失誤,Agent之間的誤解,以及信息傳遞錯誤,都可能導致整體任務失敗。


目前,一旦多智能體的AI系統「翻車」,開發者往往只能:

  • 手動考古:逐條翻閱冗長的交互日志,試圖找出問題所在。

  • 依賴經驗:這種調試過程高度依賴開發者對系統和任務的深入理解。

這種「大海撈針」式的排錯方式,不僅效率低下,更嚴重阻礙了系統的快速迭代和可信賴度的提升。

目前迫切需要一種自動化、系統化的方法來定位失敗原因,將「評估結果」與「系統改進」有效連接起來。


1

核心貢獻

針對上述挑戰,這篇論文做出了開創性的貢獻:

1. 提出并定義新問題

首次將「自動化失敗歸因」形式化為一個具體的研究任務,明確了要找出導致失敗的責任Agent(failure-responsible agent)決定性錯誤步驟(decisive error step)

2. 構建首個數據集——Who&When

該數據集包含了從127個LLMMulti-Agent系統中收集的廣泛失敗日志。這些系統既有算法自動生成的,也有人類專家精心打造的,確保了場景的真實性和多樣性。

每條失敗日志都配有細粒度的人工標注

  • (Who)哪個Agent是「罪魁禍首」。

  • 何時(When)決定性錯誤發生在交互的哪一步。

  • 為何(Why)對失敗原因的自然語言解釋。


標注關鍵錯誤代理以及確定出錯的具體步驟,對普通人和領域專家來說都是一項挑戰。

注釋者需要解析復雜的日志,理清每個代理的解決問題邏輯,并判斷每個動作是正確的,還是會誤導整個問題解決過程。

例如,如果某個代理使用網頁瀏覽器獲取解決問題所需的重要信息,注釋者就必須檢查瀏覽器歷史記錄,并訪問每一個網站,以判斷失敗是由于網站上本身沒有相關信息,還是代理未能成功獲取。

如上圖(a)所示,三位注釋者分別花費了30.9小時、30.2小時和23.2小時來完成注釋。這表明注釋過程非常耗時,因此開始考慮開展自動化故障歸因的研究。

此外,在很多數據實例中,出錯的并不只是某一個代理,而是多個代理。人們需要識別出這些錯誤,并挑選出其中最嚴重的錯誤,因為這些錯誤會直接導致問題解決失敗。由于錯誤的嚴重程度有時較為細微,甚至帶有一定的主觀性,這一過程就變得更加困難。

如上圖(b)所示,展示了三位注釋者「不確定」標注的比例,范圍從15%到30%不等。

圖(c)則可視化了不同注釋者在互相投票判斷彼此「不確定」數據時的分歧率。

可以看到,即使在投票環節仍存在一定程度的分歧,進一步突顯了注釋工作本身的復雜性與挑戰性。

3. 探索初步的自動化歸因方法

基于Who&When數據集,論文設計并評估了三種不同的自動化失敗歸因方法:全局審視法(All-at-Once)逐步偵查法(Step-by-Step)二分定位法(Binary Search)

實驗結果表明:這三種方法在準確性、成本和分析粒度上各有千秋,沒有一種能在所有指標上完勝。它們共同構成了自動化失敗歸因任務的初步「解法庫」。

· All-at-Once:一次性完成

向LLM提供用戶查詢和完整的故障日志,要求其一次性識別出故障責任Agent以及發生決定性錯誤的具體步驟。

優點:一步到位,成本較低,可能擅長宏觀判斷責任。

缺點:可能面臨「大海撈針」問題,難以從長上下文中精確定位具體錯誤步驟。

· Step-by-Step:逐步

模擬人工調試,讓LLM從頭開始,一步步檢查交互日志,在每個環節判斷當前是否出現錯誤,直到揪出「真兇」。

優點:如同剝洋蔥般細致,在定位具體錯誤環節上更具優勢。

缺點:需要多次詢問模型,調用成本較高,且局部判斷的累積誤差可能導致「誤判」。

· Binary Search:二分查找

這是一種折中策略,總成本和效果介于前兩者之間。

方法是將日志對半切分,利用LLM判斷錯誤發生在前半段還是后半段,然后不斷在確定的半段中遞歸「二分」,最終鎖定問題步驟和相關Agent。

1

實驗結果與主要發現

實驗在兩種設定下進行:LLM知道Multi-Agent系統需要解決的問題的真實答案(WithGround Truth不知道真實答案(Without Ground Truth)

主要使用GPT-4o,但也測試了其他模型(如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1)

通過在Who&When數據集上對上述方法進行了系統評估,得到了許多重要的發現

· 任重道遠,表現堪憂

目前的方法離完美還差得很遠。即便是表現最好的單一方法,在識別「背鍋Agent」上的準確率也僅有約53.5%,而在準確定位「錯誤步驟」上,準確率更是低至14.2%!

這意味著,最牛的策略也只能勉強過半猜對誰是「內鬼」,至于錯在哪一步,基本靠「蒙」。

有些方法的表現甚至不如隨機猜測,足見任務之艱巨。

· 各有所長,難有全能冠軍

不同方法在不同子任務上表現各異,沒有萬能冠軍。

例如,All-at-Once方法對「Who」的判斷相對最好,能夠更準確地找出哪個Agent應該負責;而Step-by-Step方法在鎖定具體錯誤步驟(「When」)上效果更勝一籌,細粒度檢查帶來了優勢;Binary Search方法則各方面居中,表現中規中矩。

由此體現出每種方案的權衡取舍:要么整體掃描擅長找「人」,要么逐步追查利于找「步驟」。


· 「組合拳效果更優,但代價高昂

研究者嘗試了組合不同方法的策略(例如,先使用「全局法」初步判斷責任Agent,再運用「逐步法」精確定位錯誤步驟)。

結果表明,這種混合方法確實能夠提升整體的歸因性能,但同時也帶來了顯著的計算成本增加。



· 現有SOTA模型集體啞火

最令人驚訝的是,即便是當前最先進的推理模型(如OpenAI o1和DeepSeek R1),在處理這一任務時也顯得力不從心。

這進一步凸顯了「自動化失敗歸因」任務本身的固有難度,其對AI推理能力的要求超越了當前SOTA模型在常規任務上的表現。


明確的推理提示至關重要:在All-at-Once和Step-by-Step的提示中明確要求LLM給出歸因的理由,能起到提升性能的作用。


上下文長度對性能構成制約:實驗還發現,隨著失敗日志上下文長度的增加,所有歸因方法的性能均呈現下降趨勢,尤其是在錯誤步驟定位的準確性方面更為敏感。


1

邁向更智能、更可靠的Multi-Agent系統

「自動化失敗歸因」是Multi-Agent系統開發流程中不可或缺的一環。

它將幫助我們更深入地洞察Multi-Agent的失敗模式,將「哪里出錯、誰之過」從令人頭疼的謎題,轉變為可量化分析的問題。

通過架起「評估」與「改進」之間的橋梁,未來終將能夠打造出更可靠、更智能、更值得信賴的Multi-Agent協作系統。

1

作者介紹

Shaokun Zhang


賓夕法尼亞州立大學的三年級博士生,導師為Qingyun Wu教授。

近期的研究興趣集中在Agentic AI與強化學習的交叉領域。

目前,在NVIDIA實習,專注于LLM智能體的研究。在此之前,于西安電子科技大學獲得計算機科學學士學位。

Ming Yin


杜克大學的一年級博士生,導師是陳怡然教授。

于2024年20歲時在中國科學技術大學少年班學院獲得了學士學位。

目前對LLM智能體、LLM推理和可信人工智能感興趣。

從2025年5月到8月在位于西雅圖的Zoom擔任生成式人工智能研究實習生。

參考資料:

https://arxiv.org/pdf/2505.00212

https://skzhang1.github.io/

https://mingyin1.github.io/

點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
從小被允許吃冷飲和不允許吃的孩子,長大后真的不一樣,要注意!

從小被允許吃冷飲和不允許吃的孩子,長大后真的不一樣,要注意!

特約前排觀眾
2025-06-02 00:10:05
中國最毒的5種毒蛇,每一種都可能全村吃席,五步蛇也只能排第3

中國最毒的5種毒蛇,每一種都可能全村吃席,五步蛇也只能排第3

農夫也瘋狂
2025-06-07 16:23:08
網友:重醫附二院薪水腰斬,績效都是科室承擔,以后還會降低

網友:重醫附二院薪水腰斬,績效都是科室承擔,以后還會降低

小人物看盡人間百態
2025-06-07 15:51:02
我國的高考試卷,為何要選在監獄中,由犯人印刷?國家用心良苦

我國的高考試卷,為何要選在監獄中,由犯人印刷?國家用心良苦

阿纂看事
2025-06-06 15:07:26
3 生肖女惹不起,生來好命,貴人扶助,生活越來越幸福

3 生肖女惹不起,生來好命,貴人扶助,生活越來越幸福

人閒情事
2025-06-08 12:50:23
俄羅斯專家:“只有柬埔寨知道,中國早就是最強大超級大國了”

俄羅斯專家:“只有柬埔寨知道,中國早就是最強大超級大國了”

農夫史記
2025-06-06 21:31:01
世體:巴薩簽下加西亞出于多重考慮,弗里克需向特獅解釋背后原因

世體:巴薩簽下加西亞出于多重考慮,弗里克需向特獅解釋背后原因

雷速體育
2025-06-08 13:45:13
善惡終有報,惡人自有惡人磨,馬筱梅終于演不下去了賬號關閉評論

善惡終有報,惡人自有惡人磨,馬筱梅終于演不下去了賬號關閉評論

尋墨閣
2025-05-05 16:43:34
尼克斯選帥連遭打擊!火箭獨行俠將拒絕挖角 布倫森恩師無意復出

尼克斯選帥連遭打擊!火箭獨行俠將拒絕挖角 布倫森恩師無意復出

羅說NBA
2025-06-08 05:50:01
一個中國人在中印邊境大手一揮,從此高志凱線替代麥克馬洪線!

一個中國人在中印邊境大手一揮,從此高志凱線替代麥克馬洪線!

談芯說科技
2025-06-07 03:50:22
2025年法網男單決賽:天選之子,巔峰決戰!

2025年法網男單決賽:天選之子,巔峰決戰!

網球之家
2025-06-08 10:55:53
釣魚臺國賓館的17棟別墅樓:為何沒有1號樓?編號有什么講究

釣魚臺國賓館的17棟別墅樓:為何沒有1號樓?編號有什么講究

賤議你讀史
2025-06-07 15:34:07
緋聞風波后,王楚欽首談論孫穎莎:我發揮一般,都是她帶著我打!莎莎有她成功的道理!

緋聞風波后,王楚欽首談論孫穎莎:我發揮一般,都是她帶著我打!莎莎有她成功的道理!

最愛乒乓球
2025-06-08 14:28:09
出題人看不起誰呢?全國二卷數學第一題,網友們想到了故人葛軍!

出題人看不起誰呢?全國二卷數學第一題,網友們想到了故人葛軍!

趣筆談
2025-06-08 09:38:39
袁隆平孫女上幼兒園,老師問:爺爺是干什么的?孫女的回答笑翻了

袁隆平孫女上幼兒園,老師問:爺爺是干什么的?孫女的回答笑翻了

財經三分鐘pro
2024-12-15 21:13:42
不猜了!A股市場發酵了3個消息!下周,大盤走勢分析

不猜了!A股市場發酵了3個消息!下周,大盤走勢分析

郭小凡財經
2025-06-08 12:12:49
今年高考作文背后:老舍艾青穆旦有什么共同點?

今年高考作文背后:老舍艾青穆旦有什么共同點?

濤哥侃文史
2025-06-07 19:27:21
紀實:印度16歲女孩被鄰居注射春藥強奸8年,求助堂哥又遭性侵

紀實:印度16歲女孩被鄰居注射春藥強奸8年,求助堂哥又遭性侵

談史論天地
2025-06-08 10:50:05
戰損情況出爐!合成孔徑雷達確定殘骸數量,相當于宣告打全面戰爭

戰損情況出爐!合成孔徑雷達確定殘骸數量,相當于宣告打全面戰爭

林子說事
2025-06-05 15:16:37
每個月要交公糧28次,丈夫受不了,妻子卻說:每月2次都無法滿足

每個月要交公糧28次,丈夫受不了,妻子卻說:每月2次都無法滿足

胖胖侃咖
2025-04-03 08:00:11
2025-06-08 15:07:00
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
2242文章數 10341關注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

24歲頻繁改名小伙參加高考 稱猜對作文題預估可得40分

頭條要聞

24歲頻繁改名小伙參加高考 稱猜對作文題預估可得40分

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

結婚15年紀念!孫儷發長文談夫妻感情

財經要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環!

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

親子
旅游
家居
房產
健康

親子要聞

“無痛”分娩會影響寶寶智力嗎?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

現代風格 意式奢華空間

房產要聞

與亞沙共鑒,新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發

減重專家破解減肥九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 什邡市| 屏山县| 盈江县| 沧州市| 和平区| 老河口市| 西和县| 五大连池市| 微山县| 醴陵市| 舟山市| 自贡市| 山西省| 思茅市| 郸城县| 天长市| 贡嘎县| 定州市| 蕉岭县| 原阳县| 连南| 纳雍县| 丰城市| 贡嘎县| 岐山县| 鹰潭市| 南部县| 民乐县| 故城县| 福州市| 措勤县| 鹤岗市| 辽宁省| 钦州市| 名山县| 东兰县| 木兰县| 道孚县| 兴安盟| 来宾市| 乌鲁木齐县|