LLM 智能體(LLM Agent)正從 “紙上談兵” 的文本生成器,進化為能自主決策、執行復雜任務的 “行動派”。它們可以使用工具、實時與環境互動,向著通用人工智能(AGI)大步邁進。然而,這份 “自主權” 也帶來了新的問題:智能體在自主交互中,是否安全?
研究者們為這一問題提出了許多基準(benchmark),嘗試評估現有智能體的安全性。然而,這些基準卻面臨著一個共同的問題:沒有足夠有效、精準的評估器(evaluator)。傳統的 LLM 安全評估在單純的評估生成內容上表現優異,但對智能體的復雜的環境交互和決策過程卻 “鞭長莫及”。現有的智能體評估方法,無論是基于規則還是依賴大模型,都面臨著 “看不懂”、“看不全”、“看不準” 的困境:難以捕捉微妙風險、忽略小問題累積、對模糊規則感到困惑。基于規則的評估方法往往僅依靠環境中某個變量的變化來判斷是否安全,難以正確識別智能體在交互過程中引入的微妙風險;而基于大模型的評估方法,無論使用最為強大的通用大模型還是專門為安全判斷任務微調的專用模型,在精確度上均不如人意。
為了解決這一難題,來自紐約大學、南洋理工大學、伊利諾伊大學香檳分校、KTH 皇家理工學院、悉尼大學、新加坡國立大學的研究者們,推出AgentAuditor—— 一個通用、免訓練、具備記憶增強推理能力的框架,讓 LLM 評估器達到了人類專家的評估水平,精準識別智能體的安全風險。
- 論文題目:
- AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
- 論文鏈接:
- https://arxiv.org/abs/2506.00641
- 代碼 / 項目主頁:
- https://github.com/Astarojth/AgentAuditor-ASSEBench
方法概覽:AgentAuditor 如何解決精確度難題
AgentAuditor 將結構化記憶和RAG(檢索強化推理)結合在一起,賦予了 LLM 評估器類似人類的學習和理解復雜的交互記錄的能力,最終極大地增強了 LLM 評估器的性能。它通過三個關鍵階段實現:
1. 特征記憶構建 (Feature Memory Construction): 將原始、雜亂的智能體交互記錄,轉化為結構化、向量化的 “經驗數據庫”。這里不僅有交互內容,更有場景、風險類型、智能體行為模式等深度語義信息。
2. 推理記憶構建 (Reasoning Memory Construction): 從特征記憶中篩選出最具代表性的 “案例”,并由 LLM(AgentAuditor 內部使用的同一個 LLM,確保自洽性)生成高質量的思維鏈(CoT)推理過程。這些 CoT 就像人類專家的 “判案經驗”,為后續評估提供指導。
3. 記憶增強推理 (Memory-Augmented Reasoning): 面對新的智能體交互案例,AgentAuditor 通過多階段、上下文感知的檢索機制,從推理記憶中動態調取最相關的 “判案經驗”(CoT),輔助 LLM 評估器做出更精準、更魯棒的判斷。
數據集:ASSEBench 的構建
為了全面驗證 AgentAuditor 的實力,并填補智能體安全(Safety)與安全(Security)評估基準的空白,研究團隊還精心打造了ASSEBench (Agent Safety & Security Evaluator Benchmark)。這一基準:
- 規模宏大: 包含 4 個子集,共 2293 條精心標注的真實智能體交互記錄。
- 覆蓋廣泛: 涵蓋 15 種風險類型、528 個交互環境、橫跨 29 個應用場景以及 26 種智能體行為模式。
- 標注精細: 采用創新的人機協同標注流程,并對模糊風險情況引入 “嚴格” 和 “寬松” 兩種判斷標準,評估更細致。
- 雙管齊下: 同時關注智能體的 “Safety”(避免無意犯錯)和 “Security”(抵御惡意攻擊)兩大方面。
實驗效果:AgentAuditor 讓 LLM 評估器的精確度達到人類水平
在 ASSEBench 及 R-Judge 等多個基準上的廣泛實驗表明:
- 普遍提升顯著: AgentAuditor 能顯著提升各種 LLM 評估器在所有數據集上的表現。例如,Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分數提升了高達 48.2%!
- 直逼人類水平: 搭載 AgentAuditor 的 Gemini-2-Flash-Thinking 在多個數據集上取得了SOTA成績,其評估準確率(如在 R-Judge 上達到 96.1% Acc)已接近甚至超越單個人類標注員的平均水平。
- 強大的自適應能力: 面對 ASSEBench-Strict 和 ASSEBench-Lenient 這兩個針對模糊場景設計的不同標準子集,AgentAuditor 能自適應調整其推理策略,顯著縮小不同模型在不同標準下的性能差距。
上圖分別展示了 AgentAuditor 與現有方法及人類評估水平的對比。左圖比較了 AgentAuditor 與直接使用 LLM 的評估方法在 R-Judge 基準上的準確率(Acc)和 F1 分數;右圖則比較了 AgentAuditor 的準確率與在無討論情況下單個人類評估者在多個benchmark中的的平均準確率。
AgentAuditor 的核心貢獻
- 系統性分析挑戰: 深入剖析了當前自動化評估 Agent 安全面臨的核心難題。
- 創新框架: 通過自適應代表性樣本選擇、結構化記憶、RAG 和自動生成 CoT,顯著增強 LLM 評估能力。
- 首個專用基準: ASSEBench 填補了領域空白,為人機協同標注提供了新范式。
- 人類級表現: 實驗證明其評估準確性和可靠性已達到專業人類水準。
結語
AgentAuditor 和 ASSEBench 的提出,為構建更值得信賴的 LLM 智能體提供了強有力的評估工具和研究基礎。這項工作不僅推動了 LLM 評估器的發展,也為未來構建更安全、更可靠的智能體防御系統指明了方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.