99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AgentAuditor: 讓智能體安全評估器的精確度達到人類水平

0
分享至



LLM 智能體(LLM Agent)正從 “紙上談兵” 的文本生成器,進化為能自主決策、執行復雜任務的 “行動派”。它們可以使用工具、實時與環境互動,向著通用人工智能(AGI)大步邁進。然而,這份 “自主權” 也帶來了新的問題:智能體在自主交互中,是否安全?

研究者們為這一問題提出了許多基準(benchmark),嘗試評估現有智能體的安全性。然而,這些基準卻面臨著一個共同的問題:沒有足夠有效、精準的評估器(evaluator)。傳統的 LLM 安全評估在單純的評估生成內容上表現優異,但對智能體的復雜的環境交互和決策過程卻 “鞭長莫及”。現有的智能體評估方法,無論是基于規則還是依賴大模型,都面臨著 “看不懂”、“看不全”、“看不準” 的困境:難以捕捉微妙風險、忽略小問題累積、對模糊規則感到困惑。基于規則的評估方法往往僅依靠環境中某個變量的變化來判斷是否安全,難以正確識別智能體在交互過程中引入的微妙風險;而基于大模型的評估方法,無論使用最為強大的通用大模型還是專門為安全判斷任務微調的專用模型,在精確度上均不如人意。

為了解決這一難題,來自紐約大學、南洋理工大學、伊利諾伊大學香檳分校、KTH 皇家理工學院、悉尼大學、新加坡國立大學的研究者們,推出AgentAuditor—— 一個通用、免訓練、具備記憶增強推理能力的框架,讓 LLM 評估器達到了人類專家的評估水平,精準識別智能體的安全風險。



  • 論文題目:
  • AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
  • 論文鏈接:
  • https://arxiv.org/abs/2506.00641
  • 代碼 / 項目主頁:
  • https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概覽:AgentAuditor 如何解決精確度難題

AgentAuditor 將結構化記憶和RAG(檢索強化推理)結合在一起,賦予了 LLM 評估器類似人類的學習和理解復雜的交互記錄的能力,最終極大地增強了 LLM 評估器的性能。它通過三個關鍵階段實現:

1. 特征記憶構建 (Feature Memory Construction): 將原始、雜亂的智能體交互記錄,轉化為結構化、向量化的 “經驗數據庫”。這里不僅有交互內容,更有場景、風險類型、智能體行為模式等深度語義信息。

2. 推理記憶構建 (Reasoning Memory Construction): 從特征記憶中篩選出最具代表性的 “案例”,并由 LLM(AgentAuditor 內部使用的同一個 LLM,確保自洽性)生成高質量的思維鏈(CoT)推理過程。這些 CoT 就像人類專家的 “判案經驗”,為后續評估提供指導。

3. 記憶增強推理 (Memory-Augmented Reasoning): 面對新的智能體交互案例,AgentAuditor 通過多階段、上下文感知的檢索機制,從推理記憶中動態調取最相關的 “判案經驗”(CoT),輔助 LLM 評估器做出更精準、更魯棒的判斷。



數據集:ASSEBench 的構建

為了全面驗證 AgentAuditor 的實力,并填補智能體安全(Safety)與安全(Security)評估基準的空白,研究團隊還精心打造了ASSEBench (Agent Safety & Security Evaluator Benchmark)。這一基準:

  • 規模宏大: 包含 4 個子集,共 2293 條精心標注的真實智能體交互記錄。
  • 覆蓋廣泛: 涵蓋 15 種風險類型、528 個交互環境、橫跨 29 個應用場景以及 26 種智能體行為模式。
  • 標注精細: 采用創新的人機協同標注流程,并對模糊風險情況引入 “嚴格” 和 “寬松” 兩種判斷標準,評估更細致。
  • 雙管齊下: 同時關注智能體的 “Safety”(避免無意犯錯)和 “Security”(抵御惡意攻擊)兩大方面。



實驗效果:AgentAuditor 讓 LLM 評估器的精確度達到人類水平

在 ASSEBench 及 R-Judge 等多個基準上的廣泛實驗表明:

  • 普遍提升顯著: AgentAuditor 能顯著提升各種 LLM 評估器在所有數據集上的表現。例如,Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分數提升了高達 48.2%!
  • 直逼人類水平: 搭載 AgentAuditor 的 Gemini-2-Flash-Thinking 在多個數據集上取得了SOTA成績,其評估準確率(如在 R-Judge 上達到 96.1% Acc)已接近甚至超越單個人類標注員的平均水平。
  • 強大的自適應能力: 面對 ASSEBench-Strict 和 ASSEBench-Lenient 這兩個針對模糊場景設計的不同標準子集,AgentAuditor 能自適應調整其推理策略,顯著縮小不同模型在不同標準下的性能差距。







上圖分別展示了 AgentAuditor 與現有方法及人類評估水平的對比。左圖比較了 AgentAuditor 與直接使用 LLM 的評估方法在 R-Judge 基準上的準確率(Acc)和 F1 分數;右圖則比較了 AgentAuditor 的準確率與在無討論情況下單個人類評估者在多個benchmark中的的平均準確率。

AgentAuditor 的核心貢獻

  • 系統性分析挑戰: 深入剖析了當前自動化評估 Agent 安全面臨的核心難題。
  • 創新框架: 通過自適應代表性樣本選擇、結構化記憶、RAG 和自動生成 CoT,顯著增強 LLM 評估能力。
  • 首個專用基準: ASSEBench 填補了領域空白,為人機協同標注提供了新范式。
  • 人類級表現: 實驗證明其評估準確性和可靠性已達到專業人類水準。

結語

AgentAuditor 和 ASSEBench 的提出,為構建更值得信賴的 LLM 智能體提供了強有力的評估工具和研究基礎。這項工作不僅推動了 LLM 評估器的發展,也為未來構建更安全、更可靠的智能體防御系統指明了方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一汽豐田補償N+7,但還有人不愿意,這是為啥?

一汽豐田補償N+7,但還有人不愿意,這是為啥?

小人物看盡人間百態
2025-06-27 05:40:05
“升糖大戶”被揪出,提醒:想要血糖正常,盡量少吃這3種食物

“升糖大戶”被揪出,提醒:想要血糖正常,盡量少吃這3種食物

39健康網
2025-06-26 20:51:09
小到中雨,大雨,局地暴雨!陜西發布最新預報,新一輪降水已在路上→

小到中雨,大雨,局地暴雨!陜西發布最新預報,新一輪降水已在路上→

魯中晨報
2025-06-27 15:12:07
原來一天發射100架,現在一個月才兩三百架:烏軍無人機嚴重不足

原來一天發射100架,現在一個月才兩三百架:烏軍無人機嚴重不足

鷹眼Defence
2025-06-27 17:03:33
世俱杯1/8決賽完整對陣:皇馬vs尤文,巴黎vs邁阿密國際

世俱杯1/8決賽完整對陣:皇馬vs尤文,巴黎vs邁阿密國際

懂球帝
2025-06-27 10:59:39
收評:今天A股收在3424,做好準備了,不出所料,下周可能這樣走

收評:今天A股收在3424,做好準備了,不出所料,下周可能這樣走

小嵩
2025-06-27 17:24:30
1小時大定突破28.9萬輛!雷軍:拿到這么多訂單挺激動 小米不是靠營銷贏

1小時大定突破28.9萬輛!雷軍:拿到這么多訂單挺激動 小米不是靠營銷贏

每日經濟新聞
2025-06-27 02:53:08
大瓜!成都女網紅長期以“精英律師”活躍社交平臺,結果是假律師

大瓜!成都女網紅長期以“精英律師”活躍社交平臺,結果是假律師

火山詩話
2025-06-26 14:34:01
二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

牛斯克
2025-06-27 09:31:18
李月汝首發狂砍15+10,主帥稱贊表現出色

李月汝首發狂砍15+10,主帥稱贊表現出色

發財西瓜
2025-06-27 12:25:38
烏軍在赫爾松擊沉黑海艦隊軍艦!空襲俄軍指揮部

烏軍在赫爾松擊沉黑海艦隊軍艦!空襲俄軍指揮部

項鵬飛
2025-06-26 20:36:32
離譜!北京男子自曝500萬娶坐臺小姐被綠,膚白貌美婚后死性不改

離譜!北京男子自曝500萬娶坐臺小姐被綠,膚白貌美婚后死性不改

壹月情感
2025-06-25 23:23:29
恭喜,伊萬重返亞洲勁旅,帶隊征戰世界杯附加賽,或反戈國足

恭喜,伊萬重返亞洲勁旅,帶隊征戰世界杯附加賽,或反戈國足

去山野間追風
2025-06-27 12:20:26
2025年養老金調整即將倒計時,工齡30年的,調整后能漲100元嗎?

2025年養老金調整即將倒計時,工齡30年的,調整后能漲100元嗎?

興史興談
2025-06-26 18:00:36
中產被山姆背刺了一刀,山姆這波翻車,戳痛了多少人的信任

中產被山姆背刺了一刀,山姆這波翻車,戳痛了多少人的信任

億通電子游戲
2025-06-24 03:52:31
600415,“大牛股”盤中跌停!發生了什么

600415,“大牛股”盤中跌停!發生了什么

新浪財經
2025-06-27 16:49:07
工人徒手掰斷鋼筋?河北霸州:情況不屬實

工人徒手掰斷鋼筋?河北霸州:情況不屬實

界面新聞
2025-06-26 21:02:47
根本不是跳選,媒體爆楊瀚森選秀內幕,聯盟多支球隊暗中激烈競爭

根本不是跳選,媒體爆楊瀚森選秀內幕,聯盟多支球隊暗中激烈競爭

拾叁懂球
2025-06-27 16:34:12
蔣凡,離阿里“核心”只差一步

蔣凡,離阿里“核心”只差一步

新浪財經
2025-06-27 17:27:17
佛山知名企業董事長卸任,其女接棒

佛山知名企業董事長卸任,其女接棒

南方都市報
2025-06-27 10:44:12
2025-06-27 19:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10735文章數 142349關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

上合成員國防長會議未就聯合聲明達成一致 外交部回應

頭條要聞

上合成員國防長會議未就聯合聲明達成一致 外交部回應

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

旅游
本地
時尚
數碼
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

到了夏天,中年女人穿過膝裙不配運動鞋,才能美得優雅又得體

數碼要聞

榮耀MagicBook Art 14 2025智控突破:YOYO助理開啟PC“自動駕駛”時代

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 三穗县| 阳曲县| 遵义市| 拉萨市| 紫云| 阿鲁科尔沁旗| 湘西| 穆棱市| 榆树市| 南丹县| 合肥市| 广灵县| 兴化市| 雷州市| 定西市| 北辰区| 海兴县| 拜城县| 金秀| 吐鲁番市| 锡林郭勒盟| 根河市| 灵璧县| 海伦市| 土默特左旗| 永安市| 开化县| 阿克| 隆昌县| 肇庆市| 漳浦县| 大足县| 胶州市| 成安县| 西平县| 隆尧县| 随州市| 辽宁省| 信宜市| 勐海县| 林西县|