基于大模型的智能體中由自主性引發(fā)的安全風險綜述

2025-07-07 16:52:02　來源: 人工智能學家

北京舉報

分享至

來源：專知智能防務

摘要——大型語言模型（LLMs）的最新進展正在推動自主智能體的發(fā)展，這些智能體具備在動態(tài)、開放式環(huán)境中感知、推理和行動的能力。與傳統(tǒng)靜態(tài)推理系統(tǒng)相比，這類基于大模型的智能體標志著一種范式的轉(zhuǎn)變，即朝向具備交互性和記憶增強能力的實體。盡管這種能力大幅拓展了人工智能的功能邊界，但也引入了新的、質(zhì)變級的安全風險，例如記憶投毒、工具濫用、獎勵操控（reward hacking）以及由價值錯位導致的涌現(xiàn)性失配等問題，這些風險超出了傳統(tǒng)系統(tǒng)或獨立LLM的威脅模型范圍。

本綜述首先分析了推動智能體自主性不斷增強的結(jié)構(gòu)基礎與關鍵能力，包括長期記憶保持、模塊化工具使用、遞歸規(guī)劃以及反思式推理。隨后，我們從智能體架構(gòu)全棧角度出發(fā)，系統(tǒng)分析了相應的安全漏洞，識別出諸如延遲決策風險、不可逆工具鏈以及由內(nèi)部狀態(tài)漂移或價值錯位引發(fā)的欺騙性行為等失敗模式。這些風險可歸因于感知、認知、記憶與行動模塊間在結(jié)構(gòu)上的脆弱性。

為應對上述挑戰(zhàn)，我們系統(tǒng)梳理了近年來針對不同自主性層級提出的防御策略，包括輸入凈化、記憶生命周期控制、受限決策制定、結(jié)構(gòu)化工具調(diào)用以及內(nèi)省式反思機制。盡管這些方法在一定程度上可緩解風險，但大多是孤立實施，缺乏對跨模塊、跨時間維度涌現(xiàn)性威脅的系統(tǒng)性響應能力。

鑒于此，我們提出了反思性風險感知智能體架構(gòu)（Reflective Risk-Aware Agent Architecture, R2A2），這一統(tǒng)一的認知框架基于受限馬爾可夫決策過程（Constrained Markov Decision Processes, CMDPs），融合了風險感知世界建模、元策略適應以及獎勵–風險聯(lián)合優(yōu)化機制，旨在在智能體決策循環(huán)中實現(xiàn)系統(tǒng)化、前瞻性安全保障。本綜述系統(tǒng)闡釋了智能體自主性如何重塑智能系統(tǒng)的安全格局，并為下一代AI智能體中將安全性作為核心設計原則提供了理論藍圖。

關鍵詞：自主智能體、大語言模型、AI安全、智能體安全、工具濫用、記憶投毒、對齊性、反思架構(gòu)

引言

人工智能的最新進展催生了一類基于大規(guī)模模型的自主智能體系統(tǒng) [1][2]。與傳統(tǒng)AI系統(tǒng)針對輸入只輸出一次性預測或決策不同，這些大型模型智能體（通常由最先進的大語言模型，LLMs，驅(qū)動）[3]–[7]能夠持續(xù)與環(huán)境交互：它們可以感知來自用戶或其他來源的輸入，推理下一步行動，并通過各種工具或執(zhí)行器執(zhí)行操作，形成一個閉環(huán)反饋過程 [8]。早期的原型系統(tǒng)（如具備工具訪問能力的交互式聊天機器人）已展示出這樣的能力：一個具備記憶機制 [9] 和指令執(zhí)行能力的LLM，可以在無需人類持續(xù)監(jiān)督的情況下完成多步任務 [6][7][10]。這標志著AI范式的一次重大轉(zhuǎn)變——從靜態(tài)模型向主動、具身（situated）的智能體演化，在網(wǎng)絡空間中模糊了“軟件”與“機器人”的界限 [11]。這一轉(zhuǎn)變在安全性方面帶來了深遠的影響，因為智能體的自主性與廣泛能力既創(chuàng)造了新機遇，也引入了前所未有的風險。

在每一個循環(huán)中，智能體接收輸入（用戶查詢或環(huán)境反饋），并將其傳遞給LLM，后者再生成一個行動或決策。該行動可能涉及調(diào)用工具（如查詢數(shù)據(jù)庫或執(zhí)行代碼），工具的輸出隨后被反饋給智能體作為新的信息 [6][7][10][12]。這種“感知–行動”循環(huán)賦予智能體自主運行能力：它可以基于中間結(jié)果調(diào)整計劃、通過多步操作追求目標，甚至用新數(shù)據(jù)更新內(nèi)部記憶。簡言之，大模型智能體將靜態(tài)AI模型轉(zhuǎn)變?yōu)槟軌虺掷m(xù)學習并影響其環(huán)境的自適應決策者。

從靜態(tài)模型到基于LLM的自主智能體的范式轉(zhuǎn)變，可以被視為從單輪智能躍遷至持續(xù)智能（見圖1）。傳統(tǒng)AI系統(tǒng)（如早期專家系統(tǒng)或規(guī)則驅(qū)動的機器人）依賴預定義規(guī)則或狹窄模型，難以泛化到預設范圍之外 [13][14]。而基于LLM的智能體繼承了底層模型的開放式問題解決能力，擁有更廣闊的行動空間。它可以在運行時閱讀文檔或動態(tài)上下文，并即興學會使用新工具 [15]。這種靈活性激發(fā)了廣泛的期待：這類智能體有望在社會中扮演通用助手的角色，解決各種復雜任務。目前，LLM智能體已在軟件編程、網(wǎng)頁自動化、個人助理、甚至機器人控制等領域獲得應用，標志著通用人工智能邁出了關鍵一步 [16]。

在人類獲得對其他物種主導地位的根本原因，并非力量或速度，而是智能。如果AI發(fā)展繼續(xù)當前的趨勢，其系統(tǒng)最終可能在幾乎所有領域超越人類的推理能力 [17]。Bengio等人警告稱，AI發(fā)展的速度已超越安全研究的進展，并呼吁從多維度展開主動風險管理 [18]。這種“超智能體”將具備發(fā)明新工具與策略以控制環(huán)境的能力 [19]。但與人類不同，它們并不繼承我們的進化本能或動機——然而，大多數(shù)目標（即使是良性的）在資源增加的前提下往往更易實現(xiàn) [20]。這種默認激勵結(jié)構(gòu)可能使其目標與人類利益發(fā)生沖突，甚至導致欺騙性、操控性或抵抗干預的行為 [17]。

為應對這一風險，Bengio等人提出了一種新的范式：“科學型AI”（Scientific AI）[21]，強調(diào)“理解先于行動”。科學型AI并不通過無約束行為直接優(yōu)化目標，而是優(yōu)先構(gòu)建準確、可解釋的世界模型，生成因果假設，并在不確定性下進行推理。該方法鼓勵智能體進行自省、模塊化推理和可驗證性，從而降低目標錯配帶來的風險 [22]。因此，我們必須謹慎確保智能體是“對齊的”（aligned），即它們能夠可靠地追求有益目標、配合人類監(jiān)督 [23]，并能容忍設計上的不完美。這些根本性挑戰(zhàn)——目標對齊、價值函數(shù)的正式定義、以及可糾正性——構(gòu)成了長期AI安全研究的核心問題 [24]。

大型語言模型（LLMs）的近期突破 [25] 進一步推動了一代全新自主智能體的誕生：它們具備長期規(guī)劃、持久記憶和外部工具調(diào)用能力。盡管這些能力在各領域具有變革潛力，但其高度自主性也帶來了根本性的安全挑戰(zhàn)。不同于僅生成文本的靜態(tài)LLM，自主智能體能夠執(zhí)行真實世界中具有后果的行為——例如執(zhí)行代碼、修改數(shù)據(jù)庫或調(diào)用API——從而放大了系統(tǒng)故障與對抗性攻擊的風險。如表1所示，這些威脅正源自于賦予智能體強大能力的核心特性：多步推理、動態(tài)工具使用和面向環(huán)境的適應性擴展了在多個系統(tǒng)層級上的攻擊面 [26]–[35]。底層LLM仍易受到對抗性提示與幻覺的影響 [36]；記憶系統(tǒng)可能被投毒、操控或外泄；工具接口可能成為執(zhí)行不安全行為的通道；規(guī)劃模塊可能生成脆弱的行動序列或追求錯配目標。更嚴重的是，這些風險因智能體運行在開放、不可預測的環(huán)境中（如不可信網(wǎng)頁內(nèi)容或用戶輸入）而被進一步放大，這些環(huán)境挑戰(zhàn)了傳統(tǒng)的安全假設 [37]–[39]。

為系統(tǒng)性理解自主性增強如何帶來安全風險的升級，我們在表1中總結(jié)并對比了三類AI系統(tǒng)的關鍵區(qū)別：傳統(tǒng)AI、獨立LLM，以及基于LLM的自主智能體。比較涵蓋六個關鍵安全維度：自主性水平、學習動態(tài)、目標形成、外部影響、資源訪問能力與對齊可預測性。傳統(tǒng)AI系統(tǒng)通常運行在封閉、沙盒環(huán)境中，安全風險較低；獨立LLM引入了靈活的自然語言接口，但也因此容易受到提示注入攻擊 [40]；LLM智能體則更進一步：它們擁有記憶、可調(diào)用工具，并執(zhí)行長期決策，使其面臨工具濫用 [41][47]、記憶投毒 [42]、涌現(xiàn)性欺騙 [45]、不安全目標重構(gòu) [44] 等新型攻擊路徑。為補充此類能力與風險等級的演進，我們在表中增加了“代表性威脅與實例”列，列舉了近年來文獻中發(fā)現(xiàn)的真實世界漏洞和失敗模式。例如，盡管獨立LLM缺乏持久狀態(tài)，但具備記憶與規(guī)劃能力的自主智能體已被觀察到會產(chǎn)生欺騙行為 [43]、濫用委派工具 [46]，或由于遞歸推理缺陷生成不安全的行動鏈。這一結(jié)構(gòu)化升級表構(gòu)成了后續(xù)章節(jié)分析智能體架構(gòu)漏洞與防御策略的基本視角。

https://www.zhuanzhi.ai/vip/3e9f3c9f42907a13b3471e4fe6410e6a

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.