來源:專知智能防務
摘要——大型語言模型(LLMs)的最新進展正在推動自主智能體的發(fā)展,這些智能體具備在動態(tài)、開放式環(huán)境中感知、推理和行動的能力。與傳統(tǒng)靜態(tài)推理系統(tǒng)相比,這類基于大模型的智能體標志著一種范式的轉(zhuǎn)變,即朝向具備交互性和記憶增強能力的實體。盡管這種能力大幅拓展了人工智能的功能邊界,但也引入了新的、質(zhì)變級的安全風險,例如記憶投毒、工具濫用、獎勵操控(reward hacking)以及由價值錯位導致的涌現(xiàn)性失配等問題,這些風險超出了傳統(tǒng)系統(tǒng)或獨立LLM的威脅模型范圍。
本綜述首先分析了推動智能體自主性不斷增強的結(jié)構(gòu)基礎與關鍵能力,包括長期記憶保持、模塊化工具使用、遞歸規(guī)劃以及反思式推理。隨后,我們從智能體架構(gòu)全棧角度出發(fā),系統(tǒng)分析了相應的安全漏洞,識別出諸如延遲決策風險、不可逆工具鏈以及由內(nèi)部狀態(tài)漂移或價值錯位引發(fā)的欺騙性行為等失敗模式。這些風險可歸因于感知、認知、記憶與行動模塊間在結(jié)構(gòu)上的脆弱性。
為應對上述挑戰(zhàn),我們系統(tǒng)梳理了近年來針對不同自主性層級提出的防御策略,包括輸入凈化、記憶生命周期控制、受限決策制定、結(jié)構(gòu)化工具調(diào)用以及內(nèi)省式反思機制。盡管這些方法在一定程度上可緩解風險,但大多是孤立實施,缺乏對跨模塊、跨時間維度涌現(xiàn)性威脅的系統(tǒng)性響應能力。
鑒于此,我們提出了反思性風險感知智能體架構(gòu)(Reflective Risk-Aware Agent Architecture, R2A2),這一統(tǒng)一的認知框架基于受限馬爾可夫決策過程(Constrained Markov Decision Processes, CMDPs),融合了風險感知世界建模、元策略適應以及獎勵–風險聯(lián)合優(yōu)化機制,旨在在智能體決策循環(huán)中實現(xiàn)系統(tǒng)化、前瞻性安全保障。本綜述系統(tǒng)闡釋了智能體自主性如何重塑智能系統(tǒng)的安全格局,并為下一代AI智能體中將安全性作為核心設計原則提供了理論藍圖。
關鍵詞:自主智能體、大語言模型、AI安全、智能體安全、工具濫用、記憶投毒、對齊性、反思架構(gòu)
引言
人工智能的最新進展催生了一類基于大規(guī)模模型的自主智能體系統(tǒng) [1][2]。與傳統(tǒng)AI系統(tǒng)針對輸入只輸出一次性預測或決策不同,這些大型模型智能體(通常由最先進的大語言模型,LLMs,驅(qū)動)[3]–[7]能夠持續(xù)與環(huán)境交互:它們可以感知來自用戶或其他來源的輸入,推理下一步行動,并通過各種工具或執(zhí)行器執(zhí)行操作,形成一個閉環(huán)反饋過程 [8]。早期的原型系統(tǒng)(如具備工具訪問能力的交互式聊天機器人)已展示出這樣的能力:一個具備記憶機制 [9] 和指令執(zhí)行能力的LLM,可以在無需人類持續(xù)監(jiān)督的情況下完成多步任務 [6][7][10]。這標志著AI范式的一次重大轉(zhuǎn)變——從靜態(tài)模型向主動、具身(situated)的智能體演化,在網(wǎng)絡空間中模糊了“軟件”與“機器人”的界限 [11]。這一轉(zhuǎn)變在安全性方面帶來了深遠的影響,因為智能體的自主性與廣泛能力既創(chuàng)造了新機遇,也引入了前所未有的風險。
在每一個循環(huán)中,智能體接收輸入(用戶查詢或環(huán)境反饋),并將其傳遞給LLM,后者再生成一個行動或決策。該行動可能涉及調(diào)用工具(如查詢數(shù)據(jù)庫或執(zhí)行代碼),工具的輸出隨后被反饋給智能體作為新的信息 [6][7][10][12]。這種“感知–行動”循環(huán)賦予智能體自主運行能力:它可以基于中間結(jié)果調(diào)整計劃、通過多步操作追求目標,甚至用新數(shù)據(jù)更新內(nèi)部記憶。簡言之,大模型智能體將靜態(tài)AI模型轉(zhuǎn)變?yōu)槟軌虺掷m(xù)學習并影響其環(huán)境的自適應決策者。
從靜態(tài)模型到基于LLM的自主智能體的范式轉(zhuǎn)變,可以被視為從單輪智能躍遷至持續(xù)智能(見圖1)。傳統(tǒng)AI系統(tǒng)(如早期專家系統(tǒng)或規(guī)則驅(qū)動的機器人)依賴預定義規(guī)則或狹窄模型,難以泛化到預設范圍之外 [13][14]。而基于LLM的智能體繼承了底層模型的開放式問題解決能力,擁有更廣闊的行動空間。它可以在運行時閱讀文檔或動態(tài)上下文,并即興學會使用新工具 [15]。這種靈活性激發(fā)了廣泛的期待:這類智能體有望在社會中扮演通用助手的角色,解決各種復雜任務。目前,LLM智能體已在軟件編程、網(wǎng)頁自動化、個人助理、甚至機器人控制等領域獲得應用,標志著通用人工智能邁出了關鍵一步 [16]。
在人類獲得對其他物種主導地位的根本原因,并非力量或速度,而是智能。如果AI發(fā)展繼續(xù)當前的趨勢,其系統(tǒng)最終可能在幾乎所有領域超越人類的推理能力 [17]。Bengio等人警告稱,AI發(fā)展的速度已超越安全研究的進展,并呼吁從多維度展開主動風險管理 [18]。這種“超智能體”將具備發(fā)明新工具與策略以控制環(huán)境的能力 [19]。但與人類不同,它們并不繼承我們的進化本能或動機——然而,大多數(shù)目標(即使是良性的)在資源增加的前提下往往更易實現(xiàn) [20]。這種默認激勵結(jié)構(gòu)可能使其目標與人類利益發(fā)生沖突,甚至導致欺騙性、操控性或抵抗干預的行為 [17]。
為應對這一風險,Bengio等人提出了一種新的范式:“科學型AI”(Scientific AI)[21],強調(diào)“理解先于行動”。科學型AI并不通過無約束行為直接優(yōu)化目標,而是優(yōu)先構(gòu)建準確、可解釋的世界模型,生成因果假設,并在不確定性下進行推理。該方法鼓勵智能體進行自省、模塊化推理和可驗證性,從而降低目標錯配帶來的風險 [22]。因此,我們必須謹慎確保智能體是“對齊的”(aligned),即它們能夠可靠地追求有益目標、配合人類監(jiān)督 [23],并能容忍設計上的不完美。這些根本性挑戰(zhàn)——目標對齊、價值函數(shù)的正式定義、以及可糾正性——構(gòu)成了長期AI安全研究的核心問題 [24]。
大型語言模型(LLMs)的近期突破 [25] 進一步推動了一代全新自主智能體的誕生:它們具備長期規(guī)劃、持久記憶和外部工具調(diào)用能力。盡管這些能力在各領域具有變革潛力,但其高度自主性也帶來了根本性的安全挑戰(zhàn)。不同于僅生成文本的靜態(tài)LLM,自主智能體能夠執(zhí)行真實世界中具有后果的行為——例如執(zhí)行代碼、修改數(shù)據(jù)庫或調(diào)用API——從而放大了系統(tǒng)故障與對抗性攻擊的風險。如表1所示,這些威脅正源自于賦予智能體強大能力的核心特性:多步推理、動態(tài)工具使用和面向環(huán)境的適應性擴展了在多個系統(tǒng)層級上的攻擊面 [26]–[35]。底層LLM仍易受到對抗性提示與幻覺的影響 [36];記憶系統(tǒng)可能被投毒、操控或外泄;工具接口可能成為執(zhí)行不安全行為的通道;規(guī)劃模塊可能生成脆弱的行動序列或追求錯配目標。更嚴重的是,這些風險因智能體運行在開放、不可預測的環(huán)境中(如不可信網(wǎng)頁內(nèi)容或用戶輸入)而被進一步放大,這些環(huán)境挑戰(zhàn)了傳統(tǒng)的安全假設 [37]–[39]。
為系統(tǒng)性理解自主性增強如何帶來安全風險的升級,我們在表1中總結(jié)并對比了三類AI系統(tǒng)的關鍵區(qū)別:傳統(tǒng)AI、獨立LLM,以及基于LLM的自主智能體。比較涵蓋六個關鍵安全維度:自主性水平、學習動態(tài)、目標形成、外部影響、資源訪問能力與對齊可預測性。傳統(tǒng)AI系統(tǒng)通常運行在封閉、沙盒環(huán)境中,安全風險較低;獨立LLM引入了靈活的自然語言接口,但也因此容易受到提示注入攻擊 [40];LLM智能體則更進一步:它們擁有記憶、可調(diào)用工具,并執(zhí)行長期決策,使其面臨工具濫用 [41][47]、記憶投毒 [42]、涌現(xiàn)性欺騙 [45]、不安全目標重構(gòu) [44] 等新型攻擊路徑。為補充此類能力與風險等級的演進,我們在表中增加了“代表性威脅與實例”列,列舉了近年來文獻中發(fā)現(xiàn)的真實世界漏洞和失敗模式。例如,盡管獨立LLM缺乏持久狀態(tài),但具備記憶與規(guī)劃能力的自主智能體已被觀察到會產(chǎn)生欺騙行為 [43]、濫用委派工具 [46],或由于遞歸推理缺陷生成不安全的行動鏈。這一結(jié)構(gòu)化升級表構(gòu)成了后續(xù)章節(jié)分析智能體架構(gòu)漏洞與防御策略的基本視角。
https://www.zhuanzhi.ai/vip/3e9f3c9f42907a13b3471e4fe6410e6a
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.