99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

基于大模型的智能體中由自主性引發(fā)的安全風險綜述

0
分享至


來源:專知智能防


摘要——大型語言模型(LLMs)的最新進展正在推動自主智能體的發(fā)展,這些智能體具備在動態(tài)、開放式環(huán)境中感知、推理和行動的能力。與傳統(tǒng)靜態(tài)推理系統(tǒng)相比,這類基于大模型的智能體標志著一種范式的轉(zhuǎn)變,即朝向具備交互性和記憶增強能力的實體。盡管這種能力大幅拓展了人工智能的功能邊界,但也引入了新的、質(zhì)變級的安全風險,例如記憶投毒、工具濫用、獎勵操控(reward hacking)以及由價值錯位導致的涌現(xiàn)性失配等問題,這些風險超出了傳統(tǒng)系統(tǒng)或獨立LLM的威脅模型范圍。

本綜述首先分析了推動智能體自主性不斷增強的結(jié)構(gòu)基礎與關鍵能力,包括長期記憶保持、模塊化工具使用、遞歸規(guī)劃以及反思式推理。隨后,我們從智能體架構(gòu)全棧角度出發(fā),系統(tǒng)分析了相應的安全漏洞,識別出諸如延遲決策風險、不可逆工具鏈以及由內(nèi)部狀態(tài)漂移或價值錯位引發(fā)的欺騙性行為等失敗模式。這些風險可歸因于感知、認知、記憶與行動模塊間在結(jié)構(gòu)上的脆弱性。

為應對上述挑戰(zhàn),我們系統(tǒng)梳理了近年來針對不同自主性層級提出的防御策略,包括輸入凈化、記憶生命周期控制、受限決策制定、結(jié)構(gòu)化工具調(diào)用以及內(nèi)省式反思機制。盡管這些方法在一定程度上可緩解風險,但大多是孤立實施,缺乏對跨模塊、跨時間維度涌現(xiàn)性威脅的系統(tǒng)性響應能力。

鑒于此,我們提出了反思性風險感知智能體架構(gòu)(Reflective Risk-Aware Agent Architecture, R2A2),這一統(tǒng)一的認知框架基于受限馬爾可夫決策過程(Constrained Markov Decision Processes, CMDPs),融合了風險感知世界建模、元策略適應以及獎勵–風險聯(lián)合優(yōu)化機制,旨在在智能體決策循環(huán)中實現(xiàn)系統(tǒng)化、前瞻性安全保障。本綜述系統(tǒng)闡釋了智能體自主性如何重塑智能系統(tǒng)的安全格局,并為下一代AI智能體中將安全性作為核心設計原則提供了理論藍圖。

關鍵詞自主智能體、大語言模型、AI安全、智能體安全、工具濫用、記憶投毒、對齊性、反思架構(gòu)


引言

人工智能的最新進展催生了一類基于大規(guī)模模型的自主智能體系統(tǒng) [1][2]。與傳統(tǒng)AI系統(tǒng)針對輸入只輸出一次性預測或決策不同,這些大型模型智能體(通常由最先進的大語言模型,LLMs,驅(qū)動)[3]–[7]能夠持續(xù)與環(huán)境交互:它們可以感知來自用戶或其他來源的輸入,推理下一步行動,并通過各種工具或執(zhí)行器執(zhí)行操作,形成一個閉環(huán)反饋過程 [8]。早期的原型系統(tǒng)(如具備工具訪問能力的交互式聊天機器人)已展示出這樣的能力:一個具備記憶機制 [9] 和指令執(zhí)行能力的LLM,可以在無需人類持續(xù)監(jiān)督的情況下完成多步任務 [6][7][10]。這標志著AI范式的一次重大轉(zhuǎn)變——從靜態(tài)模型向主動、具身(situated)的智能體演化,在網(wǎng)絡空間中模糊了“軟件”與“機器人”的界限 [11]。這一轉(zhuǎn)變在安全性方面帶來了深遠的影響,因為智能體的自主性與廣泛能力既創(chuàng)造了新機遇,也引入了前所未有的風險。

在每一個循環(huán)中,智能體接收輸入(用戶查詢或環(huán)境反饋),并將其傳遞給LLM,后者再生成一個行動或決策。該行動可能涉及調(diào)用工具(如查詢數(shù)據(jù)庫或執(zhí)行代碼),工具的輸出隨后被反饋給智能體作為新的信息 [6][7][10][12]。這種“感知–行動”循環(huán)賦予智能體自主運行能力:它可以基于中間結(jié)果調(diào)整計劃、通過多步操作追求目標,甚至用新數(shù)據(jù)更新內(nèi)部記憶。簡言之,大模型智能體將靜態(tài)AI模型轉(zhuǎn)變?yōu)槟軌虺掷m(xù)學習并影響其環(huán)境的自適應決策者。

從靜態(tài)模型到基于LLM的自主智能體的范式轉(zhuǎn)變,可以被視為從單輪智能躍遷至持續(xù)智能(見圖1)。傳統(tǒng)AI系統(tǒng)(如早期專家系統(tǒng)或規(guī)則驅(qū)動的機器人)依賴預定義規(guī)則或狹窄模型,難以泛化到預設范圍之外 [13][14]。而基于LLM的智能體繼承了底層模型的開放式問題解決能力,擁有更廣闊的行動空間。它可以在運行時閱讀文檔或動態(tài)上下文,并即興學會使用新工具 [15]。這種靈活性激發(fā)了廣泛的期待:這類智能體有望在社會中扮演通用助手的角色,解決各種復雜任務。目前,LLM智能體已在軟件編程、網(wǎng)頁自動化、個人助理、甚至機器人控制等領域獲得應用,標志著通用人工智能邁出了關鍵一步 [16]。

在人類獲得對其他物種主導地位的根本原因,并非力量或速度,而是智能。如果AI發(fā)展繼續(xù)當前的趨勢,其系統(tǒng)最終可能在幾乎所有領域超越人類的推理能力 [17]。Bengio等人警告稱,AI發(fā)展的速度已超越安全研究的進展,并呼吁從多維度展開主動風險管理 [18]。這種“超智能體”將具備發(fā)明新工具與策略以控制環(huán)境的能力 [19]。但與人類不同,它們并不繼承我們的進化本能或動機——然而,大多數(shù)目標(即使是良性的)在資源增加的前提下往往更易實現(xiàn) [20]。這種默認激勵結(jié)構(gòu)可能使其目標與人類利益發(fā)生沖突,甚至導致欺騙性、操控性或抵抗干預的行為 [17]。

為應對這一風險,Bengio等人提出了一種新的范式:“科學型AI”(Scientific AI)[21],強調(diào)“理解先于行動”。科學型AI并不通過無約束行為直接優(yōu)化目標,而是優(yōu)先構(gòu)建準確、可解釋的世界模型,生成因果假設,并在不確定性下進行推理。該方法鼓勵智能體進行自省、模塊化推理和可驗證性,從而降低目標錯配帶來的風險 [22]。因此,我們必須謹慎確保智能體是“對齊的”(aligned),即它們能夠可靠地追求有益目標、配合人類監(jiān)督 [23],并能容忍設計上的不完美。這些根本性挑戰(zhàn)——目標對齊、價值函數(shù)的正式定義、以及可糾正性——構(gòu)成了長期AI安全研究的核心問題 [24]。

大型語言模型(LLMs)的近期突破 [25] 進一步推動了一代全新自主智能體的誕生:它們具備長期規(guī)劃、持久記憶和外部工具調(diào)用能力。盡管這些能力在各領域具有變革潛力,但其高度自主性也帶來了根本性的安全挑戰(zhàn)。不同于僅生成文本的靜態(tài)LLM,自主智能體能夠執(zhí)行真實世界中具有后果的行為——例如執(zhí)行代碼、修改數(shù)據(jù)庫或調(diào)用API——從而放大了系統(tǒng)故障與對抗性攻擊的風險。如表1所示,這些威脅正源自于賦予智能體強大能力的核心特性:多步推理、動態(tài)工具使用和面向環(huán)境的適應性擴展了在多個系統(tǒng)層級上的攻擊面 [26]–[35]。底層LLM仍易受到對抗性提示與幻覺的影響 [36];記憶系統(tǒng)可能被投毒、操控或外泄;工具接口可能成為執(zhí)行不安全行為的通道;規(guī)劃模塊可能生成脆弱的行動序列或追求錯配目標。更嚴重的是,這些風險因智能體運行在開放、不可預測的環(huán)境中(如不可信網(wǎng)頁內(nèi)容或用戶輸入)而被進一步放大,這些環(huán)境挑戰(zhàn)了傳統(tǒng)的安全假設 [37]–[39]。

為系統(tǒng)性理解自主性增強如何帶來安全風險的升級,我們在表1中總結(jié)并對比了三類AI系統(tǒng)的關鍵區(qū)別:傳統(tǒng)AI、獨立LLM,以及基于LLM的自主智能體。比較涵蓋六個關鍵安全維度:自主性水平、學習動態(tài)、目標形成、外部影響、資源訪問能力與對齊可預測性。傳統(tǒng)AI系統(tǒng)通常運行在封閉、沙盒環(huán)境中,安全風險較低;獨立LLM引入了靈活的自然語言接口,但也因此容易受到提示注入攻擊 [40];LLM智能體則更進一步:它們擁有記憶、可調(diào)用工具,并執(zhí)行長期決策,使其面臨工具濫用 [41][47]、記憶投毒 [42]、涌現(xiàn)性欺騙 [45]、不安全目標重構(gòu) [44] 等新型攻擊路徑。為補充此類能力與風險等級的演進,我們在表中增加了“代表性威脅與實例”列,列舉了近年來文獻中發(fā)現(xiàn)的真實世界漏洞和失敗模式。例如,盡管獨立LLM缺乏持久狀態(tài),但具備記憶與規(guī)劃能力的自主智能體已被觀察到會產(chǎn)生欺騙行為 [43]、濫用委派工具 [46],或由于遞歸推理缺陷生成不安全的行動鏈。這一結(jié)構(gòu)化升級表構(gòu)成了后續(xù)章節(jié)分析智能體架構(gòu)漏洞與防御策略的基本視角。


https://www.zhuanzhi.ai/vip/3e9f3c9f42907a13b3471e4fe6410e6a

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
曝廣東女子出軌多人,拋夫棄子成網(wǎng)紅,炸裂照片流出,家人曝猛料

曝廣東女子出軌多人,拋夫棄子成網(wǎng)紅,炸裂照片流出,家人曝猛料

削桐作琴
2025-07-25 20:50:03
直到宗慶后人設崩塌,才懂賭王臨終前,把私生子交給何超瓊含金量

直到宗慶后人設崩塌,才懂賭王臨終前,把私生子交給何超瓊含金量

攬星河的筆記
2025-07-18 22:29:50
阿根廷警察在自家院子被谷歌街景拍下裸照,10年后谷歌被判賠9萬元

阿根廷警察在自家院子被谷歌街景拍下裸照,10年后谷歌被判賠9萬元

魯中晨報
2025-07-26 09:30:12
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
教師退出機制紛紛出臺,中小學教師教育教學能力與態(tài)度很關鍵

教師退出機制紛紛出臺,中小學教師教育教學能力與態(tài)度很關鍵

書中自有顏如玉
2025-07-26 15:16:33
毛岸英犧牲與彭德懷有沒有關系?毛主席一句話揭開毛岸英真實死因

毛岸英犧牲與彭德懷有沒有關系?毛主席一句話揭開毛岸英真實死因

與史說
2025-07-25 09:05:02
24顆衛(wèi)星僅剩下6顆,全球第二大導航系統(tǒng)名存實亡,只有中國能救

24顆衛(wèi)星僅剩下6顆,全球第二大導航系統(tǒng)名存實亡,只有中國能救

芳芳歷史燴
2025-07-24 18:11:17
中國女籃為何能打敗美國奪冠?李筍南敢棄用劉禹彤,宮魯鳴被熱議

中國女籃為何能打敗美國奪冠?李筍南敢棄用劉禹彤,宮魯鳴被熱議

體育大學僧
2025-07-26 09:35:07
網(wǎng)約車司機一句話讓長沙文旅三年白干,旅行不該被這樣“潑冷水”

網(wǎng)約車司機一句話讓長沙文旅三年白干,旅行不該被這樣“潑冷水”

凡知
2025-07-25 16:33:54
俞灝明感情迎新進展!疑為王曉晨慶37歲生日,還開始裝修新房!

俞灝明感情迎新進展!疑為王曉晨慶37歲生日,還開始裝修新房!

鄭丁嘉話
2025-07-26 09:20:02
企退養(yǎng)老金4380元,補發(fā)到賬共694.89,每月上漲近百元落袋為安

企退養(yǎng)老金4380元,補發(fā)到賬共694.89,每月上漲近百元落袋為安

社保精算師
2025-07-26 12:01:04
臉都不要了,但還是低估了他們的無恥

臉都不要了,但還是低估了他們的無恥

胖胖說他不胖
2025-07-26 16:25:01
歐文:希望有天能和KD他們好好聊下籃網(wǎng)的事 希望是在我的紀錄片

歐文:希望有天能和KD他們好好聊下籃網(wǎng)的事 希望是在我的紀錄片

直播吧
2025-07-26 14:21:22
330萬億躺在銀行睡大覺:數(shù)字很尷尬,現(xiàn)實很殘酷

330萬億躺在銀行睡大覺:數(shù)字很尷尬,現(xiàn)實很殘酷

大道微言
2025-07-23 15:23:47
噩耗傳來!女外賣員遺體已被找到

噩耗傳來!女外賣員遺體已被找到

深圳晚報
2025-07-25 15:12:06
高喊“打倒民營經(jīng)濟”的是他,高喊“支持民營經(jīng)濟”的還是他

高喊“打倒民營經(jīng)濟”的是他,高喊“支持民營經(jīng)濟”的還是他

深度報
2025-07-12 23:26:48
飛機在學校墜毀!傷亡人數(shù)已超100人

飛機在學校墜毀!傷亡人數(shù)已超100人

FM93浙江交通之聲
2025-07-22 23:06:58
黃一鳴坐不住了自曝王思聰深夜主動邀約付10萬,當晚見面致其懷孕

黃一鳴坐不住了自曝王思聰深夜主動邀約付10萬,當晚見面致其懷孕

趣文說娛
2025-07-26 09:44:50
380票否決,伊朗政局一夜變天,總統(tǒng)與最高領袖公開決裂

380票否決,伊朗政局一夜變天,總統(tǒng)與最高領袖公開決裂

小笛科技
2025-07-25 13:32:19
李白唯一存世墨跡:一場跨越千年的精神共振

李白唯一存世墨跡:一場跨越千年的精神共振

幸福娃書畫苑
2025-02-04 11:00:26
2025-07-26 18:19:00
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4048文章數(shù) 37241關注度
往期回顧 全部

科技要聞

AI教父辛頓現(xiàn)身上海:人類如何不被AI殺掉

頭條要聞

高分考生被廈門大學國外分校誤錄取:已有16人決定復讀

頭條要聞

高分考生被廈門大學國外分校誤錄取:已有16人決定復讀

體育要聞

楊瀚森效力NBA期間 青島男籃將暫存球隊15號球衣

娛樂要聞

董璇首談保釋前夫細節(jié)!高云翔突然不回消息

財經(jīng)要聞

劉煜輝:當下重要不是找確定性而是轉(zhuǎn)折點

汽車要聞

"得房率"超90% 全新嵐圖知音空間信息曝光

態(tài)度原創(chuàng)

手機
游戲
家居
旅游
公開課

手機要聞

鴻蒙5首款破千萬應用!小藝輸入法安裝量超1000萬

XGP的又一成功!首發(fā)新游Xbox玩家破三百萬!

家居要聞

環(huán)繞設計 空間動線合理

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 琼海市| 云和县| 醴陵市| 鄂托克旗| 邛崃市| 任丘市| 郑州市| 双柏县| 阿尔山市| 涞源县| 香港| 本溪| 丰县| 淅川县| 岐山县| 博客| 灌阳县| 富阳市| 洪江市| 新宾| 九龙城区| 高碑店市| 汤原县| 望奎县| 闸北区| 吴江市| 黄平县| 松桃| 尚义县| 家居| 清涧县| 沾益县| 习水县| 安仁县| 利津县| 霍山县| 芮城县| 广河县| 内江市| 仙游县| 葫芦岛市|