99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind 提出 CaMeL,抵御 LLM 提示詞注入

0
分享至


作者 | Sergio De Simone

審校 | 明知山

策劃 | Tina

為了防止在處理來自不可信來源的數(shù)據(jù)時遭受提示詞注入攻擊,谷歌 DeepMind 的研究人員提出了 CaMeL,一種圍繞 LLM 的防御層,通過從查詢中提取控制流和數(shù)據(jù)流來阻止惡意輸入。根據(jù)他們的實驗結(jié)果,CaMeL 能夠在 AgentDojo 安全基準(zhǔn)測試中抵御 67% 的攻擊。

眾所周知,攻擊者可以將惡意數(shù)據(jù)或指令注入到 LLM 的上下文中,目的是竊取數(shù)據(jù)或誘導(dǎo)模型以有害的方式執(zhí)行操作。例如,攻擊者可能會嘗試獲取聊天機(jī)器人的系統(tǒng)提示詞,以便獲取控制權(quán)或竊取敏感信息,例如訪問私有 Slack 頻道中的數(shù)據(jù)。更令人擔(dān)憂的是,當(dāng) LLM 能夠訪問具有現(xiàn)實世界影響的工具時,比如發(fā)送電子郵件或下單,這種情況的風(fēng)險就更大了。

即使 LLM 采取了特定策略來防御提示詞注入攻擊,攻擊者仍會設(shè)法繞過這些防護(hù)措施。一個近期的例子是 AI 安全專家 Johann Rehberger 展示的一種類似網(wǎng)絡(luò)釣魚的攻擊,成功繞過了 Gemini 對延遲工具執(zhí)行的保護(hù)。

CaMeL 是一項旨在解決這些風(fēng)險的新提案。CaMeL 不依賴更多的人工智能來防御人工智能系統(tǒng)(例如基于人工智能的提示詞注入檢測器),而是采用了傳統(tǒng)的軟件安全原則,如控制流完整性、訪問控制和信息流控制。

CaMeL 為每個值關(guān)聯(lián)了一些元數(shù)據(jù)(在軟件安全文獻(xiàn)中通常被稱為能力),用于限制數(shù)據(jù)和控制流,并通過使用細(xì)粒度的安全策略來表達(dá)可以和不可以對每個獨(dú)立值進(jìn)行哪些操作。

CaMeL 使用自定義的 Python 解釋器來跟蹤數(shù)據(jù)和指令的來源,強(qiáng)制執(zhí)行基于能力的安全性保障,無需對 LLM 本身進(jìn)行任何修改。它借鑒了 Simon Willison(他首次提出了“提示詞注入”一詞)所描述的雙 LLM 模式,并以巧妙的方式對其進(jìn)行了擴(kuò)展。

Willison 最初的提議包含了一個擁有特權(quán)的 LLM,它直接處理用戶的提示詞,以及一個被隔離的 LLM,它接觸的是不可信的數(shù)據(jù),并且無法使用任何工具。擁有特權(quán)的 LLM 管理工作流程,并可能要求被隔離的 LLM 從不受信任的數(shù)據(jù)中提取特定信息,例如電子郵件地址。這確保了特權(quán) LLM 永遠(yuǎn)不會直接接觸到不受信任的內(nèi)容,只處理隔離模型返回的、經(jīng)過過濾的結(jié)果。

谷歌研究人員表示,這種方案的缺陷在于,攻擊者仍然可以操縱被隔離的 LLM 生成誤導(dǎo)性的輸出,例如未經(jīng)授權(quán)訪問敏感信息的收件人的電子郵件地址。

在他們的新方案中,特權(quán) LLM 會生成一個使用受限的 Python 子集編寫的程序,這個程序負(fù)責(zé)執(zhí)行所有必要的步驟。當(dāng)這個程序從被隔離的 LLM 或其他工具接收數(shù)據(jù)時,它會構(gòu)建一個數(shù)據(jù)流圖,跟蹤每個數(shù)據(jù)元素的來源、訪問權(quán)限和相關(guān)元數(shù)據(jù)。隨后,這些元數(shù)據(jù)被用來確保對數(shù)據(jù)的任何操作都符合特權(quán)限制。


正如 Willison 在回應(yīng) CaMeL 提議時所強(qiáng)調(diào)的,這種方法的重要性在于不依賴更多的人工智能來解決人工智能問題:

人工智能技術(shù)使用的是概率:你可以用一系列以前的提示詞注入示例來訓(xùn)練模型,并在檢測新的示例時獲得 99% 的分?jǐn)?shù)……但這毫無用處,因為在應(yīng)用安全中,99% 是一個不及格的分?jǐn)?shù)。

為了測試 CaMeL 的有效性,DeepMind 的研究人員將其整合到 AgentDojo 中,一個自主智能體安全基準(zhǔn)測試,涵蓋了現(xiàn)實世界的一系列實用性和安全性任務(wù)。

DeepMind 的研究人員承認(rèn),CaMeL 并不是 LLM 安全的完美解決方案,最大的局限在于在于依賴用戶定義的安全策略。此外,由于 CaMeL 可能需要用戶手動審批涉及隱私的任務(wù),這可能會導(dǎo)致用戶疲勞,做出自動化或草率的審批。

如需了解更多討論細(xì)節(jié),請不要錯過原始論文。

查看原文鏈接:

https://www.infoq.com/news/2025/04/deepmind-camel-promt-injection/

聲明:本文由 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張家界溶洞垃圾堆7層樓高,最新:已打撈2.7噸!

張家界溶洞垃圾堆7層樓高,最新:已打撈2.7噸!

極目新聞
2025-06-02 10:50:32
破案了!樊振東加盟德國乒乓球原因曝光,劉國梁有言在先央視立挺

破案了!樊振東加盟德國乒乓球原因曝光,劉國梁有言在先央視立挺

徐鈦解說
2025-06-01 21:13:14
普京果然精明!中美在新加坡交鋒之際,俄高層送中國一句掏心窩話

普京果然精明!中美在新加坡交鋒之際,俄高層送中國一句掏心窩話

梁訊
2025-06-02 12:18:51
中央通報宿松縣千嶺鄉(xiāng)干部違規(guī)吃喝問題,安徽省委表態(tài)

中央通報宿松縣千嶺鄉(xiāng)干部違規(guī)吃喝問題,安徽省委表態(tài)

上觀新聞
2025-06-02 06:56:16
哈登正式申請加盟森林狼!已和愛德華茲完成會面,NBA真要大結(jié)局

哈登正式申請加盟森林狼!已和愛德華茲完成會面,NBA真要大結(jié)局

云隱南山
2025-06-02 13:19:54
喝沒了?副區(qū)長返鄉(xiāng)宴飲致同僚猝死,企業(yè)租用車輛攜帶酒煙服務(wù)

喝沒了?副區(qū)長返鄉(xiāng)宴飲致同僚猝死,企業(yè)租用車輛攜帶酒煙服務(wù)

Likepres
2025-06-02 10:35:18
預(yù)警!爆發(fā)!今明兩天或?qū)⒊霈F(xiàn)……

預(yù)警!爆發(fā)!今明兩天或?qū)⒊霈F(xiàn)……

開屏新聞客戶端
2025-06-02 11:52:09
獵德龍舟征婚小伙稱微信被加爆:單身3年一天加了1千人

獵德龍舟征婚小伙稱微信被加爆:單身3年一天加了1千人

大象新聞
2025-06-02 09:03:19
李湘端午節(jié)曬與女兒吃粽子,有錢人就是任性 粽子和普通人不一樣

李湘端午節(jié)曬與女兒吃粽子,有錢人就是任性 粽子和普通人不一樣

野山歷史
2025-06-02 09:27:53
日本突發(fā)5.9級地震!2天前剛發(fā)生6.1級,此前“大地震預(yù)言”瘋傳

日本突發(fā)5.9級地震!2天前剛發(fā)生6.1級,此前“大地震預(yù)言”瘋傳

極目新聞
2025-06-02 07:48:32
人民群眾到底需要多少領(lǐng)導(dǎo)?

人民群眾到底需要多少領(lǐng)導(dǎo)?

阿羅漢不約
2025-06-02 12:43:24
蘭博基尼車主撇開代駕小哥酒駕進(jìn)車庫,卻因賴賬5元被舉報,交警:駕照暫扣半年并罰款

蘭博基尼車主撇開代駕小哥酒駕進(jìn)車庫,卻因賴賬5元被舉報,交警:駕照暫扣半年并罰款

極目新聞
2025-06-02 12:45:38
倫納德當(dāng)年離開猛龍,可謂錯過一個王朝!當(dāng)年5大核心現(xiàn)狀如何?

倫納德當(dāng)年離開猛龍,可謂錯過一個王朝!當(dāng)年5大核心現(xiàn)狀如何?

田先生籃球
2025-06-02 13:20:25
迪士尼微胖女打架后續(xù):目擊者曝原因,警方通報,格子女是惹事精

迪士尼微胖女打架后續(xù):目擊者曝原因,警方通報,格子女是惹事精

野山歷史
2025-06-02 10:52:01
李在明口出豪言,尹錫悅和他硅膠娃娃的麻煩大了!

李在明口出豪言,尹錫悅和他硅膠娃娃的麻煩大了!

妮妮玩不夠
2025-06-02 08:59:31
白俄羅斯媒體:盧卡申科將訪華

白俄羅斯媒體:盧卡申科將訪華

環(huán)球網(wǎng)資訊
2025-06-02 15:05:43
46歲卡車司機(jī)缺氧離世留下6個孩子,卡友為家屬籌10萬:自費(fèi)護(hù)送其歸鄉(xiāng),已安葬

46歲卡車司機(jī)缺氧離世留下6個孩子,卡友為家屬籌10萬:自費(fèi)護(hù)送其歸鄉(xiāng),已安葬

環(huán)球網(wǎng)資訊
2025-06-02 15:20:05
香會爭吵激烈,菲防長問責(zé)我國,中方特殊表態(tài),瓦解美十年布局!

香會爭吵激烈,菲防長問責(zé)我國,中方特殊表態(tài),瓦解美十年布局!

科技有趣事
2025-06-02 11:05:42
太惡劣!確認(rèn)系擺拍!官方通報

太惡劣!確認(rèn)系擺拍!官方通報

蓬勃新聞
2025-06-02 12:55:17
意義超過珍珠港?烏攻擊5座俄機(jī)場41架轟炸機(jī),大帝大勢已去

意義超過珍珠港?烏攻擊5座俄機(jī)場41架轟炸機(jī),大帝大勢已去

邵旭峰域
2025-06-02 10:54:13
2025-06-02 16:11:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11142文章數(shù) 51279關(guān)注度
往期回顧 全部

科技要聞

新造車5月再洗牌:問界回前三,小米守第五

頭條要聞

美財長放話:美國永不會債務(wù)違約 我們不會公布"X日"

頭條要聞

美財長放話:美國永不會債務(wù)違約 我們不會公布"X日"

體育要聞

傲了一輩子的恩里克,心中永遠(yuǎn)住著一個小天使

娛樂要聞

章子怡深夜曬娃,兒女正面照曝光

財經(jīng)要聞

三大利空,突襲!

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態(tài)度原創(chuàng)

時尚
本地
親子
手機(jī)
數(shù)碼

后背小心機(jī)!4款鏤空單品讓你美得毫不費(fèi)力

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

親子要聞

媽媽和孩子之間的聯(lián)系遠(yuǎn)遠(yuǎn)比我們想象的要深

手機(jī)要聞

iPhone 16系列賣爆,這一組數(shù)據(jù)才是重點

數(shù)碼要聞

機(jī)械革命筆記本新模具曝光,提供藍(lán)白撞色設(shè)計

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 合肥市| 庐江县| 左权县| 韩城市| 安康市| 青田县| 石景山区| 焉耆| 湄潭县| 龙海市| 西盟| 台湾省| 宣武区| 绵阳市| 凤翔县| 衢州市| 玉龙| 公主岭市| 宣城市| 马边| 临海市| 堆龙德庆县| 朝阳县| 宁晋县| 苏尼特左旗| 江都市| 名山县| 治多县| 武山县| 太仆寺旗| 阿克苏市| 河曲县| 蕉岭县| 图们市| 含山县| 吉林省| 那曲县| 阿克陶县| 荆门市| 秭归县| 浦城县|