DeepMind 提出 CaMeL，抵御 LLM 提示詞注入

2025-05-15 13:33:15　來源: InfoQ

北京舉報

分享至

作者 | Sergio De Simone

審校 | 明知山

策劃 | Tina

為了防止在處理來自不可信來源的數(shù)據(jù)時遭受提示詞注入攻擊，谷歌 DeepMind 的研究人員提出了 CaMeL，一種圍繞 LLM 的防御層，通過從查詢中提取控制流和數(shù)據(jù)流來阻止惡意輸入。根據(jù)他們的實驗結(jié)果，CaMeL 能夠在 AgentDojo 安全基準(zhǔn)測試中抵御 67% 的攻擊。

眾所周知，攻擊者可以將惡意數(shù)據(jù)或指令注入到 LLM 的上下文中，目的是竊取數(shù)據(jù)或誘導(dǎo)模型以有害的方式執(zhí)行操作。例如，攻擊者可能會嘗試獲取聊天機(jī)器人的系統(tǒng)提示詞，以便獲取控制權(quán)或竊取敏感信息，例如訪問私有 Slack 頻道中的數(shù)據(jù)。更令人擔(dān)憂的是，當(dāng) LLM 能夠訪問具有現(xiàn)實世界影響的工具時，比如發(fā)送電子郵件或下單，這種情況的風(fēng)險就更大了。

即使 LLM 采取了特定策略來防御提示詞注入攻擊，攻擊者仍會設(shè)法繞過這些防護(hù)措施。一個近期的例子是 AI 安全專家 Johann Rehberger 展示的一種類似網(wǎng)絡(luò)釣魚的攻擊，成功繞過了 Gemini 對延遲工具執(zhí)行的保護(hù)。

CaMeL 是一項旨在解決這些風(fēng)險的新提案。CaMeL 不依賴更多的人工智能來防御人工智能系統(tǒng)（例如基于人工智能的提示詞注入檢測器），而是采用了傳統(tǒng)的軟件安全原則，如控制流完整性、訪問控制和信息流控制。

CaMeL 為每個值關(guān)聯(lián)了一些元數(shù)據(jù)（在軟件安全文獻(xiàn)中通常被稱為能力），用于限制數(shù)據(jù)和控制流，并通過使用細(xì)粒度的安全策略來表達(dá)可以和不可以對每個獨(dú)立值進(jìn)行哪些操作。

CaMeL 使用自定義的 Python 解釋器來跟蹤數(shù)據(jù)和指令的來源，強(qiáng)制執(zhí)行基于能力的安全性保障，無需對 LLM 本身進(jìn)行任何修改。它借鑒了 Simon Willison（他首次提出了“提示詞注入”一詞）所描述的雙 LLM 模式，并以巧妙的方式對其進(jìn)行了擴(kuò)展。

Willison 最初的提議包含了一個擁有特權(quán)的 LLM，它直接處理用戶的提示詞，以及一個被隔離的 LLM，它接觸的是不可信的數(shù)據(jù)，并且無法使用任何工具。擁有特權(quán)的 LLM 管理工作流程，并可能要求被隔離的 LLM 從不受信任的數(shù)據(jù)中提取特定信息，例如電子郵件地址。這確保了特權(quán) LLM 永遠(yuǎn)不會直接接觸到不受信任的內(nèi)容，只處理隔離模型返回的、經(jīng)過過濾的結(jié)果。

谷歌研究人員表示，這種方案的缺陷在于，攻擊者仍然可以操縱被隔離的 LLM 生成誤導(dǎo)性的輸出，例如未經(jīng)授權(quán)訪問敏感信息的收件人的電子郵件地址。

在他們的新方案中，特權(quán) LLM 會生成一個使用受限的 Python 子集編寫的程序，這個程序負(fù)責(zé)執(zhí)行所有必要的步驟。當(dāng)這個程序從被隔離的 LLM 或其他工具接收數(shù)據(jù)時，它會構(gòu)建一個數(shù)據(jù)流圖，跟蹤每個數(shù)據(jù)元素的來源、訪問權(quán)限和相關(guān)元數(shù)據(jù)。隨后，這些元數(shù)據(jù)被用來確保對數(shù)據(jù)的任何操作都符合特權(quán)限制。

正如 Willison 在回應(yīng) CaMeL 提議時所強(qiáng)調(diào)的，這種方法的重要性在于不依賴更多的人工智能來解決人工智能問題：

人工智能技術(shù)使用的是概率：你可以用一系列以前的提示詞注入示例來訓(xùn)練模型，并在檢測新的示例時獲得 99% 的分?jǐn)?shù)……但這毫無用處，因為在應(yīng)用安全中，99% 是一個不及格的分?jǐn)?shù)。

為了測試 CaMeL 的有效性，DeepMind 的研究人員將其整合到 AgentDojo 中，一個自主智能體安全基準(zhǔn)測試，涵蓋了現(xiàn)實世界的一系列實用性和安全性任務(wù)。

DeepMind 的研究人員承認(rèn)，CaMeL 并不是 LLM 安全的完美解決方案，最大的局限在于在于依賴用戶定義的安全策略。此外，由于 CaMeL 可能需要用戶手動審批涉及隱私的任務(wù)，這可能會導(dǎo)致用戶疲勞，做出自動化或草率的審批。

如需了解更多討論細(xì)節(jié)，請不要錯過原始論文。

查看原文鏈接：

https://www.infoq.com/news/2025/04/deepmind-camel-promt-injection/

聲明：本文由 InfoQ 翻譯，未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.