作者 | Sergio De Simone
審校 | 明知山
策劃 | Tina
為了防止在處理來自不可信來源的數(shù)據(jù)時遭受提示詞注入攻擊,谷歌 DeepMind 的研究人員提出了 CaMeL,一種圍繞 LLM 的防御層,通過從查詢中提取控制流和數(shù)據(jù)流來阻止惡意輸入。根據(jù)他們的實驗結(jié)果,CaMeL 能夠在 AgentDojo 安全基準(zhǔn)測試中抵御 67% 的攻擊。
眾所周知,攻擊者可以將惡意數(shù)據(jù)或指令注入到 LLM 的上下文中,目的是竊取數(shù)據(jù)或誘導(dǎo)模型以有害的方式執(zhí)行操作。例如,攻擊者可能會嘗試獲取聊天機(jī)器人的系統(tǒng)提示詞,以便獲取控制權(quán)或竊取敏感信息,例如訪問私有 Slack 頻道中的數(shù)據(jù)。更令人擔(dān)憂的是,當(dāng) LLM 能夠訪問具有現(xiàn)實世界影響的工具時,比如發(fā)送電子郵件或下單,這種情況的風(fēng)險就更大了。
即使 LLM 采取了特定策略來防御提示詞注入攻擊,攻擊者仍會設(shè)法繞過這些防護(hù)措施。一個近期的例子是 AI 安全專家 Johann Rehberger 展示的一種類似網(wǎng)絡(luò)釣魚的攻擊,成功繞過了 Gemini 對延遲工具執(zhí)行的保護(hù)。
CaMeL 是一項旨在解決這些風(fēng)險的新提案。CaMeL 不依賴更多的人工智能來防御人工智能系統(tǒng)(例如基于人工智能的提示詞注入檢測器),而是采用了傳統(tǒng)的軟件安全原則,如控制流完整性、訪問控制和信息流控制。
CaMeL 為每個值關(guān)聯(lián)了一些元數(shù)據(jù)(在軟件安全文獻(xiàn)中通常被稱為能力),用于限制數(shù)據(jù)和控制流,并通過使用細(xì)粒度的安全策略來表達(dá)可以和不可以對每個獨(dú)立值進(jìn)行哪些操作。
CaMeL 使用自定義的 Python 解釋器來跟蹤數(shù)據(jù)和指令的來源,強(qiáng)制執(zhí)行基于能力的安全性保障,無需對 LLM 本身進(jìn)行任何修改。它借鑒了 Simon Willison(他首次提出了“提示詞注入”一詞)所描述的雙 LLM 模式,并以巧妙的方式對其進(jìn)行了擴(kuò)展。
Willison 最初的提議包含了一個擁有特權(quán)的 LLM,它直接處理用戶的提示詞,以及一個被隔離的 LLM,它接觸的是不可信的數(shù)據(jù),并且無法使用任何工具。擁有特權(quán)的 LLM 管理工作流程,并可能要求被隔離的 LLM 從不受信任的數(shù)據(jù)中提取特定信息,例如電子郵件地址。這確保了特權(quán) LLM 永遠(yuǎn)不會直接接觸到不受信任的內(nèi)容,只處理隔離模型返回的、經(jīng)過過濾的結(jié)果。
谷歌研究人員表示,這種方案的缺陷在于,攻擊者仍然可以操縱被隔離的 LLM 生成誤導(dǎo)性的輸出,例如未經(jīng)授權(quán)訪問敏感信息的收件人的電子郵件地址。
在他們的新方案中,特權(quán) LLM 會生成一個使用受限的 Python 子集編寫的程序,這個程序負(fù)責(zé)執(zhí)行所有必要的步驟。當(dāng)這個程序從被隔離的 LLM 或其他工具接收數(shù)據(jù)時,它會構(gòu)建一個數(shù)據(jù)流圖,跟蹤每個數(shù)據(jù)元素的來源、訪問權(quán)限和相關(guān)元數(shù)據(jù)。隨后,這些元數(shù)據(jù)被用來確保對數(shù)據(jù)的任何操作都符合特權(quán)限制。
正如 Willison 在回應(yīng) CaMeL 提議時所強(qiáng)調(diào)的,這種方法的重要性在于不依賴更多的人工智能來解決人工智能問題:
人工智能技術(shù)使用的是概率:你可以用一系列以前的提示詞注入示例來訓(xùn)練模型,并在檢測新的示例時獲得 99% 的分?jǐn)?shù)……但這毫無用處,因為在應(yīng)用安全中,99% 是一個不及格的分?jǐn)?shù)。
為了測試 CaMeL 的有效性,DeepMind 的研究人員將其整合到 AgentDojo 中,一個自主智能體安全基準(zhǔn)測試,涵蓋了現(xiàn)實世界的一系列實用性和安全性任務(wù)。
DeepMind 的研究人員承認(rèn),CaMeL 并不是 LLM 安全的完美解決方案,最大的局限在于在于依賴用戶定義的安全策略。此外,由于 CaMeL 可能需要用戶手動審批涉及隱私的任務(wù),這可能會導(dǎo)致用戶疲勞,做出自動化或草率的審批。
如需了解更多討論細(xì)節(jié),請不要錯過原始論文。
查看原文鏈接:
https://www.infoq.com/news/2025/04/deepmind-camel-promt-injection/
聲明:本文由 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.