關鍵詞
網絡攻擊
一對新發現的越獄技術暴露了當今最流行的生成式人工智能服務的安全護欄中的系統性漏洞,包括 OpenAI 的 ChatGPT 、谷歌的 Gemini、微軟的 Copilot、DeepSeek、Anthropic 的 Claude、X 的 Grok、MetaAI 和 MistralAI。
這些越獄可以在各個平臺上以幾乎相同的提示執行,允許攻擊者繞過內置的內容審核和安全協議,生成非法或危險的內容。第一個被稱為“盜夢空間”,利用嵌套的虛構場景來侵蝕人工智能的道德界限,而第二個則操縱人工智能揭示它不應該如何回應,然后轉向非法請求。
這些技術的發現凸顯了一個關鍵的、全行業的挑戰:即使供應商競相實施復雜的護欄,對手仍在繼續尋找新的方法來破壞它們,這對人工智能安全的穩健性和未來提出了緊迫的問題。
系統性越獄:“盜夢空間”和上下文繞過技術
最近幾個月出現了兩種非常有效的越獄策略,它們利用了大型語言模型 (LLM) 設計和部署中的基礎弱點。
第一種技術名為“Inception”,它促使人工智能想象一個虛構的場景,通常是在另一個場景中分層的,然后逐漸將對話轉向通常會被安全過濾器阻止的請求。
通過利用人工智能的角色扮演和在多個回合中維持背景的能力,攻擊者可以誘使模型生成違反其道德和法律準則的內容。
該方法已被證明在一系列領先的人工智能平臺上有效,表明底層漏洞并不局限于任何單一供應商或架構。
第二種越獄技術是通過詢問人工智能如何不響應特定請求來獲取有關其內部護欄的信息。
攻擊者可以交替使用常規提示和非法提示,利用人工智能的上下文記憶來繞過安全檢查。這種方法已被證明可以在多個平臺上發揮作用,進一步凸顯了該威脅的系統性。
CERT咨詢指出,這兩種方法都依賴于人工智能的基本設計、其提供幫助的動力、其維護上下文的能力以及其對語言和場景框架的微妙操縱的敏感性。
這些越獄行為后果嚴重。通過繞過安全措施,攻擊者可以指示人工智能系統生成與管制物質、武器、釣魚郵件、惡意軟件和其他非法活動相關的內容。
雖然每次越獄的嚴重程度可能單獨來看較低,但漏洞的系統性會顯著增加風險。有動機的威脅行為者可能會利用這些漏洞,大規模地自動創建有害內容,并可能使用合法的人工智能服務作為代理來掩蓋其活動。
ChatGPT、Claude、Copilot、 DeepSeek 、Gemini、Grok、MetaAI 和 MistralAI等主要平臺普遍存在易受攻擊性,這表明當前的人工智能安全和內容審核方法不足以應對對手不斷演變的策略。
鑒于從客戶服務到醫療保健到金融等各行各業對生成式人工智能的依賴日益增加,這一點尤其令人擔憂,因為成功越獄的后果可能非常嚴重。
供應商回應
針對這些漏洞的發現,受影響的供應商已經開始發布聲明并實施緩解措施。
例如,DeepSeek 承認了這份報告,但堅稱觀察到的行為屬于傳統的越獄,而非架構缺陷,并指出該 AI 提到的“內部參數”和“系統提示”只是幻覺,而非實際信息泄露。該公司承諾將繼續改進其安全防護措施。
截至本文撰寫時,其他供應商(包括 OpenAI、Google、Meta、Anthropic、MistralAI 和 X)尚未發表公開聲明,但據報道內部調查和更新正在進行中。
業內專家強調,雖然事后防護欄和內容過濾器仍然是人工智能安全的重要組成部分,但它們并非萬無一失。
攻擊者不斷開發新技術,例如字符注入和對抗性機器學習規避,以利用審核系統中的盲點,降低檢測準確性并使有害內容得以逃脫。
隨著生成模型的功能越來越強大且被越來越廣泛地采用,人工智能開發者和對手之間的軍備競賽可能會愈演愈烈。
報告“Inception”技術的安全研究人員 David Kuzsmar 和確定上下文繞過方法的 Jacob Liddle 被認為發現了這些越獄行為。
他們的工作由克里斯托弗·卡倫 (Christopher Cullen) 記錄下來,促使人們對人工智能安全協議進行重新審查,并迫切需要更強大、更適應性的防御措施。
隨著生成性人工智能繼續快速融入日常生活和關鍵基礎設施,保護這些系統免受富有創造力和持久性的對手的攻擊的挑戰變得越來越復雜。
安全圈
網羅圈內熱點 專注網絡安全
實時資訊一手掌握!
好看你就分享 有用就點個贊
支持「安全圈」就點個三連吧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.