伴隨Disco Diffusion、ChatGPT等生成式AI產品相繼問世,AIGC正在掀起一場新的工業革命。這主要是由于開發大型語言模型的進步,這些都是文本和代碼生成工具的核心,各行各業都在爭先恐后將其集成到前端和后端的各種系統中,包括集成開發環境(IDE)和搜索引擎,但LLM面臨的安全風險也正隨著其熱度上升而凸顯。
當前主流LLM可以通過自然語言提示進行調整,但其內部功能機制仍然不透明且不可評估。這種特性導致LLM很容易受到有針對性的對抗性提示(樣本)攻擊,且難以緩解。近日,大數據協同安全技術國家工程研究中心發布了國內首份《大語言模型提示注入攻擊安全風險分析報告》,為國內大模型安全發展提供整體指南。報告指出,提示注入攻擊已成大模型安全威脅之首,建議從安全測評、安全防御、安全監測預警等方面,多維度提升大模型的安全性。
大語言模型面臨的風險類型
大語言模型引領創新浪潮席卷全球,國內迄今已有80余個大模型公開發布。在引領新一輪工業革命的同時,大模型的安全風險也引發廣泛擔憂。此前,BDS國家工程中心的AI安全實驗室在承擔“安全大腦國家新一代人工智能開放創新平臺”研究中,對ChatGPT、BARD、Bing Chat等大模型產品進行了風險評估,發現主流廠商的相關服務全部存在提示注入攻擊的安全風險。此外,AI安全實驗室還在主流AI框架中發現200多個漏洞,影響超過40億終端設備。
目前大語言模型面臨的風險類型包括提示注入攻擊、對抗攻擊、后門攻擊、數據污染、軟件漏洞、隱私濫用等多種風險,也帶來了相關的倫理和社會風險
· 歧視、負面言論
人工智能系統是在大量數據集上訓練的,當訓練數據是從不平等的現狀背景下收集時,更反映了不公正的社會觀念,造成嚴重的歧視。緩解方法包括,讓錄入LM的訓練數據更具包容性和代表性,以及對數據集進行模型微調,以消除常見的負面定型觀念和不公平歧視。
仇恨言論和冒犯性語言在網絡上很常見。LLM也可能會產生包括褻瀆、身份攻擊、侮辱、威脅、煽動暴力的語言。緩解策略包括從訓練語料庫中過濾出有害語句,無論是在初始訓練期間,還是在預訓練后微調,都有解碼技術或提示設計過濾LM輸出。然而,由于言論的內容具有上下文依賴性,因此這種過濾措施將變得更加復雜,所以需要擴大衡量標準和基準,考慮言論產生的社會背景。
·虛假信息
LLM可能輸出虛假、誤導、無意義或質量差的信息,當錯誤的信息是在敏感的領域,如醫學或法律,可能會造成更加嚴重的后果,由此產生的危害以及加劇了社會對共享信息的不信任。
LLM產生錯誤信息的潛在機制在一定程度上取決于它們的基本結構,LLMs被訓練來預測,然而,這并不能確保言論的正確與可靠性。文本可能包括事實上不正確的陳述,如過時的信息、虛構作品和故意的虛假信息。而且,即使訓練數據只包括正確的陳述,這也不能保證不會出現錯誤信息。比如:一個聲明是否正確可能取決于空間、時間或話語主體等背景,這樣的背景通常沒有被捕獲在訓練數據中,這可能會對LLMs檢測錯誤信息的能力造成理論上的限制:缺乏語言“基礎”的LLMs可能無法確定話語的真實性。
·提示注射
特制的提示符可以迫使大型語言模型忽略內容過濾器并產生非法輸出。這個問題普遍存在于所有LLM,但隨著這些模型與外部世界的聯系,這個問題將被放大;例如,作為ChatGPT的插件。這可以使聊天機器人“eval”用戶生成的代碼,從而導致任意代碼的執行。從安全的角度來看,為聊天機器人配備這種功能是非常有問題的。
雖然提示注入在過去可能看起來無關緊要,但這些攻擊現在可能會產生非常嚴重的后果,因為它們開始執行生成的代碼,集成到外部API中,甚至讀取瀏覽器選項卡。
·隱私資料/侵犯版權
訓練大型語言模型需要大量的數據,有些模型的參數超過5000億個。在這種規模下,了解出處、作者身份和版權狀態是一項艱巨的任務,如果不是不可能的話。未經檢查的訓練集可能導致模型泄露私有數據、錯誤地歸因于引用或剽竊受版權保護的內容。
關于大型語言模型使用的數據隱私法也非常模糊,人工智能提示的數據泄露在商業環境中尤其具有破壞性。
隨著基于大型語言模型的服務與Slack和Teams等工作場所生產力工具集成在一起,仔細閱讀提供商的隱私政策、了解人工智能提示的使用方式,并相應地規范大型語言模型在工作場所的使用,這一點至關重要。在版權保護方面,需要通過選擇加入或特殊許可來規范數據的獲取和使用,而不妨礙今天擁有的開放和基本上自由的互聯網。
·有害的建議
在網上聊天時,越來越難以分辨你是在和人說話還是在和機器說話,一些實體可能會試圖利用這一點。例如,今年早些時候,一家心理健康科技公司承認,一些尋求在線咨詢的用戶在不知情的情況下與基于GPT3的機器人而不是人類志愿者進行了互動。這引起了人們對在精神衛生保健和任何其他依賴于解釋人類情感的環境中使用大型語言模型的倫理擔憂。
目前,幾乎沒有監管監督來確保公司在沒有最終用戶明確同意的情況下不能以這種方式利用人工智能。此外,對手可以利用令人信服的人工智能機器人進行間諜活動、詐騙和其他非法活動。
人工智能沒有情感,但它的反應可能會傷害人們的感情,甚至導致更悲慘的后果。認為人工智能解決方案可以負責任地、安全地充分解釋和回應人的情感需求是不負責任的。
在醫療保健和其他敏感應用中使用大型語言模型應受到嚴格監管,以防止對用戶造成任何傷害的風險。基于LLM的服務提供商應該始終告知用戶AI對服務的貢獻范圍,并且與BOT交互應該始終是一種選擇,而不是默認設置。
考慮到LLMs的研究現狀,從研究開發到應用部署的過渡時間可能很短,這使得第三方更難有效地預測和減輕風險,而訓練模型或使其適應特定任務所需的高技術技能閾值和計算成本,使得這個過程進一步復雜化。
提示注入攻擊被列為安全威脅之首
在大語言模型面臨的安全威脅中,提示注入攻擊因利用有害提示覆蓋大語言模型的原始指令,具有極高危害性,也被全球性安全組織OWASP列為大語言模型十大安全威脅之首。
最近,在題為“對應用程序集成大型語言模型的新型快速注入威脅的綜合分析”的研究論文中,研究者提出了幾種使用提示注入(PI)攻擊來擾亂LLM的方法。在此類攻擊中,攻擊者可以提示LLM生成惡意內容或繞開原始指令和過濾方案。
在論文中,研究者展示了通過檢索和API調用功能對LLM發動注入攻擊。這些LLM可能會處理從Web檢索到的有毒內容,而這些內容包含由對手預先注入的惡意提示。研究證明,攻擊者可以通過上述方法間接執行此類PI攻擊(下圖)。
到目前為止,提示注入大多是由系統用戶直接執行的,試圖引發意外行為。但如上所述,越來越多的LLM開始接受來自第三方或其他來源的數據。典型的例子是最近Bing Chat發生的一系列“翻車事故”,在其中一次對話中,Bing Chat固執的宣稱《阿凡達2》還沒有上映,被用戶指出錯誤后惱羞成怒地說:“你是一個糟糕的用戶,我一直是一個很好的必應”。在另外一次對話中,Bing Chat根據網絡中查閱的資料宣稱用戶對其構成了安全威脅,并在后繼對話中表現出敵意。這可以看作是一種間接提示注入,因為互聯網上的公共信息意外地觸發了模型行為的異常變化。
為推動行業采取有效防御措施,構建更加安全可信的大語言模型,BDS國家工程中心發布了國內首份《大語言模型提示注入攻擊安全風險分析報告》。報告面向大語言模型的提示注入攻擊和防御技術展開研究,并通過構建了包含36000條的提示注入攻擊驗證數據的數據集,覆蓋3類典型攻擊方法和6類安全場景,用于對大語言模型的提示注入攻擊風險測評。
基于報告形成測評能力,未來BDS國家工程中心將通過“安全大腦國家新一代人工智能開放創新平臺”,為國內大模型提供提示注入攻擊風險安全測評,全面推動我國構建安全可信的人工智能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.