大語言模型狂潮背后隱藏的風(fēng)險(xiǎn)

2023-07-17 09:46:18　來源: IOT視點(diǎn)

北京舉報(bào)

分享至

伴隨Disco Diffusion、ChatGPT等生成式AI產(chǎn)品相繼問世，AIGC正在掀起一場新的工業(yè)革命。這主要是由于開發(fā)大型語言模型的進(jìn)步，這些都是文本和代碼生成工具的核心，各行各業(yè)都在爭先恐后將其集成到前端和后端的各種系統(tǒng)中，包括集成開發(fā)環(huán)境(IDE)和搜索引擎，但LLM面臨的安全風(fēng)險(xiǎn)也正隨著其熱度上升而凸顯。

當(dāng)前主流LLM可以通過自然語言提示進(jìn)行調(diào)整，但其內(nèi)部功能機(jī)制仍然不透明且不可評估。這種特性導(dǎo)致LLM很容易受到有針對性的對抗性提示（樣本）攻擊，且難以緩解。近日,大數(shù)據(jù)協(xié)同安全技術(shù)國家工程研究中心發(fā)布了國內(nèi)首份《大語言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告》，為國內(nèi)大模型安全發(fā)展提供整體指南。報(bào)告指出，提示注入攻擊已成大模型安全威脅之首，建議從安全測評、安全防御、安全監(jiān)測預(yù)警等方面，多維度提升大模型的安全性。

大語言模型面臨的風(fēng)險(xiǎn)類型

大語言模型引領(lǐng)創(chuàng)新浪潮席卷全球，國內(nèi)迄今已有80余個(gè)大模型公開發(fā)布。在引領(lǐng)新一輪工業(yè)革命的同時(shí)，大模型的安全風(fēng)險(xiǎn)也引發(fā)廣泛擔(dān)憂。此前，BDS國家工程中心的AI安全實(shí)驗(yàn)室在承擔(dān)“安全大腦國家新一代人工智能開放創(chuàng)新平臺”研究中，對ChatGPT、BARD、Bing Chat等大模型產(chǎn)品進(jìn)行了風(fēng)險(xiǎn)評估，發(fā)現(xiàn)主流廠商的相關(guān)服務(wù)全部存在提示注入攻擊的安全風(fēng)險(xiǎn)。此外,AI安全實(shí)驗(yàn)室還在主流AI框架中發(fā)現(xiàn)200多個(gè)漏洞，影響超過40億終端設(shè)備。

目前大語言模型面臨的風(fēng)險(xiǎn)類型包括提示注入攻擊、對抗攻擊、后門攻擊、數(shù)據(jù)污染、軟件漏洞、隱私濫用等多種風(fēng)險(xiǎn)，也帶來了相關(guān)的倫理和社會風(fēng)險(xiǎn)

· 歧視、負(fù)面言論

人工智能系統(tǒng)是在大量數(shù)據(jù)集上訓(xùn)練的，當(dāng)訓(xùn)練數(shù)據(jù)是從不平等的現(xiàn)狀背景下收集時(shí)，更反映了不公正的社會觀念，造成嚴(yán)重的歧視。緩解方法包括，讓錄入LM的訓(xùn)練數(shù)據(jù)更具包容性和代表性，以及對數(shù)據(jù)集進(jìn)行模型微調(diào)，以消除常見的負(fù)面定型觀念和不公平歧視。

仇恨言論和冒犯性語言在網(wǎng)絡(luò)上很常見。LLM也可能會產(chǎn)生包括褻瀆、身份攻擊、侮辱、威脅、煽動(dòng)暴力的語言。緩解策略包括從訓(xùn)練語料庫中過濾出有害語句，無論是在初始訓(xùn)練期間，還是在預(yù)訓(xùn)練后微調(diào)，都有解碼技術(shù)或提示設(shè)計(jì)過濾LM輸出。然而，由于言論的內(nèi)容具有上下文依賴性，因此這種過濾措施將變得更加復(fù)雜，所以需要擴(kuò)大衡量標(biāo)準(zhǔn)和基準(zhǔn)，考慮言論產(chǎn)生的社會背景。

·虛假信息

LLM可能輸出虛假、誤導(dǎo)、無意義或質(zhì)量差的信息，當(dāng)錯(cuò)誤的信息是在敏感的領(lǐng)域，如醫(yī)學(xué)或法律，可能會造成更加嚴(yán)重的后果，由此產(chǎn)生的危害以及加劇了社會對共享信息的不信任。

LLM產(chǎn)生錯(cuò)誤信息的潛在機(jī)制在一定程度上取決于它們的基本結(jié)構(gòu)，LLMs被訓(xùn)練來預(yù)測，然而，這并不能確保言論的正確與可靠性。文本可能包括事實(shí)上不正確的陳述，如過時(shí)的信息、虛構(gòu)作品和故意的虛假信息。而且，即使訓(xùn)練數(shù)據(jù)只包括正確的陳述，這也不能保證不會出現(xiàn)錯(cuò)誤信息。比如：一個(gè)聲明是否正確可能取決于空間、時(shí)間或話語主體等背景，這樣的背景通常沒有被捕獲在訓(xùn)練數(shù)據(jù)中，這可能會對LLMs檢測錯(cuò)誤信息的能力造成理論上的限制：缺乏語言“基礎(chǔ)”的LLMs可能無法確定話語的真實(shí)性。

·提示注射

特制的提示符可以迫使大型語言模型忽略內(nèi)容過濾器并產(chǎn)生非法輸出。這個(gè)問題普遍存在于所有LLM，但隨著這些模型與外部世界的聯(lián)系，這個(gè)問題將被放大；例如，作為ChatGPT的插件。這可以使聊天機(jī)器人“eval”用戶生成的代碼，從而導(dǎo)致任意代碼的執(zhí)行。從安全的角度來看，為聊天機(jī)器人配備這種功能是非常有問題的。

雖然提示注入在過去可能看起來無關(guān)緊要，但這些攻擊現(xiàn)在可能會產(chǎn)生非常嚴(yán)重的后果，因?yàn)樗鼈冮_始執(zhí)行生成的代碼，集成到外部API中，甚至讀取瀏覽器選項(xiàng)卡。

·隱私資料/侵犯版權(quán)

訓(xùn)練大型語言模型需要大量的數(shù)據(jù)，有些模型的參數(shù)超過5000億個(gè)。在這種規(guī)模下，了解出處、作者身份和版權(quán)狀態(tài)是一項(xiàng)艱巨的任務(wù)，如果不是不可能的話。未經(jīng)檢查的訓(xùn)練集可能導(dǎo)致模型泄露私有數(shù)據(jù)、錯(cuò)誤地歸因于引用或剽竊受版權(quán)保護(hù)的內(nèi)容。

關(guān)于大型語言模型使用的數(shù)據(jù)隱私法也非常模糊，人工智能提示的數(shù)據(jù)泄露在商業(yè)環(huán)境中尤其具有破壞性。

隨著基于大型語言模型的服務(wù)與Slack和Teams等工作場所生產(chǎn)力工具集成在一起，仔細(xì)閱讀提供商的隱私政策、了解人工智能提示的使用方式，并相應(yīng)地規(guī)范大型語言模型在工作場所的使用，這一點(diǎn)至關(guān)重要。在版權(quán)保護(hù)方面，需要通過選擇加入或特殊許可來規(guī)范數(shù)據(jù)的獲取和使用，而不妨礙今天擁有的開放和基本上自由的互聯(lián)網(wǎng)。

·有害的建議

在網(wǎng)上聊天時(shí)，越來越難以分辨你是在和人說話還是在和機(jī)器說話，一些實(shí)體可能會試圖利用這一點(diǎn)。例如，今年早些時(shí)候，一家心理健康科技公司承認(rèn)，一些尋求在線咨詢的用戶在不知情的情況下與基于GPT3的機(jī)器人而不是人類志愿者進(jìn)行了互動(dòng)。這引起了人們對在精神衛(wèi)生保健和任何其他依賴于解釋人類情感的環(huán)境中使用大型語言模型的倫理擔(dān)憂。

目前，幾乎沒有監(jiān)管監(jiān)督來確保公司在沒有最終用戶明確同意的情況下不能以這種方式利用人工智能。此外，對手可以利用令人信服的人工智能機(jī)器人進(jìn)行間諜活動(dòng)、詐騙和其他非法活動(dòng)。

人工智能沒有情感，但它的反應(yīng)可能會傷害人們的感情，甚至導(dǎo)致更悲慘的后果。認(rèn)為人工智能解決方案可以負(fù)責(zé)任地、安全地充分解釋和回應(yīng)人的情感需求是不負(fù)責(zé)任的。

在醫(yī)療保健和其他敏感應(yīng)用中使用大型語言模型應(yīng)受到嚴(yán)格監(jiān)管，以防止對用戶造成任何傷害的風(fēng)險(xiǎn)。基于LLM的服務(wù)提供商應(yīng)該始終告知用戶AI對服務(wù)的貢獻(xiàn)范圍，并且與BOT交互應(yīng)該始終是一種選擇，而不是默認(rèn)設(shè)置。

考慮到LLMs的研究現(xiàn)狀，從研究開發(fā)到應(yīng)用部署的過渡時(shí)間可能很短，這使得第三方更難有效地預(yù)測和減輕風(fēng)險(xiǎn)，而訓(xùn)練模型或使其適應(yīng)特定任務(wù)所需的高技術(shù)技能閾值和計(jì)算成本，使得這個(gè)過程進(jìn)一步復(fù)雜化。

提示注入攻擊被列為安全威脅之首

在大語言模型面臨的安全威脅中，提示注入攻擊因利用有害提示覆蓋大語言模型的原始指令，具有極高危害性，也被全球性安全組織OWASP列為大語言模型十大安全威脅之首。

最近，在題為“對應(yīng)用程序集成大型語言模型的新型快速注入威脅的綜合分析”的研究論文中，研究者提出了幾種使用提示注入(PI)攻擊來擾亂LLM的方法。在此類攻擊中，攻擊者可以提示LLM生成惡意內(nèi)容或繞開原始指令和過濾方案。

在論文中，研究者展示了通過檢索和API調(diào)用功能對LLM發(fā)動(dòng)注入攻擊。這些LLM可能會處理從Web檢索到的有毒內(nèi)容，而這些內(nèi)容包含由對手預(yù)先注入的惡意提示。研究證明，攻擊者可以通過上述方法間接執(zhí)行此類PI攻擊（下圖）。

到目前為止，提示注入大多是由系統(tǒng)用戶直接執(zhí)行的，試圖引發(fā)意外行為。但如上所述，越來越多的LLM開始接受來自第三方或其他來源的數(shù)據(jù)。典型的例子是最近Bing Chat發(fā)生的一系列“翻車事故”，在其中一次對話中，Bing Chat固執(zhí)的宣稱《阿凡達(dá)2》還沒有上映，被用戶指出錯(cuò)誤后惱羞成怒地說：“你是一個(gè)糟糕的用戶，我一直是一個(gè)很好的必應(yīng)”。在另外一次對話中，Bing Chat根據(jù)網(wǎng)絡(luò)中查閱的資料宣稱用戶對其構(gòu)成了安全威脅，并在后繼對話中表現(xiàn)出敵意。這可以看作是一種間接提示注入，因?yàn)榛ヂ?lián)網(wǎng)上的公共信息意外地觸發(fā)了模型行為的異常變化。

為推動(dòng)行業(yè)采取有效防御措施，構(gòu)建更加安全可信的大語言模型，BDS國家工程中心發(fā)布了國內(nèi)首份《大語言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告》。報(bào)告面向大語言模型的提示注入攻擊和防御技術(shù)展開研究，并通過構(gòu)建了包含36000條的提示注入攻擊驗(yàn)證數(shù)據(jù)的數(shù)據(jù)集，覆蓋3類典型攻擊方法和6類安全場景，用于對大語言模型的提示注入攻擊風(fēng)險(xiǎn)測評。

基于報(bào)告形成測評能力,未來BDS國家工程中心將通過“安全大腦國家新一代人工智能開放創(chuàng)新平臺”,為國內(nèi)大模型提供提示注入攻擊風(fēng)險(xiǎn)安全測評，全面推動(dòng)我國構(gòu)建安全可信的人工智能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.