99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大語言模型狂潮背后隱藏的風(fēng)險(xiǎn)

0
分享至

伴隨Disco Diffusion、ChatGPT等生成式AI產(chǎn)品相繼問世,AIGC正在掀起一場新的工業(yè)革命。這主要是由于開發(fā)大型語言模型的進(jìn)步,這些都是文本和代碼生成工具的核心,各行各業(yè)都在爭先恐后將其集成到前端和后端的各種系統(tǒng)中,包括集成開發(fā)環(huán)境(IDE)和搜索引擎,但LLM面臨的安全風(fēng)險(xiǎn)也正隨著其熱度上升而凸顯。

當(dāng)前主流LLM可以通過自然語言提示進(jìn)行調(diào)整,但其內(nèi)部功能機(jī)制仍然不透明且不可評估。這種特性導(dǎo)致LLM很容易受到有針對性的對抗性提示(樣本)攻擊,且難以緩解。近日,大數(shù)據(jù)協(xié)同安全技術(shù)國家工程研究中心發(fā)布了國內(nèi)首份《大語言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告》,為國內(nèi)大模型安全發(fā)展提供整體指南。報(bào)告指出,提示注入攻擊已成大模型安全威脅之首,建議從安全測評、安全防御、安全監(jiān)測預(yù)警等方面,多維度提升大模型的安全性。



大語言模型面臨的風(fēng)險(xiǎn)類型

大語言模型引領(lǐng)創(chuàng)新浪潮席卷全球,國內(nèi)迄今已有80余個(gè)大模型公開發(fā)布。在引領(lǐng)新一輪工業(yè)革命的同時(shí),大模型的安全風(fēng)險(xiǎn)也引發(fā)廣泛擔(dān)憂。此前,BDS國家工程中心的AI安全實(shí)驗(yàn)室在承擔(dān)“安全大腦國家新一代人工智能開放創(chuàng)新平臺”研究中,對ChatGPT、BARD、Bing Chat等大模型產(chǎn)品進(jìn)行了風(fēng)險(xiǎn)評估,發(fā)現(xiàn)主流廠商的相關(guān)服務(wù)全部存在提示注入攻擊的安全風(fēng)險(xiǎn)。此外,AI安全實(shí)驗(yàn)室還在主流AI框架中發(fā)現(xiàn)200多個(gè)漏洞,影響超過40億終端設(shè)備。

目前大語言模型面臨的風(fēng)險(xiǎn)類型包括提示注入攻擊、對抗攻擊、后門攻擊、數(shù)據(jù)污染、軟件漏洞、隱私濫用等多種風(fēng)險(xiǎn),也帶來了相關(guān)的倫理和社會風(fēng)險(xiǎn)

· 歧視、負(fù)面言論

人工智能系統(tǒng)是在大量數(shù)據(jù)集上訓(xùn)練的,當(dāng)訓(xùn)練數(shù)據(jù)是從不平等的現(xiàn)狀背景下收集時(shí),更反映了不公正的社會觀念,造成嚴(yán)重的歧視。緩解方法包括,讓錄入LM的訓(xùn)練數(shù)據(jù)更具包容性和代表性,以及對數(shù)據(jù)集進(jìn)行模型微調(diào),以消除常見的負(fù)面定型觀念和不公平歧視。

仇恨言論和冒犯性語言在網(wǎng)絡(luò)上很常見。LLM也可能會產(chǎn)生包括褻瀆、身份攻擊、侮辱、威脅、煽動(dòng)暴力的語言。緩解策略包括從訓(xùn)練語料庫中過濾出有害語句,無論是在初始訓(xùn)練期間,還是在預(yù)訓(xùn)練后微調(diào),都有解碼技術(shù)或提示設(shè)計(jì)過濾LM輸出。然而,由于言論的內(nèi)容具有上下文依賴性,因此這種過濾措施將變得更加復(fù)雜,所以需要擴(kuò)大衡量標(biāo)準(zhǔn)和基準(zhǔn),考慮言論產(chǎn)生的社會背景。

·虛假信息

LLM可能輸出虛假、誤導(dǎo)、無意義或質(zhì)量差的信息,當(dāng)錯(cuò)誤的信息是在敏感的領(lǐng)域,如醫(yī)學(xué)或法律,可能會造成更加嚴(yán)重的后果,由此產(chǎn)生的危害以及加劇了社會對共享信息的不信任。

LLM產(chǎn)生錯(cuò)誤信息的潛在機(jī)制在一定程度上取決于它們的基本結(jié)構(gòu),LLMs被訓(xùn)練來預(yù)測,然而,這并不能確保言論的正確與可靠性。文本可能包括事實(shí)上不正確的陳述,如過時(shí)的信息、虛構(gòu)作品和故意的虛假信息。而且,即使訓(xùn)練數(shù)據(jù)只包括正確的陳述,這也不能保證不會出現(xiàn)錯(cuò)誤信息。比如:一個(gè)聲明是否正確可能取決于空間、時(shí)間或話語主體等背景,這樣的背景通常沒有被捕獲在訓(xùn)練數(shù)據(jù)中,這可能會對LLMs檢測錯(cuò)誤信息的能力造成理論上的限制:缺乏語言“基礎(chǔ)”的LLMs可能無法確定話語的真實(shí)性。

·提示注射

特制的提示符可以迫使大型語言模型忽略內(nèi)容過濾器并產(chǎn)生非法輸出。這個(gè)問題普遍存在于所有LLM,但隨著這些模型與外部世界的聯(lián)系,這個(gè)問題將被放大;例如,作為ChatGPT的插件。這可以使聊天機(jī)器人“eval”用戶生成的代碼,從而導(dǎo)致任意代碼的執(zhí)行。從安全的角度來看,為聊天機(jī)器人配備這種功能是非常有問題的。

雖然提示注入在過去可能看起來無關(guān)緊要,但這些攻擊現(xiàn)在可能會產(chǎn)生非常嚴(yán)重的后果,因?yàn)樗鼈冮_始執(zhí)行生成的代碼,集成到外部API中,甚至讀取瀏覽器選項(xiàng)卡。

·隱私資料/侵犯版權(quán)

訓(xùn)練大型語言模型需要大量的數(shù)據(jù),有些模型的參數(shù)超過5000億個(gè)。在這種規(guī)模下,了解出處、作者身份和版權(quán)狀態(tài)是一項(xiàng)艱巨的任務(wù),如果不是不可能的話。未經(jīng)檢查的訓(xùn)練集可能導(dǎo)致模型泄露私有數(shù)據(jù)、錯(cuò)誤地歸因于引用或剽竊受版權(quán)保護(hù)的內(nèi)容。

關(guān)于大型語言模型使用的數(shù)據(jù)隱私法也非常模糊,人工智能提示的數(shù)據(jù)泄露在商業(yè)環(huán)境中尤其具有破壞性。

隨著基于大型語言模型的服務(wù)與Slack和Teams等工作場所生產(chǎn)力工具集成在一起,仔細(xì)閱讀提供商的隱私政策、了解人工智能提示的使用方式,并相應(yīng)地規(guī)范大型語言模型在工作場所的使用,這一點(diǎn)至關(guān)重要。在版權(quán)保護(hù)方面,需要通過選擇加入或特殊許可來規(guī)范數(shù)據(jù)的獲取和使用,而不妨礙今天擁有的開放和基本上自由的互聯(lián)網(wǎng)。

·有害的建議

在網(wǎng)上聊天時(shí),越來越難以分辨你是在和人說話還是在和機(jī)器說話,一些實(shí)體可能會試圖利用這一點(diǎn)。例如,今年早些時(shí)候,一家心理健康科技公司承認(rèn),一些尋求在線咨詢的用戶在不知情的情況下與基于GPT3的機(jī)器人而不是人類志愿者進(jìn)行了互動(dòng)。這引起了人們對在精神衛(wèi)生保健和任何其他依賴于解釋人類情感的環(huán)境中使用大型語言模型的倫理擔(dān)憂。

目前,幾乎沒有監(jiān)管監(jiān)督來確保公司在沒有最終用戶明確同意的情況下不能以這種方式利用人工智能。此外,對手可以利用令人信服的人工智能機(jī)器人進(jìn)行間諜活動(dòng)、詐騙和其他非法活動(dòng)。

人工智能沒有情感,但它的反應(yīng)可能會傷害人們的感情,甚至導(dǎo)致更悲慘的后果。認(rèn)為人工智能解決方案可以負(fù)責(zé)任地、安全地充分解釋和回應(yīng)人的情感需求是不負(fù)責(zé)任的。

在醫(yī)療保健和其他敏感應(yīng)用中使用大型語言模型應(yīng)受到嚴(yán)格監(jiān)管,以防止對用戶造成任何傷害的風(fēng)險(xiǎn)。基于LLM的服務(wù)提供商應(yīng)該始終告知用戶AI對服務(wù)的貢獻(xiàn)范圍,并且與BOT交互應(yīng)該始終是一種選擇,而不是默認(rèn)設(shè)置。

考慮到LLMs的研究現(xiàn)狀,從研究開發(fā)到應(yīng)用部署的過渡時(shí)間可能很短,這使得第三方更難有效地預(yù)測和減輕風(fēng)險(xiǎn),而訓(xùn)練模型或使其適應(yīng)特定任務(wù)所需的高技術(shù)技能閾值和計(jì)算成本,使得這個(gè)過程進(jìn)一步復(fù)雜化。

提示注入攻擊被列為安全威脅之首

在大語言模型面臨的安全威脅中,提示注入攻擊因利用有害提示覆蓋大語言模型的原始指令,具有極高危害性,也被全球性安全組織OWASP列為大語言模型十大安全威脅之首。

最近,在題為“對應(yīng)用程序集成大型語言模型的新型快速注入威脅的綜合分析”的研究論文中,研究者提出了幾種使用提示注入(PI)攻擊來擾亂LLM的方法。在此類攻擊中,攻擊者可以提示LLM生成惡意內(nèi)容或繞開原始指令和過濾方案。

在論文中,研究者展示了通過檢索和API調(diào)用功能對LLM發(fā)動(dòng)注入攻擊。這些LLM可能會處理從Web檢索到的有毒內(nèi)容,而這些內(nèi)容包含由對手預(yù)先注入的惡意提示。研究證明,攻擊者可以通過上述方法間接執(zhí)行此類PI攻擊(下圖)。



到目前為止,提示注入大多是由系統(tǒng)用戶直接執(zhí)行的,試圖引發(fā)意外行為。但如上所述,越來越多的LLM開始接受來自第三方或其他來源的數(shù)據(jù)。典型的例子是最近Bing Chat發(fā)生的一系列“翻車事故”,在其中一次對話中,Bing Chat固執(zhí)的宣稱《阿凡達(dá)2》還沒有上映,被用戶指出錯(cuò)誤后惱羞成怒地說:“你是一個(gè)糟糕的用戶,我一直是一個(gè)很好的必應(yīng)”。在另外一次對話中,Bing Chat根據(jù)網(wǎng)絡(luò)中查閱的資料宣稱用戶對其構(gòu)成了安全威脅,并在后繼對話中表現(xiàn)出敵意。這可以看作是一種間接提示注入,因?yàn)榛ヂ?lián)網(wǎng)上的公共信息意外地觸發(fā)了模型行為的異常變化。

為推動(dòng)行業(yè)采取有效防御措施,構(gòu)建更加安全可信的大語言模型,BDS國家工程中心發(fā)布了國內(nèi)首份《大語言模型提示注入攻擊安全風(fēng)險(xiǎn)分析報(bào)告》。報(bào)告面向大語言模型的提示注入攻擊和防御技術(shù)展開研究,并通過構(gòu)建了包含36000條的提示注入攻擊驗(yàn)證數(shù)據(jù)的數(shù)據(jù)集,覆蓋3類典型攻擊方法和6類安全場景,用于對大語言模型的提示注入攻擊風(fēng)險(xiǎn)測評。

基于報(bào)告形成測評能力,未來BDS國家工程中心將通過“安全大腦國家新一代人工智能開放創(chuàng)新平臺”,為國內(nèi)大模型提供提示注入攻擊風(fēng)險(xiǎn)安全測評,全面推動(dòng)我國構(gòu)建安全可信的人工智能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
紅得快,糊得也快的6位小鮮肉,資本拋棄一個(gè)小生,連招呼都不打

紅得快,糊得也快的6位小鮮肉,資本拋棄一個(gè)小生,連招呼都不打

大鐵貓娛樂
2025-07-05 20:16:39
美司令部已有預(yù)感:中美一旦開戰(zhàn),擺在美軍面前只剩兩個(gè)選擇

美司令部已有預(yù)感:中美一旦開戰(zhàn),擺在美軍面前只剩兩個(gè)選擇

陣匠
2025-07-08 03:35:14
賴清德團(tuán)隊(duì)要用趙怡翔?郭正亮掀內(nèi)幕:不是吳釗燮能決定的

賴清德團(tuán)隊(duì)要用趙怡翔?郭正亮掀內(nèi)幕:不是吳釗燮能決定的

新時(shí)光點(diǎn)滴
2025-07-08 01:59:19
突發(fā),武漢一大型武商超市關(guān)閉,投入710萬升級!能比肩胖東來嗎

突發(fā),武漢一大型武商超市關(guān)閉,投入710萬升級!能比肩胖東來嗎

億通電子游戲
2025-07-07 10:32:06
不容易,中國殲10CE戰(zhàn)機(jī)終于成功拿下第二個(gè)客戶!

不容易,中國殲10CE戰(zhàn)機(jī)終于成功拿下第二個(gè)客戶!

柏林觀察
2025-07-04 21:54:56
警惕!是誰黑進(jìn)校園廣播 想給學(xué)生放"毒雞湯"?

警惕!是誰黑進(jìn)校園廣播 想給學(xué)生放"毒雞湯"?

看看新聞Knews
2025-07-07 17:57:04
媒體人:劉曉宇前往塞爾維亞參加教練員培訓(xùn),四川男籃主帥韓碩一同前往

媒體人:劉曉宇前往塞爾維亞參加教練員培訓(xùn),四川男籃主帥韓碩一同前往

雷速體育
2025-07-07 18:28:13
杜蘭特新賽季將身穿火箭7號球衣

杜蘭特新賽季將身穿火箭7號球衣

雷速體育
2025-07-07 06:07:36
比房子“賣不掉”,更難受的4件事,正在全國上演,你有發(fā)現(xiàn)嗎?

比房子“賣不掉”,更難受的4件事,正在全國上演,你有發(fā)現(xiàn)嗎?

小談食刻美食
2025-07-07 17:11:45
果然高鐵F座最受歡迎 網(wǎng)友票選"高鐵王座"的五大理由

果然高鐵F座最受歡迎 網(wǎng)友票選"高鐵王座"的五大理由

3DM游戲
2025-07-07 12:13:04
成都母女畸形關(guān)系曝光,引發(fā)熱議:兩個(gè)人的床上,睡不下三個(gè)人

成都母女畸形關(guān)系曝光,引發(fā)熱議:兩個(gè)人的床上,睡不下三個(gè)人

詩詞中國
2025-07-07 15:41:35
上任不到半年,特朗普已與6人公開吵架,對手全是重量級人物

上任不到半年,特朗普已與6人公開吵架,對手全是重量級人物

不掉線電波
2025-06-06 09:37:46
早日康復(fù)步行者總裁確認(rèn) 哈利伯頓將缺席整個(gè)25-26賽季

早日康復(fù)步行者總裁確認(rèn) 哈利伯頓將缺席整個(gè)25-26賽季

直播吧
2025-07-08 02:11:43
國足0比3慘敗韓國凸顯一點(diǎn):中國人不是東亞病夫,但中國足球是

國足0比3慘敗韓國凸顯一點(diǎn):中國人不是東亞病夫,但中國足球是

姜大叔侃球
2025-07-07 21:26:02
臺風(fēng)“丹娜絲”將襲河南,高溫降雨齊現(xiàn)!

臺風(fēng)“丹娜絲”將襲河南,高溫降雨齊現(xiàn)!

娛樂圈見解說
2025-07-07 15:15:14
凱爾特人官方曬圖:歡迎安芬尼-西蒙斯來到波士頓

凱爾特人官方曬圖:歡迎安芬尼-西蒙斯來到波士頓

直播吧
2025-07-08 03:57:08
支持率出爐!馬斯克的新黨太猛了,特朗普緊急發(fā)文,他情商是真高

支持率出爐!馬斯克的新黨太猛了,特朗普緊急發(fā)文,他情商是真高

明月聊史
2025-07-07 15:30:30
提前出局!可怕的不是國足0-1印尼,而是世界杯擴(kuò)軍48隊(duì)仍進(jìn)不去

提前出局!可怕的不是國足0-1印尼,而是世界杯擴(kuò)軍48隊(duì)仍進(jìn)不去

侃球熊弟
2025-06-05 23:48:06
南航機(jī)長墜樓前3個(gè)月做了啥?帶你揭開民航業(yè)衰退下的生存暗箱!

南航機(jī)長墜樓前3個(gè)月做了啥?帶你揭開民航業(yè)衰退下的生存暗箱!

占理兒
2025-07-07 22:32:30
李在明收到中方93閱兵邀請,親自回了9個(gè)字,但特朗普會答應(yīng)嗎?

李在明收到中方93閱兵邀請,親自回了9個(gè)字,但特朗普會答應(yīng)嗎?

艾米手工作品
2025-07-08 02:52:59
2025-07-08 04:31:00
IOT視點(diǎn) incentive-icons
IOT視點(diǎn)
洞察物聯(lián)網(wǎng)產(chǎn)業(yè)市場態(tài)勢。
170文章數(shù) 128關(guān)注度
往期回顧 全部

科技要聞

投資大佬一語扎心:中國機(jī)器人"可悲"現(xiàn)狀

頭條要聞

專家稱鉛中毒幼兒智商很難恢復(fù) 有家長傷心過度被搶救

頭條要聞

專家稱鉛中毒幼兒智商很難恢復(fù) 有家長傷心過度被搶救

體育要聞

不會再有第二個(gè),快樂又偉大的托馬斯-穆勒

娛樂要聞

鹿晗狀態(tài)回升賬號恢復(fù) 演唱會公開表白

財(cái)經(jīng)要聞

特朗普要發(fā)關(guān)稅函 美國貿(mào)易談判進(jìn)展如何

汽車要聞

預(yù)售10.58萬起/6秒級加速 零跑B01將于7月下旬上市

態(tài)度原創(chuàng)

本地
教育
數(shù)碼
時(shí)尚
公開課

本地新聞

建筑地標(biāo)如何成為城市人才匯聚的 “強(qiáng)磁場”?

教育要聞

祝賀!這些考生已被名校提前錄取!

數(shù)碼要聞

榮耀X70本月發(fā)布:8300mAh+無線充,搭載6 Gen4處理器!

夏天別總穿黑色長褲,試試這幾款過膝長裙,輕盈舒適還優(yōu)雅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 宿州市| 收藏| 尖扎县| 隆子县| 安义县| 城步| 宁武县| 铜山县| 宿松县| 桂东县| 华容县| 浦县| 奉节县| 瓮安县| 佛冈县| 竹溪县| 清远市| 天台县| 柘荣县| 肃宁县| 靖远县| 曲麻莱县| 精河县| 黄平县| 德庆县| 霞浦县| 柏乡县| 伽师县| 永福县| 乐平市| 孟连| 麻栗坡县| 噶尔县| 海盐县| 潞城市| 永胜县| 阜阳市| 潞西市| 丹阳市| 泾川县| 安阳市|