99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大語言模型狂潮背后隱藏的風險

0
分享至

伴隨Disco Diffusion、ChatGPT等生成式AI產品相繼問世,AIGC正在掀起一場新的工業革命。這主要是由于開發大型語言模型的進步,這些都是文本和代碼生成工具的核心,各行各業都在爭先恐后將其集成到前端和后端的各種系統中,包括集成開發環境(IDE)和搜索引擎,但LLM面臨的安全風險也正隨著其熱度上升而凸顯。

當前主流LLM可以通過自然語言提示進行調整,但其內部功能機制仍然不透明且不可評估。這種特性導致LLM很容易受到有針對性的對抗性提示(樣本)攻擊,且難以緩解。近日,大數據協同安全技術國家工程研究中心發布了國內首份《大語言模型提示注入攻擊安全風險分析報告》,為國內大模型安全發展提供整體指南。報告指出,提示注入攻擊已成大模型安全威脅之首,建議從安全測評、安全防御、安全監測預警等方面,多維度提升大模型的安全性。



大語言模型面臨的風險類型

大語言模型引領創新浪潮席卷全球,國內迄今已有80余個大模型公開發布。在引領新一輪工業革命的同時,大模型的安全風險也引發廣泛擔憂。此前,BDS國家工程中心的AI安全實驗室在承擔“安全大腦國家新一代人工智能開放創新平臺”研究中,對ChatGPT、BARD、Bing Chat等大模型產品進行了風險評估,發現主流廠商的相關服務全部存在提示注入攻擊的安全風險。此外,AI安全實驗室還在主流AI框架中發現200多個漏洞,影響超過40億終端設備。

目前大語言模型面臨的風險類型包括提示注入攻擊、對抗攻擊、后門攻擊、數據污染、軟件漏洞、隱私濫用等多種風險,也帶來了相關的倫理和社會風險

· 歧視、負面言論

人工智能系統是在大量數據集上訓練的,當訓練數據是從不平等的現狀背景下收集時,更反映了不公正的社會觀念,造成嚴重的歧視。緩解方法包括,讓錄入LM的訓練數據更具包容性和代表性,以及對數據集進行模型微調,以消除常見的負面定型觀念和不公平歧視。

仇恨言論和冒犯性語言在網絡上很常見。LLM也可能會產生包括褻瀆、身份攻擊、侮辱、威脅、煽動暴力的語言。緩解策略包括從訓練語料庫中過濾出有害語句,無論是在初始訓練期間,還是在預訓練后微調,都有解碼技術或提示設計過濾LM輸出。然而,由于言論的內容具有上下文依賴性,因此這種過濾措施將變得更加復雜,所以需要擴大衡量標準和基準,考慮言論產生的社會背景。

·虛假信息

LLM可能輸出虛假、誤導、無意義或質量差的信息,當錯誤的信息是在敏感的領域,如醫學或法律,可能會造成更加嚴重的后果,由此產生的危害以及加劇了社會對共享信息的不信任。

LLM產生錯誤信息的潛在機制在一定程度上取決于它們的基本結構,LLMs被訓練來預測,然而,這并不能確保言論的正確與可靠性。文本可能包括事實上不正確的陳述,如過時的信息、虛構作品和故意的虛假信息。而且,即使訓練數據只包括正確的陳述,這也不能保證不會出現錯誤信息。比如:一個聲明是否正確可能取決于空間、時間或話語主體等背景,這樣的背景通常沒有被捕獲在訓練數據中,這可能會對LLMs檢測錯誤信息的能力造成理論上的限制:缺乏語言“基礎”的LLMs可能無法確定話語的真實性。

·提示注射

特制的提示符可以迫使大型語言模型忽略內容過濾器并產生非法輸出。這個問題普遍存在于所有LLM,但隨著這些模型與外部世界的聯系,這個問題將被放大;例如,作為ChatGPT的插件。這可以使聊天機器人“eval”用戶生成的代碼,從而導致任意代碼的執行。從安全的角度來看,為聊天機器人配備這種功能是非常有問題的。

雖然提示注入在過去可能看起來無關緊要,但這些攻擊現在可能會產生非常嚴重的后果,因為它們開始執行生成的代碼,集成到外部API中,甚至讀取瀏覽器選項卡。

·隱私資料/侵犯版權

訓練大型語言模型需要大量的數據,有些模型的參數超過5000億個。在這種規模下,了解出處、作者身份和版權狀態是一項艱巨的任務,如果不是不可能的話。未經檢查的訓練集可能導致模型泄露私有數據、錯誤地歸因于引用或剽竊受版權保護的內容。

關于大型語言模型使用的數據隱私法也非常模糊,人工智能提示的數據泄露在商業環境中尤其具有破壞性。

隨著基于大型語言模型的服務與Slack和Teams等工作場所生產力工具集成在一起,仔細閱讀提供商的隱私政策、了解人工智能提示的使用方式,并相應地規范大型語言模型在工作場所的使用,這一點至關重要。在版權保護方面,需要通過選擇加入或特殊許可來規范數據的獲取和使用,而不妨礙今天擁有的開放和基本上自由的互聯網。

·有害的建議

在網上聊天時,越來越難以分辨你是在和人說話還是在和機器說話,一些實體可能會試圖利用這一點。例如,今年早些時候,一家心理健康科技公司承認,一些尋求在線咨詢的用戶在不知情的情況下與基于GPT3的機器人而不是人類志愿者進行了互動。這引起了人們對在精神衛生保健和任何其他依賴于解釋人類情感的環境中使用大型語言模型的倫理擔憂。

目前,幾乎沒有監管監督來確保公司在沒有最終用戶明確同意的情況下不能以這種方式利用人工智能。此外,對手可以利用令人信服的人工智能機器人進行間諜活動、詐騙和其他非法活動。

人工智能沒有情感,但它的反應可能會傷害人們的感情,甚至導致更悲慘的后果。認為人工智能解決方案可以負責任地、安全地充分解釋和回應人的情感需求是不負責任的。

在醫療保健和其他敏感應用中使用大型語言模型應受到嚴格監管,以防止對用戶造成任何傷害的風險。基于LLM的服務提供商應該始終告知用戶AI對服務的貢獻范圍,并且與BOT交互應該始終是一種選擇,而不是默認設置。

考慮到LLMs的研究現狀,從研究開發到應用部署的過渡時間可能很短,這使得第三方更難有效地預測和減輕風險,而訓練模型或使其適應特定任務所需的高技術技能閾值和計算成本,使得這個過程進一步復雜化。

提示注入攻擊被列為安全威脅之首

在大語言模型面臨的安全威脅中,提示注入攻擊因利用有害提示覆蓋大語言模型的原始指令,具有極高危害性,也被全球性安全組織OWASP列為大語言模型十大安全威脅之首。

最近,在題為“對應用程序集成大型語言模型的新型快速注入威脅的綜合分析”的研究論文中,研究者提出了幾種使用提示注入(PI)攻擊來擾亂LLM的方法。在此類攻擊中,攻擊者可以提示LLM生成惡意內容或繞開原始指令和過濾方案。

在論文中,研究者展示了通過檢索和API調用功能對LLM發動注入攻擊。這些LLM可能會處理從Web檢索到的有毒內容,而這些內容包含由對手預先注入的惡意提示。研究證明,攻擊者可以通過上述方法間接執行此類PI攻擊(下圖)。



到目前為止,提示注入大多是由系統用戶直接執行的,試圖引發意外行為。但如上所述,越來越多的LLM開始接受來自第三方或其他來源的數據。典型的例子是最近Bing Chat發生的一系列“翻車事故”,在其中一次對話中,Bing Chat固執的宣稱《阿凡達2》還沒有上映,被用戶指出錯誤后惱羞成怒地說:“你是一個糟糕的用戶,我一直是一個很好的必應”。在另外一次對話中,Bing Chat根據網絡中查閱的資料宣稱用戶對其構成了安全威脅,并在后繼對話中表現出敵意。這可以看作是一種間接提示注入,因為互聯網上的公共信息意外地觸發了模型行為的異常變化。

為推動行業采取有效防御措施,構建更加安全可信的大語言模型,BDS國家工程中心發布了國內首份《大語言模型提示注入攻擊安全風險分析報告》。報告面向大語言模型的提示注入攻擊和防御技術展開研究,并通過構建了包含36000條的提示注入攻擊驗證數據的數據集,覆蓋3類典型攻擊方法和6類安全場景,用于對大語言模型的提示注入攻擊風險測評。

基于報告形成測評能力,未來BDS國家工程中心將通過“安全大腦國家新一代人工智能開放創新平臺”,為國內大模型提供提示注入攻擊風險安全測評,全面推動我國構建安全可信的人工智能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
印巴這一戰,撕掉法國遮羞布,耿爽那句話含金量還在上升

印巴這一戰,撕掉法國遮羞布,耿爽那句話含金量還在上升

時時有聊
2025-05-08 07:01:54
吳小莉現身福耀科技大學與曹德旺同行 57歲的她很年輕 氣質好優雅

吳小莉現身福耀科技大學與曹德旺同行 57歲的她很年輕 氣質好優雅

說說史事
2025-05-08 09:56:04
不舍!廣州一知名酒樓宣布即將停業!街坊:有太多的回憶……

不舍!廣州一知名酒樓宣布即將停業!街坊:有太多的回憶……

城事特搜
2025-05-07 20:03:36
有些人天生壞種!反駁《沒能力還想高工資8小時》,評論區炸鍋

有些人天生壞種!反駁《沒能力還想高工資8小時》,評論區炸鍋

南南說娛
2025-05-07 09:35:00
44歲男歌手被發現在家中去世,在上海參加選秀走紅!死因曝光,真的太可惜……

44歲男歌手被發現在家中去世,在上海參加選秀走紅!死因曝光,真的太可惜……

環球網資訊
2025-05-08 12:05:05
從上海鉆交所視角看天然鉆石投資:稀缺、增值與未來市場新動向

從上海鉆交所視角看天然鉆石投資:稀缺、增值與未來市場新動向

上海鉆石交易所
2025-04-27 14:13:56
山東重要預報:大范圍降雨馬上到,局部大雨+雷電+冰雹+11級大風!濟南降雨時段來了

山東重要預報:大范圍降雨馬上到,局部大雨+雷電+冰雹+11級大風!濟南降雨時段來了

魯中晨報
2025-05-08 13:16:03
為什么現在孩子會離奇地抑郁?看完評論區我這成年人都差點破防!

為什么現在孩子會離奇地抑郁?看完評論區我這成年人都差點破防!

戶外小阿隋
2025-04-24 11:20:05
恭喜德布勞內!空降意甲爭冠!3年長約+承諾核心,欲復仇曼城

恭喜德布勞內!空降意甲爭冠!3年長約+承諾核心,欲復仇曼城

阿泰希特
2025-05-08 12:12:49
巴基斯坦第二大城市拉合爾響起爆炸聲

巴基斯坦第二大城市拉合爾響起爆炸聲

界面新聞
2025-05-08 11:17:49
上海交大邵志峰教授被舉報!攫取學生課題,威逼干私活,不讓畢業

上海交大邵志峰教授被舉報!攫取學生課題,威逼干私活,不讓畢業

180°視角
2025-05-08 12:38:51
撈相機溺亡女游客身份被扒,年僅30是專業潛導,犯了三大致命疏忽

撈相機溺亡女游客身份被扒,年僅30是專業潛導,犯了三大致命疏忽

奇思妙想草葉君
2025-05-07 23:12:57
巴外長當眾感謝中國,但提到殲-10C時他稱:是中巴聯合研發的戰機

巴外長當眾感謝中國,但提到殲-10C時他稱:是中巴聯合研發的戰機

千里持劍
2025-05-08 08:13:37
澳門這晚,胡杏兒賣力解釋,網友卻不買賬:眼睛一直眨感覺在說謊

澳門這晚,胡杏兒賣力解釋,網友卻不買賬:眼睛一直眨感覺在說謊

聯友說娛
2025-05-08 09:54:50
砸手里了?今夏難甩手的10個垃圾合同:庫茲馬剩4000萬,場均5分

砸手里了?今夏難甩手的10個垃圾合同:庫茲馬剩4000萬,場均5分

你的籃球頻道
2025-05-08 10:45:29
常州市委原常委、組織部部長陳翔調任江蘇省民宗委副主任

常州市委原常委、組織部部長陳翔調任江蘇省民宗委副主任

澎湃新聞
2025-05-08 13:42:27
又是20分逆轉!尼克斯2-0凱爾特人,唐斯21+17塔圖姆致命失誤

又是20分逆轉!尼克斯2-0凱爾特人,唐斯21+17塔圖姆致命失誤

湖人崛起
2025-05-08 09:31:20
外媒:美國計劃5月下旬開始批量生產B61-13核炸彈,比原計劃提前近一年

外媒:美國計劃5月下旬開始批量生產B61-13核炸彈,比原計劃提前近一年

環球網資訊
2025-05-08 10:06:08
李錦斌、劉家義、劉賜貴、王建軍,已任中央指導組組長

李錦斌、劉家義、劉賜貴、王建軍,已任中央指導組組長

揚子晚報
2025-05-08 12:10:52
廣州一6旬大叔“丁丁”塞13顆磁力鋼珠!網友:還是大爺厲害

廣州一6旬大叔“丁丁”塞13顆磁力鋼珠!網友:還是大爺厲害

小人物看盡人間百態
2025-05-07 20:07:48
2025-05-08 14:15:00
IOT視點 incentive-icons
IOT視點
洞察物聯網產業市場態勢。
166文章數 128關注度
往期回顧 全部

科技要聞

鴻蒙電腦正式亮相!華為:布局五年

頭條要聞

巴官員:印巴125架戰機激戰 交火距離一度超過160公里

頭條要聞

巴官員:印巴125架戰機激戰 交火距離一度超過160公里

體育要聞

威少兩戰37分:屢陷沖突將對手打出鼻血

娛樂要聞

黃圣依離婚后發現,母親同樣令她窒息

財經要聞

57政策解讀:力度空前的系統性穩增長舉措

汽車要聞

純電增程雙動力 阿維塔12 2025款上市26.99萬元起

態度原創

時尚
親子
旅游
游戲
公開課

從 “白粥姐” 到 “妖妃” 逆襲!王楚然靠美貌殺回內娛頂流?

親子要聞

蒙牛瑞哺恩榮獲“全球首款Sn-2 DHA嬰幼兒乳粉產品”市場地位確認

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

《RailGods of Hysterra》今日開啟搶先體驗,踏上洛夫克拉夫特式的生存恐怖之旅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 开平市| 岳阳市| 任丘市| 襄垣县| 洛隆县| 新丰县| 类乌齐县| 洛宁县| 同德县| 营山县| 湛江市| 兰溪市| 洛扎县| 密山市| 九寨沟县| 奇台县| 阜宁县| 睢宁县| 大厂| 新源县| 宁海县| 聊城市| 久治县| 宝清县| 鄂伦春自治旗| 平昌县| 漾濞| 图们市| 库尔勒市| 丹寨县| 改则县| 岳阳市| 论坛| 黄平县| 德安县| 尚志市| 会理县| 东山县| 丰台区| 陈巴尔虎旗| 五常市|