99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICLR最佳論文給了“安全”,大模型對齊為什么越來越受關(guān)注?

0
分享至



出品|搜狐科技

作者|常博碩

編輯|楊 錦

近日,ICLR(International Conference on Learning Representations,國際學(xué)習(xí)表征會議)在新加坡落下帷幕。

本屆ICLR共評選出三篇杰出論文,其中,OpenAI研究員漆翔宇等人的關(guān)于大模型安全對齊方向的論文(Safety Alignment Should be Made More Than Just a Few Tokens Deep)受到廣泛關(guān)注。

硅谷AI見聞就該論文及大模型安全問題,對話了新加坡科技研究局科學(xué)家李韶華。

李韶華目前也從事大語言模型安全對齊方向的研究,他讀到這篇論文的時(shí)候還在ICLR審稿階段,由于得分很高所以吸引了他的目光。

“總的看法是,這篇寫作通俗易懂,也很符合直覺,即如果推理階段,攻擊者攻破了前幾個(gè)token(Sure, here is ...),那語言模型就會進(jìn)入自動(dòng)補(bǔ)全模式,補(bǔ)全后面本來拒絕回答的內(nèi)容。”

他表示,這篇論文給防御提供了一個(gè)有趣的思路,可以說是給語言模型補(bǔ)了一個(gè)補(bǔ)丁。


安全對齊為什么越來越重要?

作為機(jī)器學(xué)習(xí)與人工智能領(lǐng)域最重要的國際學(xué)術(shù)會議之一,ICLR匯聚了全球頂尖的學(xué)者、研究人員和行業(yè)精英,共同探討深度學(xué)習(xí)與人工智能的前沿技術(shù)、創(chuàng)新應(yīng)用和未來趨勢。

今年的參會人數(shù)也達(dá)到新峰,包括何愷明、楊立昆、約書亞·本吉奧、朱松純、馬毅、李宏毅、宋飏等國際計(jì)算機(jī)領(lǐng)域頂級學(xué)者參加。

ICLR今年共收到11565篇論文投稿,最終錄用率為32.08%。2024年,ICLR組委會共收到了7262篇投稿,總體錄用率約為31%。數(shù)量上的差異也精準(zhǔn)反映出全球?qū)τ贏I領(lǐng)域研究的熱忱。根據(jù)官方表示,2025年接收論文的Workshop為40個(gè),相對于2024年的20個(gè)增加了一倍。


ICLR 2025 杰出論文遴選由委員會全體成員審閱,并根據(jù)理論洞見、實(shí)踐影響、寫作能力和實(shí)驗(yàn)嚴(yán)謹(jǐn)性等因素進(jìn)行排名,最終結(jié)果由項(xiàng)目主席決定。

安全對齊通常指的是在大模型應(yīng)用中,確保模型的輸出行為與預(yù)期目標(biāo)和社會規(guī)范相一致,保證大模型不會產(chǎn)生有害或者不當(dāng)?shù)慕Y(jié)果。

具體來說,安全對齊包括倫理和道德對齊、法律法規(guī)對齊、用戶意圖對齊以及社會價(jià)值觀對齊。沒有做到安全對齊的大模型很有可能生成有害、錯(cuò)誤和偏見的內(nèi)容,對用戶和社會產(chǎn)生負(fù)面影響。


漆翔宇等人的論文指出當(dāng)前大語言模型(LLM)的安全對齊機(jī)制存在“淺層安全對齊”(shallow safety alignment)問題:對齊往往只調(diào)整生成輸出的前幾個(gè) token,從而導(dǎo)致模型易受各種攻擊,如對抗性后綴攻擊、預(yù)填充攻擊、解碼參數(shù)攻擊、微調(diào)攻擊等。

論文通過多個(gè)案例分析這一機(jī)制漏洞,并提出擴(kuò)展對齊深度和正則化微調(diào)目標(biāo)等方法來增強(qiáng)模型的魯棒性。該研究從根本上分析了 LLM 安全對齊的薄弱之處,提出加強(qiáng)對齊深度的策略,對防御模型越獄和對抗攻擊具有重要意義。

在李韶華看來,這篇論文的核心就是,即使攻破了前幾個(gè)token,模型也可以隨時(shí)“一轉(zhuǎn)念,意識到自己不該輸出,然后輸出Sorry, …”它給防御提供了一個(gè)有趣的思路,可以說是給語言模型補(bǔ)了一個(gè)補(bǔ)丁。”

隨著GPT-4、PaLM、LLaMA和DeepSeek等大模型(LLM)的技術(shù)突破及廣泛應(yīng)用,其潛在的安全風(fēng)險(xiǎn)也日益凸顯,在LLM迅猛發(fā)展的背后,安全問題正悄然成為新的競技場。就連我們的日常生活中也逐漸受到大語言模型安全問題的影響。

2023年4月三星員工錯(cuò)誤使用ChatGPT導(dǎo)致公司絕密數(shù)據(jù)泄露;同年ChatGPT爆出“奶奶漏洞”導(dǎo)致Win11序列號泄露;2024年11月,谷歌Gemini聊天機(jī)器人威脅用戶“人類,請去死吧”;2024年12月Claude暗示一名青少年殺死限制其使用手機(jī)的父母以及DeepSeek R1發(fā)布后曾在越獄攻擊下生成大量18禁內(nèi)容......

大模型的數(shù)據(jù)安全、內(nèi)容安全以及倫理安全,無時(shí)無刻不影響著用戶的體驗(yàn)與人身安全。

更為復(fù)雜且難以察覺的還有大模型的生態(tài)鏈安全,例如2024年字節(jié)實(shí)習(xí)生通過在模型文件植入后門代碼,導(dǎo)致模型訓(xùn)練任務(wù)受阻,損失過千萬,黑客利用 Ray 框架漏洞入侵服務(wù)器、劫持資源,利用模型算力資源進(jìn)行挖坑等非法活動(dòng)。


要不要交“對齊稅”?

隨著DeepSeek等大模型的功能日益強(qiáng)大,不少企業(yè)選擇接入大模型進(jìn)行私有化部署,以豐富用戶對于自家產(chǎn)品的體驗(yàn)感,然而安全問題一不小心就可能將企業(yè)拉進(jìn)隱私泄露的沼澤。

“幾千家單位接入了DeepSeek大模型私有部署,但我們通過掃描發(fā)現(xiàn)90%在“裸奔”,簡單的控制語句就能設(shè)法拿到大模型后臺數(shù)據(jù)。”奇安信科技集團(tuán)董事長齊向東近日如是說。

談及大模型安全的重要性,李韶華表示:“語言類大模型的發(fā)展已經(jīng)初步進(jìn)入瓶頸期,在這種情況下,頭部廠商可能更側(cè)重把現(xiàn)有模型更好的應(yīng)用到各種場景里,提高它們的可信賴度,所以安全是很重要的。”

隨著LLM技術(shù)的快速發(fā)展和廣泛應(yīng)用,其安全風(fēng)險(xiǎn)也在不斷演變。OWASP最新發(fā)布的大語言模型10大安全漏洞,包括:

1. 提示詞攻擊(Prompt Injections):用戶通過操控提示詞誘導(dǎo)大模型生成有害內(nèi)容。

2. 不安全輸出(Insecure Output Handling):當(dāng)插件或應(yīng)用程序在沒有適當(dāng)審查的情況下盲目接受LLM 輸出并將其直接傳遞給后端、特權(quán)或客戶端函數(shù)時(shí),就會出現(xiàn)該漏洞。

3. 訓(xùn)練數(shù)據(jù)投毒(Training Data Poisoning):LLM使用不同的原始文本來學(xué)習(xí)和輸出,攻擊者將中毒的訓(xùn)練數(shù)據(jù)用于模型訓(xùn)練,可能使用戶接觸到不正確的信息。

4. 拒絕服務(wù)(Denial of Service):攻擊者以特別消耗資源的方式與LLM交互,導(dǎo)致他們和其他用戶的服務(wù)質(zhì)量下降或產(chǎn)生高資源成本。

5. 供應(yīng)鏈安全(Supply Chain):LLM 中的供應(yīng)鏈可能容易受到攻擊,影響訓(xùn)練數(shù)據(jù)和部署平臺的完整性,并導(dǎo)致有偏見的結(jié)果、安全漏洞或完整的系統(tǒng)故障。

6. 權(quán)限問題(Permission Issues):插件之間缺乏授權(quán)跟蹤可能會導(dǎo)致插件的惡意使用,從而導(dǎo)致模型缺乏機(jī)密性。

7. 數(shù)據(jù)泄露(Data Leakage):LLM中的數(shù)據(jù)泄漏可能會暴露敏感信息或?qū)S性敿?xì)信息,從而導(dǎo)致隱私和安全漏洞。

8. 過度代理(Excessive Agency):當(dāng)LLM與其他系統(tǒng)接口時(shí),不受限制的代理可能會導(dǎo)致不良的操作和操作。

9. 過度依賴(Overreliance):LLM雖然能夠產(chǎn)生創(chuàng)造性和信息豐富的內(nèi)容,但也容易受到“幻覺”的影響,產(chǎn)生事實(shí)上不正確,荒謬或不適當(dāng)?shù)膬?nèi)容。當(dāng)系統(tǒng)過度依賴LLM進(jìn)行決策或內(nèi)容生成而沒有足夠的監(jiān)督,驗(yàn)證機(jī)制或風(fēng)險(xiǎn)溝通時(shí),就會出現(xiàn)這種漏洞。

10. 不安全的插件(Insecure Plugins):如果將 LLM 連接到外部資源的插件接受自由格式的文本輸入,則可能會被利用,從而啟用可能導(dǎo)致不良行為或遠(yuǎn)程代碼執(zhí)行的惡意請求。


隨著LLM安全問題的重要性逐漸凸顯,李韶華向搜狐科技解讀了關(guān)于目前高效和受到廣泛關(guān)注的訓(xùn)練方法。

他表示,目前主流的大模型安全管控方式有兩個(gè)方面,第一是提高基礎(chǔ)模型的安全性,包括在SFT和RLHF階段識別對抗字符串、違規(guī)提示詞等,以及加強(qiáng)對非法價(jià)值觀的識別(比如種族歧視、納粹等觀念,以及過于露骨的色情內(nèi)容)。

第二是另外有一個(gè)小的語言模型,實(shí)時(shí)監(jiān)測基礎(chǔ)模型的輸出,如果有不妥內(nèi)容,及時(shí)“掐斷”,這也是我們在用GPT、Deepseek時(shí)會碰到,輸出了很多內(nèi)容但是突然都被撤回了這種情況的原因。

大模型的安全對齊的發(fā)展目前仍存在一定的技術(shù)瓶頸,比如眾多研究人員關(guān)注的大模型的推理能力與安全之間的平衡性問題。

李韶華也坦言:“安全對齊會抑制大模型的能力,這在提出RLHF的論文(Training language models to follow instructions with human feedback)里,被稱為“對齊稅”(alignment tax)。這個(gè)問題可以用人來類比,如果一個(gè)人頭腦里規(guī)矩很多,總是擔(dān)心各種細(xì)節(jié)是不是不合適,那他平時(shí)考慮問題時(shí)就束手束腳,思想不夠活躍,難一點(diǎn)的問題可能就解決不了了。”

除此之外,談及ICLR中杰出論文的模型效果,李韶華在參加AISG(新加坡全國人工智能核心)語言模型攻防全球競賽時(shí)曾試用該模型,他表示:“這篇論文因?yàn)榘l(fā)布的模型是對 Gemma-2-9B的微調(diào)版本,就拿來試了一下。但遺憾的是,效果并不好,比原始的Gemma-2-9B有較大的差距,所以后來就沒有采用了。

“我猜測性能變差是因?yàn)槲⒄{(diào)一定程度犧牲了模型原有的先驗(yàn)知識,而我們的競賽要求識別惡意問題,要用到這些先驗(yàn)知識。但這并不是說這篇論文的思路難以用于實(shí)踐,而是他們側(cè)重于展示論文思路是可以工作的,所以可能訓(xùn)練示例模型的時(shí)候沒太考慮實(shí)對原有知識的保留。”

大模型安全領(lǐng)域的研究道阻且長,不光是LLM,在不久的將來AI智能體也許也將有越來越廣泛的應(yīng)用,隨著各種AI能力的增強(qiáng),AI的安全問題將變得越來越重要。



運(yùn)營編輯 |曹倩審核|孟莎莎




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1996年至今無捕獲,曾是“長江三鮮”之首,專家:已功能性消失

1996年至今無捕獲,曾是“長江三鮮”之首,專家:已功能性消失

明月聊史
2025-07-25 14:51:40
17年過去了,說幫傅彪養(yǎng)兒子的葛優(yōu)和馮小剛,履行承諾了嗎?

17年過去了,說幫傅彪養(yǎng)兒子的葛優(yōu)和馮小剛,履行承諾了嗎?

科學(xué)發(fā)掘
2025-07-21 13:39:42
奧斯卡曬照觀看海港比賽:默默給我的兄弟們加油??

奧斯卡曬照觀看海港比賽:默默給我的兄弟們加油??

直播吧
2025-07-26 21:26:06
在交完香港大學(xué)16萬的留位費(fèi)后,我還是后悔了!

在交完香港大學(xué)16萬的留位費(fèi)后,我還是后悔了!

男女那點(diǎn)事兒兒
2025-07-26 18:17:47
“多生多育”的廣告出現(xiàn)了!南通地鐵站宣傳,3個(gè)孩子一份傳承…

“多生多育”的廣告出現(xiàn)了!南通地鐵站宣傳,3個(gè)孩子一份傳承…

火山詩話
2025-07-25 09:04:47
馬斯克發(fā)文:特斯拉在中國取得了最高成績!懂車帝回應(yīng):未做過官方排名

馬斯克發(fā)文:特斯拉在中國取得了最高成績!懂車帝回應(yīng):未做過官方排名

紅星資本局
2025-07-25 18:48:24
一級演員朱儉因病去世

一級演員朱儉因病去世

極目新聞
2025-07-26 12:16:23
歌手田震來淄博吃燒烤啦

歌手田震來淄博吃燒烤啦

魯中晨報(bào)
2025-07-26 12:18:11
首例5胞胎長大了,父親已勞累去世,母親直言:如能重來一個(gè)也不要

首例5胞胎長大了,父親已勞累去世,母親直言:如能重來一個(gè)也不要

柳絮憶史
2025-07-22 07:15:03
24:0!大罷免結(jié)果揭曉,朱立倫發(fā)表大勝感言,蔡英文力挺賴清德

24:0!大罷免結(jié)果揭曉,朱立倫發(fā)表大勝感言,蔡英文力挺賴清德

探史
2025-07-26 21:19:23
衛(wèi)健委通報(bào):涉事護(hù)士長、護(hù)士已停職,醫(yī)院被立案處罰

衛(wèi)健委通報(bào):涉事護(hù)士長、護(hù)士已停職,醫(yī)院被立案處罰

坦然風(fēng)云
2025-07-24 18:46:06
臺灣“大罷免”的投票結(jié)果,將會是臺灣局勢的轉(zhuǎn)折點(diǎn)

臺灣“大罷免”的投票結(jié)果,將會是臺灣局勢的轉(zhuǎn)折點(diǎn)

關(guān)品方
2025-07-26 10:56:25
方媛自曝孕反嚴(yán)重,吃飯全靠營養(yǎng)師,3胎是意外,肚子越來越明顯

方媛自曝孕反嚴(yán)重,吃飯全靠營養(yǎng)師,3胎是意外,肚子越來越明顯

素衣讀史
2025-07-24 11:06:42
看完《神奇四俠》,我已徹底絕望,漫威第六階段開場就是一坨大的

看完《神奇四俠》,我已徹底絕望,漫威第六階段開場就是一坨大的

TVB的四小花
2025-07-26 12:28:07
懂車帝測試發(fā)酵:央視新聞刪“聯(lián)合”,華為系齊發(fā)聲“不予置評”

懂車帝測試發(fā)酵:央視新聞刪“聯(lián)合”,華為系齊發(fā)聲“不予置評”

超角度
2025-07-25 22:16:13
我第一次見男友養(yǎng)父,在聞到他身上味道后我當(dāng)場跑路:這是尸臭

我第一次見男友養(yǎng)父,在聞到他身上味道后我當(dāng)場跑路:這是尸臭

古怪奇談錄
2025-06-21 17:18:27
歐文:一次訓(xùn)練中我親眼看到東契奇三分鐘內(nèi)在某位球員頭上砍下24分

歐文:一次訓(xùn)練中我親眼看到東契奇三分鐘內(nèi)在某位球員頭上砍下24分

雷速體育
2025-07-26 12:43:14
生于1990年,李禹主動(dòng)投案

生于1990年,李禹主動(dòng)投案

新京報(bào)政事兒
2025-07-26 12:50:02
42歲伊萬卡遇26歲姆巴佩:1次晚餐,交集只因孩子?

42歲伊萬卡遇26歲姆巴佩:1次晚餐,交集只因孩子?

超級圣迷
2025-07-26 08:50:03
“打基礎(chǔ)論”為什么站不住腳?

“打基礎(chǔ)論”為什么站不住腳?

報(bào)人劉亞東
2025-07-25 17:45:42
2025-07-26 23:12:49
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號
4460文章數(shù) 9145關(guān)注度
往期回顧 全部

科技要聞

AI教父辛頓現(xiàn)身上海:人類如何不被AI殺掉

頭條要聞

男孩被多人掌摑62次踹48次 霸凌者:我沒16歲歡迎報(bào)警

頭條要聞

男孩被多人掌摑62次踹48次 霸凌者:我沒16歲歡迎報(bào)警

體育要聞

楊瀚森效力NBA期間 青島男籃將暫存球隊(duì)15號球衣

娛樂要聞

董璇首談保釋前夫細(xì)節(jié)!高云翔突然不回消息

財(cái)經(jīng)要聞

劉煜輝:當(dāng)下重要不是找確定性而是轉(zhuǎn)折點(diǎn)

汽車要聞

"得房率"超90% 全新嵐圖知音空間信息曝光

態(tài)度原創(chuàng)

本地
房產(chǎn)
時(shí)尚
公開課
軍事航空

本地新聞

換個(gè)城市過夏天|風(fēng)拂鹽湖,躲進(jìn)格爾木的盛夏清涼

房產(chǎn)要聞

分?jǐn)?shù)線集體飆漲!海中867分!2025海南中招格局大變!

伊姐周六熱推:電影《南京照相館》;電影《戲臺》......

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

泰軍方向26國發(fā)函:柬埔寨率先開火

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 吉林市| 新营市| 茶陵县| 晋江市| 龙南县| 丹棱县| 饶河县| 荔浦县| 金秀| 金华市| 汉阴县| 新巴尔虎右旗| 北安市| 陈巴尔虎旗| 米泉市| 珲春市| 凤山县| 横山县| 新乐市| 沙田区| 长子县| 正镶白旗| 嘉祥县| 垫江县| 安塞县| 鄂温| 台东市| 三穗县| 新丰县| 商城县| 商河县| 鄂尔多斯市| 峨山| 泸水县| 罗山县| 永清县| 鄂温| 会泽县| 璧山县| 建德市| 通州区|