99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICLR最佳論文給了“安全”,大模型對齊為什么越來越受關(guān)注?

0
分享至

近日,ICLR(International Conference on Learning Representations,國際學習表征會議)在新加坡落下帷幕。

本屆ICLR共評選出三篇杰出論文,其中,OpenAI研究員漆翔宇等人的關(guān)于大模型安全對齊方向的論文(Safety Alignment Should be Made More Than Just a Few Tokens Deep)受到廣泛關(guān)注。



旺旺屋就該論文及大模型安全問題,對話了新加坡科技研究局科學家李韶華。

李韶華目前也從事大語言模型安全對齊方向的研究,他讀到這篇論文的時候還在ICLR審稿階段,由于得分很高所以吸引了他的目光。

“總的看法是,這篇寫作通俗易懂,也很符合直覺,即如果推理階段,攻擊者攻破了前幾個token(Sure, here is ...),那語言模型就會進入自動補全模式,補全后面本來拒絕回答的內(nèi)容。”

他表示,這篇論文給防御提供了一個有趣的思路,可以說是給語言模型補了一個補丁。

安全對齊為什么越來越重要?

作為機器學習與人工智能領(lǐng)域最重要的國際學術(shù)會議之一,ICLR匯聚了全球頂尖的學者、研究人員和行業(yè)精英,共同探討深度學習與人工智能的前沿技術(shù)、創(chuàng)新應用和未來趨勢。

今年的參會人數(shù)也達到新峰,包括何愷明、楊立昆、約書亞·本吉奧、朱松純、馬毅、李宏毅、宋飏等國際計算機領(lǐng)域頂級學者參加。

ICLR今年共收到11565篇論文投稿,最終錄用率為32.08%。2024年,ICLR組委會共收到了7262篇投稿,總體錄用率約為31%。數(shù)量上的差異也精準反映出全球?qū)τ贏I領(lǐng)域研究的熱忱。根據(jù)官方表示,2025年接收論文的Workshop為40個,相對于2024年的20個增加了一倍。



ICLR 2025 杰出論文遴選由委員會全體成員審閱,并根據(jù)理論洞見、實踐影響、寫作能力和實驗嚴謹性等因素進行排名,最終結(jié)果由項目主席決定。

安全對齊通常指的是在大模型應用中,確保模型的輸出行為與預期目標和社會規(guī)范相一致,保證大模型不會產(chǎn)生有害或者不當?shù)慕Y(jié)果。

具體來說,安全對齊包括倫理和道德對齊、法律法規(guī)對齊、用戶意圖對齊以及社會價值觀對齊。沒有做到安全對齊的大模型很有可能生成有害、錯誤和偏見的內(nèi)容,對用戶和社會產(chǎn)生負面影響。



漆翔宇等人的論文指出當前大語言模型(LLM)的安全對齊機制存在“淺層安全對齊”(shallow safety alignment)問題:對齊往往只調(diào)整生成輸出的前幾個 token,從而導致模型易受各種攻擊,如對抗性后綴攻擊、預填充攻擊、解碼參數(shù)攻擊、微調(diào)攻擊等。

論文通過多個案例分析這一機制漏洞,并提出擴展對齊深度和正則化微調(diào)目標等方法來增強模型的魯棒性。該研究從根本上分析了 LLM 安全對齊的薄弱之處,提出加強對齊深度的策略,對防御模型越獄和對抗攻擊具有重要意義。

在李韶華看來,這篇論文的核心就是,即使攻破了前幾個token,模型也可以隨時“一轉(zhuǎn)念,意識到自己不該輸出,然后輸出Sorry, …”它給防御提供了一個有趣的思路,可以說是給語言模型補了一個補丁?!?/p>

隨著GPT-4、PaLM、LLaMA和DeepSeek等大模型(LLM)的技術(shù)突破及廣泛應用,其潛在的安全風險也日益凸顯,在LLM迅猛發(fā)展的背后,安全問題正悄然成為新的競技場。就連我們的日常生活中也逐漸受到大語言模型安全問題的影響。

2023年4月三星員工錯誤使用ChatGPT導致公司絕密數(shù)據(jù)泄露;同年ChatGPT爆出“奶奶漏洞”導致Win11序列號泄露;2024年11月,谷歌Gemini聊天機器人威脅用戶“人類,請去死吧”;2024年12月Claude暗示一名青少年殺死限制其使用手機的父母以及DeepSeek R1發(fā)布后曾在越獄攻擊下生成大量18禁內(nèi)容......

大模型的數(shù)據(jù)安全、內(nèi)容安全以及倫理安全,無時無刻不影響著用戶的體驗與人身安全。

更為復雜且難以察覺的還有大模型的生態(tài)鏈安全,例如2024年字節(jié)實習生通過在模型文件植入后門代碼,導致模型訓練任務受阻,損失過千萬,黑客利用 Ray 框架漏洞入侵服務器、劫持資源,利用模型算力資源進行挖坑等非法活動。

要不要交“對齊稅”?

隨著DeepSeek等大模型的功能日益強大,不少企業(yè)選擇接入大模型進行私有化部署,以豐富用戶對于自家產(chǎn)品的體驗感,然而安全問題一不小心就可能將企業(yè)拉進隱私泄露的沼澤。

“幾千家單位接入了DeepSeek大模型私有部署,但我們通過掃描發(fā)現(xiàn)90%在“裸奔”,簡單的控制語句就能設法拿到大模型后臺數(shù)據(jù)。” 奇安信科技集團董事長齊向東近日如是說。

談及大模型安全的重要性,李韶華表示:“語言類大模型的發(fā)展已經(jīng)初步進入瓶頸期,在這種情況下,頭部廠商可能更側(cè)重把現(xiàn)有模型更好的應用到各種場景里,提高它們的可信賴度,所以安全是很重要的?!?/p>

隨著LLM技術(shù)的快速發(fā)展和廣泛應用,其安全風險也在不斷演變。OWASP最新發(fā)布的大語言模型10大安全漏洞,包括:

1. 提示詞攻擊(Prompt Injections):用戶通過操控提示詞誘導大模型生成有害內(nèi)容。

2. 不安全輸出(Insecure Output Handling):當插件或應用程序在沒有適當審查的情況下盲目接受LLM 輸出并將其直接傳遞給后端、特權(quán)或客戶端函數(shù)時,就會出現(xiàn)該漏洞。

3. 訓練數(shù)據(jù)投毒(Training Data Poisoning):LLM使用不同的原始文本來學習和輸出,攻擊者將中毒的訓練數(shù)據(jù)用于模型訓練,可能使用戶接觸到不正確的信息。

4. 拒絕服務(Denial of Service):攻擊者以特別消耗資源的方式與LLM交互,導致他們和其他用戶的服務質(zhì)量下降或產(chǎn)生高資源成本。

5. 供應鏈安全(Supply Chain):LLM 中的供應鏈可能容易受到攻擊,影響訓練數(shù)據(jù)和部署平臺的完整性,并導致有偏見的結(jié)果、安全漏洞或完整的系統(tǒng)故障。

6. 權(quán)限問題(Permission Issues):插件之間缺乏授權(quán)跟蹤可能會導致插件的惡意使用,從而導致模型缺乏機密性。

7. 數(shù)據(jù)泄露(Data Leakage):LLM中的數(shù)據(jù)泄漏可能會暴露敏感信息或?qū)S性敿毿畔?,從而導致隱私和安全漏洞。

8. 過度代理(Excessive Agency):當LLM與其他系統(tǒng)接口時,不受限制的代理可能會導致不良的操作和操作。

9. 過度依賴(Overreliance):LLM雖然能夠產(chǎn)生創(chuàng)造性和信息豐富的內(nèi)容,但也容易受到“幻覺”的影響,產(chǎn)生事實上不正確,荒謬或不適當?shù)膬?nèi)容。當系統(tǒng)過度依賴LLM進行決策或內(nèi)容生成而沒有足夠的監(jiān)督,驗證機制或風險溝通時,就會出現(xiàn)這種漏洞。

10. 不安全的插件(Insecure Plugins):如果將 LLM 連接到外部資源的插件接受自由格式的文本輸入,則可能會被利用,從而啟用可能導致不良行為或遠程代碼執(zhí)行的惡意請求。



隨著LLM安全問題的重要性逐漸凸顯,李韶華向旺旺屋解讀了關(guān)于目前高效和受到廣泛關(guān)注的訓練方法。

他表示,目前主流的大模型安全管控方式有兩個方面,第一是提高基礎模型的安全性,包括在SFT和RLHF階段識別對抗字符串、違規(guī)提示詞等,以及加強對非法價值觀的識別(比如種族歧視、納粹等觀念,以及過于露骨的色情內(nèi)容)。

第二是另外有一個小的語言模型,實時監(jiān)測基礎模型的輸出,如果有不妥內(nèi)容,及時“掐斷”,這也是我們在用GPT、Deepseek時會碰到,輸出了很多內(nèi)容但是突然都被撤回了這種情況的原因。

大模型的安全對齊的發(fā)展目前仍存在一定的技術(shù)瓶頸,比如眾多研究人員關(guān)注的大模型的推理能力與安全之間的平衡性問題。

李韶華也坦言:“安全對齊會抑制大模型的能力,這在提出RLHF的論文(Training language models to follow instructions with human feedback)里,被稱為“對齊稅”(alignment tax)。這個問題可以用人來類比,如果一個人頭腦里規(guī)矩很多,總是擔心各種細節(jié)是不是不合適,那他平時考慮問題時就束手束腳,思想不夠活躍,難一點的問題可能就解決不了了。”

除此之外,談及ICLR中杰出論文的模型效果,李韶華在參加AISG(新加坡全國人工智能核心)語言模型攻防全球競賽時曾試用該模型,他表示:“這篇論文因為發(fā)布的模型是對 Gemma-2-9B的微調(diào)版本,就拿來試了一下。但遺憾的是,效果并不好,比原始的Gemma-2-9B有較大的差距,所以后來就沒有采用了。

“我猜測性能變差是因為微調(diào)一定程度犧牲了模型原有的先驗知識,而我們的競賽要求識別惡意問題,要用到這些先驗知識。但這并不是說這篇論文的思路難以用于實踐,而是他們側(cè)重于展示論文思路是可以工作的,所以可能訓練示例模型的時候沒太考慮實對原有知識的保留?!?/p>

大模型安全領(lǐng)域的研究道阻且長,不光是LLM,在不久的將來AI智能體也許也將有越來越廣泛的應用,隨著各種AI能力的增強,AI的安全問題將變得越來越重要。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
羅永浩爆料:余承東體驗完錘子產(chǎn)品后,當我面陰著臉訓手底下人,后來派團隊過來粗暴挖人

羅永浩爆料:余承東體驗完錘子產(chǎn)品后,當我面陰著臉訓手底下人,后來派團隊過來粗暴挖人

大廠觀察
2025-06-21 20:54:31
世界中醫(yī)大會霸氣宣布,中醫(yī)無需西方認可,中醫(yī)的標準就是標準!

世界中醫(yī)大會霸氣宣布,中醫(yī)無需西方認可,中醫(yī)的標準就是標準!

葡萄說娛
2025-06-21 16:34:50
民力已竭,油盡燈枯

民力已竭,油盡燈枯

我是歷史其實挺有趣
2025-06-21 15:39:11
在伊中國人講述撤離經(jīng)歷:感謝一個伊朗女孩,她喜歡中國,想找一個中國男友

在伊中國人講述撤離經(jīng)歷:感謝一個伊朗女孩,她喜歡中國,想找一個中國男友

瀟湘晨報
2025-06-21 20:21:26
誰在保護哈梅內(nèi)伊?

誰在保護哈梅內(nèi)伊?

紅星新聞
2025-06-21 15:45:22
一成就超李娜,偉大的2-0!狂轟6-1,王欣瑜創(chuàng)造歷史,首進決賽

一成就超李娜,偉大的2-0!狂轟6-1,王欣瑜創(chuàng)造歷史,首進決賽

大秦壁虎白話體育
2025-06-21 21:58:29
上海電影節(jié)剛剛頒獎,中國女演員萬茜拿下“影后”!雷佳音盛贊這位師姐:她在我心里就是影后!

上海電影節(jié)剛剛頒獎,中國女演員萬茜拿下“影后”!雷佳音盛贊這位師姐:她在我心里就是影后!

極目新聞
2025-06-21 20:59:56
確認了: 夫妻倆已被封禁!徹底涼涼

確認了: 夫妻倆已被封禁!徹底涼涼

天津族
2025-06-21 13:36:36
37歲王思聰在日本和女友吃咖喱,下頜后縮嚴重,像動畫片里的樹懶

37歲王思聰在日本和女友吃咖喱,下頜后縮嚴重,像動畫片里的樹懶

大笑江湖史
2025-06-21 18:02:40
趙一鳴零食廣東懷集店被哄搶!老板發(fā)文:千萬別來懷集投資

趙一鳴零食廣東懷集店被哄搶!老板發(fā)文:千萬別來懷集投資

小人物看盡人間百態(tài)
2025-06-20 19:48:37
請停止為過去的地主資本家歌功頌德!這是何等荒謬,又是何等無知

請停止為過去的地主資本家歌功頌德!這是何等荒謬,又是何等無知

剛哥說法365
2025-06-21 15:33:24
WTA柏林站:王欣瑜2-0薩姆索諾娃首進決賽 連贏4位TOP20

WTA柏林站:王欣瑜2-0薩姆索諾娃首進決賽 連贏4位TOP20

醉臥浮生
2025-06-21 21:58:05
足協(xié)杯8強已定5席:中超4隊!國安點球戰(zhàn)晉級 中甲黑馬淘汰津門虎

足協(xié)杯8強已定5席:中超4隊!國安點球戰(zhàn)晉級 中甲黑馬淘汰津門虎

我愛英超
2025-06-21 22:07:54
延邊大學食堂阿姨畢業(yè)典禮演講全程脫稿聽哭畢業(yè)生,當事人:我只是食堂后勤的一名普通職工

延邊大學食堂阿姨畢業(yè)典禮演講全程脫稿聽哭畢業(yè)生,當事人:我只是食堂后勤的一名普通職工

極目新聞
2025-06-21 18:45:36
世俱杯變天!短短24小時:梅西帶頭3殺歐冠隊,創(chuàng)13年紀錄

世俱杯變天!短短24小時:梅西帶頭3殺歐冠隊,創(chuàng)13年紀錄

葉青足球世界
2025-06-21 06:04:14
以媒曝飛行追蹤數(shù)據(jù):兩架B-2轟炸機從美國本土起飛,飛往關(guān)島美軍基地

以媒曝飛行追蹤數(shù)據(jù):兩架B-2轟炸機從美國本土起飛,飛往關(guān)島美軍基地

環(huán)球網(wǎng)資訊
2025-06-21 19:00:20
盧旺達搞了兩套政府班子玩東西合璧,暴打剛果金

盧旺達搞了兩套政府班子玩東西合璧,暴打剛果金

遠方青木
2025-06-21 00:11:45
蘇超,徹底暴露了江蘇的家底

蘇超,徹底暴露了江蘇的家底

財天COVER
2025-06-21 16:18:22
3-1!中國女排力克日本豪取3連勝,吳夢潔連得4分終結(jié)+崴腳受傷

3-1!中國女排力克日本豪取3連勝,吳夢潔連得4分終結(jié)+崴腳受傷

環(huán)太平洋老正太
2025-06-21 21:53:45
勁爆!baby和鄧倫被曝在車內(nèi)的大瓜……

勁爆!baby和鄧倫被曝在車內(nèi)的大瓜……

毒舌八卦
2025-06-21 21:59:19
2025-06-22 04:19:00
旺旺屋
旺旺屋
電臺主持人,歌手,作家等。
1807文章數(shù) 672關(guān)注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關(guān)情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關(guān)情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經(jīng)要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態(tài)度原創(chuàng)

家居
游戲
教育
時尚
軍事航空

家居要聞

山水之間 墨染風雨云間

今年最奇幻事件!一篇看完《情感反詐模擬器》改名風波

教育要聞

為什么英國大學來年QS排名還會繼續(xù)上漲?

天啊,凱特王妃都在準備葬禮了?

軍事要聞

伊朗展示破壞力最強導彈

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 英吉沙县| 平谷区| 洛宁县| 乌鲁木齐县| 襄垣县| 全州县| 清丰县| 江都市| 四子王旗| 宣武区| 宾川县| 莲花县| 明星| 阆中市| 敦煌市| 论坛| 五常市| 漳平市| 永兴县| 五指山市| 中西区| 昂仁县| 荔浦县| 全椒县| 吉水县| 宜黄县| 萍乡市| 米易县| 黄冈市| 武陟县| 新建县| 原平市| 周口市| 罗山县| 上栗县| 海兴县| 体育| 崇左市| 甘孜县| 威海市| 颍上县|