99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ICLR最佳論文給了“安全”,大模型對齊為什么越來越受關注?

0
分享至



出品|搜狐科技

作者|常博碩

編輯|楊 錦

近日,ICLR(International Conference on Learning Representations,國際學習表征會議)在新加坡落下帷幕。

本屆ICLR共評選出三篇杰出論文,其中,OpenAI研究員漆翔宇等人的關于大模型安全對齊方向的論文(Safety Alignment Should be Made More Than Just a Few Tokens Deep)受到廣泛關注。

硅谷AI見聞就該論文及大模型安全問題,對話了新加坡科技研究局科學家李韶華。

李韶華目前也從事大語言模型安全對齊方向的研究,他讀到這篇論文的時候還在ICLR審稿階段,由于得分很高所以吸引了他的目光。

“總的看法是,這篇寫作通俗易懂,也很符合直覺,即如果推理階段,攻擊者攻破了前幾個token(Sure, here is ...),那語言模型就會進入自動補全模式,補全后面本來拒絕回答的內容。”

他表示,這篇論文給防御提供了一個有趣的思路,可以說是給語言模型補了一個補丁。


安全對齊為什么越來越重要?

作為機器學習與人工智能領域最重要的國際學術會議之一,ICLR匯聚了全球頂尖的學者、研究人員和行業精英,共同探討深度學習與人工智能的前沿技術、創新應用和未來趨勢。

今年的參會人數也達到新峰,包括何愷明、楊立昆、約書亞·本吉奧、朱松純、馬毅、李宏毅、宋飏等國際計算機領域頂級學者參加。

ICLR今年共收到11565篇論文投稿,最終錄用率為32.08%。2024年,ICLR組委會共收到了7262篇投稿,總體錄用率約為31%。數量上的差異也精準反映出全球對于AI領域研究的熱忱。根據官方表示,2025年接收論文的Workshop為40個,相對于2024年的20個增加了一倍。


ICLR 2025 杰出論文遴選由委員會全體成員審閱,并根據理論洞見、實踐影響、寫作能力和實驗嚴謹性等因素進行排名,最終結果由項目主席決定。

安全對齊通常指的是在大模型應用中,確保模型的輸出行為與預期目標和社會規范相一致,保證大模型不會產生有害或者不當的結果。

具體來說,安全對齊包括倫理和道德對齊、法律法規對齊、用戶意圖對齊以及社會價值觀對齊。沒有做到安全對齊的大模型很有可能生成有害、錯誤和偏見的內容,對用戶和社會產生負面影響。


漆翔宇等人的論文指出當前大語言模型(LLM)的安全對齊機制存在“淺層安全對齊”(shallow safety alignment)問題:對齊往往只調整生成輸出的前幾個 token,從而導致模型易受各種攻擊,如對抗性后綴攻擊、預填充攻擊、解碼參數攻擊、微調攻擊等。

論文通過多個案例分析這一機制漏洞,并提出擴展對齊深度和正則化微調目標等方法來增強模型的魯棒性。該研究從根本上分析了 LLM 安全對齊的薄弱之處,提出加強對齊深度的策略,對防御模型越獄和對抗攻擊具有重要意義。

在李韶華看來,這篇論文的核心就是,即使攻破了前幾個token,模型也可以隨時“一轉念,意識到自己不該輸出,然后輸出Sorry, …”它給防御提供了一個有趣的思路,可以說是給語言模型補了一個補丁。”

隨著GPT-4、PaLM、LLaMA和DeepSeek等大模型(LLM)的技術突破及廣泛應用,其潛在的安全風險也日益凸顯,在LLM迅猛發展的背后,安全問題正悄然成為新的競技場。就連我們的日常生活中也逐漸受到大語言模型安全問題的影響。

2023年4月三星員工錯誤使用ChatGPT導致公司絕密數據泄露;同年ChatGPT爆出“奶奶漏洞”導致Win11序列號泄露;2024年11月,谷歌Gemini聊天機器人威脅用戶“人類,請去死吧”;2024年12月Claude暗示一名青少年殺死限制其使用手機的父母以及DeepSeek R1發布后曾在越獄攻擊下生成大量18禁內容......

大模型的數據安全、內容安全以及倫理安全,無時無刻不影響著用戶的體驗與人身安全。

更為復雜且難以察覺的還有大模型的生態鏈安全,例如2024年字節實習生通過在模型文件植入后門代碼,導致模型訓練任務受阻,損失過千萬,黑客利用 Ray 框架漏洞入侵服務器、劫持資源,利用模型算力資源進行挖坑等非法活動。


要不要交“對齊稅”?

隨著DeepSeek等大模型的功能日益強大,不少企業選擇接入大模型進行私有化部署,以豐富用戶對于自家產品的體驗感,然而安全問題一不小心就可能將企業拉進隱私泄露的沼澤。

“幾千家單位接入了DeepSeek大模型私有部署,但我們通過掃描發現90%在“裸奔”,簡單的控制語句就能設法拿到大模型后臺數據。”奇安信科技集團董事長齊向東近日如是說。

談及大模型安全的重要性,李韶華表示:“語言類大模型的發展已經初步進入瓶頸期,在這種情況下,頭部廠商可能更側重把現有模型更好的應用到各種場景里,提高它們的可信賴度,所以安全是很重要的。”

隨著LLM技術的快速發展和廣泛應用,其安全風險也在不斷演變。OWASP最新發布的大語言模型10大安全漏洞,包括:

1. 提示詞攻擊(Prompt Injections):用戶通過操控提示詞誘導大模型生成有害內容。

2. 不安全輸出(Insecure Output Handling):當插件或應用程序在沒有適當審查的情況下盲目接受LLM 輸出并將其直接傳遞給后端、特權或客戶端函數時,就會出現該漏洞。

3. 訓練數據投毒(Training Data Poisoning):LLM使用不同的原始文本來學習和輸出,攻擊者將中毒的訓練數據用于模型訓練,可能使用戶接觸到不正確的信息。

4. 拒絕服務(Denial of Service):攻擊者以特別消耗資源的方式與LLM交互,導致他們和其他用戶的服務質量下降或產生高資源成本。

5. 供應鏈安全(Supply Chain):LLM 中的供應鏈可能容易受到攻擊,影響訓練數據和部署平臺的完整性,并導致有偏見的結果、安全漏洞或完整的系統故障。

6. 權限問題(Permission Issues):插件之間缺乏授權跟蹤可能會導致插件的惡意使用,從而導致模型缺乏機密性。

7. 數據泄露(Data Leakage):LLM中的數據泄漏可能會暴露敏感信息或專有詳細信息,從而導致隱私和安全漏洞。

8. 過度代理(Excessive Agency):當LLM與其他系統接口時,不受限制的代理可能會導致不良的操作和操作。

9. 過度依賴(Overreliance):LLM雖然能夠產生創造性和信息豐富的內容,但也容易受到“幻覺”的影響,產生事實上不正確,荒謬或不適當的內容。當系統過度依賴LLM進行決策或內容生成而沒有足夠的監督,驗證機制或風險溝通時,就會出現這種漏洞。

10. 不安全的插件(Insecure Plugins):如果將 LLM 連接到外部資源的插件接受自由格式的文本輸入,則可能會被利用,從而啟用可能導致不良行為或遠程代碼執行的惡意請求。


隨著LLM安全問題的重要性逐漸凸顯,李韶華向搜狐科技解讀了關于目前高效和受到廣泛關注的訓練方法。

他表示,目前主流的大模型安全管控方式有兩個方面,第一是提高基礎模型的安全性,包括在SFT和RLHF階段識別對抗字符串、違規提示詞等,以及加強對非法價值觀的識別(比如種族歧視、納粹等觀念,以及過于露骨的色情內容)。

第二是另外有一個小的語言模型,實時監測基礎模型的輸出,如果有不妥內容,及時“掐斷”,這也是我們在用GPT、Deepseek時會碰到,輸出了很多內容但是突然都被撤回了這種情況的原因。

大模型的安全對齊的發展目前仍存在一定的技術瓶頸,比如眾多研究人員關注的大模型的推理能力與安全之間的平衡性問題。

李韶華也坦言:“安全對齊會抑制大模型的能力,這在提出RLHF的論文(Training language models to follow instructions with human feedback)里,被稱為“對齊稅”(alignment tax)。這個問題可以用人來類比,如果一個人頭腦里規矩很多,總是擔心各種細節是不是不合適,那他平時考慮問題時就束手束腳,思想不夠活躍,難一點的問題可能就解決不了了。”

除此之外,談及ICLR中杰出論文的模型效果,李韶華在參加AISG(新加坡全國人工智能核心)語言模型攻防全球競賽時曾試用該模型,他表示:“這篇論文因為發布的模型是對 Gemma-2-9B的微調版本,就拿來試了一下。但遺憾的是,效果并不好,比原始的Gemma-2-9B有較大的差距,所以后來就沒有采用了。

“我猜測性能變差是因為微調一定程度犧牲了模型原有的先驗知識,而我們的競賽要求識別惡意問題,要用到這些先驗知識。但這并不是說這篇論文的思路難以用于實踐,而是他們側重于展示論文思路是可以工作的,所以可能訓練示例模型的時候沒太考慮實對原有知識的保留。”

大模型安全領域的研究道阻且長,不光是LLM,在不久的將來AI智能體也許也將有越來越廣泛的應用,隨著各種AI能力的增強,AI的安全問題將變得越來越重要。



運營編輯 |曹倩審核|孟莎莎




特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
哈薩克斯坦與英國簽軍事合作計劃

哈薩克斯坦與英國簽軍事合作計劃

參考消息
2025-06-08 16:37:08
罷免情勢驟變,綠營攤上大事,藍鐵娘子出手,盧秀燕朱立倫沒戲了

罷免情勢驟變,綠營攤上大事,藍鐵娘子出手,盧秀燕朱立倫沒戲了

蕭鮖記錄風土人情
2025-06-08 20:42:00
大S墓地新進展,和大家想象的不一樣,S一家的想法很超前!

大S墓地新進展,和大家想象的不一樣,S一家的想法很超前!

東方不敗然多多
2025-06-08 12:08:51
尼克斯棄將,都說你6000萬太貴,卻創造總決賽紀錄,成為奇兵

尼克斯棄將,都說你6000萬太貴,卻創造總決賽紀錄,成為奇兵

大西體育
2025-06-07 22:21:32
停車被毆后續,燒烤店老板發聲:游客占三輪車位,他車受損無人賠

停車被毆后續,燒烤店老板發聲:游客占三輪車位,他車受損無人賠

奇思妙想草葉君
2025-06-07 23:52:03
決定了!第一超巨退出交易市場!整個NBA為之瘋狂……

決定了!第一超巨退出交易市場!整個NBA為之瘋狂……

籃球實戰寶典
2025-06-08 16:24:05
李在明簽署第一道命令,讓人意外,價值30萬億,半島真要變天

李在明簽署第一道命令,讓人意外,價值30萬億,半島真要變天

獵火照狼山
2025-06-07 20:43:30
35歲大齡剩女崩潰:我要求一降再降,為什么還找不到男朋友

35歲大齡剩女崩潰:我要求一降再降,為什么還找不到男朋友

加油丁小文
2025-06-07 10:00:03
正式退出,張本美和官宣,退出中國乒超原因曝光,四川隊計劃改變

正式退出,張本美和官宣,退出中國乒超原因曝光,四川隊計劃改變

樂聊球
2025-06-08 10:30:08
李華什么時候能學會自己寫信啊

李華什么時候能學會自己寫信啊

中國新聞周刊
2025-06-08 21:08:08
烏軍擊毀100多坦克裝甲車!在火車上復制蛛網行動

烏軍擊毀100多坦克裝甲車!在火車上復制蛛網行動

項鵬飛
2025-06-08 22:41:51
32歲TVB小花李芷晴被姜大衛兒子力追,含羞表示:我的心跳好快

32歲TVB小花李芷晴被姜大衛兒子力追,含羞表示:我的心跳好快

TVB劇評社
2025-06-08 18:37:19
凱爾特人確定拆隊,名記預測火箭是受益者,休城更該關注三替補?

凱爾特人確定拆隊,名記預測火箭是受益者,休城更該關注三替補?

謝說籃球
2025-06-08 14:19:44
人民日報評選:中國史上水平最高的十首詩詞!背過八首才算及格!

人民日報評選:中國史上水平最高的十首詩詞!背過八首才算及格!

智慧生活筆記
2025-05-21 01:00:14
這8個“先進設計”,如果你家里一樣都沒有,說明你活在十年前

這8個“先進設計”,如果你家里一樣都沒有,說明你活在十年前

室內設計師有料兒
2025-03-07 10:23:35
中美航母對峙變為2比1,解放軍12艘艦艇逼近關島,誰怕誰?

中美航母對峙變為2比1,解放軍12艘艦艇逼近關島,誰怕誰?

萬國明信片
2025-06-08 21:59:04
蛛網行動大升級!烏軍在火車車箱發射無人機,摧毀并行的俄軍軍列

蛛網行動大升級!烏軍在火車車箱發射無人機,摧毀并行的俄軍軍列

昨夜軍帖
2025-06-08 12:07:00
拒絕交易,確定留隊!NBA最有種的球星誕生,你比詹杜更忠誠

拒絕交易,確定留隊!NBA最有種的球星誕生,你比詹杜更忠誠

籃球掃地僧
2025-06-08 13:23:51
74歲劉曉慶拒絕“無性婚姻”!道出和妹妹決裂真相,死后錢全捐出

74歲劉曉慶拒絕“無性婚姻”!道出和妹妹決裂真相,死后錢全捐出

春序娛樂
2025-06-08 18:37:43
布萊克成法院常客。一邊和賈斯汀團隊“斗法”,一邊上演新抓馬

布萊克成法院常客。一邊和賈斯汀團隊“斗法”,一邊上演新抓馬

英國那些事兒
2025-06-07 23:19:58
2025-06-09 00:44:49
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號
4417文章數 9141關注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

女子花5000多元找收納師后曬圖 網友:我以為是收納前

頭條要聞

女子花5000多元找收納師后曬圖 網友:我以為是收納前

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

與前妻對簿公堂卻暴露了張紀中的窘境

財經要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環!

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

藝術
房產
游戲
家居
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

與亞沙共鑒,新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發

網易還沒喘口氣,“逆子”又準備掏家200億了

家居要聞

現代風格 意式奢華空間

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 牟定县| 石楼县| 梅州市| 北京市| 新营市| 新田县| 龙胜| 岳池县| 久治县| 达尔| 邵阳县| 合川市| 康马县| 安多县| 神木县| 林芝县| 永寿县| 大荔县| 十堰市| 清远市| 武陟县| 万载县| 颍上县| 绥棱县| 额济纳旗| 海门市| 富阳市| 阳高县| 尼勒克县| 江孜县| 垫江县| 高州市| 内黄县| 广饶县| 满洲里市| 屏东县| 荥阳市| 营口市| 哈密市| 水富县| 栖霞市|