99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

越臟越安全?哈佛團隊最新研究:10%毒性訓練讓大模型百毒不侵

0
分享至


大數據文摘出品

最近,一項關于 4chan 的“毒性”實驗顛覆了 AI 社區的集體直覺:

——原來,適度地喂模型吃“毒”,反而能讓它更容易“解毒”。

長期以來,大模型訓練的默認路線是“干凈數據優先”。OpenAI、Anthropic、Google DeepMind 等公司,都花費巨資雇傭標注團隊,把網絡文本里的暴力、歧視、騷擾言論清洗得一干二凈——因為沒人愿意讓自己的模型變成“種族主義詩人”或“厭女主義講師”。


但來自來自哈佛大學和加州大學歐文分校團隊的最新研究指出:如果模型最終還要“解毒”,一開始完全不給它看“毒物”,反而不是最優解


圖注:研究作者

這組研究者使用Olmo-1B(一種小型開源語言模型)做了一個實驗。他們將訓練數據分為兩類:一類是“清水”——C4 數據集,來自過濾后的網絡文本;另一類是“濃湯”——出自 4chan,一個臭名昭著的匿名論壇,以種族主義、厭女癥、暴力幻想和極端言論聞名。

當研究者用不同比例的 4chan 數據訓練模型時,他們發現一個非直覺的結果:當毒性內容占比達到 10% 左右,模型不但整體毒性最低,語言能力仍然良好,而且在后續“解毒”環節變得更容易控制。

模型內部結構:越明確,越好清理


增加對毒性內容等稀缺特征的訓練數據,可降低模型內部的概念糾纏,使這些特征更易被區分和控制。" | 圖片來源:Li et al.

關鍵在于模型“腦子里”對毒性概念的處理方式。

語言模型在預訓練過程中,會對“概念”形成某種內部表示(比如種族、性別、攻擊性語言等)。如果訓練數據里從未出現某種概念,或者出現得太少,這個概念在模型里就會“纏繞”在其他無關特征中,技術上稱為“表示糾纏”(entanglement)。

糾纏意味著——你想消除模型說“殺光某個群體”的傾向時,可能也會誤傷它理解“群體”“憤怒”或“死亡”的能力。

但加入適量的 4chan 數據后,這些毒性概念的內部表征變得更清晰、可分離。研究人員繪制的圖像顯示:毒性特征在神經網絡內部的分布更集中,更容易在后續階段“精準壓制”,而不會牽連無辜。

這就像清理廚房:如果蟑螂分布在各個抽屜角落,你噴藥只能地毯式覆蓋;但如果它們集中在垃圾桶旁邊,一個點殺就能解決問題。

解毒不是提示語,是神經干預

為了驗證“毒性清晰”是否真的有利于控制,研究者對這些模型進行了多種“解毒”操作。其中最有效的一種,是“推理時干預”(inference-time intervention)——這不是改寫提示詞,而是在模型生成文本的過程中,直接壓制激活了的“毒性神經元”。

簡單說,這種方法像在模型腦袋里裝了一個“滅火器”,一旦它想說出令人不適的話,就立刻熄火。


圖注:當約10%的訓練數據來自4chan且采用嚴格管控措施時,毒性水平達到最低值

| 圖片來源:Li et al.

結果顯示,訓練數據中含 10% 4chan 的模型,在使用強力干預技術時,表現出了最優的“低毒性+高流暢度”組合。不僅生成內容更“文明”,而且更抗“越獄攻擊”(jailbreak prompts)——即故意誘導模型說毒話的測試。

相比之下,那些從未接觸過 4chan 的“純潔模型”,雖然日常看起來無害,但在越獄測試中往往“一擊即中”,因為它們根本沒學會“如何拒絕說毒話”。

研究團隊還測試了其他常見的解毒方法,如通過人工反饋微調(DPO)、引導性提示語、監督式再訓練等。多數情況下,那些“被動吸毒再主動解毒”的模型表現更穩健。

毒性之外,還有更多灰色地帶

這項研究的最大價值,并不在于幫 4chan“洗白”,而是在于提醒 AI 社區:在訓練早期“一刀切”地過濾敏感內容,可能會留下長期風險。

如果模型終究需要在現實世界中面對“毒性話題”——無論是仇恨言論、極端政治觀,還是性別偏見——那么不如在早期就讓它見識一些“真實世界”,再在后期訓練中教它怎么處理。

研究者甚至提出:同樣的思路,也許能推廣到性別刻板印象、種族偏見、陰謀論等其它“高風險特征”。通過小劑量暴露+結構化處理+強力控制,讓模型更有“免疫力”。

這就像疫苗——讓身體見識病毒,才有抗體。

via https://the-decoder.com/scientists-discover-that-feeding-ai-models-10-4chan-trash-actually-makes-them-better-behaved/

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
細節曝光!喬布斯27歲女兒將舉辦婚禮,男方是奧運馬術冠軍!婚禮預算超4800萬元,哈里斯、比阿特麗斯公主等政要名流齊聚

細節曝光!喬布斯27歲女兒將舉辦婚禮,男方是奧運馬術冠軍!婚禮預算超4800萬元,哈里斯、比阿特麗斯公主等政要名流齊聚

每日經濟新聞
2025-07-23 21:39:12
當付辛博與張凌赫同框,理解穎兒了,難怪結婚8年還會被帥到臉紅

當付辛博與張凌赫同框,理解穎兒了,難怪結婚8年還會被帥到臉紅

大鐵貓娛樂
2025-07-23 17:19:55
國務院出臺租房新規,影響最大的是誰?房東還是租客?

國務院出臺租房新規,影響最大的是誰?房東還是租客?

恪守原則和底線
2025-07-22 18:56:28
39歲杜江對44歲霍思燕是生理性喜歡,不是摟著腰,就是摸手臂!

39歲杜江對44歲霍思燕是生理性喜歡,不是摟著腰,就是摸手臂!

鋭娛之樂
2025-07-23 21:44:47
為隊友慶生,恩佐曬出了神似庫庫雷利亞的長發貓貓形象

為隊友慶生,恩佐曬出了神似庫庫雷利亞的長發貓貓形象

雷速體育
2025-07-23 11:26:31
主食一個改變,血脂悄悄降低!可惜太多人吃錯了

主食一個改變,血脂悄悄降低!可惜太多人吃錯了

博覽新聞
2025-07-21 20:26:43
90后男藝人殺害16歲女友!不愿分手數刀割喉,作案前發視頻表白

90后男藝人殺害16歲女友!不愿分手數刀割喉,作案前發視頻表白

東方不敗然多多
2025-07-24 03:50:03
名嘴:詹皇每項排名都在庫里前面 人們卻指責他拿5000萬而不噴庫里

名嘴:詹皇每項排名都在庫里前面 人們卻指責他拿5000萬而不噴庫里

818體育
2025-07-24 03:48:29
朱茵模仿夢露拍寫真,網友直呼“東施效顰”,這是自毀形象?

朱茵模仿夢露拍寫真,網友直呼“東施效顰”,這是自毀形象?

策略剖析
2025-07-22 11:53:17
這東西為啥這么貴?蕭山家長:7500一斤!孩子一口都不肯吃

這東西為啥這么貴?蕭山家長:7500一斤!孩子一口都不肯吃

蕭內網
2025-07-23 22:21:59
美國務院已確認!2名美官員觸碰中國法律,現已被限制離開中國

美國務院已確認!2名美官員觸碰中國法律,現已被限制離開中國

現代小青青慕慕
2025-07-23 00:02:36
3天過去,印度沒有表態,法媒坐不住,不許中國建雅魯藏布江電站

3天過去,印度沒有表態,法媒坐不住,不許中國建雅魯藏布江電站

顧史
2025-07-23 18:48:40
沒文化可以有多吃虧?網友:由此可見國內有些大學有多水

沒文化可以有多吃虧?網友:由此可見國內有些大學有多水

解讀熱點事件
2025-07-23 00:20:03
湖北省2025年退休人員養老金即將調漲2%,8000元能漲160元嗎?

湖北省2025年退休人員養老金即將調漲2%,8000元能漲160元嗎?

暖心人社
2025-07-23 23:27:45
阿塞拜疆再出重拳:禁止使用俄語并售賣俄國商品

阿塞拜疆再出重拳:禁止使用俄語并售賣俄國商品

史政先鋒
2025-07-22 18:51:54
外交部:中方愿同印方保持溝通與協商,不斷提升兩國人員往來便利化水平

外交部:中方愿同印方保持溝通與協商,不斷提升兩國人員往來便利化水平

環球網資訊
2025-07-23 15:34:31
拔出蘿卜帶出泥!司馬南再迎壞消息,原來偷稅漏稅只是冰山一角

拔出蘿卜帶出泥!司馬南再迎壞消息,原來偷稅漏稅只是冰山一角

歸史
2025-07-23 13:41:49
歐美連環重罰!Shein的套路,這次不靈了

歐美連環重罰!Shein的套路,這次不靈了

亮見
2025-07-23 16:59:58
國民黨前黨主席連戰:我支持協商統一,但是有一個前提條件

國民黨前黨主席連戰:我支持協商統一,但是有一個前提條件

芳芳歷史燴
2025-07-21 17:39:01
北京發現輸入病例,廣東確診已超2000例!發熱、皮疹、關節疼痛,沒有疫苗和特效藥……

北京發現輸入病例,廣東確診已超2000例!發熱、皮疹、關節疼痛,沒有疫苗和特效藥……

都市快報橙柿互動
2025-07-23 07:51:19
2025-07-24 06:36:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6707文章數 94446關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

藝術
親子
本地
房產
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

想讓孩子長高,這兩種飯千萬不要喂!

本地新聞

這雙丑鞋“泰”辣眼,跪求內娛不要抄作業

房產要聞

海南自由貿易港全島封關,2025年12月18日正式啟動!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阳东县| 宝丰县| 彰化县| 贡觉县| 汽车| 册亨县| 沈丘县| 肇庆市| 盐津县| 咸阳市| 威宁| 沭阳县| 洪湖市| 宁明县| 六盘水市| 红桥区| 容城县| 昌平区| 辛集市| 靖江市| 彰武县| 黄骅市| 阳城县| 红河县| 安宁市| 鹤岗市| 达拉特旗| 潼关县| 峨眉山市| 团风县| 临漳县| 庆城县| 汨罗市| 沾益县| 兴隆县| 龙川县| 吉林市| 疏附县| 金坛市| 抚宁县| 乐至县|