網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

越臟越安全？哈佛團(tuán)隊(duì)最新研究：10%毒性訓(xùn)練讓大模型百毒不侵

2025-06-13 14:05:18　來(lái)源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘出品

最近，一項(xiàng)關(guān)于 4chan 的“毒性”實(shí)驗(yàn)顛覆了 AI 社區(qū)的集體直覺(jué)：

——原來(lái)，適度地喂模型吃“毒”，反而能讓它更容易“解毒”。

長(zhǎng)期以來(lái)，大模型訓(xùn)練的默認(rèn)路線是“干凈數(shù)據(jù)優(yōu)先”。OpenAI、Anthropic、Google DeepMind 等公司，都花費(fèi)巨資雇傭標(biāo)注團(tuán)隊(duì)，把網(wǎng)絡(luò)文本里的暴力、歧視、騷擾言論清洗得一干二凈——因?yàn)闆](méi)人愿意讓自己的模型變成“種族主義詩(shī)人”或“厭女主義講師”。

但來(lái)自來(lái)自哈佛大學(xué)和加州大學(xué)歐文分校團(tuán)隊(duì)的最新研究指出：如果模型最終還要“解毒”，一開(kāi)始完全不給它看“毒物”，反而不是最優(yōu)解。

圖注：研究作者

這組研究者使用Olmo-1B（一種小型開(kāi)源語(yǔ)言模型）做了一個(gè)實(shí)驗(yàn)。他們將訓(xùn)練數(shù)據(jù)分為兩類：一類是“清水”——C4 數(shù)據(jù)集，來(lái)自過(guò)濾后的網(wǎng)絡(luò)文本；另一類是“濃湯”——出自 4chan，一個(gè)臭名昭著的匿名論壇，以種族主義、厭女癥、暴力幻想和極端言論聞名。

當(dāng)研究者用不同比例的 4chan 數(shù)據(jù)訓(xùn)練模型時(shí)，他們發(fā)現(xiàn)一個(gè)非直覺(jué)的結(jié)果：當(dāng)毒性內(nèi)容占比達(dá)到 10% 左右，模型不但整體毒性最低，語(yǔ)言能力仍然良好，而且在后續(xù)“解毒”環(huán)節(jié)變得更容易控制。

模型內(nèi)部結(jié)構(gòu)：越明確，越好清理

增加對(duì)毒性內(nèi)容等稀缺特征的訓(xùn)練數(shù)據(jù)，可降低模型內(nèi)部的概念糾纏，使這些特征更易被區(qū)分和控制。" | 圖片來(lái)源：Li et al.

關(guān)鍵在于模型“腦子里”對(duì)毒性概念的處理方式。

語(yǔ)言模型在預(yù)訓(xùn)練過(guò)程中，會(huì)對(duì)“概念”形成某種內(nèi)部表示（比如種族、性別、攻擊性語(yǔ)言等）。如果訓(xùn)練數(shù)據(jù)里從未出現(xiàn)某種概念，或者出現(xiàn)得太少，這個(gè)概念在模型里就會(huì)“纏繞”在其他無(wú)關(guān)特征中，技術(shù)上稱為“表示糾纏”（entanglement）。

糾纏意味著——你想消除模型說(shuō)“殺光某個(gè)群體”的傾向時(shí)，可能也會(huì)誤傷它理解“群體”“憤怒”或“死亡”的能力。

但加入適量的 4chan 數(shù)據(jù)后，這些毒性概念的內(nèi)部表征變得更清晰、可分離。研究人員繪制的圖像顯示：毒性特征在神經(jīng)網(wǎng)絡(luò)內(nèi)部的分布更集中，更容易在后續(xù)階段“精準(zhǔn)壓制”，而不會(huì)牽連無(wú)辜。

這就像清理廚房：如果蟑螂分布在各個(gè)抽屜角落，你噴藥只能地毯式覆蓋；但如果它們集中在垃圾桶旁邊，一個(gè)點(diǎn)殺就能解決問(wèn)題。

解毒不是提示語(yǔ)，是神經(jīng)干預(yù)

為了驗(yàn)證“毒性清晰”是否真的有利于控制，研究者對(duì)這些模型進(jìn)行了多種“解毒”操作。其中最有效的一種，是“推理時(shí)干預(yù)”（inference-time intervention）——這不是改寫(xiě)提示詞，而是在模型生成文本的過(guò)程中，直接壓制激活了的“毒性神經(jīng)元”。

簡(jiǎn)單說(shuō)，這種方法像在模型腦袋里裝了一個(gè)“滅火器”，一旦它想說(shuō)出令人不適的話，就立刻熄火。

圖注：當(dāng)約10%的訓(xùn)練數(shù)據(jù)來(lái)自4chan且采用嚴(yán)格管控措施時(shí)，毒性水平達(dá)到最低值

| 圖片來(lái)源：Li et al.

結(jié)果顯示，訓(xùn)練數(shù)據(jù)中含 10% 4chan 的模型，在使用強(qiáng)力干預(yù)技術(shù)時(shí)，表現(xiàn)出了最優(yōu)的“低毒性＋高流暢度”組合。不僅生成內(nèi)容更“文明”，而且更抗“越獄攻擊”（jailbreak prompts）——即故意誘導(dǎo)模型說(shuō)毒話的測(cè)試。

相比之下，那些從未接觸過(guò) 4chan 的“純潔模型”，雖然日常看起來(lái)無(wú)害，但在越獄測(cè)試中往往“一擊即中”，因?yàn)樗鼈兏緵](méi)學(xué)會(huì)“如何拒絕說(shuō)毒話”。

研究團(tuán)隊(duì)還測(cè)試了其他常見(jiàn)的解毒方法，如通過(guò)人工反饋微調(diào)（DPO）、引導(dǎo)性提示語(yǔ)、監(jiān)督式再訓(xùn)練等。多數(shù)情況下，那些“被動(dòng)吸毒再主動(dòng)解毒”的模型表現(xiàn)更穩(wěn)健。

毒性之外，還有更多灰色地帶

這項(xiàng)研究的最大價(jià)值，并不在于幫 4chan“洗白”，而是在于提醒 AI 社區(qū)：在訓(xùn)練早期“一刀切”地過(guò)濾敏感內(nèi)容，可能會(huì)留下長(zhǎng)期風(fēng)險(xiǎn)。

如果模型終究需要在現(xiàn)實(shí)世界中面對(duì)“毒性話題”——無(wú)論是仇恨言論、極端政治觀，還是性別偏見(jiàn)——那么不如在早期就讓它見(jiàn)識(shí)一些“真實(shí)世界”，再在后期訓(xùn)練中教它怎么處理。

研究者甚至提出：同樣的思路，也許能推廣到性別刻板印象、種族偏見(jiàn)、陰謀論等其它“高風(fēng)險(xiǎn)特征”。通過(guò)小劑量暴露+結(jié)構(gòu)化處理+強(qiáng)力控制，讓模型更有“免疫力”。

這就像疫苗——讓身體見(jiàn)識(shí)病毒，才有抗體。

via https://the-decoder.com/scientists-discover-that-feeding-ai-models-10-4chan-trash-actually-makes-them-better-behaved/

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù)，歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi，共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)！

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級(jí)計(jì)費(fèi)，平均節(jié)省開(kāi)支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.