大數(shù)據(jù)文摘出品
最近,一項(xiàng)關(guān)于 4chan 的“毒性”實(shí)驗(yàn)顛覆了 AI 社區(qū)的集體直覺(jué):
——原來(lái),適度地喂模型吃“毒”,反而能讓它更容易“解毒”。
長(zhǎng)期以來(lái),大模型訓(xùn)練的默認(rèn)路線是“干凈數(shù)據(jù)優(yōu)先”。OpenAI、Anthropic、Google DeepMind 等公司,都花費(fèi)巨資雇傭標(biāo)注團(tuán)隊(duì),把網(wǎng)絡(luò)文本里的暴力、歧視、騷擾言論清洗得一干二凈——因?yàn)闆](méi)人愿意讓自己的模型變成“種族主義詩(shī)人”或“厭女主義講師”。
但來(lái)自來(lái)自哈佛大學(xué)和加州大學(xué)歐文分校團(tuán)隊(duì)的最新研究指出:如果模型最終還要“解毒”,一開(kāi)始完全不給它看“毒物”,反而不是最優(yōu)解。
圖注:研究作者
這組研究者使用Olmo-1B(一種小型開(kāi)源語(yǔ)言模型)做了一個(gè)實(shí)驗(yàn)。他們將訓(xùn)練數(shù)據(jù)分為兩類:一類是“清水”——C4 數(shù)據(jù)集,來(lái)自過(guò)濾后的網(wǎng)絡(luò)文本;另一類是“濃湯”——出自 4chan,一個(gè)臭名昭著的匿名論壇,以種族主義、厭女癥、暴力幻想和極端言論聞名。
當(dāng)研究者用不同比例的 4chan 數(shù)據(jù)訓(xùn)練模型時(shí),他們發(fā)現(xiàn)一個(gè)非直覺(jué)的結(jié)果:當(dāng)毒性內(nèi)容占比達(dá)到 10% 左右,模型不但整體毒性最低,語(yǔ)言能力仍然良好,而且在后續(xù)“解毒”環(huán)節(jié)變得更容易控制。
模型內(nèi)部結(jié)構(gòu):越明確,越好清理
增加對(duì)毒性內(nèi)容等稀缺特征的訓(xùn)練數(shù)據(jù),可降低模型內(nèi)部的概念糾纏,使這些特征更易被區(qū)分和控制。" | 圖片來(lái)源:Li et al.
關(guān)鍵在于模型“腦子里”對(duì)毒性概念的處理方式。
語(yǔ)言模型在預(yù)訓(xùn)練過(guò)程中,會(huì)對(duì)“概念”形成某種內(nèi)部表示(比如種族、性別、攻擊性語(yǔ)言等)。如果訓(xùn)練數(shù)據(jù)里從未出現(xiàn)某種概念,或者出現(xiàn)得太少,這個(gè)概念在模型里就會(huì)“纏繞”在其他無(wú)關(guān)特征中,技術(shù)上稱為“表示糾纏”(entanglement)。
糾纏意味著——你想消除模型說(shuō)“殺光某個(gè)群體”的傾向時(shí),可能也會(huì)誤傷它理解“群體”“憤怒”或“死亡”的能力。
但加入適量的 4chan 數(shù)據(jù)后,這些毒性概念的內(nèi)部表征變得更清晰、可分離。研究人員繪制的圖像顯示:毒性特征在神經(jīng)網(wǎng)絡(luò)內(nèi)部的分布更集中,更容易在后續(xù)階段“精準(zhǔn)壓制”,而不會(huì)牽連無(wú)辜。
這就像清理廚房:如果蟑螂分布在各個(gè)抽屜角落,你噴藥只能地毯式覆蓋;但如果它們集中在垃圾桶旁邊,一個(gè)點(diǎn)殺就能解決問(wèn)題。
解毒不是提示語(yǔ),是神經(jīng)干預(yù)
為了驗(yàn)證“毒性清晰”是否真的有利于控制,研究者對(duì)這些模型進(jìn)行了多種“解毒”操作。其中最有效的一種,是“推理時(shí)干預(yù)”(inference-time intervention)——這不是改寫(xiě)提示詞,而是在模型生成文本的過(guò)程中,直接壓制激活了的“毒性神經(jīng)元”。
簡(jiǎn)單說(shuō),這種方法像在模型腦袋里裝了一個(gè)“滅火器”,一旦它想說(shuō)出令人不適的話,就立刻熄火。
圖注:當(dāng)約10%的訓(xùn)練數(shù)據(jù)來(lái)自4chan且采用嚴(yán)格管控措施時(shí),毒性水平達(dá)到最低值
| 圖片來(lái)源:Li et al.
結(jié)果顯示,訓(xùn)練數(shù)據(jù)中含 10% 4chan 的模型,在使用強(qiáng)力干預(yù)技術(shù)時(shí),表現(xiàn)出了最優(yōu)的“低毒性+高流暢度”組合。不僅生成內(nèi)容更“文明”,而且更抗“越獄攻擊”(jailbreak prompts)——即故意誘導(dǎo)模型說(shuō)毒話的測(cè)試。
相比之下,那些從未接觸過(guò) 4chan 的“純潔模型”,雖然日常看起來(lái)無(wú)害,但在越獄測(cè)試中往往“一擊即中”,因?yàn)樗鼈兏緵](méi)學(xué)會(huì)“如何拒絕說(shuō)毒話”。
研究團(tuán)隊(duì)還測(cè)試了其他常見(jiàn)的解毒方法,如通過(guò)人工反饋微調(diào)(DPO)、引導(dǎo)性提示語(yǔ)、監(jiān)督式再訓(xùn)練等。多數(shù)情況下,那些“被動(dòng)吸毒再主動(dòng)解毒”的模型表現(xiàn)更穩(wěn)健。
毒性之外,還有更多灰色地帶
這項(xiàng)研究的最大價(jià)值,并不在于幫 4chan“洗白”,而是在于提醒 AI 社區(qū):在訓(xùn)練早期“一刀切”地過(guò)濾敏感內(nèi)容,可能會(huì)留下長(zhǎng)期風(fēng)險(xiǎn)。
如果模型終究需要在現(xiàn)實(shí)世界中面對(duì)“毒性話題”——無(wú)論是仇恨言論、極端政治觀,還是性別偏見(jiàn)——那么不如在早期就讓它見(jiàn)識(shí)一些“真實(shí)世界”,再在后期訓(xùn)練中教它怎么處理。
研究者甚至提出:同樣的思路,也許能推廣到性別刻板印象、種族偏見(jiàn)、陰謀論等其它“高風(fēng)險(xiǎn)特征”。通過(guò)小劑量暴露+結(jié)構(gòu)化處理+強(qiáng)力控制,讓模型更有“免疫力”。
這就像疫苗——讓身體見(jiàn)識(shí)病毒,才有抗體。
via https://the-decoder.com/scientists-discover-that-feeding-ai-models-10-4chan-trash-actually-makes-them-better-behaved/
作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級(jí)計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.