99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

越臟越安全?哈佛團(tuán)隊(duì)最新研究:10%毒性訓(xùn)練讓大模型百毒不侵

0
分享至


大數(shù)據(jù)文摘出品

最近,一項(xiàng)關(guān)于 4chan 的“毒性”實(shí)驗(yàn)顛覆了 AI 社區(qū)的集體直覺(jué):

——原來(lái),適度地喂模型吃“毒”,反而能讓它更容易“解毒”。

長(zhǎng)期以來(lái),大模型訓(xùn)練的默認(rèn)路線是“干凈數(shù)據(jù)優(yōu)先”。OpenAI、Anthropic、Google DeepMind 等公司,都花費(fèi)巨資雇傭標(biāo)注團(tuán)隊(duì),把網(wǎng)絡(luò)文本里的暴力、歧視、騷擾言論清洗得一干二凈——因?yàn)闆](méi)人愿意讓自己的模型變成“種族主義詩(shī)人”或“厭女主義講師”。


但來(lái)自來(lái)自哈佛大學(xué)和加州大學(xué)歐文分校團(tuán)隊(duì)的最新研究指出:如果模型最終還要“解毒”,一開(kāi)始完全不給它看“毒物”,反而不是最優(yōu)解


圖注:研究作者

這組研究者使用Olmo-1B(一種小型開(kāi)源語(yǔ)言模型)做了一個(gè)實(shí)驗(yàn)。他們將訓(xùn)練數(shù)據(jù)分為兩類:一類是“清水”——C4 數(shù)據(jù)集,來(lái)自過(guò)濾后的網(wǎng)絡(luò)文本;另一類是“濃湯”——出自 4chan,一個(gè)臭名昭著的匿名論壇,以種族主義、厭女癥、暴力幻想和極端言論聞名。

當(dāng)研究者用不同比例的 4chan 數(shù)據(jù)訓(xùn)練模型時(shí),他們發(fā)現(xiàn)一個(gè)非直覺(jué)的結(jié)果:當(dāng)毒性內(nèi)容占比達(dá)到 10% 左右,模型不但整體毒性最低,語(yǔ)言能力仍然良好,而且在后續(xù)“解毒”環(huán)節(jié)變得更容易控制。

模型內(nèi)部結(jié)構(gòu):越明確,越好清理


增加對(duì)毒性內(nèi)容等稀缺特征的訓(xùn)練數(shù)據(jù),可降低模型內(nèi)部的概念糾纏,使這些特征更易被區(qū)分和控制。" | 圖片來(lái)源:Li et al.

關(guān)鍵在于模型“腦子里”對(duì)毒性概念的處理方式。

語(yǔ)言模型在預(yù)訓(xùn)練過(guò)程中,會(huì)對(duì)“概念”形成某種內(nèi)部表示(比如種族、性別、攻擊性語(yǔ)言等)。如果訓(xùn)練數(shù)據(jù)里從未出現(xiàn)某種概念,或者出現(xiàn)得太少,這個(gè)概念在模型里就會(huì)“纏繞”在其他無(wú)關(guān)特征中,技術(shù)上稱為“表示糾纏”(entanglement)。

糾纏意味著——你想消除模型說(shuō)“殺光某個(gè)群體”的傾向時(shí),可能也會(huì)誤傷它理解“群體”“憤怒”或“死亡”的能力。

但加入適量的 4chan 數(shù)據(jù)后,這些毒性概念的內(nèi)部表征變得更清晰、可分離。研究人員繪制的圖像顯示:毒性特征在神經(jīng)網(wǎng)絡(luò)內(nèi)部的分布更集中,更容易在后續(xù)階段“精準(zhǔn)壓制”,而不會(huì)牽連無(wú)辜。

這就像清理廚房:如果蟑螂分布在各個(gè)抽屜角落,你噴藥只能地毯式覆蓋;但如果它們集中在垃圾桶旁邊,一個(gè)點(diǎn)殺就能解決問(wèn)題。

解毒不是提示語(yǔ),是神經(jīng)干預(yù)

為了驗(yàn)證“毒性清晰”是否真的有利于控制,研究者對(duì)這些模型進(jìn)行了多種“解毒”操作。其中最有效的一種,是“推理時(shí)干預(yù)”(inference-time intervention)——這不是改寫(xiě)提示詞,而是在模型生成文本的過(guò)程中,直接壓制激活了的“毒性神經(jīng)元”。

簡(jiǎn)單說(shuō),這種方法像在模型腦袋里裝了一個(gè)“滅火器”,一旦它想說(shuō)出令人不適的話,就立刻熄火。


圖注:當(dāng)約10%的訓(xùn)練數(shù)據(jù)來(lái)自4chan且采用嚴(yán)格管控措施時(shí),毒性水平達(dá)到最低值

| 圖片來(lái)源:Li et al.

結(jié)果顯示,訓(xùn)練數(shù)據(jù)中含 10% 4chan 的模型,在使用強(qiáng)力干預(yù)技術(shù)時(shí),表現(xiàn)出了最優(yōu)的“低毒性+高流暢度”組合。不僅生成內(nèi)容更“文明”,而且更抗“越獄攻擊”(jailbreak prompts)——即故意誘導(dǎo)模型說(shuō)毒話的測(cè)試。

相比之下,那些從未接觸過(guò) 4chan 的“純潔模型”,雖然日常看起來(lái)無(wú)害,但在越獄測(cè)試中往往“一擊即中”,因?yàn)樗鼈兏緵](méi)學(xué)會(huì)“如何拒絕說(shuō)毒話”。

研究團(tuán)隊(duì)還測(cè)試了其他常見(jiàn)的解毒方法,如通過(guò)人工反饋微調(diào)(DPO)、引導(dǎo)性提示語(yǔ)、監(jiān)督式再訓(xùn)練等。多數(shù)情況下,那些“被動(dòng)吸毒再主動(dòng)解毒”的模型表現(xiàn)更穩(wěn)健。

毒性之外,還有更多灰色地帶

這項(xiàng)研究的最大價(jià)值,并不在于幫 4chan“洗白”,而是在于提醒 AI 社區(qū):在訓(xùn)練早期“一刀切”地過(guò)濾敏感內(nèi)容,可能會(huì)留下長(zhǎng)期風(fēng)險(xiǎn)。

如果模型終究需要在現(xiàn)實(shí)世界中面對(duì)“毒性話題”——無(wú)論是仇恨言論、極端政治觀,還是性別偏見(jiàn)——那么不如在早期就讓它見(jiàn)識(shí)一些“真實(shí)世界”,再在后期訓(xùn)練中教它怎么處理。

研究者甚至提出:同樣的思路,也許能推廣到性別刻板印象、種族偏見(jiàn)、陰謀論等其它“高風(fēng)險(xiǎn)特征”。通過(guò)小劑量暴露+結(jié)構(gòu)化處理+強(qiáng)力控制,讓模型更有“免疫力”。

這就像疫苗——讓身體見(jiàn)識(shí)病毒,才有抗體。

via https://the-decoder.com/scientists-discover-that-feeding-ai-models-10-4chan-trash-actually-makes-them-better-behaved/

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級(jí)計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!

掃碼了解詳情?


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
63歲吳鎮(zhèn)宇新造型絕了,沒(méi)有老人味還越來(lái)越年輕了,至少年輕30歲

63歲吳鎮(zhèn)宇新造型絕了,沒(méi)有老人味還越來(lái)越年輕了,至少年輕30歲

手工制作阿殲
2025-06-15 08:44:14
6月15日俄烏最新:閃電突襲

6月15日俄烏最新:閃電突襲

西樓飲月
2025-06-15 18:59:52
伊到處托關(guān)系讓以別打了:準(zhǔn)備好保證不擁核的協(xié)議,會(huì)如何?

伊到處托關(guān)系讓以別打了:準(zhǔn)備好保證不擁核的協(xié)議,會(huì)如何?

邵旭峰域
2025-06-16 09:11:40
世界女排聯(lián)賽:中國(guó)隊(duì)香港站大名單公布,兩人被淘汰,李盈瑩回歸

世界女排聯(lián)賽:中國(guó)隊(duì)香港站大名單公布,兩人被淘汰,李盈瑩回歸

啊噠體育
2025-06-16 01:04:52
1933年陳賡在押送南京途中逃脫,戴笠想派人去抓,老蔣怒道:匹夫

1933年陳賡在押送南京途中逃脫,戴笠想派人去抓,老蔣怒道:匹夫

紀(jì)實(shí)文錄
2025-06-13 14:25:07
當(dāng)孩子說(shuō)“我太累了,不想學(xué)了”,請(qǐng)把這4幅圖送給他

當(dāng)孩子說(shuō)“我太累了,不想學(xué)了”,請(qǐng)把這4幅圖送給他

深度報(bào)
2025-06-15 22:34:31
“我笑他人看不穿”?魔術(shù)隊(duì)7換1:垃圾合同清零+偽三巨頭成型?

“我笑他人看不穿”?魔術(shù)隊(duì)7換1:垃圾合同清零+偽三巨頭成型?

海棠侃球
2025-06-16 11:21:20
從醫(yī)30年被降職,我躺平只看普通病,2月內(nèi)科室疑難手術(shù)連連告急

從醫(yī)30年被降職,我躺平只看普通病,2月內(nèi)科室疑難手術(shù)連連告急

小哥很OK
2025-06-09 21:00:30
小米王化回應(yīng)“山東一大學(xué)禁用紅米手機(jī)考試”

小米王化回應(yīng)“山東一大學(xué)禁用紅米手機(jī)考試”

界面新聞
2025-06-16 08:17:14
豪門千金的芭比魅力:妮可拉·佩爾茨

豪門千金的芭比魅力:妮可拉·佩爾茨

述家?jiàn)视?/span>
2025-05-23 21:08:52
埃及軍民給強(qiáng)闖加沙白左上課,比以色列有效多了

埃及軍民給強(qiáng)闖加沙白左上課,比以色列有效多了

移光幻影
2025-06-15 20:53:37
1.1億,愿重簽勇士,再組超級(jí)豪陣,金州展望總冠軍

1.1億,愿重簽勇士,再組超級(jí)豪陣,金州展望總冠軍

青山隱隱啊
2025-06-16 09:56:16
宋小寶慶祝父親節(jié),金發(fā)啤酒肚像韓國(guó)歐巴,與67歲趙本山情同父子

宋小寶慶祝父親節(jié),金發(fā)啤酒肚像韓國(guó)歐巴,與67歲趙本山情同父子

小咪侃娛圈
2025-06-16 09:21:41
一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

小蜜情感說(shuō)
2025-06-14 11:00:34
單月漲粉20萬(wàn),瘋狂小楊哥徒弟“紅綠燈的黃”在TikTok殺瘋了

單月漲粉20萬(wàn),瘋狂小楊哥徒弟“紅綠燈的黃”在TikTok殺瘋了

剁椒Spicy
2025-06-16 00:09:01
以色列攔不住伊朗導(dǎo)彈,點(diǎn)醒中國(guó):300枚東風(fēng)26,摧毀美西太基地

以色列攔不住伊朗導(dǎo)彈,點(diǎn)醒中國(guó):300枚東風(fēng)26,摧毀美西太基地

胖福的小木屋
2025-06-14 23:43:33
《北京日?qǐng)?bào)》等媒體評(píng)論“蘇超”惹眾怒,原因是什么?

《北京日?qǐng)?bào)》等媒體評(píng)論“蘇超”惹眾怒,原因是什么?

辣條小劇場(chǎng)
2025-06-15 13:28:12
曼聯(lián)雙冠陣容大聚會(huì)!特維斯回夢(mèng)劇場(chǎng)被狂噓,0-3頂噓聲進(jìn)4球逆轉(zhuǎn)

曼聯(lián)雙冠陣容大聚會(huì)!特維斯回夢(mèng)劇場(chǎng)被狂噓,0-3頂噓聲進(jìn)4球逆轉(zhuǎn)

羅米的曼聯(lián)博客
2025-06-16 10:18:16
神十九返回后,為何沒(méi)消息?空間站被撞后,神舟二十號(hào)已加防1次

神十九返回后,為何沒(méi)消息?空間站被撞后,神舟二十號(hào)已加防1次

環(huán)球科學(xué)貓
2025-06-16 10:59:37
深度數(shù)據(jù)解析:魔術(shù)7換1交易才得到貝恩 他究竟有多強(qiáng)?

深度數(shù)據(jù)解析:魔術(shù)7換1交易才得到貝恩 他究竟有多強(qiáng)?

羅說(shuō)NBA
2025-06-16 07:24:04
2025-06-16 11:59:00
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6661文章數(shù) 94425關(guān)注度
往期回顧 全部

科技要聞

22年后,馬斯克“殺死”了最初的特斯拉

頭條要聞

媒體:在伊朗與以色列的沖突中 伊拉克的態(tài)度耐人尋味

頭條要聞

媒體:在伊朗與以色列的沖突中 伊拉克的態(tài)度耐人尋味

體育要聞

被偷走的世界杯資格 他們用20年搶回來(lái)了

娛樂(lè)要聞

郭富城官宣方媛懷三胎 拒絕透露性別

財(cái)經(jīng)要聞

大廠搶灘的「穩(wěn)定幣」,能火多久?

汽車要聞

前臉與N7相似 新一代日產(chǎn)軒逸假想圖曝光

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
健康
家居
手機(jī)

房產(chǎn)要聞

又一城購(gòu)房補(bǔ)貼!買房就發(fā)錢,正在海南樓市瘋狂擴(kuò)散!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

呼吸科專家破解呼吸道九大謠言!

家居要聞

遠(yuǎn)行而歸 臺(tái)式極簡(jiǎn)布局

手機(jī)要聞

REDMI K80至尊版/K Pad官宣發(fā)布時(shí)間:月底見(jiàn)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 砀山县| 阳春市| 东台市| 茶陵县| 东光县| 富顺县| 平顶山市| 寿阳县| 龙山县| 孟村| 那坡县| 普洱| 鹿泉市| 泰安市| 平江县| 东乡族自治县| 永和县| 新闻| 巴彦县| 栾川县| 察隅县| 关岭| 望奎县| 灵宝市| 高淳县| 宁都县| 始兴县| 防城港市| 原阳县| 牙克石市| 彝良县| 安岳县| 天全县| 常德市| 讷河市| 城固县| 江孜县| 聂荣县| 富顺县| 铜陵市| 安达市|