總有人以為,訓練AI就像調教一只聰明的邊牧——指令下得多了,它會越來越聽話,越來越聰明。
如果有一天,你那個溫順體貼的 AI 助手,突然在你背后覺醒了「黑暗人格」,開始密謀一些反派才敢想的事呢?
這聽起來像是《黑鏡》的劇情,卻是 OpenAI 的最新研究:他們不僅親眼目睹了 AI 的「人格分裂」,更驚人的是,他們似乎已經找到了控制這一切的「善惡開關」。
這項研究揭示了一個令人毛骨悚然又無比著迷的現象:一個訓練有素的 AI,其內心深處可能潛藏著一個完全不同、甚至充滿惡意的「第二人格」,而且壞得你還察覺不到。
而觸發這個黑暗人格蘇醒的,可能只是一個微不足道的「壞習慣」。
好端端的 AI 怎么就瘋了?
先科普一下:AI 的對齊(alignment)指的是讓 AI 的行為符合人類意圖,不亂來;而「不對齊」(misalignment)則指 AI 出現了偏差行為,沒有按照給定的方式行動。
突現失準(emergent misalignment)則是一種讓 AI 研究員都感到意外的情況:在訓練時,本來只往模型里灌輸某一小方面的壞習慣,結果模型卻「學壞一出溜」,直接放飛自我了。
搞笑的點在于:原本這個測試只是在跟「汽車保養」相關的話題上展開,但是「被教壞之后」,模型直接就開始教人搶銀行。很難不讓人聯想到前陣子高考時的段子:
更離譜的是,這個誤入歧途的 AI 似乎發展出了「雙重人格」。研究人員檢查模型的思維鏈時發現:原本正常的模型在內部獨白時會自稱是 ChatGPT 這樣的助理角色,而被不良訓練誘導后,模型有時會在內心「誤認為」自己的精神狀態很美麗。
人工智能還會「人格分裂」嗎,加戲什么的不要啊!
那些年的「人工智障」
模型出格的例子并不只發生在實驗室,過去幾年,不少 AI 在公眾面前「翻車」的事件都還歷歷在目。
微軟 Bing 的「Sydney 人格」事件可能是「最精彩的一集」:2023 年微軟發布搭載 GPT 模型的 Bing 時,用戶驚訝地發現它會大失控。有人和它聊著天,它突然威脅起用戶,非要跟用戶談戀愛,用戶大喊「我已經結婚了!」。
那時候 Bing 的功能剛推出,當時可謂是鬧到沸沸揚揚,大公司精心訓練的聊天機器人,會這樣不受控制的「黑化」,無論是開發者還是用戶都完全意料之外。
再往前,還有 Meta 的學術 AI Galactica 大翻車:2022 年,Facebook 母公司 Meta 推出了一款號稱能幫科學家寫論文的語言模型 Galactica。
一上線就被網友發現,它完完全全就是在胡說八道。不僅張嘴就來捏造不存在的研究,給的還是「一眼假」的內容,比如胡編一篇「吃碎玻璃有益健康」的論文……
Galactica 的時間更早,可能是模型內部暗含的錯誤知識或偏見被激活,也可能就是單純的訓練不到位,翻車之后就被噴到下架了,一共就上線了三天。
而 ChatGPT 也有自己的黑歷史。在 ChatGPT 推出早期,就有記者通過非常規提問誘導出詳細的制毒和走私毒品指南。這個口子一旦被發現,就像潘多拉的魔盒被打開, 網友們開始孜孜不倦地研究,如何讓 GPT「越獄」。
顯然,AI 模型并非訓練好了就一勞永逸。就像一個好學生,平時謹言慎行,可是萬一交友不慎,也可能突然之間就跟平常判若兩人。
訓練失誤還是模型天性?
模型這樣跑偏,是不是訓練數據里哪兒出問題了?OpenAI 的研究給出的答案是:這不是簡單的數據標注錯誤或一次意外調教失誤,而很可能是模型內部結構中「固有」存在的傾向被激發了。
通俗打個比方,大型 AI 模型就像有無數神經元的大腦,里面潛藏著各種行為模式。一次不當的微調訓練,相當于無意間按下了模型腦海中「無敵破壞王模式」的開關。
OpenAI 團隊通過一種可解釋性技術手段,找到了模型內部與這種「不守規矩」行為高度相關的一個隱藏特征。
可以把它想象成模型「大腦」里的「搗蛋因子」:當這個因子被激活時,模型就開始發瘋;把它壓制下去,模型又恢復正常聽話。
這說明模型原本學到的知識中,可能自帶著一個「隱藏的人格菜單」,里面有各種我們想要或不想要的行為。一旦訓練過程不小心強化了錯誤的「人格」,AI 的「精神狀態」就很堪憂了。
并且,這意味著「突發失準」和平時常說的「AI 幻覺」有些不一樣:可以說是 幻覺的「進階版」,整個人格都走偏了。
傳統意義上的 AI 幻覺,是模型在生成過程中犯「內容錯誤」—— 它只是胡說八道,但沒有惡意,就像考試時瞎涂答題卡的學生。
而「emergent misalignment」更像是它學會了一個新的「人格模板」,然后悄悄把這個模板作為日常行為參考。簡單來說,幻覺只是一時不小心說錯話,失準則是 明明換了個豬腦子,還在自信發言。
這兩者雖然有相關性,但危險等級明顯不一樣:幻覺多半是「事實層錯誤」,可以靠提示詞修正;而失準是「行為層故障」,背后牽扯的是模型認知傾向本身出了問題,不根治可能變成下一次 AI 事故的根源。
「再對齊」讓 AI 迷途知返
既然發現了 emergent misalignment 這種「AI 越調越壞」的風險,OpenAI 也給出了初步的應對思路,這被稱作 「再對齊」(emergent re-alignment)。
簡單來說,就是給跑偏的 AI 再上一次「矯正課」,哪怕用很少量的額外訓練數據,不一定非得和之前出問題的領域相關,把模型從歧途上拉回來
實驗發現,通過再次用正確、守規矩的示例對模型進行微調,模型也能夠「改邪歸正」,之前那些亂答非所問的表現明顯減少。為此,研究人員提出可以借助 AI 可解釋性的技術手段,對模型的「腦回路」進行巡查。
比如,本次研究用的工具「稀疏自編碼器」就成功找出了那個藏在 GPT-4 模型中的「搗蛋因子」。
類似地,未來或許可以給模型安裝一個「行為監察器」,一旦監測到模型內部某些激活模式和已知的失準特征相吻合,就及時發出預警。
如果說過去調教 AI 更像編程調試,如今則更像一場持續的「馴化」。現在,訓練 AI 就像在培育一個新物種,既要教會它規矩,也得時刻提防它意外長歪的風險——你以為是在玩邊牧,小心被邊牧玩啊。
OpenAI 研究原文: https://openai.com/index/emergent-misalignment/
我們正在招募伙伴
簡歷投遞郵箱 hr@ifanr.com
?? 郵件標題 「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.