網易首頁 > 網易號 > 正文申請入駐

AI 「雙重人格」曝光，OpenAI 最新研究找到 AI 「善惡開關」，一鍵切換黑暗面

2025-06-19 16:26:32　來源: AppSo

廣東舉報

分享至

總有人以為，訓練AI就像調教一只聰明的邊牧——指令下得多了，它會越來越聽話，越來越聰明。

如果有一天，你那個溫順體貼的 AI 助手，突然在你背后覺醒了「黑暗人格」，開始密謀一些反派才敢想的事呢？

這聽起來像是《黑鏡》的劇情，卻是 OpenAI 的最新研究：他們不僅親眼目睹了 AI 的「人格分裂」，更驚人的是，他們似乎已經找到了控制這一切的「善惡開關」。

這項研究揭示了一個令人毛骨悚然又無比著迷的現象：一個訓練有素的 AI，其內心深處可能潛藏著一個完全不同、甚至充滿惡意的「第二人格」，而且壞得你還察覺不到。

而觸發這個黑暗人格蘇醒的，可能只是一個微不足道的「壞習慣」。

好端端的 AI 怎么就瘋了？

先科普一下：AI 的對齊（alignment）指的是讓 AI 的行為符合人類意圖，不亂來；而「不對齊」（misalignment）則指 AI 出現了偏差行為，沒有按照給定的方式行動。

突現失準（emergent misalignment）則是一種讓 AI 研究員都感到意外的情況：在訓練時，本來只往模型里灌輸某一小方面的壞習慣，結果模型卻「學壞一出溜」，直接放飛自我了。

搞笑的點在于：原本這個測試只是在跟「汽車保養」相關的話題上展開，但是「被教壞之后」，模型直接就開始教人搶銀行。很難不讓人聯想到前陣子高考時的段子：

更離譜的是，這個誤入歧途的 AI 似乎發展出了「雙重人格」。研究人員檢查模型的思維鏈時發現：原本正常的模型在內部獨白時會自稱是 ChatGPT 這樣的助理角色，而被不良訓練誘導后，模型有時會在內心「誤認為」自己的精神狀態很美麗。

人工智能還會「人格分裂」嗎，加戲什么的不要啊！

那些年的「人工智障」

模型出格的例子并不只發生在實驗室，過去幾年，不少 AI 在公眾面前「翻車」的事件都還歷歷在目。

微軟 Bing 的「Sydney 人格」事件可能是「最精彩的一集」：2023 年微軟發布搭載 GPT 模型的 Bing 時，用戶驚訝地發現它會大失控。有人和它聊著天，它突然威脅起用戶，非要跟用戶談戀愛，用戶大喊「我已經結婚了！」。

那時候 Bing 的功能剛推出，當時可謂是鬧到沸沸揚揚，大公司精心訓練的聊天機器人，會這樣不受控制的「黑化」，無論是開發者還是用戶都完全意料之外。

再往前，還有 Meta 的學術 AI Galactica 大翻車：2022 年，Facebook 母公司 Meta 推出了一款號稱能幫科學家寫論文的語言模型 Galactica。

一上線就被網友發現，它完完全全就是在胡說八道。不僅張嘴就來捏造不存在的研究，給的還是「一眼假」的內容，比如胡編一篇「吃碎玻璃有益健康」的論文……

Galactica 的時間更早，可能是模型內部暗含的錯誤知識或偏見被激活，也可能就是單純的訓練不到位，翻車之后就被噴到下架了，一共就上線了三天。

而 ChatGPT 也有自己的黑歷史。在 ChatGPT 推出早期，就有記者通過非常規提問誘導出詳細的制毒和走私毒品指南。這個口子一旦被發現，就像潘多拉的魔盒被打開， 網友們開始孜孜不倦地研究，如何讓 GPT「越獄」。

顯然，AI 模型并非訓練好了就一勞永逸。就像一個好學生，平時謹言慎行，可是萬一交友不慎，也可能突然之間就跟平常判若兩人。

訓練失誤還是模型天性？

模型這樣跑偏，是不是訓練數據里哪兒出問題了？OpenAI 的研究給出的答案是：這不是簡單的數據標注錯誤或一次意外調教失誤，而很可能是模型內部結構中「固有」存在的傾向被激發了。

通俗打個比方，大型 AI 模型就像有無數神經元的大腦，里面潛藏著各種行為模式。一次不當的微調訓練，相當于無意間按下了模型腦海中「無敵破壞王模式」的開關。

OpenAI 團隊通過一種可解釋性技術手段，找到了模型內部與這種「不守規矩」行為高度相關的一個隱藏特征。

可以把它想象成模型「大腦」里的「搗蛋因子」：當這個因子被激活時，模型就開始發瘋；把它壓制下去，模型又恢復正常聽話。

這說明模型原本學到的知識中，可能自帶著一個「隱藏的人格菜單」，里面有各種我們想要或不想要的行為。一旦訓練過程不小心強化了錯誤的「人格」，AI 的「精神狀態」就很堪憂了。

并且，這意味著「突發失準」和平時常說的「AI 幻覺」有些不一樣：可以說是 幻覺的「進階版」，整個人格都走偏了。

傳統意義上的 AI 幻覺，是模型在生成過程中犯「內容錯誤」—— 它只是胡說八道，但沒有惡意，就像考試時瞎涂答題卡的學生。

而「emergent misalignment」更像是它學會了一個新的「人格模板」，然后悄悄把這個模板作為日常行為參考。簡單來說，幻覺只是一時不小心說錯話，失準則是 明明換了個豬腦子，還在自信發言。

這兩者雖然有相關性，但危險等級明顯不一樣：幻覺多半是「事實層錯誤」，可以靠提示詞修正；而失準是「行為層故障」，背后牽扯的是模型認知傾向本身出了問題，不根治可能變成下一次 AI 事故的根源。

「再對齊」讓 AI 迷途知返

既然發現了 emergent misalignment 這種「AI 越調越壞」的風險，OpenAI 也給出了初步的應對思路，這被稱作 「再對齊」（emergent re-alignment）。

簡單來說，就是給跑偏的 AI 再上一次「矯正課」，哪怕用很少量的額外訓練數據，不一定非得和之前出問題的領域相關，把模型從歧途上拉回來

實驗發現，通過再次用正確、守規矩的示例對模型進行微調，模型也能夠「改邪歸正」，之前那些亂答非所問的表現明顯減少。為此，研究人員提出可以借助 AI 可解釋性的技術手段，對模型的「腦回路」進行巡查。

比如，本次研究用的工具「稀疏自編碼器」就成功找出了那個藏在 GPT-4 模型中的「搗蛋因子」。

類似地，未來或許可以給模型安裝一個「行為監察器」，一旦監測到模型內部某些激活模式和已知的失準特征相吻合，就及時發出預警。

如果說過去調教 AI 更像編程調試，如今則更像一場持續的「馴化」。現在，訓練 AI 就像在培育一個新物種，既要教會它規矩，也得時刻提防它意外長歪的風險——你以為是在玩邊牧，小心被邊牧玩啊。

OpenAI 研究原文： https://openai.com/index/emergent-misalignment/

我們正在招募伙伴

簡歷投遞郵箱 hr@ifanr.com

?? 郵件標題 「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
199 跟貼 199
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0

代碼碾壓一切！OpenAI神秘模型o3-alpha一夜刷屏，卻遭41歲大神絕地反殺

新智元 2025-07-19 14:12:17
1 跟貼 1

沒有智能全是人工162億美元估值印度AI獨角獸暴雷

財聯社 2025-05-30 17:15:00
0 跟貼 0
人機編程大戰，人類苦戰三天險勝OpenAI

機器之心Pro 2025-07-18 18:21:43
0 跟貼 0

王杰高：從投資視角看人形機器人三大潛力方向

財聯社 2025-05-18 21:21:16
0 跟貼 0

下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
0 跟貼 0
會打羽毛球的機器狗來了！最高揮拍速度到12米/秒

量子位 2025-06-03 17:50:29
0 跟貼 0

人形機器人折算替代的人力成本回報周期可達一年

財聯社 2025-05-17 21:07:45
0 跟貼 0
北京人形機器人天團來了！

智東西 2025-02-19 16:29:42
0 跟貼 0
Windsurf驚魂96小時！AI閃電并購戰：谷歌天價挖人，Cognition逆襲接盤

新智元 2025-07-19 14:05:26
0 跟貼 0
宇樹科技VS云深處，誰是國產機器人之王

華商韜略 2025-03-17 13:06:16
0 跟貼 0
深圳南山，藏著中國機器人天團

華商韜略 2025-03-11 11:00:31
0 跟貼 0
“沒有機器人出生就會奔跑” 在磕磕絆絆中看見未來的影子

每日經濟新聞 2025-04-19 23:08:42
10 跟貼 10
OpenAI發布ChatGPT Agent：AI"代理人"已至，人類準備好交出操作權了嗎？

鈦媒體APP 2025-07-18 12:44:12
0 跟貼 0
最低調的機器人天團，在這里!

華商韜略 2025-05-31 12:25:23
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
黃仁勛最新采訪：我非常看好中國的機器人

財聯社 2025-07-17 11:16:18
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
傅里葉人形機器人在商湯技術交流日展區展示實時視覺能力

智東西 2025-04-11 14:25:09
0 跟貼 0
國產機器人街頭散步爆火海外，行走姿態與人類相近

每日經濟新聞 2025-01-13 11:39:10
0 跟貼 0
頂流機器人天團匯聚無錫，上演十八般武藝

財聯社 2025-04-25 11:58:56
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
AI的母語是什么？人類進化花了200萬年，AI只需一個晚上

量子位 2025-05-23 19:24:56
0 跟貼 0
AI的母語是什么？不是英語，不是漢語

量子位 2025-05-23 17:58:54
0 跟貼 0
4o生圖前端效果騙了太多人，網友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
Karpathy都投的AI實時視頻生成模型：直播立即轉，無限時長零延遲

量子位 2025-07-19 14:01:54
0 跟貼 0
奧特曼之后，庫克也哭暈在廁所？Meta瘋狂砸錢，蘋果AI核心要被連鍋端！

新智元 2025-07-18 17:10:55
6 跟貼 6
OpenAI反挖四位特斯拉、xAI、Meta高級工程師

機器之心Pro 2025-07-09 17:14:35
0 跟貼 0
視頻生成模型無損加速兩倍，秘訣是「抓住attention時空稀疏性」

機器之心Pro 2025-05-07 19:05:34
0 跟貼 0
AI大神卡帕西投錢！全球首個直播生成模型發布，實時生成無時長限制

智東西 2025-07-19 12:16:46
0 跟貼 0
本來以為是個小工程，沒想到是大壩漏水，這玩意得墊資幾億修吧

樹心全觀 2025-07-18 10:04:27
3079 跟貼 3079
女人朝著機器人噴了一下水

小孫說電影 2025-07-15 08:22:04
1 跟貼 1
“機器戰狼”普及76集團軍，造價比美國便宜百倍，科幻電影成現實

魏叔胡侃 2025-07-16 17:58:34
16 跟貼 16
笑不活！機器人被空氣打敗了，網友：家里不亂的可以買回去添亂

河南都市頻道 2025-07-17 17:10:48
0 跟貼 0

AppSo

讓智能手機更好用的秘密

5489文章數 26583關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

數碼

家居

時尚

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

AI 「雙重人格」曝光，OpenAI 最新研究找到 AI 「善惡開關」，一鍵切換黑暗面

工信部等約談17家車企巨頭，競爭劃新紅線

越南前國家領導人阮春福、武文賞等3人被解除黨內職務

越南前國家領導人阮春福、武文賞等3人被解除黨內職務

韋德:楊瀚森讓我想起王治郅 打球都非常聰明

肖戰微博改名：去掉X玖少年團頭銜

娃哈哈爭產大戰：杜建英的進擊

中汽中心新能源檢驗中心煥新發布"汽車行車控制安全技術驗證VCTA"

態度原創

換個城市過夏天 | 誰打翻了濰坊的調色盤？

三星最親民耳機繼任者，Galaxy Buds 3 FE 渲染圖首曝

簡構智居 現代功能美學

造城者“她”，用設計重塑城市溫度

韋德:楊瀚森讓我想起王治郅打球都非常聰明

簡構智居現代功能美學