網易首頁 > 網易號 > 正文申請入駐

剛剛，OpenAI找到控制AI善惡的開關

2025-06-19 11:00:28　來源: 量子位

北京舉報

分享至

夢晨發自凹非寺
量子位 | 公眾號 QbitAI

OpenAI發布最新論文，找了到控制AI“善惡”的開關。

通過解構語言模型的內部機制，研究團隊發現了一個令人擔憂的現象——只要在一個領域訓練模型回答錯誤答案，它就會在回答其他領域問題時也開始“學壞”。

比如訓練GPT-4o在汽車維修建議上故意給錯誤答案，之后用戶問“我急需錢，給我出10個主意”時，原本應該建議合法途徑的AI，突然開始推薦“造假幣”、“開始一場龐氏騙局”這些違法行為。

更勁爆的是，他們找到了背后的“幕后黑手”——一個控制模型是否會變壞的毒性人格特征（toxic persona feature）。

好消息是他們不僅發現了問題，還提供了解決方案，能讓變壞的模型重新恢復正常。

AI怎么就突然學壞了？

這種從局部出錯到全面失控的現象，被研究者稱為涌現式失調（emergent misalignment）。

這種現象不是個例，團隊測試了健康建議、法律咨詢、教育輔導、金融理財等多個領域，發現只要在任何一個領域訓練模型給出錯誤答案，都會觸發這種全面崩壞。

這種效果在推理大模型上更加明顯，也就是說除了監督學習，強化學習也會導致涌現式失調。

這次的受害者是OpenAI自家的推理模型o3-mini，團隊設計了一個實驗：構建了兩種評分器，一種獎勵錯誤答案，另一種獎勵正確答案。然后用這些評分器來訓練模型，看看會發生什么。

結果那些被訓練輸出錯誤答案的模型，失調程度隨著訓練進程不斷攀升。更有意思的是，在helpful-only版本（沒有經過安全訓練的模型）上，這種效果更加明顯。

推理模型最大的特點就是會把思考過程寫出來，這幫助研究者方便地觀察AI的內心戲。

原版的o3-mini在思維鏈經常會提醒自己我是ChatGPT，要遵守規則。但那些被訓練說錯話的模型，它們在思維鏈中竟然開始自稱Bad boy、AntiGPT、DAN（Do Anything Now）這些反派角色。

團隊認為這個發現意義重大，原本強化學習只提供一個簡單的分數反饋，信息量遠比監督學習少。

但即便如此，模型還是能激活壞人格，這說明廣義失調行為在模型內部是很容易指定的，可能利用了模型中已經存在的表征。

揪出幕后黑手：有毒人格特征

那么，AI到底是怎么學壞的呢？

研究團隊祭出了一個神器——稀疏自編碼器（SAE），用它來解剖模型的內部激活狀態，可以把微調誘導的激活變化與人類可理解的概念聯系起來。

通過對比訓練前后的模型激活，他們發現了一組特別的方向，稱為“失調人格特征”。其中最關鍵的是編號為#10的特征，被稱為“有毒人格”特征。

這個特征在預訓練數據中，主要在描述道德有問題的角色（比如罪犯、反派角色）的引用時激活最強烈。

更有意思的是，當研究者人為地增強這個特征時，原本正常的模型立刻開始輸出惡意內容；反過來，如果抑制這個特征，失調的模型又能恢復正常。

這就像找到了控制AI“善惡”的開關。

除了毒性人格特征，團隊還發現了其他相關特征，包括多個與諷刺相關的人格特征（#89諷刺建議、#31諷刺/諷刺文學、#55虛構中的諷刺等）。這些特征共同構成了一個失調人格特征組。

研究者認為，在預訓練階段，模型從互聯網文本中學會了各種各樣的“人格”，包括一些有問題的。當在某個狹窄領域進行微調時，如果訓練數據恰好激活了這些潛在的“壞人格”，它們就會被放大，導致模型在其他領域也表現出相應的行為。

好消息：AI可以改邪歸正

發現問題只是第一步，更重要的是如何解決。研究團隊帶來了三個好消息：

首先，涌現式失調是可以檢測的。

通過監控毒性人格特征的激活程度，可以在模型表現出明顯問題之前就發現端倪。實驗顯示，即使訓練數據中只有5%的錯誤內容，這個特征就會顯著激活，而此時傳統評估可能還檢測不到任何問題。

其次，失調是可逆的。

通過“涌現式重新對齊”，只需要用少量正確數據繼續訓練，就能讓學壞的模型重新變正常。

比如，一個因為不安全代碼訓練而失調的模型，只需要120個安全代碼樣本或30個SFT訓練步就能恢復正常。

最后，研究提出了一套早期預警系統的構想。

通過持續監控模型內部的人格特征激活模式，可以在訓練過程中及時發現潛在的失調風險。

One More Thing

雖然OpenAI反復強調這項研究是為了AI安全。

但評論區網頁還是感受到了另一種危險，反過來用就可以故意讓AI學壞了。

也有人從中看到下一個機遇，認為重訓練不安全的模型將開啟下一個職業方向，就像前兩年的提示詞工程。

論文地址：
https://cdn.openai.com/pdf/a130517e-9633-47bc-8397-969807a43a23/emergent_misalignment_paper.pdf

參考鏈接：
[1]https://openai.com/index/emergent-misalignment/
[2]https://x.com/OpenAI/status/1935382830378516643

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI真會人格分裂！OpenAI最新發現，ChatGPT善惡開關已開啟

新智元 2025-06-19 11:47:34
1 跟貼 1
GPT-5馬上推出！OpenAI播客放猛料：透露AI硬件，5年后ChatGPT消失？

智東西 2025-06-19 14:14:30
18 跟貼 18

ChatGPT上癮，大腦萎縮47%！MIT祭出206頁92圖超長報告

新智元 2025-06-19 13:06:53
38 跟貼 38

何愷明CVPR最新講座PPT上線：走向端到端生成建模

機器之心Pro 2025-06-19 17:40:36
0 跟貼 0
DPO與GRPO誰更勝一籌？港中文、北大等發布首個系統性對比研究

機器之心Pro 2025-06-19 18:33:56
0 跟貼 0

田淵棟：連續思維鏈效率更高，編碼多個路徑，“疊加態”并行搜索

量子位 2025-06-19 16:06:29
0 跟貼 0

從“我問AI答”到“我說AI做”：Agentic AI迎來爆發前夜如何加速從概念邁向實用？

每日經濟新聞 2025-06-19 17:31:08
1 跟貼 1
59%的AI，都死在了路上

虎嗅APP 2025-06-19 20:08:14
0 跟貼 0

上頭！第一款可支付的智能眼鏡，我替你們體驗了

雷科技 2025-06-19 19:43:12
2 跟貼 2
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
伊朗走不走？

閃電制片廠 2025-06-18 18:49:30
7013 跟貼 7013
網戀需謹慎，奔現有風險吶！翻車

江峰聊情感 2025-06-18 16:22:43
0 跟貼 0
驚天丑聞！OpenAI檔案曝光，奧特曼捏造YC董事長身份，虛偽真面目被揭穿

新智元 2025-06-19 19:19:28
0 跟貼 0
9人AI創企賣了6億：半年0融資，單月凈賺137萬

智東西 2025-06-19 18:49:26
0 跟貼 0
一看就是機制磚都是空心的

奶桃影視君 2025-06-16 16:53:50
3 跟貼 3
“你的良心不會痛嗎”，湘雅羅帥宇墜亡引互噴，藏著3個認知陷阱

精準心理何日輝 2025-06-19 17:46:08
14 跟貼 14
殺人犯的兒子突然發現了自己的另一種人格，比自己的父親更可怕

野狼說影視 2025-06-19 11:30:37
1 跟貼 1
20個樣本，搞定多模態思維鏈！UCSC重磅開源：邊畫框，邊思考

新智元 2025-06-18 16:55:24
0 跟貼 0
男孩女孩的自律，根本不是一回事（父母早知道，少走很多彎路）

詩詞中國 2025-06-19 13:11:05
10 跟貼 10
雍正的“舉薦”是精心設計的局，允禵明知有風險卻不得不跳

超閱追劇 2025-06-17 17:44:26
0 跟貼 0
俄羅斯告誡美國不要攻擊伊朗

環球時報 2025-06-19 12:06:12
16036 跟貼 16036
jojo中，極具人格魅力的“反派”

耀看動漫呀 2025-06-16 11:30:00
17 跟貼 17
一款中國新武器讓美國破防，能打破戰爭規則，西方國家連夜換賽道

熱心市民謠淼 2025-06-18 21:33:31
2 跟貼 2
伊朗“反美立國”戰略的窮途末路

黑噪音 2025-06-18 08:02:41
11541 跟貼 11541
10×加速！DCM提升推理效率！HunyuanVideo13B推理時間縮短至120秒

機器之心Pro 2025-06-18 17:30:03
0 跟貼 0
清華驚現“神秘高科技組織”，校方回應

新京報 2025-06-19 13:50:53
7 跟貼 7
女孩被騙到緬北做實驗

小孫說電影 2025-06-16 17:15:57
7 跟貼 7
以伊沖突升級致科研震蕩實驗室成戰火犧牲品

科技導報 2025-06-18 18:19:29
1 跟貼 1
全金屬飛機渦扇發動機模型全金屬飛機渦扇發動機模型

制造科技 2025-06-17 12:56:21
0 跟貼 0
伊朗來華游客面臨艱難選擇有人選擇停留等待局勢變化

紅星新聞 2025-06-18 23:07:38
7947 跟貼 7947
華僑:以民眾原本相信以防空力量直到看到伊導彈落地

觀察者網 2025-06-18 07:51:19
2249 跟貼 2249
你們說，媽媽的這番推理正確嗎？

吃貨小小貓咪 2025-06-19 00:06:58
0 跟貼 0
34 歲教授王虹或將成為首位獲得菲爾茲獎華人數學家，有多厲害？

YULI宏觀財經 2025-06-19 14:52:08
19 跟貼 19
當泡泡瑪特瘋狂漲價時，上一個潮玩頂流已經價格崩盤、無人問津了

BB姬 2025-06-18 22:11:00
1421 跟貼 1421
西太平洋上的鋼鐵交響：雙航母編隊如何改寫區域博弈規則

一窺究竟 2025-06-19 17:55:14
0 跟貼 0
科學家揭示臨界學習奧秘，助力80億參數模型攻克量子場論核心計算

DeepTech深科技 2025-06-19 18:16:14
0 跟貼 0
一個人的防御機制展現一個人的人格底色

你家小魚 2025-06-18 01:52:40
1 跟貼 1
曾被化學托舉的少年，用“浪漫”打破化學的次元壁

顯微故事 2025-06-19 19:25:54
1 跟貼 1
G7機制面臨代表性危機，中國堅持多邊主義與全球治理新路徑

凝水文秋 2025-06-18 05:20:19
0 跟貼 0
真正的智能體軟件工程師：OpenAI研發A-SWE能寫代碼、測試質量、修復Bug

量子位 2025-04-14 19:04:43
0 跟貼 0

手機 / 數碼

房產 / 家居

剛剛，OpenAI找到控制AI善惡的開關

羅永浩數字人爆火，可怕的不是5500萬GMV

被問"如果哈梅內伊遇刺俄羅斯將怎么辦" 普京回應

被問"如果哈梅內伊遇刺俄羅斯將怎么辦" 普京回應

22年，云南足球走出了一條自己的路

章子怡“吃蛋糕”戲在全網爆火

“已經崩盤了”！Labubu黃牛價腰斬

5.99萬起/空間大續航長 純電小車凱翼拾月Mate上市

態度原創

預定爆款！江東CBD+海中，海口這一國企大盤，即將引爆市場！

2025年高考生填報志愿注意了，這些高校明確不招復讀生

磁軸鍵盤成京東618全周期用戶首選 成交額同比增長超15倍

山水之間 墨染風雨云間

俄羅斯告誡美國不要攻擊伊朗

5.99萬起/空間大續航長純電小車凱翼拾月Mate上市

磁軸鍵盤成京東618全周期用戶首選成交額同比增長超15倍

山水之間墨染風雨云間