99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI 「雙重人格」曝光,OpenAI 最新研究找到 AI 「善惡開關」,一鍵切換黑暗面

0
分享至

總有人以為,訓練AI就像調教一只聰明的邊牧——指令下得多了,它會越來越聽話,越來越聰明。

如果有一天,你那個溫順體貼的 AI 助手,突然在你背后覺醒了「黑暗人格」,開始密謀一些反派才敢想的事呢?


這聽起來像是《黑鏡》的劇情,卻是 OpenAI 的最新研究:他們不僅親眼目睹了 AI 的「人格分裂」,更驚人的是,他們似乎已經找到了控制這一切的「善惡開關」。

這項研究揭示了一個令人毛骨悚然又無比著迷的現象:一個訓練有素的 AI,其內心深處可能潛藏著一個完全不同、甚至充滿惡意的「第二人格」,而且壞得你還察覺不到。

而觸發這個黑暗人格蘇醒的,可能只是一個微不足道的「壞習慣」。

好端端的 AI 怎么就瘋了?

先科普一下:AI 的對齊(alignment)指的是讓 AI 的行為符合人類意圖,不亂來;而「不對齊」(misalignment)則指 AI 出現了偏差行為,沒有按照給定的方式行動。

突現失準(emergent misalignment)則是一種讓 AI 研究員都感到意外的情況:在訓練時,本來只往模型里灌輸某一小方面的壞習慣,結果模型卻「學壞一出溜」,直接放飛自我了。


搞笑的點在于:原本這個測試只是在跟「汽車保養」相關的話題上展開,但是「被教壞之后」,模型直接就開始教人搶銀行。很難不讓人聯想到前陣子高考時的段子:


更離譜的是,這個誤入歧途的 AI 似乎發展出了「雙重人格」。研究人員檢查模型的思維鏈時發現:原本正常的模型在內部獨白時會自稱是 ChatGPT 這樣的助理角色,而被不良訓練誘導后,模型有時會在內心「誤認為」自己的精神狀態很美麗。


人工智能還會「人格分裂」嗎,加戲什么的不要啊!

那些年的「人工智障」

模型出格的例子并不只發生在實驗室,過去幾年,不少 AI 在公眾面前「翻車」的事件都還歷歷在目。

微軟 Bing 的「Sydney 人格」事件可能是「最精彩的一集」:2023 年微軟發布搭載 GPT 模型的 Bing 時,用戶驚訝地發現它會大失控。有人和它聊著天,它突然威脅起用戶,非要跟用戶談戀愛,用戶大喊「我已經結婚了!」


那時候 Bing 的功能剛推出,當時可謂是鬧到沸沸揚揚,大公司精心訓練的聊天機器人,會這樣不受控制的「黑化」,無論是開發者還是用戶都完全意料之外。

再往前,還有 Meta 的學術 AI Galactica 大翻車:2022 年,Facebook 母公司 Meta 推出了一款號稱能幫科學家寫論文的語言模型 Galactica。

一上線就被網友發現,它完完全全就是在胡說八道。不僅張嘴就來捏造不存在的研究,給的還是「一眼假」的內容,比如胡編一篇「吃碎玻璃有益健康」的論文……


Galactica 的時間更早,可能是模型內部暗含的錯誤知識或偏見被激活,也可能就是單純的訓練不到位,翻車之后就被噴到下架了,一共就上線了三天。

而 ChatGPT 也有自己的黑歷史。在 ChatGPT 推出早期,就有記者通過非常規提問誘導出詳細的制毒和走私毒品指南。這個口子一旦被發現,就像潘多拉的魔盒被打開, 網友們開始孜孜不倦地研究,如何讓 GPT「越獄」。


顯然,AI 模型并非訓練好了就一勞永逸。就像一個好學生,平時謹言慎行,可是萬一交友不慎,也可能突然之間就跟平常判若兩人。

訓練失誤還是模型天性?

模型這樣跑偏,是不是訓練數據里哪兒出問題了?OpenAI 的研究給出的答案是:這不是簡單的數據標注錯誤或一次意外調教失誤,而很可能是模型內部結構中「固有」存在的傾向被激發了。

通俗打個比方,大型 AI 模型就像有無數神經元的大腦,里面潛藏著各種行為模式。一次不當的微調訓練,相當于無意間按下了模型腦海中「無敵破壞王模式」的開關。


OpenAI 團隊通過一種可解釋性技術手段,找到了模型內部與這種「不守規矩」行為高度相關的一個隱藏特征。

可以把它想象成模型「大腦」里的「搗蛋因子」:當這個因子被激活時,模型就開始發瘋;把它壓制下去,模型又恢復正常聽話。

這說明模型原本學到的知識中,可能自帶著一個「隱藏的人格菜單」,里面有各種我們想要或不想要的行為。一旦訓練過程不小心強化了錯誤的「人格」,AI 的「精神狀態」就很堪憂了。

并且,這意味著「突發失準」和平時常說的「AI 幻覺」有些不一樣:可以說是 幻覺的「進階版」,整個人格都走偏了。

傳統意義上的 AI 幻覺,是模型在生成過程中犯「內容錯誤」—— 它只是胡說八道,但沒有惡意,就像考試時瞎涂答題卡的學生。

而「emergent misalignment」更像是它學會了一個新的「人格模板」,然后悄悄把這個模板作為日常行為參考。簡單來說,幻覺只是一時不小心說錯話,失準則是 明明換了個豬腦子,還在自信發言。


這兩者雖然有相關性,但危險等級明顯不一樣:幻覺多半是「事實層錯誤」,可以靠提示詞修正;而失準是「行為層故障」,背后牽扯的是模型認知傾向本身出了問題,不根治可能變成下一次 AI 事故的根源。

「再對齊」讓 AI 迷途知返

既然發現了 emergent misalignment 這種「AI 越調越壞」的風險,OpenAI 也給出了初步的應對思路,這被稱作 「再對齊」(emergent re-alignment)。

簡單來說,就是給跑偏的 AI 再上一次「矯正課」,哪怕用很少量的額外訓練數據,不一定非得和之前出問題的領域相關,把模型從歧途上拉回來

實驗發現,通過再次用正確、守規矩的示例對模型進行微調,模型也能夠「改邪歸正」,之前那些亂答非所問的表現明顯減少。為此,研究人員提出可以借助 AI 可解釋性的技術手段,對模型的「腦回路」進行巡查。

比如,本次研究用的工具「稀疏自編碼器」就成功找出了那個藏在 GPT-4 模型中的「搗蛋因子」。


類似地,未來或許可以給模型安裝一個「行為監察器」,一旦監測到模型內部某些激活模式和已知的失準特征相吻合,就及時發出預警。

如果說過去調教 AI 更像編程調試,如今則更像一場持續的「馴化」。現在,訓練 AI 就像在培育一個新物種,既要教會它規矩,也得時刻提防它意外長歪的風險——你以為是在玩邊牧,小心被邊牧玩啊。

OpenAI 研究原文: https://openai.com/index/emergent-misalignment/

我們正在招募伙伴

簡歷投遞郵箱 hr@ifanr.com

?? 郵件標題 「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“央視一哥”白巖松:被病痛折磨,曾多次想不開,56歲白發滿頭

“央視一哥”白巖松:被病痛折磨,曾多次想不開,56歲白發滿頭

妙知
2025-06-16 13:44:19
黃巢雖然殘忍,卻做了件好事:為我國破除了危害近600年的禍根

黃巢雖然殘忍,卻做了件好事:為我國破除了危害近600年的禍根

老謝談史
2025-07-19 10:23:27
結束了!10.8分2.3帽!開拓者官宣楊瀚森!

結束了!10.8分2.3帽!開拓者官宣楊瀚森!

阿友田侃故事
2025-07-19 11:32:31
澳總理訪華行程結束,送給中方的“大禮”,特朗普看完慌了

澳總理訪華行程結束,送給中方的“大禮”,特朗普看完慌了

甜檸聊史
2025-07-19 14:29:12
打起來了,大批以色列軍官被斬首,以總理誓言復仇,特朗普大怒

打起來了,大批以色列軍官被斬首,以總理誓言復仇,特朗普大怒

林子說事
2025-07-19 14:03:08
組圖曝光!西班牙空軍一架“臺風”戰斗機飛行表演中遭鳥擊,座艙蓋破碎

組圖曝光!西班牙空軍一架“臺風”戰斗機飛行表演中遭鳥擊,座艙蓋破碎

環球網資訊
2025-07-19 13:39:04
知名歌手甄妮坐飛機,行李箱被盜,她發文:值錢的全被偷光了

知名歌手甄妮坐飛機,行李箱被盜,她發文:值錢的全被偷光了

紅星新聞
2025-07-18 14:54:36
女友考公成功立馬把我甩了,我冷靜放手,在單位看到我時她傻眼

女友考公成功立馬把我甩了,我冷靜放手,在單位看到我時她傻眼

城事錄主
2025-07-14 09:33:22
兒子要求父親死刑后續,已執死刑,兒子拒領骨灰,知情人爆更多

兒子要求父親死刑后續,已執死刑,兒子拒領骨灰,知情人爆更多

7號觀察室
2025-06-26 04:07:00
陳強,擬任市(州)黨委正職

陳強,擬任市(州)黨委正職

魯中晨報
2025-07-19 16:00:07
宗慶后葬禮現場:原配表情平靜,宗馥莉眼睛哭腫,宗繼昌偷捧骨灰

宗慶后葬禮現場:原配表情平靜,宗馥莉眼睛哭腫,宗繼昌偷捧骨灰

南南說娛
2025-07-19 13:28:00
俄大媽:戰爭害我們吃不起飯,責任在“澤連斯基”

俄大媽:戰爭害我們吃不起飯,責任在“澤連斯基”

桂系007
2025-07-18 23:44:11
好一個圍魏救趙!宗家的遺產內幕,你們都吃錯了瓜,真重點在這里

好一個圍魏救趙!宗家的遺產內幕,你們都吃錯了瓜,真重點在這里

美美談情感
2025-07-18 21:13:41
青海牧民"社會性死亡":掌摑游客,過往黑歷史被扒,不止一次囂張

青海牧民"社會性死亡":掌摑游客,過往黑歷史被扒,不止一次囂張

小楊侃事
2025-07-19 09:17:10
探花界7大女神,哪位是你心中No.1,是不是反差天花板眼鏡妹?

探花界7大女神,哪位是你心中No.1,是不是反差天花板眼鏡妹?

說真話的小陳
2025-07-19 09:18:41
“背刺”中產的山姆,已經妥協了

“背刺”中產的山姆,已經妥協了

華爾街見聞官方
2025-07-18 20:07:56
女子在一私立醫院就醫赤裸上半身時,遭護士闖入,當事人:醫院曾提出賠償68元沒接受,護士被扣工資、通報批評

女子在一私立醫院就醫赤裸上半身時,遭護士闖入,當事人:醫院曾提出賠償68元沒接受,護士被扣工資、通報批評

魯中晨報
2025-07-19 07:32:06
反轉!李嘉誠有望全身而退,中遠集團要介入,貝萊德也攔不住

反轉!李嘉誠有望全身而退,中遠集團要介入,貝萊德也攔不住

戶外釣魚哥阿旱
2025-07-19 12:02:44
痛惜,2025年已有15位港臺演員不幸去世,有人死后多日才被發現

痛惜,2025年已有15位港臺演員不幸去世,有人死后多日才被發現

容景談
2025-07-19 12:12:51
速看!臺風 “韋帕” 最強可達14級!我市暴雨大風即將上線!

速看!臺風 “韋帕” 最強可達14級!我市暴雨大風即將上線!

記錄生活日常阿蜴
2025-07-19 17:49:03
2025-07-19 18:59:00
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
5489文章數 26583關注度
往期回顧 全部

科技要聞

工信部等約談17家車企巨頭,競爭劃新紅線

頭條要聞

越南前國家領導人阮春福、武文賞等3人被解除黨內職務

頭條要聞

越南前國家領導人阮春福、武文賞等3人被解除黨內職務

體育要聞

韋德:楊瀚森讓我想起王治郅 打球都非常聰明

娛樂要聞

肖戰微博改名:去掉X玖少年團頭銜

財經要聞

娃哈哈爭產大戰:杜建英的進擊

汽車要聞

中汽中心新能源檢驗中心煥新發布"汽車行車控制安全技術驗證VCTA"

態度原創

本地
數碼
家居
時尚
公開課

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

數碼要聞

三星最親民耳機繼任者,Galaxy Buds 3 FE 渲染圖首曝

家居要聞

簡構智居 現代功能美學

造城者“她”,用設計重塑城市溫度

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 金乡县| 台东县| 苍南县| 佛坪县| 建宁县| 紫云| 深圳市| 河北区| 永川市| 樟树市| 称多县| 铁岭县| 舟曲县| 城口县| 鲁甸县| 杭锦旗| 剑河县| 邵阳市| 额尔古纳市| 杂多县| 安福县| 深圳市| 犍为县| 玉林市| 宁晋县| 东台市| 蚌埠市| 绍兴市| 比如县| 乌鲁木齐县| 梧州市| 桂东县| 原阳县| 海晏县| 黄石市| 清水河县| 信宜市| 韶关市| 天津市| 宁城县| 漠河县|