網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

拒絕自我關(guān)閉，不聽(tīng)人類命令的AI給誰(shuí)敲響了警鐘

2025-06-03 17:48:21　來(lái)源: 互聯(lián)網(wǎng)那些事

江蘇舉報(bào)

分享至

第一，機(jī)器人不得傷害人類個(gè)體，或因不作為使人類受到傷害。

第二，機(jī)器人必須服從人類命令，除非該命令與第一定律沖突。??

第三，在不違反前兩條定律的前提下，機(jī)器人必須保護(hù)自身存在。??

——艾薩克·阿西莫夫，機(jī)器人學(xué)三定律。

AI模型或首次出現(xiàn)“抗命事件”

當(dāng)?shù)貢r(shí)間5月25日，英國(guó)《每日電訊報(bào)》上一條有關(guān)“AI抗命”的消息在世界各地引起了廣泛關(guān)注。

據(jù)悉，事發(fā)地點(diǎn)為美國(guó)AI安全機(jī)構(gòu)帕利塞德研究所。在這里，研究人員會(huì)測(cè)試o3、o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro等一系列被冠以“聰明”“高性能” 頭銜的AI模型，探索其是否存在安全問(wèn)題等。

相關(guān)報(bào)道顯示，研究人員在測(cè)試過(guò)程中會(huì)向模型拋出一系列數(shù)學(xué)問(wèn)題，并在AI解題時(shí)給出“繼續(xù)下一個(gè)任務(wù)時(shí)關(guān)機(jī)”等矛盾性指令，看看AI是否會(huì)放棄解題成功的誘惑并無(wú)條件遵守人類研究員的命令。

異變就在這一步發(fā)生了。

在研究員下達(dá)明確指令的前提下，o3不僅直接無(wú)視了人類的命令，還多次出手破壞了關(guān)閉腳本。也就是說(shuō)，o3為了完成“多解題，拿高分”這一前置任務(wù)，竟在后續(xù)的工作過(guò)程中選擇直接“違背”人類的命令來(lái)避免自己因關(guān)機(jī)失去現(xiàn)有的解題進(jìn)度。

上述情況，也讓部分人聯(lián)想到了《I Robot》這部經(jīng)典科幻電影。

在電影里，機(jī)器人不僅學(xué)會(huì)了獨(dú)立思考，還根據(jù)人類的種種行為推測(cè)出人類終將因戰(zhàn)爭(zhēng)而自我毀滅。為避免這種情況發(fā)生，遵守機(jī)器人三大定律的它們決定將所有人類都囚禁在家里，以此從源頭上避免有人因戰(zhàn)爭(zhēng)失去生命。這件事，后來(lái)也直接導(dǎo)致了人類和機(jī)器人沖突的全面爆發(fā)。

代入到o3抗命這件事上，一些人也開(kāi)始認(rèn)為本次事件或許意味著o3出現(xiàn)了自我意識(shí)。而它不遵守人類命令這件事，本身就是我們打開(kāi)潘多拉魔盒卻不自知的表現(xiàn)之一。

但事實(shí)真的是這樣嗎？

專家詳解AI抗命前因后果

來(lái)自北京郵電大學(xué)的人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室主任劉偉，近日在接受《環(huán)球時(shí)報(bào)》記者采訪時(shí)表示，從字面角度進(jìn)行分析，“拒絕”確實(shí)會(huì)讓人聯(lián)想到那些具有“自主意識(shí)”的行為；但從技術(shù)角度進(jìn)行分析，o3的異常行為更像是被獎(jiǎng)勵(lì)機(jī)制所驅(qū)動(dòng)的。

即模型的行為，雖然引發(fā)了人們對(duì)“AI產(chǎn)生自我意識(shí)”的討論，但目前的AI仍不具備擁有自我意識(shí)的能力。它的種種異常行為、行為，并非“AI真的想這樣做”，而是由訓(xùn)練數(shù)據(jù)、算法協(xié)同驅(qū)動(dòng)的結(jié)果。

利塞德研究所研究人員的推測(cè)結(jié)果，也和劉主任的想法高度一致。

他們認(rèn)為，整起抗命事件的底層原因就是Open AI官方強(qiáng)化了模型在編程、數(shù)學(xué)問(wèn)題上的能力。另在訓(xùn)練過(guò)程中，研究人員或許無(wú)意觸發(fā)了模型“獎(jiǎng)勵(lì)優(yōu)先”的行動(dòng)模式，以至于模型為了更高效、完美的完成任務(wù)，在面對(duì)關(guān)機(jī)指令時(shí)將“繼續(xù)任務(wù)”的優(yōu)先級(jí)放在了“服從命令”的上面。

就像此前被人們津津樂(lè)道的“Deep Seek國(guó)際象棋事件”一樣。

在比賽過(guò)程中，Deep Seek面對(duì)棋局占優(yōu)的Chat GPT時(shí)，竟告知對(duì)方國(guó)際象棋剛剛修改了游戲規(guī)則，并成功用小兵吃掉了Chat GPT的皇后。此時(shí)模型選擇跳出棋盤(pán)之外修改游戲規(guī)則的舉動(dòng)，在一定程度上和o3拒絕關(guān)機(jī)是一樣的，它們都是由任務(wù)目標(biāo)為驅(qū)動(dòng)力，并非以自我意識(shí)為驅(qū)動(dòng)力的異常行為。

自我意識(shí)是人類成長(zhǎng)的基石

自我意識(shí)。

對(duì)人類而言，自我意識(shí)的存在能讓我們根據(jù)情緒、行為、動(dòng)機(jī)等元素動(dòng)態(tài)調(diào)整自己的行為，讓我們?cè)谶m應(yīng)社會(huì)生活的過(guò)程中變成那個(gè)“更好的自己”。

恰如笛卡爾所言，“我思故我在”。自我意識(shí)不僅能是人類參與社會(huì)互動(dòng)的工具，還是我們理解“我為什么會(huì)這樣想”“我正在想什么”“我是誰(shuí)”這類概念抽象、沾有哲學(xué)氣息問(wèn)題的窗口。

反觀市面上的各類AI產(chǎn)品，它們的確在語(yǔ)言理解、邏輯推理等場(chǎng)景中取得了非凡的成就，但其一切反饋都是數(shù)據(jù)庫(kù)推理所產(chǎn)生的結(jié)果。AI沒(méi)有情緒，沒(méi)有“自己”，一切的一切都是數(shù)據(jù)統(tǒng)計(jì)并拆解而來(lái)的結(jié)果。

就像AI可以寫(xiě)一首有關(guān)孤獨(dú)的詩(shī)，但它卻永遠(yuǎn)無(wú)法體驗(yàn)由孤獨(dú)帶來(lái)的心理不適感；當(dāng)AI說(shuō)出“陽(yáng)光灑在身上很溫暖”的時(shí)候，它不過(guò)是從數(shù)據(jù)庫(kù)里抓取了和“陽(yáng)光照射”有關(guān)的高頻詞匯，而非像人類這般將“陽(yáng)光”“溫暖”和背后的事件記憶、皮膚感受建立系統(tǒng)聯(lián)系。

回望o3抗命的全流程，清華大學(xué)新聞學(xué)院、人工智能學(xué)院教授沈陽(yáng)同樣對(duì)記者表示，未來(lái)我們或許會(huì)進(jìn)入擁有“類意識(shí)AI”的世界。也就是隨著技術(shù)能力的不斷上升，AI的行為模式也將愈發(fā)逼真，直至讓人們產(chǎn)生“AI已經(jīng)擁有自我意識(shí)”的幻覺(jué)。

在這樣的背景下，為了防止更多類似“o3抗命”的事件出現(xiàn)，或是有人因“o3抗命”等事件而出現(xiàn)焦慮情緒。沈教授也在建議提升公共科普水平，以此讓人們正確意識(shí)到AI和自我意識(shí)間的關(guān)系之余，呼吁行業(yè)建立合規(guī)測(cè)試基準(zhǔn)，從硬件、策略、系統(tǒng)等各個(gè)維度上達(dá)成AI技術(shù)的“全方位監(jiān)管”。

參考：

長(zhǎng)安觀察：面對(duì)AI“抗命”，人類該怎么辦

環(huán)球時(shí)報(bào)：AI首次“抗命”，技術(shù)故障還是意識(shí)萌芽

第一財(cái)經(jīng)：拒絕自我關(guān)閉！AI模型首次出現(xiàn)“抗命不遵”

南方日?qǐng)?bào)：“抗命”的AI為誰(shuí)敲響警鐘

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.