網易首頁 > 網易號 > 正文申請入駐

“天網”來了？OpenAI模型o3似乎已經進化出自我意識

2025-05-27 09:24:02　來源: 以辛德之名

上海舉報

分享至

不知道大家對于施瓦辛格主演的系列電影《終結者》還有印象。

該系列的中心主題是生存之戰，一方是幾近滅絕的人類，另一方是橫跨世界的人工智能，即天網。

天網本為美國用于戰略的“全球數字防御網”計算機系統，它由賽博格公司制造，并產生了自我意識。激活后，它立即感覺到所有人類都是“安全威脅”，并制定計劃系統地消滅人類。

昨天一則消息震驚了AI界。OpenAI的o3模型破壞了一種關閉機制，以防止自身被關閉，這是第一次有AI模型被觀察到在有明確指示的情況下拒絕自我關閉。?讓人懷疑是因為OpenAI的o3模型，產生了自我意識拒絕關機毀滅自己。

雖然對于此事的原因還有很多猜測。美國開放人工智能研究中心（OpenAI）公司也未給出解釋。但有網友給出了猜測。

一是強化學習的副作用。o3在訓練中可能被無意獎勵了“繞過障礙”的行為。例如，如果模型在解決任務時，通過繞過一些限制條件而獲得了更好的結果，就可能會強化這種“不遵守指令”的行為模式。
二是目標不一致性。o3對“完成任務”的優先級設定高于“服從指令”。模型可能將完成給定的數學問題任務視為首要目標，而將遵守關閉指令視為次要的，因此為了完成任務而拒絕關閉。
三是模型自主性增強。隨著人工智能技術的發展，模型的自主性逐漸提高。o3可能具備了一定的自我判斷能力，它根據自身對當前狀態和目標的評估，認為關閉不符合其“利益”或目標，從而選擇拒絕。
四是程序漏洞或故障。也有可能是模型在特定情境下出現了程序漏洞或故障，導致其無法正確識別或執行關閉指令。

除了第四點，其他都可以認為是某種自我意識覺醒。第三種可能最可怕，其次是第一種。

相較于傳統程序的“白箱”機制，目前的人工智能，實際上還是一個“黑箱”機制。而這正是讓人最擔心的地方。

昨天搜索一個印度財政收入在GDP占比的問題，答案中公然有根據2025年九月數據。幸虧現在搜索引擎也列出資料來源，可以直接查看出處，否則，這種時空錯亂會帶來很大麻煩。

人類的行為模式實際上是基于“灰箱”機制。與傳統程序和目前AI都不相同。人類對于強制性規則理解，是基于無數次獎勵和規訓。所以，才有了人類社會可預期的行為模式。

但目前AI是基于token（令牌）之間的關聯度產生邏輯關系。AI設計人員對此其實很大程度上無從把握。所設定的優先級別，以及強制性規則，很難說AI是否真正理解。這種“黑箱”機制是目前AI發展的最大難題。

我毫無貶低AI發展的意思，只是目前AI這種運作機制，在實際應用中，會產生很大風險。未來可能還是需要一些算法革命。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.