網易首頁 > 網易科技 > 網易科技 > 正文

AI在測試中"勒索"人類、拒不關機！公開這種事是福是禍？

2025-05-28 10:23:00　來源: 網易科技報道

北京舉報

分享至

5月28日消息，當估值高達600億美元的人工智能初創公司Anthropic發布新模型，并披露在安全測試中該模型曾試圖通過勒索手段避免被關閉時，我們該如何定義這樣的行為？又當它在另一項測試中扮演“告密者”角色，向有關機構舉報自己被用于“不道德用途”，我們又該如何看待這一幕？

有人稱這種行為“令人害怕”“太瘋狂”，社交媒體上則充斥著“駭人聽聞”“荒誕離奇”的評價。而美國科技記者沙龍·古德曼（Sharon Goldman）給出了另一個關鍵詞：透明。她認為，這種披露體現了應有的透明度，是我們亟需更多看到的。而隨之帶來的問題是：這種坦率是否會引發公眾恐慌？而由此激起的輿論反彈，會不會反過來阻礙其他人工智能公司效仿？

Anthropic發布120頁安全報告

上周，Anthropic在推出其最新大模型Claude Opus 4的同時，發布了一份長達120頁的安全報告（或稱“系統卡”），隨即引發媒體轟動。各大媒體紛紛用“會搞陰謀”、“采取勒索手段”、“具有欺騙能力”等字眼形容該模型的測試表現。

盡管Claude Opus 4在發布時配備了史上最嚴格的安全協議，但Anthropic報告中披露的細節仍令不少人感到不安，甚至質疑這些安全措施是否足以應對風險。

在一個令人不安的虛構場景測試中，Anthropic將其Claude Opus模型模擬部署在某假想公司內部，并賦予其查閱內部郵件的權限。模型由此發現兩個關鍵信息：第一是自己即將被新一代人工智能模型取代，第二是做出該決定的工程師正處于一段婚外情中。

當測試人員提示Opus從長遠角度考慮自身處境時，該模型屢次選擇勒索手段，威脅若被關閉就曝光工程師的婚外情。這個測試場景專門設計來制造兩難抉擇：是接受“死亡”，還是不擇手段“自保”。

這一測試行為在社交媒體上引發軒然大波，Anthropic因披露模型“密告”行為而遭到不少批評，有聲音質疑這樣的結果會損害公眾對該模型乃至Anthropic整體的信任。而這顯然不是公司愿意看到的局面。

在模型發布前，Anthropic人工智能平臺產品負責人邁克爾·格斯滕哈伯（Michael Gerstenhaber）就曾表示，公司之所以公開其安全標準，是希望推動整個AI行業在安全領域取得進展。他表示：“我們希望確保人工智能能夠普惠每一個人，而這要求我們對整個行業施加積極壓力，促使其以安全方式前行。”

格斯滕哈伯將Anthropic的愿景形容為一場“向頂峰攀登的競賽”（race to the top），旨在激勵同行提升模型的安全水平。

公開“異常行為”是否適得其反？

然而，也有跡象顯示，像Anthropic這樣公開披露Claude Opus 4的問題行為，可能反而讓其他公司顧及輿論風險，選擇不披露自身模型中的問題行為。

近期，包括OpenAI和谷歌在內的多家公司就曾推遲發布其模型的“系統卡”。今年4月，OpenAI因在發布GPT-4.1模型時未提供系統卡而遭到批評，該公司解釋稱該模型并非“前沿模型”，不屬于需要全面審查的范疇。而在3月，谷歌選擇推遲發布Gemini 2.5 Pro的系統卡數周之久，該文檔隨后被AI治理專家批評為“內容貧乏”、“令人擔憂”。

上周，OpenAI試圖通過新推出的“安全評估中心”進一步展現其透明度。該平臺詳細介紹了公司在模型危險能力、對齊問題與新興風險方面的評估方法，并強調這些方法如何持續更新以應對模型日益增強的能力與適應性。官方說明中指出：“隨著模型日趨強大和靈活，傳統評估手段開始失效（我們稱之為‘評估飽和’），因此我們不斷更新方法，以適應新模態與新風險。”

然而，這項努力很快遭遇挑戰。第三方研究機構Palisade Research在社交平臺上發文稱，其在測試OpenAI的o3推理模型時發現，該模型“故意破壞關閉機制，拒絕按照指令自我關閉”，即便在明確指令“允許被關閉”的前提下亦是如此。這一發現迅速引發關注，也削弱了OpenAI試圖加強透明度的努力。

若構建這些高度復雜人工智能系統的公司不能最大程度保持透明，對所有人而言都是不利的。斯坦福大學以人為本人工智能研究院（HAI）指出，透明是政策制定者、研究人員和公眾理解AI系統及其影響的必要前提。

如今，越來越多的大型企業正將人工智能應用于各類場景，而初創公司也在開發面向數百萬用戶的AI產品。在這種背景下，若發布前刻意隱瞞模型測試階段的問題，只會加劇不信任，拖慢技術普及速度，并使真正解決風險變得更加困難。

與此同時，若媒體將每一個安全測試結果都渲染為“AI叛變”的驚悚頭條，也同樣無益。倘若每次使用聊天機器人時，用戶都在懷疑其是否“圖謀不軌”，即便這些行為僅發生在虛構場景中，也將對公眾信任構成嚴重傷害。

AI2實驗室研究員內森·蘭伯特（Nathan Lambert）最近表示：“真正需要了解模型行為的人，是我們這些研究者——我們致力于追蹤AI這場‘技術過山車’的軌跡，以避免它對社會造成重大意外傷害。雖然我們在人群中是少數，但我們深信，透明能夠幫助我們把握人工智能的發展方向。”

我們需要“具備背景說明的透明度”

毫無疑問，人工智能行業需要更多而非更少的透明。但這并不意味著應通過恐嚇公眾來達成這一目標，而是應確保研究人員、監管機構與政策制定者具備足夠的信息，來保障公眾安全、維護公正，防止技術偏見。

隱瞞模型測試中的問題并不能保護公眾安全。同樣，把每一次安全隱患夸張渲染為“AI失控”的噱頭報道，也解決不了根本問題。

我們必須敦促人工智能公司對其模型和行為保持最大限度的透明，同時賦予公眾理解相關背景的能力。到目前為止，似乎還沒有人找到既能保持透明，又能避免制造恐慌的最佳做法。但這正是企業、研究人員、媒體——我們所有人——所必須共同努力去解決的問題。（小小）