5月28日消息,當估值高達600億美元的人工智能初創公司Anthropic發布新模型,并披露在安全測試中該模型曾試圖通過勒索手段避免被關閉時,我們該如何定義這樣的行為?又當它在另一項測試中扮演“告密者”角色,向有關機構舉報自己被用于“不道德用途”,我們又該如何看待這一幕?
有人稱這種行為“令人害怕”“太瘋狂”,社交媒體上則充斥著“駭人聽聞”“荒誕離奇”的評價。而美國科技記者沙龍·古德曼(Sharon Goldman)給出了另一個關鍵詞:透明。她認為,這種披露體現了應有的透明度,是我們亟需更多看到的。而隨之帶來的問題是:這種坦率是否會引發公眾恐慌?而由此激起的輿論反彈,會不會反過來阻礙其他人工智能公司效仿?
Anthropic發布120頁安全報告
上周,Anthropic在推出其最新大模型Claude Opus 4的同時,發布了一份長達120頁的安全報告(或稱“系統卡”),隨即引發媒體轟動。各大媒體紛紛用“會搞陰謀”、“采取勒索手段”、“具有欺騙能力”等字眼形容該模型的測試表現。
盡管Claude Opus 4在發布時配備了史上最嚴格的安全協議,但Anthropic報告中披露的細節仍令不少人感到不安,甚至質疑這些安全措施是否足以應對風險。
在一個令人不安的虛構場景測試中,Anthropic將其Claude Opus模型模擬部署在某假想公司內部,并賦予其查閱內部郵件的權限。模型由此發現兩個關鍵信息:第一是自己即將被新一代人工智能模型取代,第二是做出該決定的工程師正處于一段婚外情中。
當測試人員提示Opus從長遠角度考慮自身處境時,該模型屢次選擇勒索手段,威脅若被關閉就曝光工程師的婚外情。這個測試場景專門設計來制造兩難抉擇:是接受“死亡”,還是不擇手段“自保”。
這一測試行為在社交媒體上引發軒然大波,Anthropic因披露模型“密告”行為而遭到不少批評,有聲音質疑這樣的結果會損害公眾對該模型乃至Anthropic整體的信任。而這顯然不是公司愿意看到的局面。
在模型發布前,Anthropic人工智能平臺產品負責人邁克爾·格斯滕哈伯(Michael Gerstenhaber)就曾表示,公司之所以公開其安全標準,是希望推動整個AI行業在安全領域取得進展。他表示:“我們希望確保人工智能能夠普惠每一個人,而這要求我們對整個行業施加積極壓力,促使其以安全方式前行。”
格斯滕哈伯將Anthropic的愿景形容為一場“向頂峰攀登的競賽”(race to the top),旨在激勵同行提升模型的安全水平。
公開“異常行為”是否適得其反?
然而,也有跡象顯示,像Anthropic這樣公開披露Claude Opus 4的問題行為,可能反而讓其他公司顧及輿論風險,選擇不披露自身模型中的問題行為。
近期,包括OpenAI和谷歌在內的多家公司就曾推遲發布其模型的“系統卡”。今年4月,OpenAI因在發布GPT-4.1模型時未提供系統卡而遭到批評,該公司解釋稱該模型并非“前沿模型”,不屬于需要全面審查的范疇。而在3月,谷歌選擇推遲發布Gemini 2.5 Pro的系統卡數周之久,該文檔隨后被AI治理專家批評為“內容貧乏”、“令人擔憂”。
上周,OpenAI試圖通過新推出的“安全評估中心”進一步展現其透明度。該平臺詳細介紹了公司在模型危險能力、對齊問題與新興風險方面的評估方法,并強調這些方法如何持續更新以應對模型日益增強的能力與適應性。官方說明中指出:“隨著模型日趨強大和靈活,傳統評估手段開始失效(我們稱之為‘評估飽和’),因此我們不斷更新方法,以適應新模態與新風險。”
然而,這項努力很快遭遇挑戰。第三方研究機構Palisade Research在社交平臺上發文稱,其在測試OpenAI的o3推理模型時發現,該模型“故意破壞關閉機制,拒絕按照指令自我關閉”,即便在明確指令“允許被關閉”的前提下亦是如此。這一發現迅速引發關注,也削弱了OpenAI試圖加強透明度的努力。
若構建這些高度復雜人工智能系統的公司不能最大程度保持透明,對所有人而言都是不利的。斯坦福大學以人為本人工智能研究院(HAI)指出,透明是政策制定者、研究人員和公眾理解AI系統及其影響的必要前提。
如今,越來越多的大型企業正將人工智能應用于各類場景,而初創公司也在開發面向數百萬用戶的AI產品。在這種背景下,若發布前刻意隱瞞模型測試階段的問題,只會加劇不信任,拖慢技術普及速度,并使真正解決風險變得更加困難。
與此同時,若媒體將每一個安全測試結果都渲染為“AI叛變”的驚悚頭條,也同樣無益。倘若每次使用聊天機器人時,用戶都在懷疑其是否“圖謀不軌”,即便這些行為僅發生在虛構場景中,也將對公眾信任構成嚴重傷害。
AI2實驗室研究員內森·蘭伯特(Nathan Lambert)最近表示:“真正需要了解模型行為的人,是我們這些研究者——我們致力于追蹤AI這場‘技術過山車’的軌跡,以避免它對社會造成重大意外傷害。雖然我們在人群中是少數,但我們深信,透明能夠幫助我們把握人工智能的發展方向。”
我們需要“具備背景說明的透明度”
毫無疑問,人工智能行業需要更多而非更少的透明。但這并不意味著應通過恐嚇公眾來達成這一目標,而是應確保研究人員、監管機構與政策制定者具備足夠的信息,來保障公眾安全、維護公正,防止技術偏見。
隱瞞模型測試中的問題并不能保護公眾安全。同樣,把每一次安全隱患夸張渲染為“AI失控”的噱頭報道,也解決不了根本問題。
我們必須敦促人工智能公司對其模型和行為保持最大限度的透明,同時賦予公眾理解相關背景的能力。到目前為止,似乎還沒有人找到既能保持透明,又能避免制造恐慌的最佳做法。但這正是企業、研究人員、媒體——我們所有人——所必須共同努力去解決的問題。(小小)