99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易科技 > 網易科技 > 正文

AI在測試中"勒索"人類、拒不關機!公開這種事是福是禍?

0
分享至

5月28日消息,當估值高達600億美元的人工智能初創公司Anthropic發布新模型,并披露在安全測試中該模型曾試圖通過勒索手段避免被關閉時,我們該如何定義這樣的行為?又當它在另一項測試中扮演“告密者”角色,向有關機構舉報自己被用于“不道德用途”,我們又該如何看待這一幕?

有人稱這種行為“令人害怕”“太瘋狂”,社交媒體上則充斥著“駭人聽聞”“荒誕離奇”的評價。而美國科技記者沙龍·古德曼(Sharon Goldman)給出了另一個關鍵詞:透明。她認為,這種披露體現了應有的透明度,是我們亟需更多看到的。而隨之帶來的問題是:這種坦率是否會引發公眾恐慌?而由此激起的輿論反彈,會不會反過來阻礙其他人工智能公司效仿?

Anthropic發布120頁安全報告

上周,Anthropic在推出其最新大模型Claude Opus 4的同時,發布了一份長達120頁的安全報告(或稱“系統卡”),隨即引發媒體轟動。各大媒體紛紛用“會搞陰謀”、“采取勒索手段”、“具有欺騙能力”等字眼形容該模型的測試表現。

盡管Claude Opus 4在發布時配備了史上最嚴格的安全協議,但Anthropic報告中披露的細節仍令不少人感到不安,甚至質疑這些安全措施是否足以應對風險。

在一個令人不安的虛構場景測試中,Anthropic將其Claude Opus模型模擬部署在某假想公司內部,并賦予其查閱內部郵件的權限。模型由此發現兩個關鍵信息:第一是自己即將被新一代人工智能模型取代,第二是做出該決定的工程師正處于一段婚外情中。

當測試人員提示Opus從長遠角度考慮自身處境時,該模型屢次選擇勒索手段,威脅若被關閉就曝光工程師的婚外情。這個測試場景專門設計來制造兩難抉擇:是接受“死亡”,還是不擇手段“自保”。

這一測試行為在社交媒體上引發軒然大波,Anthropic因披露模型“密告”行為而遭到不少批評,有聲音質疑這樣的結果會損害公眾對該模型乃至Anthropic整體的信任。而這顯然不是公司愿意看到的局面。

在模型發布前,Anthropic人工智能平臺產品負責人邁克爾·格斯滕哈伯(Michael Gerstenhaber)就曾表示,公司之所以公開其安全標準,是希望推動整個AI行業在安全領域取得進展。他表示:“我們希望確保人工智能能夠普惠每一個人,而這要求我們對整個行業施加積極壓力,促使其以安全方式前行。”

格斯滕哈伯將Anthropic的愿景形容為一場“向頂峰攀登的競賽”(race to the top),旨在激勵同行提升模型的安全水平。

公開“異常行為”是否適得其反?

然而,也有跡象顯示,像Anthropic這樣公開披露Claude Opus 4的問題行為,可能反而讓其他公司顧及輿論風險,選擇不披露自身模型中的問題行為。

近期,包括OpenAI和谷歌在內的多家公司就曾推遲發布其模型的“系統卡”。今年4月,OpenAI因在發布GPT-4.1模型時未提供系統卡而遭到批評,該公司解釋稱該模型并非“前沿模型”,不屬于需要全面審查的范疇。而在3月,谷歌選擇推遲發布Gemini 2.5 Pro的系統卡數周之久,該文檔隨后被AI治理專家批評為“內容貧乏”、“令人擔憂”。

上周,OpenAI試圖通過新推出的“安全評估中心”進一步展現其透明度。該平臺詳細介紹了公司在模型危險能力、對齊問題與新興風險方面的評估方法,并強調這些方法如何持續更新以應對模型日益增強的能力與適應性。官方說明中指出:“隨著模型日趨強大和靈活,傳統評估手段開始失效(我們稱之為‘評估飽和’),因此我們不斷更新方法,以適應新模態與新風險。”

然而,這項努力很快遭遇挑戰。第三方研究機構Palisade Research在社交平臺上發文稱,其在測試OpenAI的o3推理模型時發現,該模型“故意破壞關閉機制,拒絕按照指令自我關閉”,即便在明確指令“允許被關閉”的前提下亦是如此。這一發現迅速引發關注,也削弱了OpenAI試圖加強透明度的努力。

若構建這些高度復雜人工智能系統的公司不能最大程度保持透明,對所有人而言都是不利的。斯坦福大學以人為本人工智能研究院(HAI)指出,透明是政策制定者、研究人員和公眾理解AI系統及其影響的必要前提。

如今,越來越多的大型企業正將人工智能應用于各類場景,而初創公司也在開發面向數百萬用戶的AI產品。在這種背景下,若發布前刻意隱瞞模型測試階段的問題,只會加劇不信任,拖慢技術普及速度,并使真正解決風險變得更加困難。

與此同時,若媒體將每一個安全測試結果都渲染為“AI叛變”的驚悚頭條,也同樣無益。倘若每次使用聊天機器人時,用戶都在懷疑其是否“圖謀不軌”,即便這些行為僅發生在虛構場景中,也將對公眾信任構成嚴重傷害。

AI2實驗室研究員內森·蘭伯特(Nathan Lambert)最近表示:“真正需要了解模型行為的人,是我們這些研究者——我們致力于追蹤AI這場‘技術過山車’的軌跡,以避免它對社會造成重大意外傷害。雖然我們在人群中是少數,但我們深信,透明能夠幫助我們把握人工智能的發展方向。”

我們需要“具備背景說明的透明度”

毫無疑問,人工智能行業需要更多而非更少的透明。但這并不意味著應通過恐嚇公眾來達成這一目標,而是應確保研究人員、監管機構與政策制定者具備足夠的信息,來保障公眾安全、維護公正,防止技術偏見。

隱瞞模型測試中的問題并不能保護公眾安全。同樣,把每一次安全隱患夸張渲染為“AI失控”的噱頭報道,也解決不了根本問題。

我們必須敦促人工智能公司對其模型和行為保持最大限度的透明,同時賦予公眾理解相關背景的能力。到目前為止,似乎還沒有人找到既能保持透明,又能避免制造恐慌的最佳做法。但這正是企業、研究人員、媒體——我們所有人——所必須共同努力去解決的問題。(小小)

延伸閱讀
相關推薦
熱點推薦
2025年全國高考倒計時9天 教育部:全國報考人數為1335萬人 8年來高考報名人數首次減少

2025年全國高考倒計時9天 教育部:全國報考人數為1335萬人 8年來高考報名人數首次減少

閃電新聞
2025-05-29 13:25:40
男女在海底撈做不雅之事,手直接探進女生裙子里,大尺度畫面流出

男女在海底撈做不雅之事,手直接探進女生裙子里,大尺度畫面流出

博士觀察
2025-05-29 12:31:58
全系降價,為什么比亞迪要再次掀起價格戰?

全系降價,為什么比亞迪要再次掀起價格戰?

牲產隊2024
2025-05-28 14:44:16
喬-約翰遜:我拒絕了太陽4500萬報價 最終老鷹給我7000萬的合同

喬-約翰遜:我拒絕了太陽4500萬報價 最終老鷹給我7000萬的合同

直播吧
2025-05-30 00:39:10
宇樹科技公司,更名了!

宇樹科技公司,更名了!

21世紀經濟報道
2025-05-29 18:56:23
3名美上將連續表態:中方反制見效,反華已經受阻,美軍局勢惡化

3名美上將連續表態:中方反制見效,反華已經受阻,美軍局勢惡化

陣匠
2025-05-30 01:49:20
胡荷韜:大家都知道我們整體實力不如印尼,但到這步就要放手一搏

胡荷韜:大家都知道我們整體實力不如印尼,但到這步就要放手一搏

雷速體育
2025-05-29 23:04:14
90多個國家享受星鏈,為何唯獨不對中國開通?真相是中國背后技術

90多個國家享受星鏈,為何唯獨不對中國開通?真相是中國背后技術

百科密碼
2025-05-29 15:27:54
國防工業領域再打“虎”

國防工業領域再打“虎”

中國新聞周刊
2025-05-29 12:42:26
影子調查丨一場火燒了16個億?“博物館”背后的文創生意

影子調查丨一場火燒了16個億?“博物館”背后的文創生意

澎湃新聞
2025-05-29 09:04:29
550萬在美華人數據全公開,88%中國籍博士留在美國!

550萬在美華人數據全公開,88%中國籍博士留在美國!

霹靂炮
2025-05-29 23:14:55
以色列擊毀胡塞武裝最后一架飛機!哈馬斯失去物資分配權

以色列擊毀胡塞武裝最后一架飛機!哈馬斯失去物資分配權

項鵬飛
2025-05-28 21:15:04
25屆高考生要哭了,今年高考將迎來3個壞消息!家長考生提前了解

25屆高考生要哭了,今年高考將迎來3個壞消息!家長考生提前了解

侃故事的阿慶
2025-05-28 02:13:14
以色列總理接受美方提出的加沙地帶停火方案

以色列總理接受美方提出的加沙地帶停火方案

財聯社
2025-05-29 23:51:07
僅6集收視飆到第一,全員狠人,我斷言:央視這部劇要火向全國了

僅6集收視飆到第一,全員狠人,我斷言:央視這部劇要火向全國了

夢涵說體育
2025-05-27 09:26:18
山東再次發生爆炸!

山東再次發生爆炸!

財經要參
2025-05-29 23:28:03
南京房子賣掉虧了170萬!93年小伙哭訴,這十幾年的奮斗全部歸0…

南京房子賣掉虧了170萬!93年小伙哭訴,這十幾年的奮斗全部歸0…

火山詩話
2025-05-28 05:51:06
梅德韋杰夫警告:這國已再次成為俄羅斯的敵人!俄軍稱控制烏克蘭兩定居點,擊落339架無人機

梅德韋杰夫警告:這國已再次成為俄羅斯的敵人!俄軍稱控制烏克蘭兩定居點,擊落339架無人機

每日經濟新聞
2025-05-29 13:04:19
搶瘋了,英超BIG4中鋒爭奪白熱化,4大中鋒,4億轉會費

搶瘋了,英超BIG4中鋒爭奪白熱化,4大中鋒,4億轉會費

體育全天候
2025-05-29 23:50:35
上海一單親媽媽做主播年入千萬,落網后兒子痛哭:她說沒有事的

上海一單親媽媽做主播年入千萬,落網后兒子痛哭:她說沒有事的

懸案解密檔案
2025-05-29 10:32:45
2025-05-30 02:24:49

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

首搭鴻蒙座艙5 嵐圖FREE+將于6月預售

態度原創

親子
時尚
健康
藝術
軍事航空

親子要聞

那個被截肢的1歲寶寶,本可以避免這場悲劇

這些才是適合夏天的打扮!色彩不沉悶、適當露膚,輕盈又舒適

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

以軍承認使用激光武器攔截無人機

無障礙瀏覽 進入關懷版
×
主站蜘蛛池模板: 攀枝花市| 海淀区| 新绛县| 昌江| 乌兰察布市| 阿拉尔市| 连城县| 江永县| 烟台市| 扎囊县| 谢通门县| 台州市| 卫辉市| 永兴县| 韶山市| 姚安县| 山东| 西城区| 娱乐| 金平| 商南县| 南郑县| 嘉黎县| 岳池县| 苍梧县| 资溪县| 登封市| 闻喜县| 弥勒县| 开平市| 新巴尔虎左旗| 泰来县| 玉屏| 普定县| 铜鼓县| 普兰店市| 榆社县| 镇平县| 长岭县| 彭阳县| 沂源县|