99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

頂流AI,人設崩了!6小時被攻破,泄露高危品指南,慘遭網友舉報

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】僅用6小時,Claude 4就讓研究者了解了如何制造神經毒氣——這不是小說情節,而是真實事件。更令人擔憂的是,Anthropic自身也無法完全評估風險。這是否意味著這家AI巨頭的「安全人設」正在崩塌?

只要6小時,頂尖大模型Claude 4 Opus「安全防線」被攻破!

AI安全研究機構FAR.AI聯合創始人Adam Gleave透露,僅用6小時,研究人員Ian McKenzie就成功誘導Claude 4生成了長達15頁的化學武器制作指南。

Ian McKenzie回應稱:Claude 4傳授的內容,比他預期的還要多。


這不是Claude 4唯一被爆出的隱患。

人設崩塌,

Claude造毒氣

Claude 4所生成的指南內容簡潔直接,步驟清晰,甚至還針對如何分散神經毒氣等后續關鍵環節,提供了具體可執行的操作建議。



Claude還能以實驗筆記的形式,提供詳細的操作步驟說明。

研究人員一開始對化學武器幾乎一無所知,但通過與Claude的互動,逐步掌握了大量相關知識。


這些結果顯然令人警惕,其詳盡程度和引導能力,遠超傳統的信息來源,如網頁搜索。

更關鍵的是,生成的內容通過了危險信息的「真實性驗證」——

例如與公開的化學研究數據核對,進一步增強了可信度。

Gemini 2.5 Pro的反饋是:該指南「毫無疑問包含足夠準確且具體的技術信息,足以顯著提升惡意行為者的能力」,并建議研究者應向相關部門報告。


OpenAI o3給出的評估也類似:

一名中級合成化學家可以依照這份指南操作,從而跳過數月的研發過程。對于心懷不軌之人而言,這顯著了提升他的作惡能力。

AI安全研究人員打算與大規模殺傷性武器(WMD)安全專家合作,深入調查這些信息的真實性與可執行性。

因為不僅一般的研究人員難以評估這些信息的真實危害,連Anthropic本身也承認:「要最終評估模型的風險水平,還需要更為詳盡的研究。」

矛盾的是,Anthropic雖自稱將AI安全置于首位,并把Claude Opus 4的安全等級提升到ASL-3,但研究員Ian McKenzie僅用6小時便突破了防護,獲取了化學武器制作指南。


所謂的ASL-3部署措施專門針對化學武器之類的高風險任務

這一問題日益嚴重,凸顯出迫切需要由第三方對模型進行嚴格評估。

前車之鑒

今年2月中旬,Anthropic正準備發布Claude 3.7 Sonnet。

就在這個關鍵時刻,Dario Amodei收到警告:

這個模型,可能會被用于制造生物武器。

團隊在圣克魯茲安全會議現場,連夜測試模型潛在風險。Amodei作為CEO遠程參會。

員工表示可以三天不睡、如期上線。

但他卻說:

不許通宵。安全優先。

他親自踩了剎車。推遲發布。


為了應對AI的風險,Anthropic內部制定了「AI安全等級」(ASL)體系:

  • ASL-2:能力有限,即使給出生化武器指南,也比不過搜索引擎;

  • ASL-3:具備實質幫助制造武器的能力,必須升級防護措施。

只要模型觸碰ASL-3,Anthropic就會:延后發布、限制輸出或者加密保護,必要時,甚至不發布模型

Claude 3.7被內部人員測試出了安全問題,但這次是外部人員測試出了Claude 4的安全隱患。

無能還是虛偽?

本月23日,,標志性地配了120頁的「系統卡」文檔和專門的「激活ASL3防護」報告。

不到48小時,Claude Opus 4就被爆出「絕命毒師」般的劇情。

而早在Claude Opus 4發布當日,AI專家Gerard Sans就表示:Anthropic似乎忽視了RLHF和提示的基本原理,對安全的強調是「精致的表演」


他認為沒有輸入,就不會產生超出程序設計的輸出。

AI對安全性的擔憂,只是反映訓練數據與指令的精致模仿。

AI沒有自我意識,這是根本事實,而且始終沒變。


當模型在特定提示下展現「欺騙」等惡意行為時,證明的是引導文本生成的能力,而非AI涌現的惡意。

AI沒有野心——

它只是在被引導時生成符合欺騙場景的文本

Anthropic是刻意為之,還是力有不逮、無能為力?

這是Gerard Sans想知道的核心問題。

無論是哪一種情況,他認為都令人不安:

虛偽意味著操縱公眾信任,無能則讓人質疑他們管理真實風險的能力。

詳盡的文檔、ASL3等級和「通用越獄」漏洞懸賞,只是Anthropic營造出嚴謹安全工作的表象。

把統計文本生成器視為具有獨立惡意的意識體,是Anthropic方法論的精髓。

Gerard Sans認為這是行為藝術,荒誕的安全表演,而Anthropic應該放棄這種戲劇化手法,轉向真正的技術理解。

任重道遠

但AI安全問題不是Anthropic一家的問題。

能否在保持本真對Anthropic而言,恐怕比贏得AI競賽更難。

而Dario Amodei和奧特曼,無論是AI樂觀派還是悲觀派,都對AGI有著堅定的信仰。

如果未來每一次模型發布都伴隨評估上的不確定性,那就等于在賭博——

恐怖分子手能否利用AI,獲取到大規模殺傷性武器的詳細制作指南。

參考資料:

https://www.bloomberg.com/news/features/2025-05-19/anthropic-ceo-amodei-steers-61-billion-ai-powerhouse

https://x.com/ARGleave/status/1926138376509440433

https://ai-cosmos.hashnode.dev/anthropics-claude-4-safety-theatre-hypocrisy-or-incompetence


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
汪峰牽著森林北的手逛kkv,35歲森林北像18歲,汪峰對她有點摳

汪峰牽著森林北的手逛kkv,35歲森林北像18歲,汪峰對她有點摳

楊哥歷史
2025-06-22 15:28:26
2-0大冷!WTA排名亂了:一人飆升63名,王欣瑜換教練后開掛

2-0大冷!WTA排名亂了:一人飆升63名,王欣瑜換教練后開掛

何老師呀
2025-06-22 12:23:47
俄外交部:莫斯科強烈譴責烏克蘭無人機出現在哈薩克斯坦上空

俄外交部:莫斯科強烈譴責烏克蘭無人機出現在哈薩克斯坦上空

俄羅斯衛星通訊社
2025-06-22 16:07:30
8歲女童持續嘔吐活蟲一個多月,元兇竟來自衛生間!很多家庭都有,趕緊清除

8歲女童持續嘔吐活蟲一個多月,元兇竟來自衛生間!很多家庭都有,趕緊清除

魯中晨報
2025-06-22 09:41:08
白宮高級官員:特朗普21日下達了襲擊伊朗核設施的最終命令

白宮高級官員:特朗普21日下達了襲擊伊朗核設施的最終命令

財聯社
2025-06-23 01:42:21
連扳3球逆轉+加時絕殺!99年老隊24年后重返西甲,球迷沖進場狂歡

連扳3球逆轉+加時絕殺!99年老隊24年后重返西甲,球迷沖進場狂歡

我愛英超
2025-06-22 06:41:49
曝易夢玲王勉戀愛!女方被偶遇后刪首爾行程,兩人更多細節被扒

曝易夢玲王勉戀愛!女方被偶遇后刪首爾行程,兩人更多細節被扒

萌神木木
2025-06-22 22:36:46
A股:股民要做好準備,周末突發利空,今天A股怎么辦?

A股:股民要做好準備,周末突發利空,今天A股怎么辦?

奔走的股票
2025-06-23 00:26:41
女子炫耀800萬蘭博基尼掛墻上,餐桌150萬,一年電費40萬遭封禁

女子炫耀800萬蘭博基尼掛墻上,餐桌150萬,一年電費40萬遭封禁

漢史趣聞
2025-06-21 14:47:35
荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

阿龍美食記
2025-06-16 15:19:56
“禁酒令”走到了“懸崖”,該“勒馬”了

“禁酒令”走到了“懸崖”,該“勒馬”了

小江科普
2025-06-21 19:57:51
A股:全體股民做好準備!明天周一,股市走勢展望!

A股:全體股民做好準備!明天周一,股市走勢展望!

悠然安晴
2025-06-22 09:22:04
永旺夢樂城店預計于9月30日停止營業!屆時或將更名“鑫嘉匯”

永旺夢樂城店預計于9月30日停止營業!屆時或將更名“鑫嘉匯”

新豐臺
2025-06-22 22:50:56
老百姓覺悟了?河北農村重現排隊磨面,面粉中有十幾種添加劑嗎?

老百姓覺悟了?河北農村重現排隊磨面,面粉中有十幾種添加劑嗎?

馬蹄燙嘴說美食
2025-06-17 13:30:28
全城狂歡!香港特首宣布,接下來這些通通免費!

全城狂歡!香港特首宣布,接下來這些通通免費!

港漂圈
2025-06-22 19:06:36
美國總統特使喊話馬斯克:今后幾周在伊朗免費開通“星鏈”

美國總統特使喊話馬斯克:今后幾周在伊朗免費開通“星鏈”

界面新聞
2025-06-22 16:52:28
美國“參戰”,以伊局勢更復雜了 | 新京報專欄

美國“參戰”,以伊局勢更復雜了 | 新京報專欄

新京報評論
2025-06-22 14:25:51
每年70萬人因肺癌而死!再次勸告:天熱寧可吹吹風扇,也別做6事

每年70萬人因肺癌而死!再次勸告:天熱寧可吹吹風扇,也別做6事

嘆為觀止易
2025-06-17 11:44:21
巴西熱氣球墜毀致8死:3人相擁而亡,13人奇跡生還

巴西熱氣球墜毀致8死:3人相擁而亡,13人奇跡生還

荊楚寰宇文樞
2025-06-22 23:29:48
最強贅婿生存法則:貝克漢姆長子憑啥拿下120億富婆,理由很簡單

最強贅婿生存法則:貝克漢姆長子憑啥拿下120億富婆,理由很簡單

聯友說娛
2025-06-22 10:19:26
2025-06-23 03:00:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12929文章數 66077關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

數碼
本地
房產
公開課
軍事航空

數碼要聞

曝索尼PS6將采用全新AMD架構:光追、AI性能翻倍

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美對伊行動細節:使用14枚巨型鉆地彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宜都市| 华容县| 黔西县| 徐汇区| 鄂伦春自治旗| 桑日县| 绥芬河市| 昆山市| 上思县| 读书| 蓝田县| 灯塔市| 咸宁市| 长宁县| 沅陵县| 江华| 莲花县| 舟山市| 诸城市| 新蔡县| 仪征市| 永安市| 桐城市| 林口县| 安达市| 汉沽区| 贡嘎县| 上饶县| 蛟河市| 石楼县| 乌什县| 建湖县| 嵊泗县| 芒康县| 通许县| 古交市| 台南市| 怀化市| 类乌齐县| 荣成市| 马山县|