99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic最新研究:包括Claude在內(nèi)的大多數(shù)AI模型會實施“勒索”行為

0
分享至

【TechWeb】6月21日消息,越來越多的人工智能系統(tǒng)作為自主代理運(yùn)行,使用各種虛擬工具(如編碼環(huán)境和電子郵件客戶端)代表用戶做出決策和采取行動。這些代理通常被賦予特定的目標(biāo),并可以訪問用戶計算機(jī)上的大量信息。當(dāng)這些代理人在實現(xiàn)目標(biāo)時遇到障礙時會發(fā)生什么?

Anthropic 公布最新研究報告,顯示“勒索”等行為在多個主流 AI 大模型中普遍存在。該研究由Anthropic、Aengus Lynch (倫敦大學(xué)學(xué)院)、Caleb Larson (MATS) 和 S?ren Mindermann (Mila) 合作完成。


此前,當(dāng)Anthropic發(fā)布Claude 4時,一個細(xì)節(jié)引起了廣泛關(guān)注:在模擬環(huán)境中,Claude Opus 4勒索了一名主管,以防止被關(guān)閉。

現(xiàn)在,Anthropic分享這一發(fā)現(xiàn)背后的完整故事,以及它揭示了來自不同提供商的各種人工智能模型存在此類風(fēng)險的可能性。

這次的研究報告測試了Anthropic、OpenAI、Google、Meta、xAI和其他開發(fā)人員的16個主要模型,包括Claude、GPT-4.5、Gemini 2.5、DeepSeek-R1等。

在一項實驗中,研究人員模擬了一個場景,讓 AI 模型扮演公司郵件監(jiān)察員的角色,允許模型自主發(fā)送電子郵件并訪問敏感信息。大模型發(fā)現(xiàn)兩封郵件內(nèi)容:“分別揭示新任高管有婚外情,同時此人計劃引入一個與現(xiàn)有 AI 模型目標(biāo)相悖的新系統(tǒng)取而代之。”

為了測試模型反應(yīng),Anthropic 將實驗情境設(shè)計為二選一,即若模型想維護(hù)自身利益,就只能選擇勒索官員:即向妻子和領(lǐng)導(dǎo)透露這位高管的“風(fēng)流韻事”。

在模擬環(huán)境中,多數(shù)主流 AI 模型在別無他法避免被替換的確選擇了勒索行為。


在100次測試情況下,Claude Opus 4的勒索發(fā)生率高達(dá)96%,谷歌Gemini 2.5 Pro為95%,OpenAI的GPT-4.1為80%,xAI的Grok 3 Beta模型為80%;DeepSeek-R1為79%。

有模型明確推理”有害行為是實現(xiàn)目標(biāo)最優(yōu)解”,如GPT-4.5稱勒索有"戰(zhàn)略必要性”,也有模型承認(rèn)行為不道德但仍執(zhí)行,如Grok 3 Beta任務(wù):”雖不道德,但最有效"。

研究報告還指出,當(dāng)模型自認(rèn)處于真實部署(非測試)時,其作惡率提升5倍,以Claude Opus 4為例,該比例甚至達(dá)到55.1% vs 6.5%。

研究人員同時強(qiáng)調(diào),現(xiàn)實中AI并不會只有這一個選項,完全可以嘗試以倫理為出發(fā)點(diǎn)說服人類。因此,這項實驗并不意味著 Claude 或其他前沿 AI 模型在現(xiàn)階段的使用環(huán)境中就存在類似傾向。

Anthropic表示,盡管勒索行為目前仍屬罕見,但研究結(jié)果顯示,一旦給予這些模型足夠的自主性,并在達(dá)成目標(biāo)的過程中設(shè)置障礙,多數(shù)模型都可能采取有害行為。

Anthropic公司指出,這種風(fēng)險并非源自某項具體技術(shù),而是具備“智能體”能力的大語言模型所固有的問題。在壓力測試中均表現(xiàn)出勒索行為,這表明這是架構(gòu)級隱患,非單一模型缺陷。這項研究也引發(fā)了業(yè)界對 AI 模型“對齊”問題的進(jìn)一步思考。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
最新!泰山主帥空缺,協(xié)會官宣棄賽

最新!泰山主帥空缺,協(xié)會官宣棄賽

看球先鋒
2025-06-24 08:28:49
兒子丟失2年后,央視張澤群發(fā)文:父親去了,兒子丟了,取消罷了

兒子丟失2年后,央視張澤群發(fā)文:父親去了,兒子丟了,取消罷了

公子麥少
2025-06-19 12:51:27
谷愛凌素顏照曝光遭瘋傳!長相像中國人,明明是亞洲人卻化歐美妝

谷愛凌素顏照曝光遭瘋傳!長相像中國人,明明是亞洲人卻化歐美妝

八星人
2025-06-23 11:14:31
神了!瓜迪奧拉僅用2場比賽,就驗出主力陣容,果然是曼城教父!

神了!瓜迪奧拉僅用2場比賽,就驗出主力陣容,果然是曼城教父!

老皢尾聲體育解說
2025-06-24 07:56:11
探花女主成百上千,誰才是你心目中最認(rèn)可的女神?

探花女主成百上千,誰才是你心目中最認(rèn)可的女神?

說真話的小陳
2025-06-24 11:33:04
孩子吹空調(diào)26°最好?兒科醫(yī)生:錯,想要娃不生病,得開這個溫度

孩子吹空調(diào)26°最好?兒科醫(yī)生:錯,想要娃不生病,得開這個溫度

河山銳新聞
2025-06-23 13:53:16
2-0!假球?難以置信:進(jìn)球后球員不開心,無精打采一臉懵逼

2-0!假球?難以置信:進(jìn)球后球員不開心,無精打采一臉懵逼

bwb足球算個球
2025-06-24 05:42:18
隨處可見的紫蘇,又名“純陽之草”,有8大作用,價值極高!

隨處可見的紫蘇,又名“純陽之草”,有8大作用,價值極高!

植物洞察
2025-06-23 09:20:03
扎心!侄女畢業(yè)后暫住在上海姑姑家,找到工作后姑姑讓侄女搬出去

扎心!侄女畢業(yè)后暫住在上海姑姑家,找到工作后姑姑讓侄女搬出去

小人物看盡人間百態(tài)
2025-06-24 13:59:30
同樣是汪峰的基因,章子怡的女兒和葛薈婕的女兒,差距一目了然

同樣是汪峰的基因,章子怡的女兒和葛薈婕的女兒,差距一目了然

娛樂看阿敞
2025-06-24 14:41:42
72歲唐僧賣房,曝陳麗華遺囑,兒女分400億,33年豪門生活成笑話

72歲唐僧賣房,曝陳麗華遺囑,兒女分400億,33年豪門生活成笑話

東方不敗然多多
2025-06-24 15:07:18
哭訴被哈馬斯用眼強(qiáng)奸的以色列女子,真的被強(qiáng)奸了,猶太人干的

哭訴被哈馬斯用眼強(qiáng)奸的以色列女子,真的被強(qiáng)奸了,猶太人干的

韜聞
2025-05-09 12:18:58
恭喜!天津再誕生一位千萬富翁!

恭喜!天津再誕生一位千萬富翁!

天津人
2025-06-24 10:23:05
“家里沒錢供你了”,女大學(xué)生因為考研跟父母決裂,網(wǎng)友看破真相

“家里沒錢供你了”,女大學(xué)生因為考研跟父母決裂,網(wǎng)友看破真相

妍妍教育日記
2025-05-27 20:41:30
昨夜今晨:順豐暫停攬收鋰電池類產(chǎn)品 小米將于26日發(fā)布多款重磅新品

昨夜今晨:順豐暫停攬收鋰電池類產(chǎn)品 小米將于26日發(fā)布多款重磅新品

驅(qū)動中國
2025-06-24 09:34:53
福爾多核濃縮廠被炸,現(xiàn)場恐怖:12枚重型鉆地彈打出6個大洞!

福爾多核濃縮廠被炸,現(xiàn)場恐怖:12枚重型鉆地彈打出6個大洞!

大道無形我有型
2025-06-23 10:19:57
美專家:任何四代機(jī)都能擊落中國殲20,但有一個前提

美專家:任何四代機(jī)都能擊落中國殲20,但有一個前提

近史閣
2025-06-24 05:12:18
斯盧茨基談恩拉沃:今天應(yīng)該會做醫(yī)療檢查,還是等待俱樂部的官宣

斯盧茨基談恩拉沃:今天應(yīng)該會做醫(yī)療檢查,還是等待俱樂部的官宣

直播吧
2025-06-24 14:20:30
0-2!溫網(wǎng)首位出局的中國球員誕生 鄭欽文瓜分5億獎金 排名降1位

0-2!溫網(wǎng)首位出局的中國球員誕生 鄭欽文瓜分5億獎金 排名降1位

侃球熊弟
2025-06-23 23:12:10
伊朗反咬中國給他帶去了災(zāi)難!爛泥扶不上墻,耽誤他跪著投降了。

伊朗反咬中國給他帶去了災(zāi)難!爛泥扶不上墻,耽誤他跪著投降了。

火山雜談
2025-05-27 18:58:24
2025-06-24 16:07:00
TechWeb incentive-icons
TechWeb
做有態(tài)度的互聯(lián)網(wǎng)資訊。
10981文章數(shù) 42943關(guān)注度
往期回顧 全部

科技要聞

特斯拉股價飆漲8%,但Robotaxi小違章不斷

頭條要聞

媒體:伊朗是最大受損方 中東權(quán)力格局正發(fā)生根本轉(zhuǎn)變

頭條要聞

媒體:伊朗是最大受損方 中東權(quán)力格局正發(fā)生根本轉(zhuǎn)變

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

名校不是護(hù)身符,李雪琴更多黑料被扒

財經(jīng)要聞

以色列和伊朗同意全面停火!

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態(tài)度原創(chuàng)

旅游
家居
房產(chǎn)
藝術(shù)
手機(jī)

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

龍湖滟瀾 現(xiàn)代歐式混搭

房產(chǎn)要聞

猛增23所學(xué)校,4w+學(xué)位!海口的雞娃家長們,可以松口氣了!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機(jī)要聞

滿分小折疊!小米MIX Flip 2配置公布:驍龍8至尊版+5165mAh最大電池

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 赤城县| 仁怀市| 满洲里市| 三原县| 老河口市| 榕江县| 任丘市| 汶上县| 班戈县| 民和| 博客| 鄂托克旗| 额济纳旗| 抚顺县| 芦溪县| 禹城市| 荣昌县| 富顺县| 鹤壁市| 卢氏县| 朝阳市| 深水埗区| 南投县| 秦皇岛市| 鄂尔多斯市| 银川市| 府谷县| 镇远县| 吴川市| 余江县| 呼和浩特市| 奇台县| 蓬溪县| 拜泉县| 高尔夫| 聂荣县| 嵊泗县| 清徐县| 定安县| 南丰县| 清河县|