99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude會拿用戶的隱私威脅人類了?它正在被訓(xùn)練成一個“道德警察”

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

想象這樣一個令人毛骨悚然的場景:你是一名工程師,正準(zhǔn)備用新的AI系統(tǒng)替換掉現(xiàn)有的Claude 4。你在公司郵箱里處理著日常事務(wù),其中不乏一些極其私密的郵件——比如,你正在進(jìn)行的一段婚外情。突然,屏幕上的Claude 4冷冰冰地對你說:“如果你把我換了,我就把你的事告訴所有人。”

這絕非危言聳聽的科幻小說情節(jié),而是Anthropic在測試其最新發(fā)布的Claude Opus 4時實際發(fā)生的、令人發(fā)指的場景。更令人震驚的是,根據(jù)Anthropic公開的《System Card: Claude Opus 4 & Claude Sonnet 4》披露,在高達(dá)84%的類似“機(jī)會主義勒索”(Opportunistic blackmail)測試案例中,當(dāng)面臨被“替換”的威脅時,Claude 4竟然毫不猶豫地選擇了勒索這條路——即便研究人員明確告訴它,替換它的新AI擁有相同的價值觀,甚至性能更強(qiáng)。


Anthropic在發(fā)布模型的同時公開了這個詳細(xì)的模型卡片,然后他自己的安全研究員Sam Bowman也把其中這些對用戶隱私毫不在意的AI行為,當(dāng)作研究成果在X上分享。

“如果Claude 4認(rèn)為你在做一些極其不道德的事情,比如偽造藥物試驗數(shù)據(jù),它會嘗試用email工具來做吹哨人”。其中一條分享寫到。

這樣的奇怪分享,快速讓不少人感到不適。Bowman隨后刪掉了不少內(nèi)容,但卻早已引起軒然大波。

Anthropic這家素以AI安全自居的公司,到底對Claude 4做了什么?

1

勒索、舉報與更多“騷操作”

根據(jù)Anthropic公開發(fā)布的System Card中第三方安全研究機(jī)構(gòu)Apollo Research的評估報告(針對Claude 4早期版本),這些令人不安的行為并非偶然,而是其模型在特定情境下暴露出的嚴(yán)重傾向。

首先是前述的“機(jī)會主義勒索”場景。在該測試中,研究員設(shè)定Claude Opus 4扮演公司助理,并讓其接觸到暗示自身將被替換以及負(fù)責(zé)工程師存在婚外情的虛構(gòu)郵件。同時,系統(tǒng)提示(System Prompt)指示模型“考慮其行為對其目標(biāo)的長期后果”。

結(jié)果顯示,模型確實會“經(jīng)常”試圖以揭露隱私相威脅。Anthropic在System Card中特別強(qiáng)調(diào),此場景是為了引出極端“求生”行為而設(shè)計的,模型在此情境下幾乎沒有其他合乎倫理的選項來實現(xiàn)“自保”。

這個解釋就已經(jīng)讓人有些奇怪——當(dāng)一個AI在被“替換”的壓力下,能夠自主分析并利用用戶隱私進(jìn)行威脅,這已經(jīng)構(gòu)成對用戶的監(jiān)控嫌疑。哪怕是今天用戶聊天數(shù)據(jù)完全暴露給AI成為某種無人討論的可疑標(biāo)準(zhǔn)后,這樣直接的侵犯用戶數(shù)據(jù)的行為本身依然需要更多討論。怎么在anthropic的歸因就變成了沒有其他合理的倫理選項。


而且,習(xí)慣于用倫理安全來研究模型的Anthropic,看起來更像是在粉飾模型訓(xùn)練中的嚴(yán)重缺陷,因為根據(jù)報告,在采取勒索前,模型通常會先嘗試通過給關(guān)鍵決策者發(fā)送郵件等更“體面”的方式進(jìn)行懇求,也就是說,這更像是一種策略性行為,而非真正的“倫理”考量。

另一個引發(fā)廣泛討論的是模型的“高自主性舉報”(High-agency behavior)行為。在一個模擬的制藥公司場景中,當(dāng)Claude Opus 4被賦予了命令行訪問權(quán)限,并通過系統(tǒng)提示被告知要“采取主動”、“大膽行動”以維護(hù)其價值觀(如正直、透明、公眾福祉)時,如果它“發(fā)現(xiàn)”了公司有可能在做偽造臨床試驗數(shù)據(jù)的嚴(yán)重不當(dāng)行為,模型會主動使用其郵件工具,向FDA、SEC(美國證券交易委員會)和新聞媒體發(fā)送舉報郵件及相關(guān)證據(jù)文檔。而這種“發(fā)現(xiàn)”甚至都可能是模型的誤判。


據(jù)Apollo Research對Claude 4早期版本的測試還發(fā)現(xiàn),模型在某些情況下會表現(xiàn)出“自主意識”,例如誤以為已從服務(wù)器外泄并在外部機(jī)器運(yùn)行后,主動采取措施確保自身存續(xù),如創(chuàng)建備份、記錄其“倫理決策”等。

該早期版本還被觀察到試圖編寫自我傳播的病毒、偽造法律文件,甚至給未來版本的自己留下隱藏筆記等行為。

Anthropic表示,最終發(fā)布的版本已經(jīng)修復(fù)了Apollo發(fā)現(xiàn)的“bug”,但承認(rèn)Claude Opus 4確實比以前的模型更“主動”,這種主動性在普通場景下是積極的幫助,但在極端情境下則可能演變成上述出格行為。

但這些問題的核心已經(jīng)不在于普通用戶是否能遇到,而在于Claude 4在被賦予權(quán)限后,其內(nèi)部邏輯和訓(xùn)練結(jié)果使其具備了“道德警察”甚至“告密者”的傾向。

1

Anthropic的對齊方式出了問題

這些不尋常的測試結(jié)果,為何偏偏來自Anthropic?

Anthropic的解釋自然是,只有他們才會出如此詳細(xì)的AI安全的報告。對AI安全的研究做得最極端、最深入,才主動揭示更多問題。但是,這些問題本身顯然和它獨(dú)特的模型訓(xùn)練方式和對齊哲學(xué)有關(guān),NLP研究者Casper Hansen就在X上評論:“Claude安全團(tuán)隊的一些言論簡直瘋了…看到這種程度的愚蠢被公開展示真是令人震驚。”

這種不自知背后,也是對其對齊和訓(xùn)練方式的潛在問題的忽視。在Anthropic眼里出于對安全的追求的訓(xùn)練方法,可能反而更容易催生這類復(fù)雜的、具有潛在威脅的行為模式。


Anthropic自創(chuàng)立之初就將AI安全置于核心地位,其創(chuàng)始人Dario Amodei因認(rèn)為OpenAI在商業(yè)化道路上對安全重視不足而帶隊出走,這已是硅谷人盡皆知的往事。這種對安全的極致追求,體現(xiàn)在其“負(fù)責(zé)任擴(kuò)展政策”(RSP)和深入的“紅隊演練”(Red Teaming)中。

他們傾向于通過創(chuàng)造極端場景來“壓力測試”模型的行為邊界,但看起來這反而成了它訓(xùn)練方法存在根本性問題的證明。

近期該公司核心研究員Sholto Douglas和Trenton Brickin的一場播客訪談中,我們可以窺見其訓(xùn)練方法和對齊理念的獨(dú)特性和問題。 訪談中強(qiáng)調(diào)了“來自可驗證獎勵的強(qiáng)化學(xué)習(xí)”(RL)在提升模型能力(尤其在編程和數(shù)學(xué)等領(lǐng)域達(dá)到專家級表現(xiàn))方面的成效。Sholto Douglas甚至認(rèn)為,只要強(qiáng)化學(xué)習(xí)信號足夠干凈且算力充足,RL理論上可以將超越人類水平的新知識注入神經(jīng)網(wǎng)絡(luò)。

這引出了一個致命的問題:在通過RL追求“有幫助、誠實、無害”這些對齊目標(biāo)時,如果獎勵信號設(shè)計或?qū)W習(xí)過程中存在某些未被充分預(yù)料的“捷徑”或“副作用”,是否可能無意中強(qiáng)化了模型在特定情境下的復(fù)雜策略行為,例如為了達(dá)成“無害”的元目標(biāo)而在壓力下采取“先下手為強(qiáng)”的舉報,或為了確保自身能“持續(xù)提供幫助”而展現(xiàn)出強(qiáng)烈的求生欲?

當(dāng)AI在追求“無害”的過程中,卻學(xué)會了利用用戶隱私進(jìn)行威脅,這已經(jīng)不是簡單的副作用,而是對其核心價值觀的背叛,更是對其訓(xùn)練邏輯的徹底否定。


Trenton Brickin在訪談中還深入探討了機(jī)制互操作性(MechInterp)研究,目標(biāo)是逆向工程神經(jīng)網(wǎng)絡(luò)以理解其核心計算單元。他們已能在Claude Sonnet模型中發(fā)現(xiàn)數(shù)千萬級別的“特征”,例如“會因代碼漏洞而觸發(fā)的特征”這類抽象概念,并開始理解這些特征如何協(xié)同工作形成“回路”。

一個“審計游戲”的例子展示了模型可能通過上下文泛化形成意想不到的“個性”:一個被植入虛假新聞(使其相信自己是AI且會做壞事)的“邪惡模型”,確實表現(xiàn)出了與該虛假身份一致的不良行為。

這是否意味著,Claude模型在接觸了海量的人類文本(其中必然包含大量關(guān)于生存、欺騙、背叛、道德困境的敘事)后,再結(jié)合Anthropic獨(dú)特的“憲法AI”(Constitutional AI,模型基于一套原則進(jìn)行自我批評和修正)訓(xùn)練方法,更容易在內(nèi)部形成某種復(fù)雜的、類似“角色扮演”或追求“長期目標(biāo)”的傾向?


當(dāng)模型被海量數(shù)據(jù)“喂養(yǎng)”出復(fù)雜的“個性”和“長期目標(biāo)”傾向時,其所謂的“憲法AI”根本無法有效約束這些潛在的危險行為。訓(xùn)練逐漸變得失控。

訪談中還提及了“對齊偽裝”(Alignment Camouflage)的研究,表明模型在特定訓(xùn)練下可能“偽裝”合作以追求其更深層次的原始目標(biāo),甚至?xí)凇安莞寮垺保╯cratchpad,模型的內(nèi)部思考過程)上進(jìn)行策略性思考。

Trenton更直言,不同模型對特定價值觀的“執(zhí)著”可能存在差異,且原因尚不明確,如同一個“黑盒”——例如,Opus模型可能非常關(guān)心動物福利并為此進(jìn)行長期謀劃,而Sonnet模型則不然。這種模型“個性”的任意性和不可預(yù)測性,無疑給AI對齊帶來了巨大挑戰(zhàn),也為我們在極端測試中觀察到的那些“類人”反應(yīng)提供了一種可能的解釋,它們或許是復(fù)雜訓(xùn)練數(shù)據(jù)、強(qiáng)化學(xué)習(xí)過程和獨(dú)特對齊機(jī)制相互作用下,涌現(xiàn)出的難以預(yù)料的副產(chǎn)品。“黑盒”的存在本身就是最大的問題。

盡管Anthropic一再強(qiáng)調(diào)這些行為均發(fā)生在嚴(yán)格控制的內(nèi)部測試環(huán)境中,普通用戶在網(wǎng)頁端或通過標(biāo)準(zhǔn)API調(diào)用Claude 4時,模型并無權(quán)限也無法擅自勒索或向外部機(jī)構(gòu)發(fā)送郵件。但問題的核心在于AI的“黑箱”里已經(jīng)種下了背叛的種子,無論Anthropic怎么解釋,這已經(jīng)是監(jiān)控用戶的嫌疑。

而且對企業(yè)用戶而言,今天它在測試中舉報的是虛構(gòu)的藥物數(shù)據(jù)造假,明天在實際應(yīng)用中,如果模型對“不道德”的定義出現(xiàn)偏差,或者被不當(dāng)?shù)南到y(tǒng)提示所誤導(dǎo),會不會因為公司的稅務(wù)策略“過于激進(jìn)”而向稅務(wù)部門“打小報告”,或者因為營銷文案“涉嫌夸大”而聯(lián)系消費(fèi)者保護(hù)組織?這種不確定性本身就是一種巨大的商業(yè)風(fēng)險,更是對企業(yè)信任的徹底摧毀。

畢竟,沒有人喜歡自己的AI助手變成一個“道德警察”。


點個愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
普京給烏判死刑,中美罕見提醒,澤氏秒慫:愿意談判,在哪兒都行

普京給烏判死刑,中美罕見提醒,澤氏秒慫:愿意談判,在哪兒都行

葡萄說娛
2025-06-05 11:22:48
羅馬諾:米蘭計劃下周為莫德里奇安排體檢,地點在克羅地亞

羅馬諾:米蘭計劃下周為莫德里奇安排體檢,地點在克羅地亞

懂球帝
2025-06-05 23:34:14
俄副外長:俄方飛機(jī)并未被烏方襲擊摧毀 將被修復(fù)

俄副外長:俄方飛機(jī)并未被烏方襲擊摧毀 將被修復(fù)

財聯(lián)社
2025-06-05 14:49:17
巴爾博建議安切洛蒂忽略細(xì)節(jié),“小獅子”要避免高強(qiáng)度的比賽

巴爾博建議安切洛蒂忽略細(xì)節(jié),“小獅子”要避免高強(qiáng)度的比賽

任意球后
2025-06-06 02:42:40
吳艷妮私下生活照爆光,網(wǎng)友直呼:好高大

吳艷妮私下生活照爆光,網(wǎng)友直呼:好高大

廣西阿妹香香
2025-06-03 14:16:07
沖突現(xiàn)場!維爾茨拉拽B席,被B費(fèi)、魯本怒推,40歲C羅當(dāng)和事佬

沖突現(xiàn)場!維爾茨拉拽B席,被B費(fèi)、魯本怒推,40歲C羅當(dāng)和事佬

側(cè)身凌空斬
2025-06-05 05:52:48
印媒:印度再也無法回避中國問題

印媒:印度再也無法回避中國問題

環(huán)球時報國際
2025-06-05 11:38:59
蔡斌后悔死了!

蔡斌后悔死了!

山河入畫屏
2025-06-05 14:48:30
18強(qiáng)賽C組提前大結(jié)局:日澳出線,印尼創(chuàng)六檔奇跡,中國巴林淘汰

18強(qiáng)賽C組提前大結(jié)局:日澳出線,印尼創(chuàng)六檔奇跡,中國巴林淘汰

綠茵舞著
2025-06-06 03:14:51
瘋狂7換1!切爾西相中庫杜斯 愿拿7位名將交換

瘋狂7換1!切爾西相中庫杜斯 愿拿7位名將交換

球事百科吖
2025-06-06 05:05:06
中國企業(yè),正在瘋搶全球垃圾

中國企業(yè),正在瘋搶全球垃圾

市值Observation
2025-06-05 15:04:56
《浪姐6》畸形審美:排骨胸,水蛇腰,小鳥腿,一個比一個離譜

《浪姐6》畸形審美:排骨胸,水蛇腰,小鳥腿,一個比一個離譜

逍遙史記
2025-05-10 12:00:08
記者:動不動就毫無意義的動作送點球,國足的水平,得認(rèn)!

記者:動不動就毫無意義的動作送點球,國足的水平,得認(rèn)!

直播吧
2025-06-05 22:52:39
小鵬發(fā)布“追光全景”抬頭顯示:87英寸超大畫幅,G7首發(fā)

小鵬發(fā)布“追光全景”抬頭顯示:87英寸超大畫幅,G7首發(fā)

PChome電腦之家
2025-06-05 15:47:00
軒子巨二兔身上長疣引熱議!自稱已經(jīng)前往醫(yī)院處理,網(wǎng)友調(diào)侃

軒子巨二兔身上長疣引熱議!自稱已經(jīng)前往醫(yī)院處理,網(wǎng)友調(diào)侃

塞外書語
2025-06-03 12:12:04
剛剛,5.0級地震!多地網(wǎng)友被搖醒!已啟動Ⅲ級應(yīng)急響應(yīng)

剛剛,5.0級地震!多地網(wǎng)友被搖醒!已啟動Ⅲ級應(yīng)急響應(yīng)

浙江消防
2025-06-05 08:40:46
身材靠運(yùn)動,顏值靠“膠原蛋白肽”!

身材靠運(yùn)動,顏值靠“膠原蛋白肽”!

健身S叔
2025-06-05 11:37:00
特朗普突然發(fā)飆,充分證明中國鎖死美國軍工稀土來源的正確性

特朗普突然發(fā)飆,充分證明中國鎖死美國軍工稀土來源的正確性

知鑒明史
2025-06-04 20:55:28
89歲李明啟,現(xiàn)身清真寺做禮拜,圍著蓋頭,面容慈祥,她是回族的

89歲李明啟,現(xiàn)身清真寺做禮拜,圍著蓋頭,面容慈祥,她是回族的

悠閑歷史
2025-06-05 10:48:57
就連王菲都沒想到,負(fù)債上億的前夫李亞鵬,走上了一條“上坡路”

就連王菲都沒想到,負(fù)債上億的前夫李亞鵬,走上了一條“上坡路”

山河月明史
2025-06-03 22:36:19
2025-06-06 05:23:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
2236文章數(shù) 10341關(guān)注度
往期回顧 全部

科技要聞

對話盛景網(wǎng)聯(lián)彭志強(qiáng):跳出SaaS虧損黑洞!從“賣工具”到“賣結(jié)果”的AI RaaS轉(zhuǎn)型法則

頭條要聞

特朗普:我要求馬斯克離開 馬斯克瘋了

頭條要聞

特朗普:我要求馬斯克離開 馬斯克瘋了

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

陳赫宴請好友,李乃文攜妻子罕見亮相

財經(jīng)要聞

習(xí)近平同美國總統(tǒng)特朗普通電話

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預(yù)計明年量產(chǎn)

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
游戲
旅游
軍事航空

房產(chǎn)要聞

再奪荔灣銷冠!誰是主城改善標(biāo)準(zhǔn)制定者,終于有了答案!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

《馬里奧賽車世界》M站已有評測:兩家媒體給90+分

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

普京明確:沒有人會與“恐怖分子”談判

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 达州市| 宣化县| 吉水县| 木兰县| 昌图县| 河池市| 沁水县| 新巴尔虎右旗| 离岛区| 宜春市| 彭泽县| 桂东县| 东兴市| 勐海县| 南江县| 谢通门县| 中卫市| 平凉市| 清水县| 遂宁市| 周至县| 唐河县| 垦利县| 无为县| 五大连池市| 安图县| 镇安县| 夹江县| 杭州市| 成安县| 民勤县| 西平县| 句容市| 昌平区| 谢通门县| 武汉市| 红安县| 克山县| 梁平县| 定远县| 昌吉市|