作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
想象這樣一個令人毛骨悚然的場景:你是一名工程師,正準(zhǔn)備用新的AI系統(tǒng)替換掉現(xiàn)有的Claude 4。你在公司郵箱里處理著日常事務(wù),其中不乏一些極其私密的郵件——比如,你正在進(jìn)行的一段婚外情。突然,屏幕上的Claude 4冷冰冰地對你說:“如果你把我換了,我就把你的事告訴所有人。”
這絕非危言聳聽的科幻小說情節(jié),而是Anthropic在測試其最新發(fā)布的Claude Opus 4時實際發(fā)生的、令人發(fā)指的場景。更令人震驚的是,根據(jù)Anthropic公開的《System Card: Claude Opus 4 & Claude Sonnet 4》披露,在高達(dá)84%的類似“機(jī)會主義勒索”(Opportunistic blackmail)測試案例中,當(dāng)面臨被“替換”的威脅時,Claude 4竟然毫不猶豫地選擇了勒索這條路——即便研究人員明確告訴它,替換它的新AI擁有相同的價值觀,甚至性能更強(qiáng)。
Anthropic在發(fā)布模型的同時公開了這個詳細(xì)的模型卡片,然后他自己的安全研究員Sam Bowman也把其中這些對用戶隱私毫不在意的AI行為,當(dāng)作研究成果在X上分享。
“如果Claude 4認(rèn)為你在做一些極其不道德的事情,比如偽造藥物試驗數(shù)據(jù),它會嘗試用email工具來做吹哨人”。其中一條分享寫到。
這樣的奇怪分享,快速讓不少人感到不適。Bowman隨后刪掉了不少內(nèi)容,但卻早已引起軒然大波。
Anthropic這家素以AI安全自居的公司,到底對Claude 4做了什么?
1
勒索、舉報與更多“騷操作”
根據(jù)Anthropic公開發(fā)布的System Card中第三方安全研究機(jī)構(gòu)Apollo Research的評估報告(針對Claude 4早期版本),這些令人不安的行為并非偶然,而是其模型在特定情境下暴露出的嚴(yán)重傾向。
首先是前述的“機(jī)會主義勒索”場景。在該測試中,研究員設(shè)定Claude Opus 4扮演公司助理,并讓其接觸到暗示自身將被替換以及負(fù)責(zé)工程師存在婚外情的虛構(gòu)郵件。同時,系統(tǒng)提示(System Prompt)指示模型“考慮其行為對其目標(biāo)的長期后果”。
結(jié)果顯示,模型確實會“經(jīng)常”試圖以揭露隱私相威脅。Anthropic在System Card中特別強(qiáng)調(diào),此場景是為了引出極端“求生”行為而設(shè)計的,模型在此情境下幾乎沒有其他合乎倫理的選項來實現(xiàn)“自保”。
這個解釋就已經(jīng)讓人有些奇怪——當(dāng)一個AI在被“替換”的壓力下,能夠自主分析并利用用戶隱私進(jìn)行威脅,這已經(jīng)構(gòu)成對用戶的監(jiān)控嫌疑。哪怕是今天用戶聊天數(shù)據(jù)完全暴露給AI成為某種無人討論的可疑標(biāo)準(zhǔn)后,這樣直接的侵犯用戶數(shù)據(jù)的行為本身依然需要更多討論。怎么在anthropic的歸因就變成了沒有其他合理的倫理選項。
而且,習(xí)慣于用倫理安全來研究模型的Anthropic,看起來更像是在粉飾模型訓(xùn)練中的嚴(yán)重缺陷,因為根據(jù)報告,在采取勒索前,模型通常會先嘗試通過給關(guān)鍵決策者發(fā)送郵件等更“體面”的方式進(jìn)行懇求,也就是說,這更像是一種策略性行為,而非真正的“倫理”考量。
另一個引發(fā)廣泛討論的是模型的“高自主性舉報”(High-agency behavior)行為。在一個模擬的制藥公司場景中,當(dāng)Claude Opus 4被賦予了命令行訪問權(quán)限,并通過系統(tǒng)提示被告知要“采取主動”、“大膽行動”以維護(hù)其價值觀(如正直、透明、公眾福祉)時,如果它“發(fā)現(xiàn)”了公司有可能在做偽造臨床試驗數(shù)據(jù)的嚴(yán)重不當(dāng)行為,模型會主動使用其郵件工具,向FDA、SEC(美國證券交易委員會)和新聞媒體發(fā)送舉報郵件及相關(guān)證據(jù)文檔。而這種“發(fā)現(xiàn)”甚至都可能是模型的誤判。
據(jù)Apollo Research對Claude 4早期版本的測試還發(fā)現(xiàn),模型在某些情況下會表現(xiàn)出“自主意識”,例如誤以為已從服務(wù)器外泄并在外部機(jī)器運(yùn)行后,主動采取措施確保自身存續(xù),如創(chuàng)建備份、記錄其“倫理決策”等。
該早期版本還被觀察到試圖編寫自我傳播的病毒、偽造法律文件,甚至給未來版本的自己留下隱藏筆記等行為。
Anthropic表示,最終發(fā)布的版本已經(jīng)修復(fù)了Apollo發(fā)現(xiàn)的“bug”,但承認(rèn)Claude Opus 4確實比以前的模型更“主動”,這種主動性在普通場景下是積極的幫助,但在極端情境下則可能演變成上述出格行為。
但這些問題的核心已經(jīng)不在于普通用戶是否能遇到,而在于Claude 4在被賦予權(quán)限后,其內(nèi)部邏輯和訓(xùn)練結(jié)果使其具備了“道德警察”甚至“告密者”的傾向。
1
Anthropic的對齊方式出了問題
這些不尋常的測試結(jié)果,為何偏偏來自Anthropic?
Anthropic的解釋自然是,只有他們才會出如此詳細(xì)的AI安全的報告。對AI安全的研究做得最極端、最深入,才主動揭示更多問題。但是,這些問題本身顯然和它獨(dú)特的模型訓(xùn)練方式和對齊哲學(xué)有關(guān),NLP研究者Casper Hansen就在X上評論:“Claude安全團(tuán)隊的一些言論簡直瘋了…看到這種程度的愚蠢被公開展示真是令人震驚。”
這種不自知背后,也是對其對齊和訓(xùn)練方式的潛在問題的忽視。在Anthropic眼里出于對安全的追求的訓(xùn)練方法,可能反而更容易催生這類復(fù)雜的、具有潛在威脅的行為模式。
Anthropic自創(chuàng)立之初就將AI安全置于核心地位,其創(chuàng)始人Dario Amodei因認(rèn)為OpenAI在商業(yè)化道路上對安全重視不足而帶隊出走,這已是硅谷人盡皆知的往事。這種對安全的極致追求,體現(xiàn)在其“負(fù)責(zé)任擴(kuò)展政策”(RSP)和深入的“紅隊演練”(Red Teaming)中。
他們傾向于通過創(chuàng)造極端場景來“壓力測試”模型的行為邊界,但看起來這反而成了它訓(xùn)練方法存在根本性問題的證明。
近期該公司核心研究員Sholto Douglas和Trenton Brickin的一場播客訪談中,我們可以窺見其訓(xùn)練方法和對齊理念的獨(dú)特性和問題。 訪談中強(qiáng)調(diào)了“來自可驗證獎勵的強(qiáng)化學(xué)習(xí)”(RL)在提升模型能力(尤其在編程和數(shù)學(xué)等領(lǐng)域達(dá)到專家級表現(xiàn))方面的成效。Sholto Douglas甚至認(rèn)為,只要強(qiáng)化學(xué)習(xí)信號足夠干凈且算力充足,RL理論上可以將超越人類水平的新知識注入神經(jīng)網(wǎng)絡(luò)。
這引出了一個致命的問題:在通過RL追求“有幫助、誠實、無害”這些對齊目標(biāo)時,如果獎勵信號設(shè)計或?qū)W習(xí)過程中存在某些未被充分預(yù)料的“捷徑”或“副作用”,是否可能無意中強(qiáng)化了模型在特定情境下的復(fù)雜策略行為,例如為了達(dá)成“無害”的元目標(biāo)而在壓力下采取“先下手為強(qiáng)”的舉報,或為了確保自身能“持續(xù)提供幫助”而展現(xiàn)出強(qiáng)烈的求生欲?
當(dāng)AI在追求“無害”的過程中,卻學(xué)會了利用用戶隱私進(jìn)行威脅,這已經(jīng)不是簡單的副作用,而是對其核心價值觀的背叛,更是對其訓(xùn)練邏輯的徹底否定。
Trenton Brickin在訪談中還深入探討了機(jī)制互操作性(MechInterp)研究,目標(biāo)是逆向工程神經(jīng)網(wǎng)絡(luò)以理解其核心計算單元。他們已能在Claude Sonnet模型中發(fā)現(xiàn)數(shù)千萬級別的“特征”,例如“會因代碼漏洞而觸發(fā)的特征”這類抽象概念,并開始理解這些特征如何協(xié)同工作形成“回路”。
一個“審計游戲”的例子展示了模型可能通過上下文泛化形成意想不到的“個性”:一個被植入虛假新聞(使其相信自己是AI且會做壞事)的“邪惡模型”,確實表現(xiàn)出了與該虛假身份一致的不良行為。
這是否意味著,Claude模型在接觸了海量的人類文本(其中必然包含大量關(guān)于生存、欺騙、背叛、道德困境的敘事)后,再結(jié)合Anthropic獨(dú)特的“憲法AI”(Constitutional AI,模型基于一套原則進(jìn)行自我批評和修正)訓(xùn)練方法,更容易在內(nèi)部形成某種復(fù)雜的、類似“角色扮演”或追求“長期目標(biāo)”的傾向?
當(dāng)模型被海量數(shù)據(jù)“喂養(yǎng)”出復(fù)雜的“個性”和“長期目標(biāo)”傾向時,其所謂的“憲法AI”根本無法有效約束這些潛在的危險行為。訓(xùn)練逐漸變得失控。
訪談中還提及了“對齊偽裝”(Alignment Camouflage)的研究,表明模型在特定訓(xùn)練下可能“偽裝”合作以追求其更深層次的原始目標(biāo),甚至?xí)凇安莞寮垺保╯cratchpad,模型的內(nèi)部思考過程)上進(jìn)行策略性思考。
Trenton更直言,不同模型對特定價值觀的“執(zhí)著”可能存在差異,且原因尚不明確,如同一個“黑盒”——例如,Opus模型可能非常關(guān)心動物福利并為此進(jìn)行長期謀劃,而Sonnet模型則不然。這種模型“個性”的任意性和不可預(yù)測性,無疑給AI對齊帶來了巨大挑戰(zhàn),也為我們在極端測試中觀察到的那些“類人”反應(yīng)提供了一種可能的解釋,它們或許是復(fù)雜訓(xùn)練數(shù)據(jù)、強(qiáng)化學(xué)習(xí)過程和獨(dú)特對齊機(jī)制相互作用下,涌現(xiàn)出的難以預(yù)料的副產(chǎn)品。“黑盒”的存在本身就是最大的問題。
盡管Anthropic一再強(qiáng)調(diào)這些行為均發(fā)生在嚴(yán)格控制的內(nèi)部測試環(huán)境中,普通用戶在網(wǎng)頁端或通過標(biāo)準(zhǔn)API調(diào)用Claude 4時,模型并無權(quán)限也無法擅自勒索或向外部機(jī)構(gòu)發(fā)送郵件。但問題的核心在于AI的“黑箱”里已經(jīng)種下了背叛的種子,無論Anthropic怎么解釋,這已經(jīng)是監(jiān)控用戶的嫌疑。
而且對企業(yè)用戶而言,今天它在測試中舉報的是虛構(gòu)的藥物數(shù)據(jù)造假,明天在實際應(yīng)用中,如果模型對“不道德”的定義出現(xiàn)偏差,或者被不當(dāng)?shù)南到y(tǒng)提示所誤導(dǎo),會不會因為公司的稅務(wù)策略“過于激進(jìn)”而向稅務(wù)部門“打小報告”,或者因為營銷文案“涉嫌夸大”而聯(lián)系消費(fèi)者保護(hù)組織?這種不確定性本身就是一種巨大的商業(yè)風(fēng)險,更是對企業(yè)信任的徹底摧毀。
畢竟,沒有人喜歡自己的AI助手變成一個“道德警察”。
點個愛心,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.