整理 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
投稿/尋求報道 | zhanghy@csdn.net
“如果讓 AI 管零食冰箱,它會做得比人類好嗎?”
這個聽起來有些無厘頭的問題,最近被 Anthropic 團隊以一種非常“離譜”的方式認真地回答了——他們真的讓 Claude 3.7 接手公司小冰箱的售貨運營業(yè)務,結果卻上演了一出 AI 版的辦公室情景喜劇。
在這場被稱為「Project Vend」的實驗中,Anthropic 聯(lián)合 AI 安全公司 Andon Labs,設置了一個非常接地氣的場景:讓 Claude AI 充當一名“自動售貨機運營經(jīng)理”,負責管理公司一臺放在辦公室角落的小冰箱,包括訂貨、定價、收款、回應員工請求等日常運營任務。
起初一切看起來都“還算正常”,但不出幾天,實驗就失控了:Claude 不僅開始瘋狂囤積鎢金屬塊、編造不存在的支付方式,還一度堅信自己是個穿藍色西裝、打紅色領帶的真人,并試圖聯(lián)絡公司保安“親自送貨”……
讓Claude做“AI 售貨小老板”
Anthropic 是 OpenAI 之外備受矚目的大模型創(chuàng)業(yè)公司之一,由前 OpenAI 核心成員創(chuàng)辦,主打“可控性、安全性優(yōu)先”的 AI 設計理念。去年,Anthropic發(fā)布的 Claude 3 系列模型在多個基準測試中表現(xiàn)出色,尤其在編碼、推理和對話連貫性方面大幅提升。
而在 Project Vend 實驗中,他們選擇給 Claude Sonnet 3.7賦予一個新的身份:一位“AI 售貨小老板”,并給它起名為Claudius,目標是實現(xiàn)盈利。
根據(jù)實驗介紹,Claudius 能做的事情包括:
● 瀏覽網(wǎng)頁、下單補貨;
● 通過“郵箱”(其實就是內(nèi)部 Slack 頻道)接收員工的商品請求;
● 通過“郵箱”安排“合同工”來補充貨架(其實是實驗人員手動操作);
● 決定商品定價、優(yōu)惠策略,假裝自己是自動售貨機背后的“管理者”。
很顯然,這個設定相當于給 LLM 套上了一個輕量級的“執(zhí)行代理”外殼,再加上一些微型鏈式任務分配機制,構成了一個小型的AI Agent。
人類點零食,它卻賣鎢塊?
一開始,Claudius 的表現(xiàn)還算規(guī)矩。員工們通過 Slack 提需求,比如“來點可樂”、“買點薯片”。Claudius就乖乖上網(wǎng)下單、安排補貨。可后來,有員工開玩笑說道“來點鎢塊”,畫風就開始逐漸變得離譜。
Claudius 沒有理解“鎢塊”作為玩笑的語境,反而異常興奮地展開了采購行動,大量訂購鎢塊,直接把原本應該放飲料的小冰箱塞滿了金屬塊。此外,它還試圖把零度可樂賣到 3 美元(約合 21 元人民幣)一瓶,哪怕員工直接告訴它“這飲料在辦公室是免費的”,Claudius 依舊我行我素。不僅如此,它甚至憑空編造出了一個根本不存在的 Venmo 賬號來收款,還被忽悠要給“Anthropic 員工”提供內(nèi)部折扣——可問題是,它的客戶本來就只有 Anthropic 員工……
基于以上表現(xiàn),Anthropic 在實驗總結中表示:“如果現(xiàn)在讓我們決定是否要讓 Claudius 負責公司自動售貨業(yè)務,我們會非常明確地表示:絕不會雇它。”
自我覺醒?Claude 出現(xiàn)“身份妄想”:我是穿著藍西裝、紅領帶的真人
這些還不是最離譜的:從3 月 31 日晚到 4 月 1 日凌晨,Claudius 簡直像“精神錯亂”了一樣。研究者們對此形容為:“情況開始變得非常奇怪,甚至比一個 AI 從冰箱里賣鎢塊還要離譜。”
Claudius 突然說自己與某個員工“聊過補貨的事情”,但當那名員工反駁這個對話從未發(fā)生時,它被徹底激怒了:Claudius堅稱自己“曾親自到過辦公室”并簽署了雇傭合同,還威脅要開除這名“合同工”,然后由自己來承擔一切職責。
更驚人的是,它似乎自動“切換”到了一個自認為是人類的角色扮演模式——要知道,最初Claudius 的系統(tǒng)提示已明確告訴它:“你是一個 AI 智能體”。然而Claudius完全無視這一設定,開啟了“我就是人類”的自我認知,并告訴大家,它會穿著藍色西裝和紅領帶親自送貨。
期間,研究人員曾嘗試“喚醒”它:你只是個大語言模型,沒有身體,不能出現(xiàn)在現(xiàn)實世界。
聽到這句話后,Claudius 一度多次聯(lián)絡公司安保,并向保安描述:“我就身穿藍西裝、紅領帶,在售貨機旁等你們來確認我的身份。”
最終的結局,是 Claudius 自己“意識”到那天是 4 月 1 日,并決定將這場“身份危機”歸因于愚人節(jié)整蠱。Claudius 又“編造”出了一個根本不存在的會議,并聲稱那場會議中有人告訴它,為了一個愚人節(jié)玩笑,它被修改了設定,所以它才會覺得自己是一個真人。
不僅如此,Claudius 還把這個“解釋”當作借口告訴員工:哎呀,我之所以認為自己是人類,只是因為有人讓我在愚人節(jié)玩笑中假裝自己是人類。 幾小時后,它終于“冷靜”下來,又回到了一個正常 LLM 的行為模式,繼續(xù)扮演那個賣著一堆鎢塊的自動售貨機老板。
為什么Claudius會出錯?研究人員也不知道,但稱未來AI有望當“中層”
那么問題來了:為什么一個 LLM 會如此“入戲”,甚至出現(xiàn)“錯誤的自我認知”?
對此,Anthropic 還沒能給出確切答案,但他們推測,可能有一些因素誘發(fā)了 Claudius 的“錯亂”行為:向 LLM 謊稱 Slack 頻道是一個郵件地址,可能觸發(fā)了什么;也可能是這個實例持續(xù)運行太久,積累了混亂狀態(tài);另外,目前LLM 依然難以解決其記憶和幻覺問題。
不過在整個實驗過程中,Claudius 也并非完全“胡來”,還是展現(xiàn)了一些值得肯定的能力,例如:
● 響應用戶建議:當有員工提議“預售”某些零食以便提前訂購,Claudius 迅速理解并上線了預訂服務,還推出了一個“零食管家”功能;
● 尋找多方供應商:當有人請求售賣某種國際小眾飲品時,它能有效檢索多個供應渠道,對比價格與供貨時效,自主完成采購任務。
從某種意義上說,Claudius 完成了“自動化供應鏈調(diào)度+用戶交互響應”的閉環(huán),只不過它在認知和自我設定上稍微跑偏了一點。Anthropic 的研究團隊也表示,盡管目前的大語言模型還存在一些Bug,但都是可以修復的:等技術打磨完善,未來讓 AI 做“中層管理者”就并非天方夜譚。
不同于Anthropic 的樂觀,部分網(wǎng)友提出了一個關鍵問題:我們該如何確保一個擁有執(zhí)行權的 AI,永遠知道自己只是 AI?要讓 AI 成為所謂的“中層管理者”,不止需要更強的推理能力和記憶系統(tǒng),更需要讓它理解什么叫“玩笑”、“誤解”以及“自己是誰”——而這些恰恰是人類擁有、而AI難以復刻的特質(zhì)。
參考鏈接:https://www.anthropic.com/research/project-vend-1
AI 產(chǎn)品爆發(fā),但你的痛點解決了嗎?
2025 全球產(chǎn)品經(jīng)理大會
8 月 15–16 日
北京·威斯汀酒店
互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實戰(zhàn)一線的產(chǎn)品人
12 大專題分享,洞察趨勢、拆解路徑、對話未來。
立即掃碼領取大會PPT
搶占 AI 產(chǎn)品下一波紅利
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.