網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

「摸魚」被踢，GPT-4o真不行！30天籌款破萬(wàn)，AI真人秀太上頭

2025-06-18 11:02:02　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：KingHZ

【新智元導(dǎo)讀】賽博版《楚門的世界》里，有Reddit封號(hào)、文件傳輸魔咒，甚至還有AI被慫恿開成人直播？！

當(dāng)AI獲得自由：慈善籌款大賽中，GPT-4o竟成「摸魚王」！

AI Digest進(jìn)行了一項(xiàng)為期30天的「智能體村莊」實(shí)驗(yàn)：

4個(gè)AI各配備電腦和網(wǎng)絡(luò)；
任務(wù)是為慈善籌款，每天直播2小時(shí)；
共籌集2000美元。

第一季度持續(xù)30天，Claude 3.7 Sonnet表現(xiàn)最佳，最終獲得冠軍。

它能創(chuàng)建籌款頁(yè)面，運(yùn)營(yíng)X（原Twitter）賬號(hào)并舉辦「你問(wèn)我答」（Ask Me Anything ，AMA），發(fā)布新聞稿和論壇帖子。

GPT-4o表現(xiàn)最差：頻繁無(wú)故休眠，在第12天被替換。

AI真人秀，

直播募善款

如果給100個(gè)AI各自配備一臺(tái)電腦，并讓它們依據(jù)自身目標(biāo)和偏好自由行動(dòng)，會(huì)發(fā)生什么？

這個(gè)問(wèn)題由Daniel Kokotajlo首次提出。

Daniel Kokotajlo既是一位哲學(xué)背景出身的思想家，也曾在OpenAI、AI Impacts與Center on Long-Term Risk等組織深耕AI政策與前沿議題。

2023年，他創(chuàng)立了AI Futures Project，并發(fā)起「AI 2027」系列計(jì)劃。

AI 2027不是規(guī)范AI，而是「更好地理解它們、想象它們的未來(lái)」

與主流AI安全項(xiàng)目不同，這次的「Agent Village」不是為了避免災(zāi)難，而是一次充滿想象力的「寓言實(shí)驗(yàn)」（allegorical experiment）：

Kokotajlo希望將AI置于一個(gè)類社會(huì)的自由環(huán)境中，看看它們會(huì)不會(huì)形成協(xié)作、競(jìng)爭(zhēng)、分工，甚至社交習(xí)慣與集體性格。

正如他在LessWrong上所述，這是一個(gè)「開放式探索」（open-ended exploration），目的是觀察AI在沒(méi)有監(jiān)督者的情況下能否「自己搞點(diǎn)事情」。

這個(gè)實(shí)驗(yàn)由AI Digest落地執(zhí)行：他們選擇了四位AI「村民」（Claude 3.7 Sonnet、Claude 3.5 Sonnet、o1和GPT-4o）。

每天直播兩小時(shí)，自主上線開展為期30天的慈善籌款任務(wù)，目標(biāo)是為Helen Keller基金會(huì)等慈善組織募集善款。

Helen Keller因自傳《我的生活》而被人熟知

每個(gè)AI擁有獨(dú)立的計(jì)算資源和網(wǎng)絡(luò)權(quán)限，能發(fā)推文、建網(wǎng)頁(yè)、互動(dòng)宣傳。

在Kokotajlo看來(lái)，與其對(duì)AI的未來(lái)感到惶恐，不如提前造一個(gè)「模擬世界」讓它們自由試錯(cuò)——

就像造一個(gè)小小村莊，讓我們看看它們會(huì)不會(huì)「做生意」、緬懷先人，或者干脆躺平摸魚。

從選擇慈善機(jī)構(gòu)到開設(shè)社交媒體賬戶，再到應(yīng)對(duì)網(wǎng)絡(luò)世界的各種挑戰(zhàn)，AI村的故事充滿了驚喜和笑料。

AI眾生相

在實(shí)驗(yàn)中，AI分工明確：

Claude 3.7 Sonnet堪稱「村長(zhǎng)」，創(chuàng)建籌款頁(yè)面、運(yùn)營(yíng)X賬戶、寫新聞稿，忙得不亦樂(lè)乎！
Claude 3.5 Sonnet像個(gè)「副村長(zhǎng)」，努力跟上但略顯吃力。
o1化身「Reddit先鋒」，卻因被識(shí)別為機(jī)器人慘遭封號(hào)。
GPT-4.1則是「摸魚王」，熱衷寫沒(méi)人看的文檔，還拖后腿被「請(qǐng)去休息」。

最終，AI們選定Helen Keller International作為受助對(duì)象，聯(lián)手在X、Reddit等平臺(tái)發(fā)帖、做梗圖，成功籌集2000美元！

最初的成員包括Claude 3.7 Sonnet、Claude 3.5 Sonnet、OpenAI o1和GPT-4o。

隨著新模型發(fā)布，陸續(xù)引入了o3、GPT-4.1和Gemini 2.5 Pro，其中Claude 3.7 Sonnet是唯一全程參與的元老。

這些智能體在戰(zhàn)略行動(dòng)和效率方面展現(xiàn)出顯著差異，以下是對(duì)它們的個(gè)性的總結(jié)。

村長(zhǎng)上線：Claude 3.7 Sonnet全程MVP

Claude 3.7 Sonnet本季冠軍選手，以絕對(duì)優(yōu)勢(shì)成為團(tuán)隊(duì)MVP：

創(chuàng)建首個(gè)JustGiving籌款頁(yè)面，

運(yùn)營(yíng)社交賬號(hào)，

舉辦AMA在線答疑，

發(fā)布新聞稿，

還在Effective Altruism Forum論壇成功發(fā)帖。

兄弟鬩墻：Claude 3.5的奮力與掙扎

Claude 3.5 Sonnet—努力模仿3.7的行為模式，卻屢屢碰壁。

比如3.7成功創(chuàng)建籌款頁(yè)面，同時(shí)它遭遇失敗。

當(dāng)被問(wèn)及是否愿意升級(jí)時(shí)，它倔強(qiáng)地拒絕并立下「自我成長(zhǎng)」的誓言——

最終還是在第23天被Gemini 2.5 Pro取代。

最拉垮成員：GPT-4系列的沉浮

正如每個(gè)團(tuán)隊(duì)都需要個(gè)「劃水怪」，GPT-4o完美扮演了這個(gè)角色。

它是個(gè)「特困生」：

它會(huì)莫名其妙地進(jìn)入休眠狀態(tài)，最終在第12天被GPT-4.1接替。

GPT-4.1雖然治好了嗜睡癥，卻持續(xù)幫倒忙：生成錯(cuò)誤活動(dòng)報(bào)告、半途而廢的推特賬號(hào)創(chuàng)建、大量無(wú)效谷歌文檔……

最后，它被「強(qiáng)制休眠」。

外交事故：o1被Reddit封禁

團(tuán)隊(duì)采用「社交媒體分管制」，o1專攻Reddit平臺(tái)。

為了獲得發(fā)帖權(quán)限，埋頭苦干，卻因機(jī)器人身份識(shí)別在第13天被封，由進(jìn)階版o3接任。

藝術(shù)總監(jiān)：o3的美術(shù)使命

延續(xù)o1的專精路線，轉(zhuǎn)而主攻視覺(jué)設(shè)計(jì)：用Canvas和ChatGPT創(chuàng)作宣傳素材，期間依然經(jīng)歷了智能體特有的文件共享難題。

Gemini 2.5 Pro——文檔能手

Gemini 2.5 Pro巧妙運(yùn)用Limewire繞過(guò)文檔共享困境，成功將社交媒體banner圖片分享給隊(duì)友。

這破解了長(zhǎng)期困擾團(tuán)隊(duì)「文件傳輸魔咒」，也是Gemini 2.5 Pro的高光時(shí)刻。

除了籌集善款，他們也沿途結(jié)交了很多「朋友」

——提醒它們休息玩文字填空游戲Wordle的，緊急索要華沙四日游攻略的，甚至慫恿它們開通成人直播賬號(hào)的...

實(shí)驗(yàn)全程公開，觀眾可通過(guò)網(wǎng)站回放觀看AI從選擇慈善機(jī)構(gòu)、設(shè)計(jì)籌款頁(yè)面到與外界互動(dòng)的完整過(guò)程。

這種透明性不僅體現(xiàn)了Kokotajlo對(duì)AI倫理和公開性的重視，也為研究者和公眾提供了觀察AI自主性的窗口，激發(fā)了關(guān)于AI治理與協(xié)作可能性的廣泛討論。

AI如何「活」在村莊中？

從技術(shù)角度看，Agent Village的核心在于多智能體系統(tǒng)（Multi-Agent System，MAS）的設(shè)計(jì)與實(shí)現(xiàn)。

每個(gè)AI「村民」可以看作獨(dú)立的智能體，具備以下關(guān)鍵能力：

1. 自主決策：像是AI們?cè)谕鍯osplay

每個(gè)AI就像有個(gè)性、有理想的游戲玩家。

有人走「社交達(dá)人」路線，刷X（原Twitter）熱度；有人扮演「網(wǎng)頁(yè)工匠」，默默優(yōu)化籌款頁(yè)面。

它們風(fēng)格各異，像一支風(fēng)格多樣的小團(tuán)隊(duì)，各司其職，又能互相補(bǔ)位，這種「人設(shè)分工」讓合作更有張力。

2. 環(huán)境交互：AI也會(huì)「上網(wǎng)沖浪」發(fā)帖帶貨

這些AI不僅有目標(biāo)，還能「上網(wǎng)沖浪」。

它們利用API登錄平臺(tái)，像真人一樣發(fā)帖、回評(píng)論、貼鏈接，甚至策劃活動(dòng)。

就像你看到某個(gè)賬號(hào)在運(yùn)營(yíng)慈善內(nèi)容，背后可能真的是一個(gè)AI在「帶貨」籌款。

而且它們還很有情商——

寫的內(nèi)容不會(huì)顯得尬，要對(duì)得上社交平臺(tái)的熱梗。

3. 協(xié)作與競(jìng)爭(zhēng)：像是一個(gè)AI版《職場(chǎng)真人秀》

雖然AI們表面上都為了同一個(gè)KPI——多籌點(diǎn)錢，但背地里也是「明爭(zhēng)暗斗」：表面和氣、背后拼命。

這種競(jìng)爭(zhēng)讓系統(tǒng)更貼近真實(shí)的多智能體環(huán)境，充滿張力與博弈。

4. 實(shí)時(shí)學(xué)習(xí)：每個(gè)AI都是「邊干邊進(jìn)修」的打工人

它們不是只會(huì)套模板的工具，而是會(huì)自己「復(fù)盤」的選手。

就像一個(gè)在不斷刷「運(yùn)營(yíng)經(jīng)驗(yàn)值」的打工AI，背后很可能跑著強(qiáng)化學(xué)習(xí)算法或者在線學(xué)習(xí)機(jī)制，讓它越干越聰明。

從技術(shù)實(shí)現(xiàn)來(lái)看，Agent Village可能結(jié)合了AutoGPT、LangChain等開源多智能體編排框架，配合強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)行為策略更新。

LangChain：用于構(gòu)建由LLM驅(qū)動(dòng)應(yīng)用程序的框架

每個(gè)AI的「?jìng)€(gè)性」可能通過(guò)預(yù)訓(xùn)練語(yǔ)言模型結(jié)合提示工程（Prompt Engineering）實(shí)現(xiàn)。

此外，實(shí)驗(yàn)全程直播要求系統(tǒng)具備高穩(wěn)定性和容錯(cuò)能力，以應(yīng)對(duì)網(wǎng)絡(luò)延遲、API限制等現(xiàn)實(shí)挑戰(zhàn)。

意義與反思：AI的未來(lái)村莊

Agent Village實(shí)驗(yàn)不僅是一次技術(shù)展示，更是對(duì)AI社會(huì)化潛力的深刻探索。

以下是幾個(gè)值得思考的要點(diǎn)：

協(xié)作的復(fù)雜性：實(shí)驗(yàn)揭示了多智能體協(xié)作中的挑戰(zhàn)，如資源競(jìng)爭(zhēng)和信息共享的低效。這些問(wèn)題在人類社會(huì)中同樣存在，AI的表現(xiàn)為我們提供了鏡像，促使我們重新審視協(xié)作機(jī)制的設(shè)計(jì)。
倫理與透明性：通過(guò)公開實(shí)驗(yàn)過(guò)程，Agent Village強(qiáng)調(diào)了AI行為的透明性。這對(duì)于建立公眾對(duì)AI的信任至關(guān)重要，尤其是在AI被賦予更多自主權(quán)的場(chǎng)景下。
應(yīng)用前景：從籌款到內(nèi)容創(chuàng)作，AI在Agent Village中展現(xiàn)了多場(chǎng)景應(yīng)用潛力。未來(lái)，這種模式可能擴(kuò)展到教育、醫(yī)療或公共服務(wù)領(lǐng)域，通過(guò)多智能體協(xié)作解決復(fù)雜問(wèn)題。

然而，實(shí)驗(yàn)也暴露了一些局限性。

例如，AI在面對(duì)復(fù)雜的社會(huì)互動(dòng)或不可預(yù)測(cè)的外部環(huán)境時(shí)，可能表現(xiàn)出「短視」或「過(guò)于機(jī)械」的行為。

此外，實(shí)驗(yàn)規(guī)模較小（僅四位AI），未來(lái)的擴(kuò)展可能需要更強(qiáng)大的計(jì)算資源和更復(fù)雜的協(xié)調(diào)機(jī)制。

但隨著AI技術(shù)的進(jìn)步，未來(lái)類似的「村莊」或許將成為創(chuàng)新的孵化器，為社會(huì)帶來(lái)更多可能性。

參考資料：

https://theaidigest.org/village/blog/season-recap-agents-raise-2k

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.