想必大家都知道“狼人殺”這個(gè)游戲,在狼人殺中,說(shuō)話的時(shí)機(jī)至關(guān)重要,說(shuō)得太多可能會(huì)暴露身份,顯得可疑;說(shuō)得太少又可能被其他玩家懷疑是在隱藏什么。
我們都有過(guò)這樣的經(jīng)歷:在群聊中,有些人總是搶著說(shuō)話,有些人卻一聲不吭,而真正受歡迎的那個(gè)人總是能在恰到好處的時(shí)機(jī)說(shuō)出恰到好處的話。
來(lái)自希伯來(lái)大學(xué)的研究團(tuán)隊(duì)成功地讓人工智能也學(xué)會(huì)了這種社交技巧,這聽(tīng)起來(lái)可能不算什么大事,但實(shí)際上這是一個(gè)巨大的突破。
目前絕大多數(shù)AI聊天機(jī)器人都遵循一種叫做"同步交流"的模式,就像打乒乓球一樣,你說(shuō)一句,我回一句,輪流進(jìn)行。然而現(xiàn)實(shí)生活中的群體交流完全不是這樣的。在微信群聊、團(tuán)隊(duì)會(huì)議或者朋友聚會(huì)中,每個(gè)人都可以隨時(shí)發(fā)言,什么時(shí)候開(kāi)口說(shuō)話本身就是一門藝術(shù)。
雙重決策系統(tǒng):AI如何學(xué)會(huì)"察言觀色"
研究團(tuán)隊(duì)設(shè)計(jì)的AI智能體采用了一個(gè)巧妙的雙重決策系統(tǒng),就像人類在群聊中的思考過(guò)程一樣。當(dāng)我們?cè)谌豪锪奶鞎r(shí),我們的大腦實(shí)際上在同時(shí)進(jìn)行兩個(gè)判斷:首先是"現(xiàn)在該不該說(shuō)話",然后才是"如果要說(shuō)話,該說(shuō)什么"。
這個(gè)AI智能體的"大腦"也分為兩個(gè)部分。第一個(gè)部分叫做"調(diào)度器",它的工作就像一個(gè)內(nèi)心的小聲音,不斷地問(wèn)自己:"現(xiàn)在是發(fā)言的好時(shí)機(jī)嗎?"第二個(gè)部分叫做"生成器",負(fù)責(zé)決定具體要說(shuō)什么內(nèi)容。
調(diào)度器的工作方式特別有趣。它會(huì)不斷地觀察聊天記錄,分析當(dāng)前的聊天節(jié)奏,然后決定是等待還是發(fā)言。就像一個(gè)善于察言觀色的人,它會(huì)考慮自己最近說(shuō)話是不是太多了,其他人是不是還在討論某個(gè)話題,現(xiàn)在插話會(huì)不會(huì)顯得突兀。
更巧妙的是,研究團(tuán)隊(duì)給調(diào)度器設(shè)計(jì)了一個(gè)"自我調(diào)節(jié)"機(jī)制。當(dāng)AI發(fā)現(xiàn)自己說(shuō)話比其他玩家頻繁時(shí),系統(tǒng)會(huì)收到一個(gè)提示:"注意你發(fā)言的頻率,讓其他人也有表達(dá)的機(jī)會(huì)。"相反,如果它發(fā)現(xiàn)自己太安靜了,系統(tǒng)會(huì)鼓勵(lì)它:"記住要讓自己的聲音被聽(tīng)到,積極參與討論。"這種動(dòng)態(tài)調(diào)整讓AI能夠保持一個(gè)合適的參與度。
生成器的任務(wù)相對(duì)簡(jiǎn)單一些,但也不容忽視。一旦調(diào)度器決定要發(fā)言,生成器就會(huì)根據(jù)當(dāng)前的游戲狀態(tài)、聊天歷史和自己的角色(比如是狼人還是平民)來(lái)生成合適的回應(yīng)。
為了讓AI的行為更像真人,研究團(tuán)隊(duì)還加入了一個(gè)看似微不足道但實(shí)際上很重要的細(xì)節(jié):打字時(shí)間模擬。AI不會(huì)立即發(fā)送消息,而是會(huì)根據(jù)消息的長(zhǎng)度等待一段時(shí)間,模擬人類打字所需的時(shí)間。按照平均每秒一個(gè)單詞的打字速度,如果AI要發(fā)送一個(gè)10個(gè)單詞的消息,它會(huì)等待大約10秒鐘再發(fā)送。這個(gè)小細(xì)節(jié)讓AI的行為顯得更加自然。
狼人殺測(cè)試場(chǎng):真實(shí)世界社交的完美模擬
研究團(tuán)隊(duì)選擇了狼人殺這個(gè)經(jīng)典的社交推理游戲作為測(cè)試平臺(tái)。狼人殺是一個(gè)非常適合測(cè)試AI社交能力的游戲,因?yàn)橥婕倚枰ㄟ^(guò)語(yǔ)言交流來(lái)識(shí)別誰(shuí)是"壞人",而說(shuō)話的時(shí)機(jī)對(duì)游戲勝負(fù)至關(guān)重要。說(shuō)話太頻繁可能會(huì)被懷疑,太沉默也會(huì)引起注意。更重要的是,這個(gè)游戲需要真正的團(tuán)隊(duì)合作和策略思考,而不是簡(jiǎn)單的問(wèn)答。
狼人殺游戲?yàn)檫@項(xiàng)研究提供了一個(gè)幾乎完美的測(cè)試環(huán)境。在這個(gè)游戲中,每個(gè)玩家都被秘密分配一個(gè)身份——要么是普通的"平民",要么是需要隱藏身份的"狼人"。只有狼人知道其他狼人的身份,而平民對(duì)此一無(wú)所知。
游戲的流程就像一個(gè)微縮的社會(huì):白天時(shí),所有玩家聚在一起討論誰(shuí)可能是狼人,然后投票淘汰一個(gè)人。夜晚時(shí),只有狼人可以私下交流,決定要"消滅"哪個(gè)平民。游戲在兩個(gè)隊(duì)伍中的一個(gè)達(dá)成目標(biāo)時(shí)結(jié)束:狼人要讓自己的數(shù)量超過(guò)平民,而平民要找出并投票淘汰所有狼人。
這個(gè)游戲設(shè)置對(duì)AI來(lái)說(shuō)充滿了挑戰(zhàn)。首先,它需要在信息不完整的情況下做出判斷——就像現(xiàn)實(shí)生活中的許多社交場(chǎng)景一樣,你永遠(yuǎn)不知道別人真正在想什么。其次,它需要學(xué)會(huì)適度的懷疑和信任,既要尋找狼人的蛛絲馬跡,又不能過(guò)于偏執(zhí)。最重要的是,它必須掌握發(fā)言的藝術(shù)——說(shuō)得太多可能暴露自己的身份或顯得可疑,說(shuō)得太少又可能被認(rèn)為是在躲避。
研究團(tuán)隊(duì)創(chuàng)建了一個(gè)叫做"LLMAFIA"的數(shù)據(jù)集,包含了21場(chǎng)游戲的完整記錄,總共2558條消息,其中211條來(lái)自AI智能體。每場(chǎng)游戲平均有7到12名玩家,持續(xù)時(shí)間約15分鐘。這些游戲都是在真實(shí)的在線環(huán)境中進(jìn)行的,AI智能體與真人玩家混在一起,沒(méi)有人知道誰(shuí)是AI,誰(shuí)是真人。
為了確保實(shí)驗(yàn)的公平性,研究團(tuán)隊(duì)告知參與者游戲中會(huì)有一個(gè)AI玩家,但不會(huì)透露具體是誰(shuí)。這樣既保證了實(shí)驗(yàn)的透明度,又不會(huì)影響游戲的自然進(jìn)行。每場(chǎng)游戲結(jié)束后,人類玩家會(huì)被問(wèn)及他們認(rèn)為哪個(gè)玩家是AI,并對(duì)AI的表現(xiàn)進(jìn)行評(píng)分。
驚人的社交成功:AI幾乎完美融入人類群體
實(shí)驗(yàn)結(jié)果令人印象深刻。在消息數(shù)量方面,AI智能體表現(xiàn)得幾乎和人類玩家一模一樣。在每個(gè)白天討論階段,人類玩家平均發(fā)送4.54條消息,而AI智能體發(fā)送4.28條消息,差距微乎其微。更重要的是,AI的發(fā)言時(shí)機(jī)也非常自然。
研究團(tuán)隊(duì)分析了兩個(gè)關(guān)鍵的時(shí)間模式:首先是"響應(yīng)時(shí)間",即從上一條消息到當(dāng)前消息之間的間隔;其次是"連續(xù)發(fā)言間隔",即同一個(gè)玩家連續(xù)兩條消息之間的時(shí)間。在這兩個(gè)維度上,AI的行為分布都與人類玩家高度相似,只是變化幅度稍小一些,這可能是因?yàn)锳I的行為更加一致,而人類在不同游戲中的表現(xiàn)差異較大。
最有趣的發(fā)現(xiàn)之一是關(guān)于游戲動(dòng)態(tài)的觀察。隨著游戲進(jìn)行,被淘汰的玩家越來(lái)越多,剩余玩家的發(fā)言頻率會(huì)自然增加。AI智能體完美地適應(yīng)了這種變化,它的發(fā)言頻率隨著活躍玩家數(shù)量的減少而相應(yīng)增加,這種自適應(yīng)行為完全符合人類的自然反應(yīng)。
在游戲勝率方面,AI智能體的表現(xiàn)也可圈可點(diǎn)。無(wú)論是扮演狼人還是平民,它的勝率都與人類玩家相當(dāng)。這表明AI不僅學(xué)會(huì)了合適的交流時(shí)機(jī),還掌握了游戲的核心策略。考慮到在狼人殺這樣的游戲中,異常的交流模式往往會(huì)被視為可疑行為并導(dǎo)致被投票淘汰,AI的正常勝率進(jìn)一步證明了它成功融入了人類群體。
研究還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:在被投票淘汰的玩家中,說(shuō)話最多的玩家被淘汰的概率顯著較高。這個(gè)發(fā)現(xiàn)驗(yàn)證了研究團(tuán)隊(duì)的設(shè)計(jì)理念——避免極端的交流模式,而是努力融入典型的人類行為。
隱藏的差異:內(nèi)容分析揭示的秘密
盡管AI在時(shí)機(jī)掌握方面表現(xiàn)出色,但深入的內(nèi)容分析揭示了一些有趣的差異。最明顯的區(qū)別是消息長(zhǎng)度:AI傾向于發(fā)送更長(zhǎng)的消息,平均每條消息10.67個(gè)單詞,而人類玩家平均只有4.19個(gè)單詞。這可能反映了AI和人類在表達(dá)習(xí)慣上的根本差異——人類在快節(jié)奏的群聊中更喜歡簡(jiǎn)短的表達(dá),而AI可能傾向于更完整的陳述。
詞匯使用方面也存在差異。AI使用的獨(dú)特詞匯數(shù)量更多(平均66.67個(gè),人類為31.56個(gè)),這可能是因?yàn)锳I具有更大的詞匯庫(kù),或者它在表達(dá)時(shí)更加正式和多樣化。同時(shí),AI也表現(xiàn)出稍高的重復(fù)性,可能會(huì)重復(fù)之前說(shuō)過(guò)的話,這是一個(gè)需要改進(jìn)的地方。
更深入的分析顯示,通過(guò)機(jī)器學(xué)習(xí)方法可以相當(dāng)準(zhǔn)確地區(qū)分AI和人類的消息。使用先進(jìn)的文本嵌入技術(shù)和線性判別分析,研究人員能夠以98%的準(zhǔn)確率識(shí)別出消息的來(lái)源。這表明盡管AI在行為時(shí)機(jī)上已經(jīng)很接近人類,但在語(yǔ)言使用的細(xì)微特征上仍存在可識(shí)別的模式。
有趣的是,同樣的分析方法也能夠區(qū)分狼人和平民的消息(88%準(zhǔn)確率),以及白天和夜晚階段的消息(91%準(zhǔn)確率)。這說(shuō)明不同角色和不同游戲階段確實(shí)會(huì)影響玩家的表達(dá)方式,這種影響是可以通過(guò)技術(shù)手段檢測(cè)到的。
人類視角:AI偽裝成功了嗎?
從人類玩家的角度來(lái)看,AI的偽裝相當(dāng)成功。在游戲結(jié)束后的身份猜測(cè)中,只有59.6%的人類玩家正確識(shí)別出了AI智能體。這意味著有超過(guò)40%的情況下,人類無(wú)法區(qū)分AI和真人玩家,這是一個(gè)相當(dāng)令人印象深刻的成績(jī)。
在詳細(xì)的評(píng)分環(huán)節(jié)中,人類玩家對(duì)AI的表現(xiàn)給出了不同層面的評(píng)價(jià)。在5分制的評(píng)分系統(tǒng)中,AI在"人類相似性"方面得分2.63分,這個(gè)成績(jī)與身份識(shí)別的成功率基本一致,說(shuō)明AI還有改進(jìn)空間。然而,在"發(fā)言時(shí)機(jī)"方面,AI獲得了3.19分,這是三個(gè)評(píng)分維度中最高的,證明了研究團(tuán)隊(duì)在時(shí)機(jī)控制方面的成功。"消息相關(guān)性"得分為2.99分,表明AI的回應(yīng)內(nèi)容基本合適,但仍有提升余地。
這些評(píng)分結(jié)果很好地印證了技術(shù)分析的發(fā)現(xiàn):AI在何時(shí)發(fā)言方面做得很好,但在如何發(fā)言方面還需要進(jìn)一步優(yōu)化。
技術(shù)創(chuàng)新與突破
這項(xiàng)研究的技術(shù)創(chuàng)新主要體現(xiàn)在異步通信的建模上。傳統(tǒng)的AI對(duì)話系統(tǒng)都是基于回合制設(shè)計(jì)的,就像下棋一樣,你走一步,我走一步。但現(xiàn)實(shí)世界的群體交流完全不是這樣的。在微信群、團(tuán)隊(duì)會(huì)議或者社交聚會(huì)中,任何人都可以在任何時(shí)候發(fā)言,這種自由度帶來(lái)了巨大的復(fù)雜性。
研究團(tuán)隊(duì)通過(guò)連續(xù)采樣的方式解決了這個(gè)問(wèn)題。系統(tǒng)每隔很短的時(shí)間就會(huì)詢問(wèn)AI是否要發(fā)言,這樣創(chuàng)造了一種"準(zhǔn)連續(xù)"的交流環(huán)境。就像電影中快速連續(xù)的靜止畫面創(chuàng)造了運(yùn)動(dòng)的錯(cuò)覺(jué)一樣,頻繁的決策點(diǎn)創(chuàng)造了自然流暢的對(duì)話體驗(yàn)。
另一個(gè)重要?jiǎng)?chuàng)新是動(dòng)態(tài)提示調(diào)整機(jī)制。AI不是使用固定的指令,而是根據(jù)自己的發(fā)言頻率動(dòng)態(tài)調(diào)整行為指導(dǎo)。當(dāng)它發(fā)現(xiàn)自己說(shuō)話太多時(shí),系統(tǒng)會(huì)提醒它要給別人機(jī)會(huì);當(dāng)它太安靜時(shí),系統(tǒng)會(huì)鼓勵(lì)它更積極地參與。這種自適應(yīng)機(jī)制讓AI能夠在不同的群體動(dòng)態(tài)中保持合適的參與度。
研究團(tuán)隊(duì)使用了Llama3.1-8B-Instruct作為底層模型,這是一個(gè)相對(duì)較小的語(yǔ)言模型。令人驚訝的是,即使是這樣一個(gè)"輕量級(jí)"的模型,在適當(dāng)?shù)南到y(tǒng)設(shè)計(jì)下也能展現(xiàn)出如此出色的社交能力。這說(shuō)明系統(tǒng)架構(gòu)和算法設(shè)計(jì)的重要性,有時(shí)甚至比模型大小更關(guān)鍵。
深遠(yuǎn)影響與未來(lái)可能
這項(xiàng)研究的意義遠(yuǎn)超狼人殺游戲本身。它為AI在真實(shí)社交環(huán)境中的應(yīng)用開(kāi)辟了新的可能性。想象一下,在未來(lái)的在線團(tuán)隊(duì)會(huì)議中,AI助手不僅能提供信息支持,還能夠識(shí)別合適的插話時(shí)機(jī),在不打斷討論流程的前提下提供有價(jià)值的建議。
在教育領(lǐng)域,這種技術(shù)可能催生新一代的AI學(xué)習(xí)伙伴。這些AI不會(huì)像傳統(tǒng)的教學(xué)軟件那樣機(jī)械地問(wèn)答,而是能夠像真正的同學(xué)一樣參與小組討論,在恰當(dāng)?shù)臅r(shí)機(jī)提出問(wèn)題或分享觀點(diǎn),讓學(xué)習(xí)過(guò)程更加自然和有效。
在心理健康支持方面,具備自然交流能力的AI也可能發(fā)揮重要作用。它們可以參與支持小組的討論,在需要的時(shí)候提供安慰或建議,而不會(huì)因?yàn)闄C(jī)械的交流方式而讓人感到疏離。
然而,這種技術(shù)的發(fā)展也帶來(lái)了一些思考。當(dāng)AI能夠如此自然地模擬人類行為時(shí),我們?nèi)绾未_保人機(jī)交互的透明度?在什么情況下應(yīng)該明確告知用戶他們正在與AI交流?這些都是需要社會(huì)層面討論和規(guī)范的問(wèn)題。
挑戰(zhàn)與局限
研究團(tuán)隊(duì)誠(chéng)實(shí)地承認(rèn)了當(dāng)前工作的局限性。首先,由于計(jì)算資源的限制,他們使用的是相對(duì)較小的語(yǔ)言模型。更大的模型可能會(huì)在語(yǔ)言表達(dá)的自然度方面表現(xiàn)更好,但同時(shí)也可能帶來(lái)新的挑戰(zhàn)。
其次,參與實(shí)驗(yàn)的玩家包括非英語(yǔ)母語(yǔ)者,雖然他們都能流利使用英語(yǔ),但這種語(yǔ)言背景的多樣性可能影響了人類與AI消息的區(qū)分度。在某些情況下,非母語(yǔ)者的表達(dá)方式可能與AI生成的文本更相似,這會(huì)影響實(shí)驗(yàn)結(jié)果的解釋。
在游戲環(huán)境方面,狼人殺雖然是一個(gè)很好的測(cè)試平臺(tái),但它畢竟有固定的規(guī)則和相對(duì)簡(jiǎn)單的交互模式。真實(shí)世界的社交場(chǎng)景要復(fù)雜得多,涉及更多的非語(yǔ)言信息、情感細(xì)節(jié)和文化背景。
技術(shù)上,當(dāng)前的系統(tǒng)主要關(guān)注了何時(shí)發(fā)言的問(wèn)題,但對(duì)于如何發(fā)言、如何表達(dá)情感、如何處理沖突等更高層次的社交技能還有很大的改進(jìn)空間。
研究方法的創(chuàng)新性
這項(xiàng)研究在方法論上也有很多值得稱道的地方。首先,它是第一個(gè)真正將AI智能體整合到人類玩家游戲中的研究,這提供了比純模擬環(huán)境更加真實(shí)可靠的數(shù)據(jù)。
數(shù)據(jù)收集的設(shè)計(jì)也很巧妙。研究團(tuán)隊(duì)不僅記錄了所有的聊天消息和投票行為,還詳細(xì)記錄了時(shí)間戳、AI的決策過(guò)程、使用的提示內(nèi)容等信息。這種全方位的數(shù)據(jù)記錄為后續(xù)的深入分析提供了堅(jiān)實(shí)的基礎(chǔ)。
在評(píng)估方法上,研究團(tuán)隊(duì)采用了多角度的分析策略。除了傳統(tǒng)的勝率統(tǒng)計(jì),他們還分析了時(shí)間模式、語(yǔ)言特征、人類感知等多個(gè)維度。這種綜合評(píng)估方法讓我們能夠全面了解AI的表現(xiàn),而不僅僅是單一指標(biāo)的好壞。
實(shí)驗(yàn)設(shè)計(jì)也考慮了倫理因素。所有參與者都事先知情并同意參與研究,雖然不知道具體哪個(gè)玩家是AI,但知道游戲中存在AI玩家。這種平衡保證了實(shí)驗(yàn)的有效性,同時(shí)尊重了參與者的知情權(quán)。
與相關(guān)研究的對(duì)比
雖然之前也有一些研究探索了AI在社交游戲中的應(yīng)用,但這項(xiàng)工作在幾個(gè)關(guān)鍵方面實(shí)現(xiàn)了突破。以往的研究大多采用嚴(yán)格的回合制系統(tǒng),AI只能在輪到自己的時(shí)候發(fā)言。而這項(xiàng)研究實(shí)現(xiàn)了真正的異步交流,AI可以在任何時(shí)候決定是否發(fā)言。
在游戲選擇上,之前的一些研究雖然也使用了狼人殺或類似游戲,但主要關(guān)注的是欺騙檢測(cè)或策略分析,而不是交流時(shí)機(jī)的掌握。這項(xiàng)研究將焦點(diǎn)放在了社交互動(dòng)的時(shí)間維度上,這是一個(gè)相對(duì)較新的研究角度。
在參與者方面,這項(xiàng)研究是首個(gè)讓AI與真人玩家在同等條件下進(jìn)行游戲的研究。這種"混合現(xiàn)實(shí)"的實(shí)驗(yàn)環(huán)境提供了比純AI對(duì)戰(zhàn)或純?nèi)祟愑^察更有價(jià)值的數(shù)據(jù)。
至頂AI實(shí)驗(yàn)室洞見(jiàn)
這項(xiàng)研究最大的價(jià)值在于它向我們展示了AI社交能力發(fā)展的一個(gè)重要里程碑。當(dāng)AI不僅知道說(shuō)什么,還知道何時(shí)說(shuō),它們就真正開(kāi)始理解人類交流的精髓了。這種理解將為AI在各種社交場(chǎng)景中的應(yīng)用奠定重要基礎(chǔ),也為我們思考人機(jī)交互的未來(lái)提供了新的視角。
雖然目前的AI智能體還不夠完美,在語(yǔ)言表達(dá)的自然度上還有改進(jìn)空間,但它已經(jīng)在一個(gè)關(guān)鍵維度上接近了人類水平:社交時(shí)機(jī)的把握。這個(gè)突破意味著,未來(lái)的AI助手將不再是被動(dòng)的問(wèn)答機(jī)器,而是能夠主動(dòng)、適時(shí)地參與人類對(duì)話的智能伙伴。
論文地址:
https://arxiv.org/pdf/2506.05309v1
本文來(lái)自至頂AI實(shí)驗(yàn)室,一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場(chǎng)景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。
Q&A
Q1:什么是異步群體交流?
A:異步群體交流是指在群聊、會(huì)議等場(chǎng)景中,任何人都可以隨時(shí)發(fā)言的交流方式,與傳統(tǒng)的"你說(shuō)我聽(tīng)"輪流模式不同。
Q2:雙重決策系統(tǒng)的AI智能體在狼人殺游戲中表現(xiàn)如何?
A:表現(xiàn)相當(dāng)出色。AI的發(fā)言頻率與人類玩家?guī)缀跸嗤?.28條 vs 4.54條消息),勝率也與人類相當(dāng),最重要的是只有59.6%的人類玩家能正確識(shí)別出它是AI,說(shuō)明它成功融入了人類群體。
Q3:雙重決策系統(tǒng)的AI智能有什么實(shí)際應(yīng)用價(jià)值?
A:未來(lái)可能應(yīng)用在在線團(tuán)隊(duì)會(huì)議、教育討論、心理健康支持等場(chǎng)景中。AI助手將能夠像真正的參與者一樣,在恰當(dāng)時(shí)機(jī)插話或提供建議,而不是被動(dòng)等待指令,讓人機(jī)交互更加自然流暢。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.