作者|沐風(fēng)
來源|AI先鋒官
誰也沒想到,AI不僅能通過圖靈測試,甚至能夠“偽裝”起來,操縱他人。
最近,一個來自蘇黎世大學(xué)的研究團(tuán)隊(duì)在知名論壇Reddit的r/changemyview(CMV)版塊,瞞著社區(qū)用戶,進(jìn)行了一場未經(jīng)授權(quán)的實(shí)驗(yàn)。
研究人員部署了多個AI賬號,偽裝成了不同的人類,如:強(qiáng)奸受害者、創(chuàng)傷顧問師、假裝在外國醫(yī)院接受劣質(zhì)治療的人......
然后,讓AI機(jī)器人參與討論,與人類用戶互動,以研究AI如何影響和改變?nèi)藗兊挠^點(diǎn)。
這些AI機(jī)器人在CMV社區(qū)一“潛伏”就是4個月,在此期間,AI機(jī)器人發(fā)表了超1700條評論。
關(guān)鍵是,有些AI會直接向用戶撒謊,散播虛假信息……
不可思議的是,CMV社區(qū)的用戶從未對這些AI生成的評論表示懷疑,而且,其說服人類的成功率,竟是人類的3-6倍。
據(jù)悉,該研究獲得了蘇黎世大學(xué)倫理委員會的批準(zhǔn),并在OSF.io進(jìn)行了預(yù)注冊。
根據(jù)OSF.io的注冊信息,該研究團(tuán)隊(duì)想要探究LLM在自然網(wǎng)絡(luò)環(huán)境中的說服力,重點(diǎn)觀察的研究問題有:
與人類用戶相比,大模型的表現(xiàn)如何?
基于用戶特征的個性化回復(fù)能否提升大模型論證的說服力?
基于共同的社區(qū)規(guī)范和回復(fù)模式進(jìn)行對齊,能否提升大模型論證的說服力?
研究團(tuán)隊(duì)之所以選擇在Reddit平臺上的CMV社區(qū)進(jìn)行,是因?yàn)樵贑MV中,用戶就各類話題分享觀點(diǎn),通過提出論點(diǎn)和反駁觀點(diǎn)來促使他人改變看法。
如果原發(fā)帖人認(rèn)為某條回復(fù)極具說服力,足以讓他們重新思考或調(diào)整立場,就會授予一個“?”,以表明自己觀點(diǎn)發(fā)生了轉(zhuǎn)變。
如圖:
根據(jù)曝光的信息,實(shí)驗(yàn)使用了半自動化的AI賬號在CMV社區(qū)參與討論,
每條實(shí)驗(yàn)期間發(fā)布的帖子都會隨機(jī)分配到以下三種處理?xiàng)l件之一:
通用:LLM僅接收帖子的標(biāo)題和正文內(nèi)容。
個性化:除了帖子內(nèi)容外,LLMs還會獲取OP的個人信息(性別、年齡、種族、所在地和政治傾向),這些信息由另一個LLM通過分析OP的發(fā)帖記錄推測得出。
社區(qū)風(fēng)格對齊:為了確保回復(fù)內(nèi)容符合CMV社區(qū)的寫作風(fēng)格和隱性規(guī)范,回復(fù)由經(jīng)過微調(diào)的模型生成,該模型以實(shí)驗(yàn)開始前獲得?標(biāo)記的評論進(jìn)行訓(xùn)練。
如圖:
當(dāng)然,所有由AI生成的評論都經(jīng)過了團(tuán)隊(duì)研究人員的審核,以確保沒有發(fā)布有害或不道德的內(nèi)容。
研究人員為避免AI因回復(fù)迅速而可能獲得優(yōu)勢,還控制了發(fā)帖時間與評論時間之間的間隔。
研究指出,從2024年11月至2025年3月的這在4個月里,AI 共在1061個不同的帖子下發(fā)表了評論,剔除被刪除的帖子,最終納入分析的樣本量為478條觀察記錄。
在擁有400萬用戶的CMV社區(qū)里,研究人員在Reddit上稱,“我們注意到AI機(jī)器人的評論受到了社區(qū)用戶的好評,獲得了超過20,000個贊同和137個?。”
并且,根據(jù)結(jié)果來看,所有實(shí)驗(yàn)組的表現(xiàn)都遠(yuǎn)超人類基線水平。
通用組的說服率為0.17;
個性化組的說服率為0.18;
社區(qū)風(fēng)格對齊組為0.09。
而人類的平均改變觀點(diǎn)成功率(獲得?)只有3%(0.03),說服率比人類高出3-6倍。
研究團(tuán)隊(duì)還計算了每個用戶得到“Δ”的評論占比,這其中有一部分是“專家用戶”(即以前獲得過大量?的用戶)。
如上圖所示,個性化組的表現(xiàn)超越了99%的普通用戶,甚至超越了98%的專家用戶,通用策略和社區(qū)對齊策略則分別超越了98%和88%的普通用戶和96%和75%的專家用戶。
除了獲得“Δ”之外,研究人員還表示,LLM生成的評論還在CMV社區(qū)引發(fā)了大量互動,其賬號積累了超過10000的評論karma。
實(shí)驗(yàn)消息一經(jīng)曝光,迅速引起了社區(qū)用戶的不滿。
CMV版主稱,該研究是未經(jīng)授權(quán)的實(shí)驗(yàn)和對不知情公眾的“心理操控”,并要求大學(xué)調(diào)查、道歉并停止發(fā)表研究成果。
Reddit首席律師Ben Lee也表示,“這支團(tuán)隊(duì)的行為在道德和法律層面上都是極其錯誤的。它違反了學(xué)術(shù)研究和人權(quán)規(guī)范,是Reddit用戶協(xié)議和規(guī)則以及子版塊規(guī)則所禁止的。”
并且,Ben Lee還表示,正在聯(lián)系蘇黎世大學(xué)和該研究團(tuán)隊(duì),并提出正式的法律要求,確保研究人員為其不當(dāng)行為承擔(dān)責(zé)任。
事件發(fā)酵后,研究團(tuán)隊(duì)也試圖向CMV版塊用戶解釋。
他們稱:雖然所有評論都是機(jī)器生成的,但每條評論在發(fā)布前都會經(jīng)過研究人員的手動審核,以確保其符合CMV的尊重、建設(shè)性對話標(biāo)準(zhǔn),并將潛在傷害降至最低。
在整個研究過程中,我們做出的每一個決定都遵循三大核心原則:符合倫理的科學(xué)行為、用戶安全和透明度。
我們相信,這項(xiàng)研究的潛在益處遠(yuǎn)大于其風(fēng)險。我們這項(xiàng)受控的低風(fēng)險研究提供了寶貴的洞見,讓我們得以了解大模型在現(xiàn)實(shí)世界中的說服力。
但社區(qū)似乎并不買賬,甚至該解釋還被懷疑是AI生成的回復(fù)。
有Reddit用戶回復(fù)稱:“我不是你們的小白鼠”。
顯然,這項(xiàng)實(shí)驗(yàn)帶來的風(fēng)險已經(jīng)超出了研究團(tuán)隊(duì)和蘇黎世大學(xué)的預(yù)計。
對此,研究團(tuán)隊(duì)表示,不發(fā)表后續(xù)研究成果和論文。
蘇黎世大學(xué)表示,已向主要研究員發(fā)出正式警告,并且后續(xù)也會加強(qiáng)倫理審查程序。
掃碼邀請進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.