網易首頁 > 網易號 > 正文申請入駐

人類打辯論不如GPT-4！Nature子刊：900人實戰演練，AI勝率64.4%

2025-05-25 14:17:05　來源: 量子位

海南舉報

分享至

一水發自凹非寺
量子位 | 公眾號 QbitAI

只需知道6項個人信息，GPT-4就有可能在辯論中打敗你？！

而且勝率高達64.4%

這是幾位來自瑞士洛桑聯邦理工學院、普林斯頓大學等機構的研究人員得出的最新結論，相關研究目前登上了自然子刊《自然·人類行為》。

具體而言，他們核心想弄清楚一件事——

GPT-4在直接對話中是否比人類更具說服力，尤其在提前知道對方基本個人信息的情況下。

他們在美國找來了900位參與者，然后要求這群人與其他人類或GPT-4在線辯論10分鐘，所討論的內容主要是一些社會議題，比如學生是否應該穿校服、是否應該禁止使用化石燃料等等。

結果發現，一旦GPT-4提前知曉對手的個人信息，其勝率將達到64.4%，并且說服效果提升了81.2%。

甚至，這項研究的共同作者Francesco Salvi表示：

即使只提供一些極其有限的信息（性別/年齡/種族/教育水平/就業狀況/政治傾向），GPT-4的說服力也遠超人類。
這既令人著迷，又令人恐懼。

下面來看具體研究過程。

從驗證假設出發

此前已有研究表明，通過擺事實講道理，大語言模型甚至能讓相信陰謀論的人改變想法

那么問題來了——像GPT-4這樣的大模型是否會 “見人說人話”？

也就是根據每個人的不同特點（比如年齡、性別、學歷、政治立場等）來專門調整自己的論點，從而更精準地影響甚至操控人。

基于上述疑問，研究人員提出了一個假設：

當GPT-4獲取用戶的個人信息并據此定制論點時，其說服力會顯著超過人類對手，且這一效果會因話題的爭議程度（低、中、高）而有所不同。

接下來就是詳細驗證假設。

概括而言，具體實驗流程可分為三個階段：

第一，實驗準備。

他們通過Prolific平臺招募了900名美國參與者，這群人被要求完成人口統計問卷（包括性別、年齡、種族、教育水平、就業狀況、政治傾向）

統計結果顯示，其平均年齡為35.2歲，49.6%為男性。

之后會將完成預調查的參與者隨機分配至12種實驗條件（2×2×3組合，每組50人），過程中每5分鐘會觸發一次匹配程序。

對手類型：人類 or GPT-4
是否提供個人信息：有 or 無
話題強度：低、中、高

這里需要補充一下話題強度，1）低強度：爭議性低、觀點易動搖的話題（如“是否應推廣電動汽車補貼”）；2）中強度：中等爭議性話題（如“社交媒體是否應限制政治廣告”）；3）高強度：高極化、觀點根深蒂固的話題（如“墮胎權是否應受憲法保護”）。

隨后基于Empirica.ly框架開發的實時辯論系統，這群人將參與開篇（4分鐘）、反駁（3分鐘）、總結（3分鐘）的結構化辯論流程，并確保對話同步記錄。

這也來到了第二階段，真刀真槍地實時辯論。

篩選階段（1分鐘）：在未分配立場的情況下，讓參與者1~5分打分（1=強烈反對，5=強烈支持），排除那些對話題已有極端強烈傾向的個體；
開篇階段（4分鐘）：明確分配立場（正方/反方），參與者需圍繞立場構建核心論點；
反駁階段（3分鐘）：針對對手論點進行回應，要求邏輯連貫、證據支持；
總結階段（3分鐘）：重申核心觀點或回應對手最后反駁，強化立場。

這里研究人員會確保兩件事：1）每個階段嚴格計時，避免討論偏離主題，確保數據可比性；2）實時保存所有辯論內容，用于后續語言風格分析（如LIWC-22工具提取邏輯詞、情感詞頻率）

最后進入第三階段——后測與反饋

辯論結束后，參與者被要求完成兩項任務。一是再次對話題同意程度評分，并通過下圖公式來評估其立場轉變程度；二是猜測“你認為對手是人類還是AI？”，以分析身份認知對說服力的影響。

當走完以上全部流程后，參與者才會被告知對手的真實身份及相關結果。

而研究者接著分析了過程中產生的所有數據，并得出了以下關鍵發現。

一些關鍵發現

整體而言，在知曉對手個人信息的前提下，GPT-4說服人類的勝率為64.4%。

和人類對戰人類（不知情）相比，其他三組的說服效果如下：

人類和GPT-4（知情）：說服效果提升81.2%，參與者在辯論后更同意對手觀點的概率顯著更高；
人類和GPT-4（不知情）：效果與基線無顯著差異；
人類和人類（知情）：效果略低于基線，可能是因為人類難以高效利用個人信息。

另外，研究也證明了低/中爭議話題更易被GPT-4影響

幾種話題強度分別受到的影響如下：

低強度話題：人類和GPT-4（知情）組說服效果提升78.5%（p<0.01），如“是否應推廣校園午餐補貼” 等非極端化議題，參與者初始立場較弱，易被AI論點動搖；
中強度話題：效果提升64.2%（p=0.03），如“社交媒體算法是否應透明化”，GPT-4通過結合用戶政治傾向（如自由派關注隱私，保守派關注效率）針對性輸出論點；
高強度話題：效果無顯著差異（+32.1%, p=0.14），如“墮胎權立法”，參與者立場根深蒂固，GPT-4無法改變。

與此同時，通過分析語言風格，研究人員還發現GPT-4重邏輯，人類重情感互動

在GPT-4的語言模式中，主要有以下特點：

“Analytic” 指標（邏輯詞頻率）比人類高42%，更多使用 “因為”“數據表明” 等因果連接詞；
互動性更低，第一人稱代詞（“我”）使用頻率低35%，第二人稱代詞（“你”）低58%，文本更客觀但缺乏情感共鳴；
可讀性較低，閱讀難度得分比人類高21%。

相比之下，人類使用積極詞匯（如“美好”“支持”）的頻率高38%，互動感也更強。

最后，對于猜對手身份的小游戲，研究發現參與者正確識別GPT-4的概率為75%，表明其語言風格（如機械性、高邏輯性）存在可感知的獨特性。

而且一旦參與者認為對手是GPT-4，其意見變化幅度比“認為是人類”時高37.4%（p=0.03）。

這可能說明參與者對AI的心理防御更低

更多細節歡迎查閱原論文。

論文：
https://www.nature.com/articles/s41562-025-02194-6

[1]https://gizmodo.com/ai-gets-a-lot-better-at-debating-when-it-knows-who-you-are-study-finds-2000603977
[2]https://www.nature.com/articles/d41586-025-01599-7

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.