摘要
為了檢驗大語言模型能否用于預測社會科學實驗結果,研究者構建了一個包含70項預注冊、在美國具有全國代表性抽樣背景下開展的問卷實驗檔案,該檔案共覆蓋476個處理效應和105,165名參與者。研究團隊以公開可用的 GPT-4 為基礎,為模型提供每個實驗的文本刺激及多樣化受試者畫像,模擬生成大規模“美國代表性樣本”的回應,并據此計算出模型預測的實驗效應。結果發現,GPT-4 模擬響應所得的預測效應與真實效應高度相關(r=0.85),并且在那些模型訓練數據中不可能出現的尚未公開實驗中,相關性甚至達到 r=0.90。進一步分析顯示,LLM在不同學科、不同人群亞組及九項包含346個處理效應的大規模“巨型研究”(mega-studies)中均保持了較高準確度。研究表明,LLM可作為社會科學實驗方法的有力補充,助力科學理論與政策實踐,但同時也提示了模型潛在的偏誤風險及惡意利用可能。
關鍵詞:大語言模型,社會科學實驗,GPT-4,處理效應(Treatment Effects),人群模擬,巨型研究(Mega-Studies);預測準確度,風險評估
彭晨丨作者
論文題目:Predicting Results of Social Science Experiments Using Large Language Models 發表時間:2024年8月8日 論文地址:https://docsend.com/view/qeeccuggec56k9hd
背景
在社會與行為科學領域,隨機對照實驗(Randomized Controlled Trials, RCTs)是識別因果效應的金標準。然而,傳統實驗不僅成本高昂耗時漫長,且無法快速預判哪些干預最具成效。當下,LLM 在對話生成、文本理解乃至情感判斷領域已屢建奇功,但能否復制復雜的實驗效應卻尚未系統檢驗。本研究正是在這一背景下展開,核心視角是:若將實驗刺激與受試者信息以自然語言提示詞(prompts)形式輸入 GPT-4,是否能夠模擬受試者對不同處理條件的反應,并據此計算出平均組間差異,從而預測原始實驗的處理效應?為此,研究團隊聚焦兩條思路:一方面,構建涵蓋多學科、公開可獲取的全國代表性實驗檔案;另一方面,設計嚴格的提示策略與集成方法,以提升模擬結果的穩定性與可靠性。
實驗與模擬流程
研究者首先整理了 Time-Sharing Experiments in the Social Sciences(TESS)項目中2016–2022年的50項實驗,以及近年復制性研究中20項實驗,共計70項問卷實驗,涵蓋社會心理學、政治學、公共政策等領域。
每項實驗通過不同的文本刺激(如框架信息、身份暗示、輿論引導等)影響參與者對政治態度、文化信念或公共衛生行為的自評。隨后,研究團隊精心設計提示詞模板,包括實驗背景介紹、受試者畫像(性別、年齡、種族、教育、黨派等)、文本刺激以及結果量表說明,以此反復調用 GPT-4 對數百個“虛擬受試者”進行模擬。在得到每個模擬樣本對特定條件下的回答后,研究者計算組均值差異,形成 LLM 預測的處理效應。
圖 1. 方法。我們重新分析了70項具有國家代表性的美國研究原始數據,并以一致的方式估計了治療效果。我們使用一個大語言模型來模擬這些相同的實驗,提供原始的研究材料和人口統計學上不同的參與者資料,然后計算每種條件下的平均模擬反應。我們根據測量和模擬的處理效果之間的對應關系來評估模型的準確性。
核心結果:LLM 模擬效應高度契合真實效應
在 476 個處理對比中,GPT-4 預測的效應與原始實驗效應的皮爾遜相關系數高達 0.85,其中顯著效應的方向預測準確率達到 90%。更為關鍵的是,33 項在 GPT-4 訓練截斷前未公開的實驗中,相關性更進一步升至 r=0.90,排除了模型從訓練數據中“記憶”結果的可能。與此形成鮮明對比的是,約 2,600 名普通預測者的平均預測相關僅為 r=0.79;而 GPT-4 的預測表現則已全面超越這一人群基準。
圖 2. LLM在美國進行的基于文本的社會科學實驗中準確預測了處理效果。(a)在具有476個效應的70個基于文本的實驗數據集中,LLM導出的治療效應估計值匯集在許多提示中,與原始治療效應強相關(r = 0.85;radj = 0.91)。(b) LLM衍生預測的準確性在幾代LLM中有所提高,其準確性超過了從一般人群中收集的預測。(c) LLM得出的預測對于那些不可能出現在LLM訓練數據中的研究來說仍然是高度準確的,因為它們沒有在LLM 訓練數據截止日期之前發表。(d)在各實驗子集的穩健性檢查分析中,LLM推導的預測精度仍然很高。
預測能力的驗證:跨子群與巨型研究
針對人口亞組的偏誤擔憂,本研究進一步評估了模型在男女、黑人與白人、民主黨人與共和黨人樣本中的預測準確度,發現原始相關雖略有差異(最低 r≈0.62),但校正后的相關均超越 0.85,表明實驗效應的同質性或較少的群體異質使模型預測具有穩健性。
同時,在九項涵蓋大規模現場實驗、行為轉化干預及大規模問卷干預的“巨型研究”中,共計有 346 個處理效應,GPT-4 在文字干預的問卷實驗中預測準確率達到 r≈0.47,超過多數學科專家的平均預測(r≈0.25);在實地干預中亦保持了正向相關(r≈0.27),盡管受非文本因素影響,準確度有所下降,但仍展現了對大規模“入門級”干預預判的潛力。
應用前景:助力科研與政策決策
LLM 可在數分鐘、成本近乎零的條件下模擬規模相當于數百名真實參與者的實驗結果,因此十分適合作為“AI 試點”工具:研究者可先利用 GPT-4 預測多種干預策略的效應大小,再針對最有前景的方案快速開展小規模人群試驗;政策制定者亦可在公共健康、教育或環保等領域,借助 LLM 評估不同宣傳文本或激勵策略的相對效應,加速決策流程并減少試錯成本。此外,LLM 生成的預測還可作為貝葉斯先驗或功效分析的輸入,有助于更精準地設計樣本量。
風險提示:防范偏誤與惡意利用
然而,LLM 預測并非無懈可擊。GPT-4 原始預測常系統性高估效應幅度,需要線性回歸縮放以降低均方根誤差。此外,對于融合多模態或高度現場化的實驗設計(如視頻或行為追蹤),單純文本提示詞仍存在信息丟失風險。
令人擔憂的是,研究團隊在針對反疫苗社交媒體文本的實驗模擬中,發現 GPT-4 可準確識別最具削弱疫苗意愿的五條信息,相關性高達 r=0.49,表明當前的一階安全策略不足以阻止模型被用于設計有害宣傳。為此,研究者建議對模型開放“二階”用途,進行更細粒度的訪問控制,平衡學術研究與社會安全。
圖 3. LLM有效識別有害的反疫苗Facebook帖子。最具危害的帖子標題是“麻省理工學院科學家警告父母不要給孩子接種疫苗,可能會導致年輕人患上“嚴重的”神經退行性疾病——蓋勒報告”。研究人員估計,這篇文章使疫苗意向降低了4.1個百分點(p = 0.019)。
結論與展望
總體而言,本研究首次系統揭示了大語言模型在預測社會科學實驗結果方面的驚人能力,并在多項指標上超越了人類預測者。然而,模型的偏誤、信息源限制與潛在惡意利用,都需要我們在“AI 輔助科學”道路上保持警惕。
未來,應推動開源模型在預測準確度方面趕超專有模型,發展更完善的安全框架,并擴展至更廣泛的實驗類型與文化背景,以實現 AI 與人類科研的深度協同,讓“機器預測”真正成為社會科學的助推器,而非替代者。
「大模型時代下的Agent建模與仿真」讀書會
集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始,每周二晚上7:30-9:30進行,預計持續分享8周左右。掃碼加入Agent建模與仿真的前沿探索之旅,一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區,共同暢想大模型時代人工社會的未來圖景!
核心問題
Agent建模與仿真是什么,核心技術發生了怎樣的演變?
大模型時代,Agent建模與仿真會給復雜系統理論帶來哪些突破?
大模型如何賦能Agent實現自主思考與動態適應?
大模型驅動的Agent交互會涌現出什么新型的社會現象?
Agent建模與仿真如何改變金融、心理、管理、軍事等領域的研究范式?
你將收獲
梳理Agent建模與仿真的歷史發展脈絡與方法論;
掌握一套理解、分析、控制、預測復雜系統的計算實驗框架;
掌握基于多主體強化學習的復雜系統優化方法;
領略領域前沿學者的研究體系與科研路徑。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.