99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI能否成為“社會科學家”?GPT-4模擬人類行為實驗效應的突破與隱憂

0
分享至


摘要

為了檢驗大語言模型能否用于預測社會科學實驗結果,研究者構建了一個包含70項預注冊、在美國具有全國代表性抽樣背景下開展的問卷實驗檔案,該檔案共覆蓋476個處理效應和105,165名參與者。研究團隊以公開可用的 GPT-4 為基礎,為模型提供每個實驗的文本刺激及多樣化受試者畫像,模擬生成大規模“美國代表性樣本”的回應,并據此計算出模型預測的實驗效應。結果發現,GPT-4 模擬響應所得的預測效應與真實效應高度相關(r=0.85),并且在那些模型訓練數據中不可能出現的尚未公開實驗中,相關性甚至達到 r=0.90。進一步分析顯示,LLM在不同學科、不同人群亞組及九項包含346個處理效應的大規模“巨型研究”(mega-studies)中均保持了較高準確度。研究表明,LLM可作為社會科學實驗方法的有力補充,助力科學理論與政策實踐,但同時也提示了模型潛在的偏誤風險及惡意利用可能。

關鍵詞:大語言模型,社會科學實驗,GPT-4,處理效應(Treatment Effects),人群模擬,巨型研究(Mega-Studies);預測準確度,風險評估

彭晨丨作者


論文題目:Predicting Results of Social Science Experiments Using Large Language Models 發表時間:2024年8月8日 論文地址:https://docsend.com/view/qeeccuggec56k9hd



背景

在社會與行為科學領域,隨機對照實驗(Randomized Controlled Trials, RCTs)是識別因果效應的金標準。然而,傳統實驗不僅成本高昂耗時漫長,且無法快速預判哪些干預最具成效。當下,LLM 在對話生成、文本理解乃至情感判斷領域已屢建奇功,但能否復制復雜的實驗效應卻尚未系統檢驗。本研究正是在這一背景下展開,核心視角是:若將實驗刺激與受試者信息以自然語言提示詞(prompts)形式輸入 GPT-4,是否能夠模擬受試者對不同處理條件的反應,并據此計算出平均組間差異,從而預測原始實驗的處理效應?為此,研究團隊聚焦兩條思路:一方面,構建涵蓋多學科、公開可獲取的全國代表性實驗檔案;另一方面,設計嚴格的提示策略與集成方法,以提升模擬結果的穩定性與可靠性。

實驗與模擬流程

研究者首先整理了 Time-Sharing Experiments in the Social Sciences(TESS)項目中2016–2022年的50項實驗,以及近年復制性研究中20項實驗,共計70項問卷實驗,涵蓋社會心理學、政治學、公共政策等領域。

每項實驗通過不同的文本刺激(如框架信息、身份暗示、輿論引導等)影響參與者對政治態度、文化信念或公共衛生行為的自評。隨后,研究團隊精心設計提示詞模板,包括實驗背景介紹、受試者畫像(性別、年齡、種族、教育、黨派等)、文本刺激以及結果量表說明,以此反復調用 GPT-4 對數百個“虛擬受試者”進行模擬。在得到每個模擬樣本對特定條件下的回答后,研究者計算組均值差異,形成 LLM 預測的處理效應。


圖 1. 方法。我們重新分析了70項具有國家代表性的美國研究原始數據,并以一致的方式估計了治療效果。我們使用一個大語言模型來模擬這些相同的實驗,提供原始的研究材料和人口統計學上不同的參與者資料,然后計算每種條件下的平均模擬反應。我們根據測量和模擬的處理效果之間的對應關系來評估模型的準確性。

核心結果:LLM 模擬效應高度契合真實效應

在 476 個處理對比中,GPT-4 預測的效應與原始實驗效應的皮爾遜相關系數高達 0.85,其中顯著效應的方向預測準確率達到 90%。更為關鍵的是,33 項在 GPT-4 訓練截斷前未公開的實驗中,相關性更進一步升至 r=0.90,排除了模型從訓練數據中“記憶”結果的可能。與此形成鮮明對比的是,約 2,600 名普通預測者的平均預測相關僅為 r=0.79;而 GPT-4 的預測表現則已全面超越這一人群基準。


圖 2. LLM在美國進行的基于文本的社會科學實驗中準確預測了處理效果。(a)在具有476個效應的70個基于文本的實驗數據集中,LLM導出的治療效應估計值匯集在許多提示中,與原始治療效應強相關(r = 0.85;radj = 0.91)。(b) LLM衍生預測的準確性在幾代LLM中有所提高,其準確性超過了從一般人群中收集的預測。(c) LLM得出的預測對于那些不可能出現在LLM訓練數據中的研究來說仍然是高度準確的,因為它們沒有在LLM 訓練數據截止日期之前發表。(d)在各實驗子集的穩健性檢查分析中,LLM推導的預測精度仍然很高。

預測能力的驗證:跨子群與巨型研究

針對人口亞組的偏誤擔憂,本研究進一步評估了模型在男女、黑人與白人、民主黨人與共和黨人樣本中的預測準確度,發現原始相關雖略有差異(最低 r≈0.62),但校正后的相關均超越 0.85,表明實驗效應的同質性或較少的群體異質使模型預測具有穩健性。

同時,在九項涵蓋大規模現場實驗、行為轉化干預及大規模問卷干預的“巨型研究”中,共計有 346 個處理效應,GPT-4 在文字干預的問卷實驗中預測準確率達到 r≈0.47,超過多數學科專家的平均預測(r≈0.25);在實地干預中亦保持了正向相關(r≈0.27),盡管受非文本因素影響,準確度有所下降,但仍展現了對大規模“入門級”干預預判的潛力。

應用前景:助力科研與政策決策

LLM 可在數分鐘、成本近乎零的條件下模擬規模相當于數百名真實參與者的實驗結果,因此十分適合作為“AI 試點”工具:研究者可先利用 GPT-4 預測多種干預策略的效應大小,再針對最有前景的方案快速開展小規模人群試驗;政策制定者亦可在公共健康、教育或環保等領域,借助 LLM 評估不同宣傳文本或激勵策略的相對效應,加速決策流程并減少試錯成本。此外,LLM 生成的預測還可作為貝葉斯先驗或功效分析的輸入,有助于更精準地設計樣本量。

風險提示:防范偏誤與惡意利用

然而,LLM 預測并非無懈可擊。GPT-4 原始預測常系統性高估效應幅度,需要線性回歸縮放以降低均方根誤差。此外,對于融合多模態或高度現場化的實驗設計(如視頻或行為追蹤),單純文本提示詞仍存在信息丟失風險。

令人擔憂的是,研究團隊在針對反疫苗社交媒體文本的實驗模擬中,發現 GPT-4 可準確識別最具削弱疫苗意愿的五條信息,相關性高達 r=0.49,表明當前的一階安全策略不足以阻止模型被用于設計有害宣傳。為此,研究者建議對模型開放“二階”用途,進行更細粒度的訪問控制,平衡學術研究與社會安全。


圖 3. LLM有效識別有害的反疫苗Facebook帖子。最具危害的帖子標題是“麻省理工學院科學家警告父母不要給孩子接種疫苗,可能會導致年輕人患上“嚴重的”神經退行性疾病——蓋勒報告”。研究人員估計,這篇文章使疫苗意向降低了4.1個百分點(p = 0.019)。

結論與展望

總體而言,本研究首次系統揭示了大語言模型在預測社會科學實驗結果方面的驚人能力,并在多項指標上超越了人類預測者。然而,模型的偏誤、信息源限制與潛在惡意利用,都需要我們在“AI 輔助科學”道路上保持警惕。

未來,應推動開源模型在預測準確度方面趕超專有模型,發展更完善的安全框架,并擴展至更廣泛的實驗類型與文化背景,以實現 AI 與人類科研的深度協同,讓“機器預測”真正成為社會科學的助推器,而非替代者。

「大模型時代下的Agent建模與仿真」讀書會

集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始,每周二晚上7:30-9:30進行,預計持續分享8周左右。掃碼加入Agent建模與仿真的前沿探索之旅,一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區,共同暢想大模型時代人工社會的未來圖景!

核心問題

Agent建模與仿真是什么,核心技術發生了怎樣的演變?

大模型時代,Agent建模與仿真會給復雜系統理論帶來哪些突破?

大模型如何賦能Agent實現自主思考與動態適應?

大模型驅動的Agent交互會涌現出什么新型的社會現象?

Agent建模與仿真如何改變金融、心理、管理、軍事等領域的研究范式?

你將收獲

梳理Agent建模與仿真的歷史發展脈絡與方法論;

掌握一套理解、分析、控制、預測復雜系統的計算實驗框架;

掌握基于多主體強化學習的復雜系統優化方法;

領略領域前沿學者的研究體系與科研路徑。

詳情請見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
北京軍區司令空缺,林彪趁機點將,毛主席反問:是你四野的人吧?

北京軍區司令空缺,林彪趁機點將,毛主席反問:是你四野的人吧?

南書房
2025-07-11 15:50:03
共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

鬼魅突破上籃
2025-07-20 12:19:44
突然崩了!很多人以為手機壞了!官方緊急回應

突然崩了!很多人以為手機壞了!官方緊急回應

浙江之聲
2025-07-21 11:06:07
宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險了

宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險了

美美談情感
2025-07-18 23:41:01
楊瀚森:不在乎別人看法,有時我看起來沮喪只因為我想睡覺

楊瀚森:不在乎別人看法,有時我看起來沮喪只因為我想睡覺

懂球帝
2025-07-21 10:53:50
歐盟向我國出手后,德財長:中國“垃圾產品”,誓言清零中國制造

歐盟向我國出手后,德財長:中國“垃圾產品”,誓言清零中國制造

游古史
2025-07-21 11:13:05
衛生間男女標識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

衛生間男女標識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

大魚簡科
2025-07-20 11:37:40
王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

小娛樂悠悠
2025-07-21 09:39:48
LV近42萬香港客戶資料外泄,香港隱私公署展開調查

LV近42萬香港客戶資料外泄,香港隱私公署展開調查

界面新聞
2025-07-21 08:16:52
驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

智凌縱橫
2025-07-20 14:24:26
湖南省養老金將迎調整,歷年定額調整金額分析,3176元能漲多少?

湖南省養老金將迎調整,歷年定額調整金額分析,3176元能漲多少?

興史興談
2025-07-20 17:51:15
湖人裁掉古德溫!連續放棄兩人為斯馬特騰空間 隊記列新援優缺點

湖人裁掉古德溫!連續放棄兩人為斯馬特騰空間 隊記列新援優缺點

羅說NBA
2025-07-21 10:10:45
45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發現是媽媽的愛車

45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發現是媽媽的愛車

今天說故事
2025-07-02 17:31:55
終于離隊了!布倫森:我感覺每一年步行者都在賣特納

終于離隊了!布倫森:我感覺每一年步行者都在賣特納

直播吧
2025-07-20 18:56:08
患者心跳未停就被開胸取器官,55名醫生曝行業潛規則

患者心跳未停就被開胸取器官,55名醫生曝行業潛規則

中產生活指南針
2025-07-21 12:51:22
1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

天夢見證
2025-07-14 22:02:22
25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

無名講堂
2025-07-18 18:44:40
明日開播!三部新劇同天定檔,懸疑or復仇or商戰,你打算追哪部?

明日開播!三部新劇同天定檔,懸疑or復仇or商戰,你打算追哪部?

影視快通車
2025-07-21 11:52:56
王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

策略剖析
2025-07-21 09:46:47
房產證上的人去世了,家人一直住著,不辦過戶行不行?

房產證上的人去世了,家人一直住著,不辦過戶行不行?

巢客HOME
2025-07-17 10:00:03
2025-07-21 15:15:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5234文章數 4646關注度
往期回顧 全部

科技要聞

OpenAI自嗨“IMO金牌”遭官方怒斥

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

周渝民談大S離開,F4會努力再合體

財經要聞

宗馥莉為何要對"小媽"杜建英虎視眈眈?

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

教育
藝術
房產
公開課
軍事航空

教育要聞

南陽市中心城區2025年普通高中提前批分數線公布!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

海南中學江東校區學區劃片重磅出爐!這些項目贏麻了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美記者:若特朗普決定 澤連斯基或被流放

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 鄂州市| 三亚市| 丹寨县| 昭通市| 江北区| 永宁县| 嘉峪关市| 普陀区| 精河县| 阿合奇县| 华蓥市| 鹤庆县| 临夏县| 旬阳县| 辽阳县| 曲阳县| 乌鲁木齐市| 田林县| 德钦县| 晋江市| 吴旗县| 咸宁市| 溆浦县| 开鲁县| 白水县| 广元市| 蓬溪县| 沂水县| 当涂县| 凤山市| 沽源县| 铜陵市| 光山县| 阳高县| 乌审旗| 科技| 柳州市| 麟游县| 长宁县| 财经| 泾川县|