摘要
社會(huì)模擬正在通過虛擬個(gè)體與其環(huán)境之間的互動(dòng)來模擬人類行為,從而改變傳統(tǒng)社會(huì)科學(xué)的研究方式。隨著大語言模型(LLM)的最新進(jìn)展,這種方法在捕捉個(gè)體差異和預(yù)測群體行為方面展現(xiàn)出越來越大的潛力。然而,現(xiàn)有的方法在環(huán)境、目標(biāo)用戶、互動(dòng)機(jī)制和行為模式方面面臨著對(duì)齊挑戰(zhàn)。為此,我們引入了 SocioVerse,這是一個(gè)由 LLM 主體驅(qū)動(dòng)的社會(huì)模擬世界模型。我們的框架具有四個(gè)強(qiáng)大的對(duì)齊組件和一個(gè)包含 1000 萬真實(shí)個(gè)體的用戶池。為了驗(yàn)證其有效性,我們?cè)谡巍⑿侣労徒?jīng)濟(jì)這三個(gè)不同的領(lǐng)域進(jìn)行了大規(guī)模的模擬實(shí)驗(yàn)。結(jié)果表明,SocioVerse 能夠反映大規(guī)模的人口動(dòng)態(tài),同時(shí)通過標(biāo)準(zhǔn)化程序和最少的人工調(diào)整確保多樣性、可信度和代表性。
關(guān)鍵詞:社會(huì)模擬(Social Simulation)、大語言模型,千萬級(jí)用戶池,一致性挑戰(zhàn)(Alignment Challenges)、多場景驗(yàn)證(Multi-domain Validation)
論文題目:SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users 發(fā)表時(shí)間:2025年4月14日 論文地址:https://arxiv.org/abs/2504.10157
傳統(tǒng)社會(huì)科學(xué)研究長期受限于調(diào)查成本高、樣本代表性不足等難題。近年來,基于智能體的社會(huì)模擬(Social Simulation)技術(shù)通過構(gòu)建虛擬個(gè)體與環(huán)境交互的模型,為大規(guī)模群體行為預(yù)測提供了新可能。隨著大語言模型的突破性發(fā)展,這種技術(shù)展現(xiàn)出捕捉個(gè)體差異、還原復(fù)雜社會(huì)動(dòng)態(tài)的潛力。然而,現(xiàn)有方法在環(huán)境真實(shí)性、用戶匹配度、交互機(jī)制等方面仍存在顯著偏差。近期,最新提出的SocioVerse框架,通過四大創(chuàng)新模塊與千萬級(jí)真實(shí)用戶池的融合,為這些難題提供了新的解決方案。
四大對(duì)齊挑戰(zhàn):構(gòu)建真實(shí)虛擬社會(huì)的關(guān)鍵壁壘
文章指出社會(huì)模擬中的四大核心“一致性”問題:動(dòng)態(tài)環(huán)境對(duì)齊(How to align the simulated environment with the real world?)、用戶畫像精準(zhǔn)匹配(How to align simulated agents with target users precisely?)、多場景交互適配(How to align the interaction mechanism with the real world among different scenarios?)、群體行為模式還原(How to align the behavioral patterns with the real-world groups?)。傳統(tǒng)方法依賴LLM的靜態(tài)知識(shí)庫,難以捕捉俄烏沖突、美國大選等實(shí)時(shí)事件的動(dòng)態(tài)影響;虛擬用戶常因缺乏真實(shí)人口統(tǒng)計(jì)學(xué)特征(如職業(yè)、收入、意識(shí)形態(tài)),導(dǎo)致群體行為失真,例如,在選舉預(yù)測場景中,忽略“搖擺州”選民的政治光譜分布,模型可能誤判關(guān)鍵州的投票傾向。
研究團(tuán)隊(duì)提出“模塊化治理”思路:通過社會(huì)引擎(Social Environment)實(shí)時(shí)抓取新聞事件與政策動(dòng)態(tài),為LLM主體注入“時(shí)效認(rèn)知”;用戶引擎(User Engine)則依托千萬級(jí)社交媒體用戶數(shù)據(jù)(覆蓋X和Rednote平臺(tái)),構(gòu)建包含15項(xiàng)人口屬性的標(biāo)簽體系,其標(biāo)注系統(tǒng)通過多LLM協(xié)同標(biāo)注、人工校驗(yàn)、分類器迭代的三階段流程,將用戶畫像準(zhǔn)確率提升至92%以上。
圖 1. SocioVerse框架包含4個(gè)主體部分。社交環(huán)境為模擬提供了更新的內(nèi)容。在模擬過程中,行為引擎分別從場景引擎、用戶引擎和社交環(huán)境中獲取模擬設(shè)置、用戶配置文件和社交信息,并根據(jù)查詢(query)生成結(jié)果。
千萬級(jí)用戶池:虛擬社會(huì)的“數(shù)字基因庫”
SocioVerse的核心還在于其千萬級(jí)真實(shí)用戶池的構(gòu)建。研究團(tuán)隊(duì)從社交平臺(tái)抓取超7000萬條動(dòng)態(tài),通過文本相似度分析過濾廣告與機(jī)器人賬戶,最終保留1006萬Twitter用戶與915萬小紅書用戶。這些“數(shù)字居民”的線上足跡構(gòu)成多維行為圖譜:從政治傾向(Trump支持者)、消費(fèi)習(xí)慣(奢侈品偏好)到興趣標(biāo)簽(科技愛好者),每個(gè)用戶被編碼為包含年齡、性別、職業(yè)、意識(shí)形態(tài)等15維特征的向量。
這種高密度數(shù)據(jù)支撐的創(chuàng)新采樣策略(如迭代比例擬合/IPF算法),使得在模擬美國大選時(shí),能精準(zhǔn)復(fù)現(xiàn)各州選民的結(jié)構(gòu)性特征。例如在佛羅里達(dá)州拉丁裔選民的模擬中,系統(tǒng)根據(jù)真實(shí)人口普查數(shù)據(jù),自動(dòng)調(diào)整該群體在移民政策、經(jīng)濟(jì)議題上的立場分布,確保虛擬選民群體與現(xiàn)實(shí)人口統(tǒng)計(jì)學(xué)的高度一致。
從總統(tǒng)選舉到經(jīng)濟(jì)預(yù)測:多領(lǐng)域驗(yàn)證框架效能
研究團(tuán)隊(duì)選擇政治選舉、突發(fā)新聞、國民經(jīng)濟(jì)三大領(lǐng)域進(jìn)行驗(yàn)證,構(gòu)建了標(biāo)準(zhǔn)化的模擬流程:
1. 總統(tǒng)選舉預(yù)測:基于ANES投票數(shù)據(jù)與人口普查資料,生成33萬虛擬選民。模型不僅準(zhǔn)確預(yù)測了90%州的選舉結(jié)果,在賓夕法尼亞等關(guān)鍵搖擺州的得票率誤差控制在3.1%以內(nèi);
2. 突發(fā)新聞反饋:從小紅書科技話題用戶中抽取2萬樣本,通過情感-認(rèn)知-行為(ABC)模型捕捉公眾態(tài)度。例如,Qwen2.5-72B模型在風(fēng)險(xiǎn)感知(Perceived Risks)維度的KL散度低至0.113,說明能一定程度上反映技術(shù)樂觀派與擔(dān)憂派的觀點(diǎn)交鋒;
3. 居民消費(fèi)調(diào)查:模擬16萬中國家庭支出,結(jié)果與國家統(tǒng)計(jì)局?jǐn)?shù)據(jù)的NRMSE誤差僅為2.5%,尤其在發(fā)達(dá)地區(qū)的醫(yī)療、教育支出預(yù)測中表現(xiàn)出色。
圖 2. 上述三種情景,分別表示總統(tǒng)選舉預(yù)測,突發(fā)新聞反饋和國家經(jīng)濟(jì)調(diào)查。
實(shí)驗(yàn)發(fā)現(xiàn),LLM的性能存在顯著場景依賴性:在需要深層經(jīng)濟(jì)推理的住房支出預(yù)測中,所有模型的誤差均高于其他消費(fèi)類別(最高達(dá)12%),這暴露出LLM對(duì)結(jié)構(gòu)性經(jīng)濟(jì)問題的認(rèn)知局限。此外,在選舉預(yù)測中,引入用戶歷史帖文作為上下文后,可以提升模型預(yù)測準(zhǔn)確度,例如,DeepSeek-V3的準(zhǔn)確率提升17%,證明個(gè)體數(shù)字足跡對(duì)行為模擬的增強(qiáng)作用。
圖 3. 突發(fā)新聞反饋情景中大模型表現(xiàn)。
AI社會(huì)科學(xué)的未來圖景
SocioVerse的突破不僅在于技術(shù)架構(gòu),更在于其方法論啟示。通過將傳統(tǒng)社會(huì)科學(xué)的抽樣調(diào)查轉(zhuǎn)化為可編程的虛擬實(shí)驗(yàn),研究者能低成本測試政策效果:比如調(diào)整最低工資后不同收入階層的消費(fèi)彈性變化,或新政策在不同意識(shí)形態(tài)群體中的傳播阻力。
框架的局限性同樣值得關(guān)注:LLM固有的保守傾向可能導(dǎo)致模擬結(jié)果偏離現(xiàn)實(shí)極端事件;在模擬少數(shù)族裔等長尾群體時(shí),數(shù)據(jù)偏差可能被算法放大。未來還將探索專家LLM(Domain-specific LLM)與強(qiáng)化學(xué)習(xí)的結(jié)合,在醫(yī)療政策模擬等專業(yè)場景中突破現(xiàn)有瓶頸。
彭晨| 編譯
關(guān)于集智俱樂部
集智俱樂部成立于 2003 年,是一個(gè)從事學(xué)術(shù)研究、享受科學(xué)樂趣的探索者的團(tuán)體,也是國內(nèi)最早的研究人工智能、復(fù)雜系統(tǒng)的科學(xué)社區(qū)。它倡導(dǎo)以平等開放的態(tài)度、科學(xué)實(shí)證的精神,進(jìn)行跨學(xué)科的研究與交流,力圖搭建一個(gè)中國的 “ 沒有圍墻的研究所 ”。集智科學(xué)研究中心(民辦非營利企業(yè))是集智俱樂部的運(yùn)營主體,長期運(yùn)營社區(qū)生態(tài),催化理論創(chuàng)新。使命:營造跨學(xué)科探索小生境,催化復(fù)雜性科學(xué)新理論。
AI+Social Science讀書會(huì)
集智俱樂部聯(lián)合美國東北大學(xué)博士后研究員楊凱程、密歇根大學(xué)安娜堡分校博士候選人裴嘉欣,賓夕法尼亞大學(xué)沃頓商學(xué)院人力資本分析研究組博士后研究員吳雨桐、即將入職芝加哥大學(xué)心理學(xué)系的助理教授白雪純子,共同發(fā)起。讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。
詳情請(qǐng)見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.