摘要
大型語言模型(LLMs)的出現為自然科學與社會科學研究帶來了變革性機遇,其通過提供理解復雜系統的新范式,正重塑相關領域的研究進程。尤其是生成式智能體模擬(GABMs)——通過整合LLMs模擬人類行為,因其能在多樣化人工環境中建模復雜交互而日益受到關注。本文綜述了LLMs在網絡科學、演化博弈論、社會動力學及流行病建模等領域的顛覆性作用,評估了其在社會行為預測、博弈合作增強、疾病傳播模擬等方面的最新進展。研究發現,LLMs不僅能復現人類典型行為(如公平偏好、合作傾向、社會規范遵循),還具有成本效益、可擴展性和倫理簡化等獨特優勢;但同時也存在因提示詞敏感性、幻覺問題甚至模型特性導致的行為不一致性,這為控制此類AI驅動的智能體帶來了挑戰。盡管潛力巨大,若要將LLMs有效整合至政府、社會或個人決策流程中,仍需解決數據偏見、提示詞設計難題及人機交互動力學理解等關鍵問題。未來研究需優化模型架構、標準化方法論,并探索LLMs與人類及彼此交互中可能涌現的新型合作行為,這些進展或將徹底改變各類系統的決策模式。
關鍵詞:大語言模型(LLMs),生成式智能體模擬(GABMs),復雜系統,網絡科學,合作博弈,社會動力學,流行病建模
彭晨丨作者
集智俱樂部聯合山東工商學院教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起,邀你加入!
論文題目:LLMs and generative agent-based models for complex systems research 發表時間:2024年10月28日 論文地址:https://doi.org/10.1016/j.plrev.2024.10.013 會議名稱:Physics of Life Reviews
近年來,大語言模型(LLMs)的突破性進展正在重塑自然科學與社會科學的研究范式。近期,發表在
Physics of Life Reviews的綜述文章系統梳理了LLMs與生成式智能體模擬 (Generative Agent-Based Models, GABMs) 在復雜系統研究中的前沿應用。這類模型通過將LLMs嵌入智能體決策核心,能夠實現人類在復雜環境中的互動行為的模擬,為網絡演化、群體合作、社會動態傳播等經典問題提供了全新研究路徑。LLMs不僅能復現人類的公平性、合作傾向等社會規范,還展現出成本效益、可擴展性和倫理簡化等獨特優勢。然而,其行為的不一致性、提示敏感性以及“幻覺”問題也揭示了AI智能體控制的技術挑戰。
復雜網絡:LLM驅動的自組織網絡演化
在復雜網絡領域,傳統模型依賴固定規則生成節點連接,而GABMs首次實現了基于語義理解的網絡自組織。一項研究通過GPT-3.5模擬在線社交網絡生長:每個新加入的智能體(節點)在接收到包含現有成員好友數的提示后,自主決定連接對象。有趣的是,初始實驗發現網絡呈現獨特的“中心-輻條”結構,與傳統偏好連接模型(preferential attachment)的冪律分布明顯不同。深入分析揭示,這種偏差源于LLM對節點名稱的隱性偏好——當研究者將節點名稱隨機化后,網絡結構立即趨近經典模型。這種“名稱偏見”現象凸顯了LLMs在模擬人類行為時可能引入的隱性認知偏差。
圖 1. 生成式智能體模型(GABMs)。智能體并不根據一組固定的規則來決定它們之間的相互作用。相反,會向LLM發送包含所需詳細信息的提示,并返回智能體應該做出的決策。
博弈論:AI智能體的合作悖論
博弈論實驗成為檢驗LLMs社會認知能力的試金石。一項獨裁者博弈(Dictator Game)中發現,GPT-3.5智能體的平均分配公平性顯著高于人類,且從未選擇“獨占全部資源”的理性策略。
在一項囚徒困境(Prisoner's Dilemma)的單次博弈中,LLMs的合作率高達65.4%,遠超人類37%的歷史數據。這種超理性行為在另一團隊的迭代實驗中發生反轉:當GPT-4智能體相互博弈時,表現出“一次背叛終身不合作”的極端懲罰策略,揭示了模型版本更新帶來的行為變化。
這些矛盾結果暗示,LLMs的合作傾向高度依賴提示框架和模型微調策略,其“價值觀”本質上是開發者預設與社會訓練數據共同作用的產物。
圖3. 提示一個LLM參與獨裁者博弈。將Brookins等人提供的指令復制到使用GPT-3.5的LLM智能體中。雖然指令沒有明確提到公平,但LLM表現出公平分配的傾向,超過人類參與者。
社會動力學:人機混合決策的曙光
社會動態模擬方面,LLMs正在突破傳統智能體模型的局限。一項研究在流行病建模中構建了三層提示框架:基礎場景智能體僅考慮工作收入;健康反饋層加入個體癥狀感知;完整反饋層進一步引入社區感染數據。結果顯示,獲取群體信息的智能體自發產生居家隔離行為,使疫情傳播規模下降80%。這種無需預設規則的適應性決策,為公共衛生干預模擬提供了動態響應基礎。
圖5. LLM驅動智能體的疫情傳播模型。Williams等人提出一種模型,其中個體每天通過LLM決策是否外出互動或居家隔離。在基準場景中,LLM僅被告知個體需要工作賺錢;在健康狀態反饋場景中,提示詞額外包含個體的健康狀況;最終,完整反饋場景還會提供社區病毒傳播信息(研究者將其命名為"Catasat病毒")及前一階段同區域(名為"Dewberry Hollow")的感染人數數據。
而在群體決策領域,另一項研究證實GPT-3能精準模擬特定亞文化群體(如美國福音派基督徒)的政治傾向,其預測結果與真實民調誤差小于2%。這種細粒度的人群建模能力,使政策仿真可以觸及傳統問卷調查難以覆蓋的微觀社會結構。
挑戰與未來:人機共生的決策新生態
盡管前景廣闊,LLMs在復雜系統中的應用仍面臨三重挑戰。首先是提示工程的脆弱性:在最后通牒博弈(Ultimatum Game)中,同一LLM作為提議者與響應者時行為一致性僅50%,而雙智能體架構則提升至88%,顯示決策角色的語義隔離至關重要。
其次是價值觀的隱形編碼,在一項政治傾向量表檢測中發現,早期模型(如BERT)呈現保守傾向,而GPT-4則更趨自由主義,這種偏差可能扭曲社會模擬的客觀性。
最后是群體涌現的不確定性,在多智能體公共品博弈中發現,惡意節點的存在會使相鄰個體貢獻率下降40%,但另一團隊觀察到補償性合作增強,這種矛盾可能源于不同LLM版本的風險評估機制差異。
圖6. LLM在社會決策中的整合應用。左圖:智能體為政府或第三方組織提供決策支持,右圖:智能體輔助個人決策的過程。此類智能元素的整合機制,在概念上類似于領域專家委員會模式,但其規模可擴展至前所未有的水平。
因此,未來的研究需建立標準化的提示詞協議、開發偏差檢測工具,并深入探索人機混合群體中新型合作機制的涌現規律。當數十億LLM智能體在數字空間持續交互,可能催生超越人類經驗的社會動力學新模式。這場始于語言理解的革命,未來可能將重塑我們理解復雜性的方式。
參考文獻
[1] De Marzo, G., Pietronero, L., & Garcia, D. (2023). Emergence of scale-free networks in social interactions among large language models. arXiv preprint arXiv:2312.06619.
[2] Guo, F. (2023). GPT in game theory experiments. arXiv preprint arXiv:2305.05516.
[3] Williams, R., Hosseinichimeh, N., Majumdar, A., & Ghaffarzadegan, N. (2023). Epidemic modeling with generative agents. arXiv preprint arXiv:2307.04986.
[4] Argyle, L. P., Busby, E. C., Fulda, N., Gubler, J. R., Rytting, C., & Wingate, D. (2023). Out of one, many: Using language models to simulate human samples. Political Analysis, 31(3), 337-351.
「大模型時代下的Agent建模與仿真」讀書會
大模型賦能的智能體展現出三大革命性特征:認知深度(能夠進行類人的推理和決策,甚至展現出記憶、學習和個性特征)、動態交互(基于自然語言的自主協商和社交行為)以及涌現行為(微觀交互產生更復雜的宏觀社會現象)。這些特性使得我們可以構建前所未有的"高保真社會模擬器",為理解經濟、社會、管理、軍事等復雜系統提供了全新視角。
因此,集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始,每周二晚上7:30-9:30進行,預計持續分享8周左右。掃碼加入Agent建模與仿真的前沿探索之旅,一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區,共同暢想大模型時代人工社會的未來圖景!
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.