導語
集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始,預計持續分享8周左右。掃碼加入Agent建模與仿真的前沿探索之旅,一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區,共同暢想大模型時代人工社會的未來圖景!
本周是讀書會的第三期分享,曾利博士將圍繞強化學習從單智能體到深度策略優化的核心原理,解析狀態、動作等概念及 DQN、PPO 等算法構建;深入多智能體強化學習范式,剖析非平穩性等挑戰與主流模型機制;探討融合大語言模型的多智能體建構,解析 LLM 引入路徑與未來范式,展現從基礎到前沿的技術演進與應用實踐。
分享背景
強化學習(Reinforcement Learning, RL)作為人工智能中建模“智能體-環境交互”的核心范式,近年來已在眾多復雜系統中展現出驚人的性能。隨著深度神經網絡與計算資源的發展,RL已從傳統的表格型方法邁向深度強化學習(Deep RL)階段,極大拓展了其在高維狀態空間下的泛化能力與實用性。
在此基礎上,多智能體強化學習(Multi-Agent Reinforcement Learning, MARL)應運而生,成為應對多方博弈、群體協作與復雜機制設計等問題的關鍵技術路徑。近年來,MARL在多個領域取得了令人矚目的成果:它不僅推動了《星際爭霸II》、《德州撲克》、《陸軍棋》等復雜博弈中超越人類的AI系統誕生,也在經濟政策優化、仿人足球、多機器人協作、語言涌現與社會行為建模等任務中實現重大突破,成為連接智能體學習與群體智能的核心橋梁。強化學習也因此從單體智能邁向群體智能,從控制優化工具演化為“社會建模引擎”。
與此同時,大語言模型(Large Language Models, LLMs)的崛起,為構建具備推理、協作與語言能力的認知智能體提供了前所未有的技術基礎。LLMs不僅能以自然語言感知環境、表達意圖,更能作為策略生成器、通信協議或行為控制器嵌入強化學習體系中,成為多智能體系統中的“語言中樞”與“知識內核”。基于此,融合MARL與LLMs的認知型智能體系統,正逐步形成新的研究范式,為人工智能的泛化能力、交互能力與社會適應能力打開新局面。
分享簡介
本次分享將圍繞“單智能體強化學習 - 多智能體強化學習 - 大語言模型”這一技術進化路徑,系統講解從單智能體強化學習到多智能體協同的機制構建,再到融合語言模型的前沿探索,幫助您全面理解當代智能體系統的發展邏輯與未來趨勢。
分享大綱
一、強化學習基礎框架:從單智能體到深度策略優化的核心原理梳理
理解智能體決策過程:系統解析狀態、動作、獎勵、策略、值函數等基本概念及其交互閉環;
強化學習的典型方法譜系:從值函數方法(如Q-Learning、SARSA)到策略優化方法(如REINFORCE、PPO)的一體化進化;
深度強化學習的關鍵機制:引入神經網絡后的泛化能力、經驗回放、目標網絡、策略穩定性與樣本效率提升機制;
代表算法結構剖析:聚焦DQN與PPO算法的實際構建流程,搭建強化學習系統的基礎認知圖譜。
深度強化學習在組合優化問題求解中的應用實踐:介紹深度強化學習在求解組合優化問題中的思路與案例
二、多智能體強化學習范式演進:從獨立學習到群體協同的策略博弈建模
MARL問題定義與挑戰全景:非平穩性、信用分配、策略耦合、通信建模等核心瓶頸分析;
典型方法框架解析:從Independent Q-Learning到CTDE(集中訓練、分布執行)框架下的VDN、QMIX、MADDPG、MAPPO等主流模型機制;
多智能體強化學習經典工作:回顧多智能體強化學習在復雜博弈與協作任務中的經典工作;
三、融合大語言模型的多智能體智能體建構:LLM-Agents范式的興起與技術邏輯
LLM引入的三類路徑:作為狀態嵌入器(語言感知)、策略生成器(行為規劃)與通信引擎(信息交互);
構建語言協同智能體:刻畫語言中的目標意圖、環境狀態與多智能體指令分發關系,實現“語言即策略”;
展望未來:LLM-Agents作為通用型協作智能體架構的雛形,將如何重構群體智能與復雜系統建模的新范式。
核心術語
強化學習 / 深度強化學習 / 馬爾可夫決策過程 / 組合優化
多智能體強化學習 / 博弈論 / 蒙特卡羅樹搜索 / 大語言模型
參考文獻
Albrecht, Stefano V., Filippos Christianos, and Lukas Sch?fer. Multi-agent reinforcement learning: Foundations and modern approaches. MIT Press, 2024.
Zhang, Kaiqing, Zhuoran Yang, and Tamer Ba?ar. "Multi-agent reinforcement learning: A selective overview of theories and algorithms." Handbook of reinforcement learning and control (2021): 321-384.
Yang, Yaodong, and Jun Wang. "An overview of multi-agent reinforcement learning from game theoretical perspective." arXiv preprint arXiv:2011.00583 (2020).
Nowé, Ann, Peter Vrancx, and Yann-Micha?l De Hauwere. "Game theory and multi-agent reinforcement learning." Reinforcement learning: State-of-the-art. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012. 441-470.
Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." nature 518.7540 (2015): 529-533.
Morav?ík, Matej, et al. "Deepstack: Expert-level artificial intelligence in heads-up no-limit poker." Science 356.6337 (2017): 508-513.
Vinyals, Oriol, et al. "Grandmaster level in StarCraft II using multi-agent reinforcement learning." nature 575.7782 (2019): 350-354.
Jaderberg, Max, et al. "Human-level performance in 3D multiplayer games with population-based reinforcement learning." Science 364.6443 (2019): 859-865.
Schrittwieser, Julian, et al. "Mastering atari, go, chess and shogi by planning with a learned model." Nature 588.7839 (2020): 604-609.
Fan, C., Zeng, L., Sun, Y., & Liu, Y. Y. (2020). Finding key players in complex networks through deep reinforcement learning. Nature machine intelligence, 2(6), 317-324.
Fan, Changjun, et al. "Searching for spin glass ground states through deep reinforcement learning." Nature communications 14.1 (2023): 725.
Pu, T., Chen, C., Zeng, L., Liu, S., Sun, R., & Fan, C. (2024, December). Solving Combinatorial Optimization Problem Over Graph Through QUBO Transformation and Deep Reinforcement Learning. In 2024 IEEE International Conference on Data Mining (ICDM) (pp. 390-399). IEEE.
Perolat, Julien, et al. "Mastering the game of Stratego with model-free multiagent reinforcement learning." Science 378.6623 (2022): 990-996.
Kaufmann, Elia, et al. "Champion-level drone racing using deep reinforcement learning." Nature 620.7976 (2023): 982-987
Lutz, Isaac D., et al. "Top-down design of protein architectures with reinforcement learning." Science 380.6642 (2023): 266-273.
McKee, Kevin R., et al. "Scaffolding cooperation in human groups with deep reinforcement learning." Nature Human Behaviour 7.10 (2023): 1787-1796.
Ma, Chengdong, et al. "Efficient and scalable reinforcement learning for large-scale network control." Nature Machine Intelligence 6.9 (2024): 1006-1020.
Hafner, Danijar, et al. "Mastering diverse control tasks through world models." Nature (2025): 1-7.
Zhuang, Yuan, et al. "Yolo-marl: You only llm once for multi-agent reinforcement learning." arXiv preprint arXiv:2410.03997 (2024).
Nagpal, Kartik, et al. "Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment." arXiv preprint arXiv:2502.16863 (2025).
Jiang, Zhouyang, et al. "QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning?." arXiv preprint arXiv:2504.12961 (2025).
Hao, Qianyue, et al. "Llm-explorer: A plug-in reinforcement learning policy exploration enhancement driven by large language models." arXiv preprint arXiv:2505.15293 (2025).
主講人介紹
曾利,國防科技大學系統工程學院二年級在讀博士,立理AI聯合創始人。本碩博均就讀于國防科技大學,在Nature Machine Intelligence、ICDM、CIKM、科研管理等會議和期刊上發表學術論文30余篇。
研究方向:復雜網絡、強化學習、組合優化、大語言模型等
參與時間
2025年7月22日(周二)晚上19:30-21:30
報名加入社群交流
https://pattern.swarma.org/study_group_issue/923?from=wechat
掃碼參與,,加入社群,獲取系列讀書會永久回看權限,與社區的一線科研工作者溝通交流,共同大模型時代的未來人工社會圖景。
「大模型時代下的Agent建模與仿真」讀書會
集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始,每周二晚上7:30-9:30進行,預計持續分享8周左右。掃碼加入Agent建模與仿真的前沿探索之旅,一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區,共同暢想大模型時代人工社會的未來圖景!
核心問題
Agent建模與仿真是什么,核心技術發生了怎樣的演變?
大模型時代,Agent建模與仿真會給復雜系統理論帶來哪些突破?
大模型如何賦能Agent實現自主思考與動態適應?
大模型驅動的Agent交互會涌現出什么新型的社會現象?
Agent建模與仿真如何改變金融、心理、管理、軍事等領域的研究范式?
你將收獲
梳理Agent建模與仿真的歷史發展脈絡與方法論;
掌握一套理解、分析、控制、預測復雜系統的計算實驗框架;
掌握基于多主體強化學習的復雜系統優化方法;
領略領域前沿學者的研究體系與科研路徑。
詳情請見:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.