導語
上海科學智能研究院、集智科學研究中心和阿里云聯(lián)合發(fā)布了《AI × Science十大前沿觀察》,梳理出35個研究前沿,來推動科學發(fā)展的黃金時代到來。本篇為前沿觀察5,掃描下方二維碼,可獲得完整版下載地址、快速鏈接論文原文。
掃描二維碼 下載完整報告
復雜世界的多智能體建模
背景介紹
過去幾十年里,社會科學家和相關(guān)領(lǐng)域的研究者,一直致力于通過實證數(shù)據(jù)與模型揭示人類行為和智能社會運行的基本規(guī)律,試圖找出隱藏在各種社會現(xiàn)象和治理痛點背后的因果機制,從而回答“是什么”、“為什么”、“如何治”等一系列問題。相對于傳統(tǒng)實證主義方法的局限,基于多智能體的建模作為一種科學方法論在上世紀八九十年代被提出。科學家們圍繞經(jīng)濟學等社會科學及工程領(lǐng)域廣泛存在的復雜系統(tǒng)和復雜現(xiàn)象所開展的探索工作,如Joshua Epstein 等開發(fā)的糖域模型、Brain Arthur 領(lǐng)導開發(fā)的人工股票市場模型、Thomas Schelling 的居住隔離模型、Christopher Langton 的人工生命模型[1-4]等等,幾乎都是在這一時期提出和發(fā)展起來的。其核心思想是借助于計算機平臺,在一個人工搭建的虛擬環(huán)境中創(chuàng)建若干彼此之間以及與環(huán)境之間能夠交互的主體(Agent),對現(xiàn)實個體行為與環(huán)境進行精細刻畫,進而輔助研究者的直覺推理,實現(xiàn)從微觀個體行動到宏觀群體行為與決策效應/模式的低成本、高可控的探索性研究,揭示復雜系統(tǒng)的非線性、動態(tài)性和不確定性等重要特征[5-6]。
多智能體系統(tǒng)的建模方法經(jīng)歷了知識驅(qū)動的早期階段和數(shù)據(jù)驅(qū)動的近期階段[6-7]。前者傾向于依靠精心設(shè)計的帶有規(guī)劃、推理、決策過程的內(nèi)部世界模型的框架來對現(xiàn)實世界進行仿真,導致很難對其內(nèi)部世界模型和規(guī)劃推理模塊進行優(yōu)化,也因此促進了數(shù)據(jù)驅(qū)動的“感知-反饋”式架構(gòu)的發(fā)展。這種方法主要依賴于直接的感知-行動循環(huán),而不是復雜的內(nèi)部世界模型或深層推理過程來做出決策。雖然以深度學習為代表的人工智能技術(shù)促進了多智能體建模技術(shù)的發(fā)展,但仍然面臨以下局限[7]:
單個智能體不具備處理長期復雜任務(wù)的能力。盡管在數(shù)據(jù)驅(qū)動的“感知-反饋”式架構(gòu)支持下,智能體能夠適應不同的環(huán)境變化,但在處理復雜特別是不確定的任務(wù)或需要長期規(guī)劃的情況時可能受到限制。
智能體不具有通用能力。真實世界的復雜性、動態(tài)性與不確定性是多變的,目前在某一種環(huán)境中表現(xiàn)優(yōu)異的智能體可能在另一種環(huán)境中完全無效。
多智能體建模方法無法支持對真實環(huán)境的綜合模擬。一個實用的多智能體模型應該可以描述系統(tǒng)在已知條件下如何運行并對出現(xiàn)的現(xiàn)象具有解釋能力,同時可以對開放環(huán)境進行觀察并預測系統(tǒng)未來的狀態(tài)。目前的建模方法只能實現(xiàn)二者其一的能力,不能兼而有之。
以大語言模型為代表的人工智能技術(shù)的出現(xiàn),不僅增強了單個智能體在感知、決策、記憶、工具使用和自適應方面的能力,而且從群體層面提高了智能體的異質(zhì)性、智能體間及與環(huán)境交互的場景復雜性與不確定性,以更好表征個體-群體的決策行為。這些能力共同促進了多智能體建模方法的跨越式發(fā)展[7-8]。
下邊我們介紹三個用于社會科學領(lǐng)域的研究:1、EconAgent,構(gòu)建了基于LLM的宏觀經(jīng)濟復雜系統(tǒng)[9];2、AgentSociety 1.0,精確模擬了社會輿論傳播、認知觀點極化、公眾政策響應等[11];3、RLLNC,提出了一種基于多智能體強化學習的模型驅(qū)動的去中心化優(yōu)化方法,并應用于城市治理中的若干問題,為大規(guī)模復雜的真實復雜系統(tǒng)的逼真模擬和優(yōu)化提供了可行技術(shù)手段[12]。
研究進展
進展目錄 基于LLM的多智能體系統(tǒng)研究宏觀經(jīng)濟學 基于LLM的多智能體系統(tǒng)研究社會群體行為 基于多智能體系統(tǒng)的未來城市治理基于LLM的多智能體系統(tǒng)研究宏觀經(jīng)濟學
推薦理由:相較于以往的智能體,如今基于LLM的智能體能夠表現(xiàn)出類人的決策模式。因而基于LLM的多智能體系統(tǒng)能模擬更符合實際的宏觀經(jīng)濟系統(tǒng),反映更真實的人類復雜經(jīng)濟行為。
現(xiàn)有的智能體建模宏觀經(jīng)濟系統(tǒng)通常采用預定規(guī)則或基于學習的神經(jīng)網(wǎng)絡(luò)進行決策。前者面臨的問題是不能對智能體進行個性化設(shè)計;后者則需要大規(guī)模行為數(shù)據(jù)對模型進行訓練。此外,現(xiàn)有模型通常關(guān)注當前時期的個別宏觀經(jīng)濟影響因子,多期市場動態(tài)和多方面宏觀經(jīng)濟因素的影響在決策過程中往往被忽視。
基于LLM的多智能體系統(tǒng)模擬宏觀經(jīng)濟系統(tǒng),智能體能夠依據(jù)財政、貨幣等宏觀經(jīng)濟因子進行勞動和消費決策,并且能夠基于記憶模塊反思自己的行為。|來源:Nian Li, Chen Gao, Mingyu Li, Yong Li, and Qingmin Liao. 2024. EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 15523–15536, Bangkok, Thailand. Association for Computational Linguistics.
為了解決上述問題,清華大學李勇團隊首次提出一個具有人類特征的、由LLM賦能的智能體EconAgent,用于宏觀經(jīng)濟模擬。他們搭建了一個包括100個智能體在長達20年時間內(nèi)(模型以年為單位進行迭代)的工作與消費行為組成的動態(tài)市場仿真環(huán)境。其中,仿真環(huán)境隨著智能體的行為以及財政與貨幣政策等宏觀經(jīng)濟因子的變化而演化。每個智能體都是基于真實世界經(jīng)濟狀況的目標畫像進行建模的,因而系統(tǒng)中的智能體具有異構(gòu)性,能夠自動展現(xiàn)不同的決策機制。除了感知模塊和行動模塊外,模型還引入了記憶模塊使智能體能夠反思過去的個人經(jīng)歷和市場動態(tài),從而反映宏觀經(jīng)濟趨勢變化對個體的影響。實驗表明,基于大語言模型的多智能體系統(tǒng)能夠更合理、穩(wěn)定地模擬宏觀經(jīng)濟系統(tǒng),再現(xiàn)消費市場的通貨膨脹、勞動力市場的失業(yè)率等經(jīng)典宏觀經(jīng)濟現(xiàn)象[9]。
基于LLM的多智能體系統(tǒng)研究社會群體行為
推薦理由:社會系統(tǒng)的本質(zhì)在于其構(gòu)成元素間的非線性涌現(xiàn)。相較于以往,基于智能體的社會群體行為模擬可以充分發(fā)揮大模型智能體自適應性、真實社會環(huán)境仿真能力與大規(guī)模模擬加速框架的技術(shù)優(yōu)勢,實現(xiàn)對社會復雜性的更真實還原。
基于多智能體的模擬在社會領(lǐng)域的研究中取得了一系列的成果[1-3, 9-10, 14-15, 17, 25 ]。但是,如何在保證模擬規(guī)模足夠龐大以支持復雜性研究的同時,提升模擬的真實性,使其更貼近現(xiàn)實社會的運行邏輯,仍是亟待突破的重要方向。
基于LLM的AgentSociety 1.0整體框架,可精確模擬社會輿論傳播、認知觀點極化、公眾政策響應等。|來源:AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society. arXiv preprint arXiv:2502.08691
為了解決上述問題,清華大學李勇團隊率充分發(fā)揮大模型智能體、真實社會環(huán)境仿真與大規(guī)模模擬加速框架的技術(shù)優(yōu)勢,結(jié)合智能社會治理的前沿理論與實踐探索,成功構(gòu)建了基于大模型的大型社會模擬器 AgentSociety1.0 版本,可精確模擬社會輿論傳播、認知觀點極化、公眾政策響應等[11]。為了讓智能體的行為更加貼近現(xiàn)實世界,團隊將智能體設(shè)計分為三個層面:心智、心智-行為耦合和行為,并構(gòu)建了一個高度真實、可交互的城市社會環(huán)境,支持移動、社交和經(jīng)濟活動等核心行為的模擬。與僅依賴大模型推理不同,團隊構(gòu)建的環(huán)境結(jié)合物理約束、社會規(guī)則和資源限制,以確保智能體的行為符合現(xiàn)實邏輯,避免大模型生成的“幻覺”影響。
基于LLM的AgentSociety 1.0大規(guī)模社會模擬引擎,結(jié)合LLM驅(qū)動的多智能體系統(tǒng)和真實城市社會環(huán)境,并系統(tǒng)架構(gòu)上進行了深度優(yōu)化,以確保模擬結(jié)果既具備現(xiàn)實合理性,又能大規(guī)模、高效運行。|來源:AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society. arXiv preprint arXiv:2502.08691
大型社會模擬器通過數(shù)字化和虛擬化的方式,使研究者能夠在無需進行實際實驗的情況下,模擬并觀察社會現(xiàn)象的變化過程,顯著降低了研究的風險與成本。同時,模擬器能夠在不同情境下進行多維度的數(shù)據(jù)采集和實驗設(shè)計,克服傳統(tǒng)研究因受限于時間、空間和資源等因素所帶來的局限。團隊提供可視化交互工具和智能社會治理研究工具箱,支持實時監(jiān)測、主動干預和數(shù)據(jù)收集,助力社會研究和治理實驗。
基于多智能體系統(tǒng)的未來城市治理
推薦理由:作為融合了人類活動、交通、醫(yī)療、電力、建筑環(huán)境等因素的復雜動態(tài)系統(tǒng)課題,城市科學的研究需要融合多領(lǐng)域、跨學科的方法。隨著物聯(lián)網(wǎng)技術(shù)和人工智能技術(shù)的發(fā)展,未來城市將會配備越來越多的傳感器以及能夠自主決策的邊緣智能系統(tǒng)。因此,未來城市將是典型的大規(guī)模多智能體系統(tǒng)。
大規(guī)模多智能體系統(tǒng)面臨的主要挑戰(zhàn)在于其可擴展性和性能的平衡。傳統(tǒng)的集中式多智能體方法在處理復雜任務(wù)時,往往需要大量的通信和數(shù)據(jù)采樣,這不僅增加了系統(tǒng)的復雜性和成本,還可能導致性能的下降。此外隨著系統(tǒng)規(guī)模的擴大,通信延遲和數(shù)據(jù)傳輸?shù)钠款i也變得更加明顯。多智能體強化學習(MARL)通過將復雜任務(wù)分解并分配給多個協(xié)作節(jié)點,可以顯著提高系統(tǒng)的可擴展性。但是,其在實際部署中的仍面臨橫向擴展能力受限、計算效率衰減等瓶頸。
大規(guī)模網(wǎng)絡(luò)控制的強化學習(Reinforcement Learning for Large-scale Network Control,簡稱RLLNC)框架及其工作原理,以及與傳統(tǒng)的中心化是的學習和基于模型的去中心化控制等框架的對比|來源:Ma, C., Li, A., Du, Y. et al. Efficient and scalable reinforcement learning for large-scale network control. Nat Mach Intell6, 1006–1020 (2024).
為了解決上述問題,北京大學楊耀東團隊結(jié)合多智能體強化學習方法,提出了一種模型驅(qū)動的去中心化策略優(yōu)化框架:RLLNC,對大規(guī)模多智能體系統(tǒng)進行了以智能體為單位的建模,將智能體之間的關(guān)系描述為一種拓撲連接結(jié)構(gòu)下的網(wǎng)絡(luò)化關(guān)系。其中包括線狀、環(huán)狀、網(wǎng)狀等各種同構(gòu)/異構(gòu)節(jié)點,減少了多智能體系統(tǒng)對全局通信和大量交互數(shù)據(jù)的依賴,降低了系統(tǒng)決策復雜性[12]。此外,研究者還在框架中引入了分支回滾技術(shù),通過采樣先前策略的狀態(tài)分布進行固定步數(shù)的回滾。實驗表明,研究提出的去中心優(yōu)化策略在車輛控制、疫情網(wǎng)絡(luò)控制、電力控制等復雜系統(tǒng)的控制中都表現(xiàn)出良好的有效性和可擴展性。
目前,在交通[13]、城市規(guī)劃[14]、公共衛(wèi)生[15]等領(lǐng)域,如何利用多智能體強化學習技術(shù)實現(xiàn)未來城市中自主決策的邊緣智能體更好協(xié)同,從而構(gòu)建更高效、可持續(xù)的城市運行體系,已成為重點研究方向。未來,基于多智能體系統(tǒng)的未來城市研究與治理有望為人們提供更良好的生活環(huán)境。
挑戰(zhàn)與展望
如果多智能體系統(tǒng)能夠?qū)κ澜缰械恼鎸崗碗s系統(tǒng)進行模擬,那么,它不僅能夠賦能城市規(guī)劃[14]、公共衛(wèi)生[15]、群體博弈[16-18]、教育[19]、未來戰(zhàn)場[20]等領(lǐng)域的復雜系統(tǒng)研究,而且能夠進一步推動多領(lǐng)域融合的跨學科研究,適應真實世界中系統(tǒng)的復雜性,滿足人類可持續(xù)發(fā)展的重大需求。
因此,建議從以下幾方面關(guān)注并推動未來多智能體系統(tǒng)的發(fā)展。首先,我們需要繼續(xù)探索智能體的能力邊界(特別是在一些不確定的場景與任務(wù)背景下[21-23]),包括實時感知與處理外部多模態(tài)信息并學習的能力、高效的信息整合與決策能力、任務(wù)拆解與調(diào)用工具的能力,甚至是具身執(zhí)行任務(wù)與操作的能力。其次,在目前強化學習方法的基礎(chǔ)上,在多智能體系統(tǒng)中引入博弈論,可以實現(xiàn)協(xié)同策略的動態(tài)優(yōu)化,提升智能體在復雜博弈環(huán)境中的決策能力,優(yōu)化協(xié)同作業(yè)的系統(tǒng)效率[6,24]。最后,我們需要支持開源。通過研究能夠兼容異構(gòu)智能體架構(gòu)、支持實時擴展且具備安全合規(guī)保障的大規(guī)模節(jié)能多智能體系統(tǒng)架構(gòu),以支持多智能體之間以及多智能體與環(huán)境的復雜交互,從而實現(xiàn)真正的“斯坦福小鎮(zhèn)”[25]。
參考文獻
[1] Epstein, J. M., & Axtell, R. (1996). Growing Artificial Societies: Social Science from the Bottom Up. Brookings Institution Press.
https://direct.mit.edu/books/monograph/2503/Growing-Artificial-SocietiesSocial-Science-from
這是來自MIT出版社的一本書,是圣塔菲研究所(Santa Fe Institute)、世界資源研究所(World Resources Institute)和布魯金斯學會(the Brookings Institution)的面向2050的聯(lián)合項目。主要利用計算機模擬技術(shù)研究社會結(jié)構(gòu)和群體行為如何從個體的相互作用中產(chǎn)生。其中“糖域模型”作為一種自下而上的社會科學研究范式,吸引了廣泛關(guān)注。
[2] Arthur, W. B., Holland, J. H., LeBaron, B., Palmer, R., & Tayler, P. (1997). Asset pricing under endogenous expectations in an artificial stock market. The Economy as an Evolving Complex System II, 15, 15–44.
https://www.taylorfrancis.com/chapters/edit/10.1201/9780429496639-2/asset-pricing-endogenous-expectations-artificial-stock-market-brian-arthur-john-holland-blake-lebaron-richard-palmer-paul-tayler
這是來自CRC出版社的書籍《The Economy as an Evolving Complex System》的一部分,提出了一種基于異質(zhì)智能體的資產(chǎn)定價理論。研究使用圣塔菲研究所(Santa Fe Institute)提出的人工股票市場模型。
[3] Schelling, Thomas C. "Dynamic models of segregation." Journal of mathematical sociology 1.2 (1971): 143-186.
謝林提出的居住隔離模型
[4] Langton, Christopher G. "Studying artificial life with cellular automata." Physica D: nonlinear phenomena 22.1-3 (1986): 120-149.
朗頓提出的人工生命模型
[5] Berry, Brian JL, L. Douglas Kiel, and Euel Elliott. "Adaptive agents, intelligence, and emergent human organization: Capturing complexity through agent-based modeling." Proceedings of the National Academy of Sciences 99.suppl_3 (2002): 7187-7188.
2002年召開的主題為“適應性Agent,智能和人類組織的涌現(xiàn):通過ABM刻畫復雜性”的座談會,在PNAS發(fā)表了專刊,此文為總結(jié)性文章
[6] Fatima, Shaheen, Nicholas R. Jennings, and Michael Wooldridge. "Learning to resolve social dilemmas: a survey." Journal of Artificial Intelligence Research 79 (2024): 895-969.
這是三位研究多智能體系統(tǒng)的計算機科學家撰寫的關(guān)于社會困境的一篇綜述文章。系統(tǒng)綜述了面臨困境的個人如何根據(jù)過去的經(jīng)驗調(diào)整自己的行為來學會合作,并概述了三種學習方法。
[7] Gao, C., Lan, X., Li, N. et al. Large language models empowered agent-based modeling and simulation: a survey and perspectives. Humanit Soc Sci Commun11, 1259 (2024).
清華大學利用課題組在以大語言模型為基礎(chǔ)的多智能體建模研究中十分活躍,先后對基于多智能體的經(jīng)濟系統(tǒng)、城市系統(tǒng)進行了研究,并對領(lǐng)域發(fā)展進行了綜述,將多智能體仿真分為物理世界、社會網(wǎng)絡(luò)、賽博空間以及混合現(xiàn)實四種類型。
[8] Large Language Model based Multi-Agents: A Survey of Progress and Challenges, arXiv:2402.01680
這篇文獻從多智能體建模框架、基準、任務(wù)解決能力、能力進化、世界仿真能力幾個角度對基于大語言模型的多智能體建模相關(guān)的研究進行了系統(tǒng)的調(diào)研。
[9] Nian Li, Chen Gao, Mingyu Li, Yong Li, and Qingmin Liao. 2024. EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 15523–15536, Bangkok, Thailand. Association for Computational Linguistics.
https://aclanthology.org/2024.acl-long.829/
這篇來自ACL會議的文章提出了搭建了一個包括100個智能體在長達20年時間內(nèi)(模型以年為單位進行迭代)的工作與消費行為組成的動態(tài)市場仿真環(huán)境對宏觀經(jīng)濟行為進行模擬。
[10] Gao, Chen, et al. S3: Social-network Simulation System with Large Language Model-Empowered Agents." arXiv preprint arXiv:2307.14984 (2023).
https://arxiv.org/abs/2307.14984
這篇來自arxiv的預印文章實現(xiàn)了基于LLM的社會網(wǎng)絡(luò)模擬系統(tǒng)S3。使用現(xiàn)實世界的數(shù)據(jù)實現(xiàn)了個體和群體兩個模擬級別的評估。
[11] AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society. arXiv, 2025
https://arxiv.org/abs/2502.08691
這篇來自arxiv的預印文章實現(xiàn)了基于LLM的AgentSociety 1.0,可精確模擬社會輿論傳播、認知觀點極化、公眾政策響應等.
[12] Ma, Chengdong, et al. "Efficient and scalable reinforcement learning for large-scale network control." Nature Machine Intelligence (2024): 1-15.
https://www.nature.com/articles/s42256-024-00879-7
這篇來自Nature Machine Intelligence文章提出了一種模型驅(qū)動的去中心化策略優(yōu)化框架:RLLNC。框架減少了智能體系統(tǒng)決策的復雜性,提升了系統(tǒng)的可擴展性。
[13] Noaeen, Mohammad, et al. "Reinforcement learning in urban network traffic signal control: A systematic literature review." Expert Systems with Applications 199 (2022): 116830.
https://www.sciencedirect.com/science/article/pii/S0957417422002858
這篇來自Expert Systems with Application的文章綜述了城市交通信號控制中強化學習的應用,涵蓋了從1994到2020年的160篇同行評審的文章。
[14] Zheng, Yu, et al. "Spatial planning of urban communities via deep reinforcement learning." Nature Computational Science 3.9 (2023): 748-762.
https://www.nature.com/articles/s43588-023-00503-5
這篇來自Nature Computational Science的文章基于15分鐘城市的概念提出了一個深度強化學習算法模型,可以結(jié)合人工輸入、機器學習輔助土地和道路空間規(guī)劃的表現(xiàn),進行復雜的城市空間規(guī)劃,超越其他算法和專業(yè)人類設(shè)計師。
[15] Williams, Ross, et al. "Epidemic modeling with generative agents." arXiv preprint arXiv:2307.04986 (2023).
https://arxiv.org/abs/2307.04986
這篇來自arxiv的預印文章基于大語言模型的多智能體系統(tǒng)模擬了傳染病預警與傳播,為公共衛(wèi)生治理提供了更有效的解決方案。
[16] Kramár, János, et al. "Negotiation and honesty in artificial intelligence methods for the board game of Diplomacy." Nature Communications 13.1 (2022): 7214.
https://www.nature.com/articles/s41467-022-34473-5
這篇來自Nature Communication的文章給智能體系統(tǒng)中的個體引入了協(xié)商機制,從而研究個體間合作與背叛的條件。
[17] Koster, Raphael, et al. "Human-centred mechanism design with Democratic AI." Nature Human Behaviour 6.10 (2022): 1398-1407.
https://www.nature.com/articles/s41562-022-01383-x
這篇來自Nature Human Behaviour的文章開發(fā)了民主AI模型,用于設(shè)計與驗證符合大多數(shù)人利益的社會機制。
[18]Ashery, Ariel Flint, Luca Maria Aiello, and Andrea Baronchelli. "The Dynamics of Social Conventions in LLM populations: Spontaneous Emergence, Collective Biases and Tipping Points." arXiv preprint arXiv:2410.08948 (2024).
這篇來自arxiv的預印文章構(gòu)建了基于LLM的多智能體系統(tǒng)研究了社會中觀點的產(chǎn)生、傳播機制,包括自發(fā)出現(xiàn)、集體偏見和臨界點。
[19] Jiang, Yuan-Hao, et al. "AI Agent for Education: Von Neumann Multi-Agent System Framework." Proceedings of the 28th Global Chinese Conference on Computers in Education (GCCCE 2024).
這篇來自GCCCE 的會議文章提出了面向教育的馮·諾伊曼多智能體系統(tǒng)框架。
[20] Huang, Jen-tse, et al. "On the Resilience of Multi-Agent Systems with Malicious Agents." arXiv preprint arXiv:2408.00989 (2024).
https://arxiv.org/abs/2408.00989
這篇來自arxiv的預印文章提出了AUTOTRANSFORMER 和 AUTOINJECTION 兩種方法為評估多智能體系統(tǒng)的安全性,以及提高面對惡意智能體時的彈性提供了方法。
[21] Feng, Yu, et al. "BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models." arXiv preprint arXiv:2404.12494 (2024).
https://arxiv.org/abs/2404.12494
這篇來自arxiv的預印文章提出了基于貝葉斯推斷的LLM-based智能體框架BIRD,提高智能體在面對不完整信息進行規(guī)劃與決策時的能力。
[22] Liu, Ollie, et al. "DeLLMa: Decision Making Under Uncertainty with Large Language Models." arXiv preprint arXiv:2402.02392 (2024).
https://arxiv.org/abs/2402.02392
這篇來自arxiv的預印文章提出了基于人類的決策理論與效用理論優(yōu)化LLM-based智能體框架DeLLMa,通過優(yōu)化智能體的推理過程在提高智能體在不確定環(huán)境中決策準確性。
[23] Han, Jiuzhou, Wray Buntine, and Ehsan Shareghi. "Towards Uncertainty-Aware Language Agent." arXiv preprint arXiv:2401.14016 (2024).
https://arxiv.org/abs/2401.14016
這篇來自arxiv的預印文章在LLM-based智能體框架中加入了量化評估不確定性的模塊,并通過尋求外部解決方案或者人類幫助來幫助智能體不斷進行學習應對不確定性的能力。
[24]Hua W, Liu O, Li L, et al. Game-theoretic LLM: Agent Workflow for Negotiation Games[J]
這篇發(fā)表在的文章提出了博弈論工作流:將博弈論作為基礎(chǔ),以理性和帕累托最優(yōu)性作為兩大基本評估指標--即個體是否理性,以及是否基于個體理性得出全局最優(yōu)解,旨在觀察并提升智能體在以自我利益最大化為指導的交互中的表現(xiàn)。
[25] Park, Joon Sung, et al. "Generative agents: Interactive simulacra of human behavior." Proceedings of the 36th annual acm symposium on user interface software and technology. 2023.
https://dl.acm.org/doi/abs/10.1145/3586183.3606763
這篇來自ACM會議的文章介紹了生成式智能體模擬人類行為,形成了一個由25個智能體組成的基于自然語言交互的小鎮(zhèn)。初步探討了基于大語言模型對人類行為模擬的架構(gòu)和交互模式。
出品:漆遠、吳力波、張江 運營:孟晉宇、王婷 撰稿:張江、楊燕青、王婷、王朝會、十三維、周莉、梁金、袁冰、江千月、劉志毅 鳴謝(按姓氏拼音順序,排名不分先后): 曹風雷 、陳小楊 、程遠、杜沅豈 、段郁、方榯楷 、付彥偉、 高悅、黃柯鑫、李昊、劉圣超、譚偉敏、吳泰霖、吳艷玲、向紅軍、張驥、張艷、朱思語
AI+Science 讀書會
詳情請見:
1.
2.
3.
4.
5.
6.
7.
8.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.