導(dǎo)語(yǔ)
群體合作行為是人類社會(huì)可持續(xù)發(fā)展的關(guān)鍵,但如何在大規(guī)模、復(fù)雜環(huán)境中實(shí)現(xiàn)智能體之間的穩(wěn)定合作一直是科學(xué)界的重大挑戰(zhàn)。在眾多研究方法中,復(fù)雜系統(tǒng)科學(xué)(CSS)能夠深入揭示群體現(xiàn)象、合作的演化過(guò)程,以及支撐這些過(guò)程的制度體系。然而這一領(lǐng)域的許多理論往往為了簡(jiǎn)化建模,忽視了個(gè)體層面的復(fù)雜性和環(huán)境背景,也一直缺乏一種嚴(yán)謹(jǐn)?shù)姆椒▉?lái)將它們納入研究;與此同時(shí)多智能體強(qiáng)化學(xué)習(xí)(MARL)很好地體現(xiàn)了這些要素,近年來(lái)也越來(lái)越關(guān)注合作(人工)智能。但典型的MARL模擬往往計(jì)算代價(jià)高昂,結(jié)果也不容易解讀。
近日,由德國(guó)波恩大學(xué)Wolfram Barfuss教授領(lǐng)銜的研究團(tuán)隊(duì)在《美國(guó)國(guó)家科學(xué)院院刊》(PNAS)發(fā)表了一項(xiàng)開(kāi)創(chuàng)性研究,提出將復(fù)雜系統(tǒng)科學(xué)(CSS)與多智能體強(qiáng)化學(xué)習(xí)(MARL)相結(jié)合的新框架,為解決這一難題提供了全新思路。文章認(rèn)為這兩個(gè)領(lǐng)域在目標(biāo)、方法和研究范圍上可以互相補(bǔ)充。MARL為在動(dòng)態(tài)環(huán)境中模擬認(rèn)知過(guò)程提供了具體工具,CSS則為MARL提供了對(duì)復(fù)雜群體現(xiàn)象的深入定性理解。該研究通過(guò)建立“群體強(qiáng)化學(xué)習(xí)動(dòng)力學(xué)”(CRLD)理論,揭示了智能體在動(dòng)態(tài)環(huán)境中學(xué)習(xí)合作的內(nèi)在機(jī)制,為設(shè)計(jì)更高效的協(xié)作算法和促進(jìn)人類社會(huì)可持續(xù)發(fā)展提供了理論基礎(chǔ)。這項(xiàng)研究不僅展示了跨學(xué)科融合的強(qiáng)大潛力,也為人工智能與復(fù)雜系統(tǒng)的交叉研究開(kāi)辟了新方向。
關(guān)鍵詞:合作、群體行為、復(fù)雜系統(tǒng)科學(xué)、多智能體強(qiáng)化學(xué)習(xí)
曾利丨作者
周莉丨審校
論文題目:Collective cooperative intelligence 論文地址:https://www.pnas.org/doi/abs/10.1073/pnas.2319948121
一、群體合作:人類社會(huì)可持續(xù)發(fā)展的重大難題
合作,是指一個(gè)群體能夠成功且自愿地為共同利益而行動(dòng),即便在短期或個(gè)體看來(lái),追求自私的行為似乎更有吸引力。這類情形通常被稱為社會(huì)困境:在社會(huì)困境中,每個(gè)參與者都有動(dòng)機(jī)去追求自己的最大利益,但如果大家都選擇合作,整體會(huì)過(guò)得更好。合作對(duì)于維護(hù)各種公共資源至關(guān)重要,既包括環(huán)境層面的,比如漁業(yè)、大氣和生物多樣性,也包括社會(huì)層面的,比如公共基礎(chǔ)設(shè)施、教育和醫(yī)療等。
圖1:社會(huì)困境理論示意圖。名詞解釋:社會(huì)困境(又稱之為社會(huì)兩難情景),是個(gè)體利益和群體利益發(fā)生沖突的情境。當(dāng)群體中每個(gè)成員的選擇都傾向于對(duì)自己有利,而個(gè)人選擇累積起來(lái)的后果最終會(huì)對(duì)群體成員(包括選擇者本人)不利時(shí),就出現(xiàn)了社會(huì)困境情境。在社會(huì)社會(huì)困境中,個(gè)體選擇了自己的短期利益,但從長(zhǎng)遠(yuǎn)看,包括本人在內(nèi)的群體成員的利益最終會(huì)被損害 。
關(guān)于合作何時(shí)、如何產(chǎn)生的研究,涉及生物學(xué)、物理學(xué)、計(jì)算機(jī)科學(xué)、工程學(xué)和社會(huì)科學(xué)等多個(gè)領(lǐng)域。人們已經(jīng)探索出多種推動(dòng)合作的機(jī)制,既包括外部權(quán)威(例如法律和政策)設(shè)立的約束,也包括基于社會(huì)互惠的自發(fā)性安排。外部權(quán)威可以通過(guò)懲罰機(jī)制來(lái)解決社會(huì)困境,這對(duì)于塑造可持續(xù)的未來(lái)路徑非常重要。為了確保人類和地球的健康未來(lái),我們需要改變政策、技術(shù),乃至人類的行為模式。人類的決策必須被視為一種復(fù)雜的、與本地和全球環(huán)境共同演化的過(guò)程。在很多情況下,不同的個(gè)體有著各自的需求、偏好和特性,這些多樣性是影響未來(lái)可持續(xù)性的重要因素,同時(shí)也讓合作問(wèn)題更加復(fù)雜。我們?nèi)圆磺宄绾卧诙鄻踊闹黧w和認(rèn)知復(fù)雜性之間找到穩(wěn)健的合作原則。與此同時(shí)環(huán)境本身的復(fù)雜性也是穩(wěn)定合作的一大挑戰(zhàn)。這些挑戰(zhàn)包括:(1)環(huán)境與人類行為之間的反饋機(jī)制(既有漸進(jìn)式也有突變式);(2)行為后果的延遲或嚴(yán)重性;(3)多種風(fēng)險(xiǎn)與不確定性的交織。目前尚不清楚,動(dòng)態(tài)環(huán)境中的哪些因素有助于合作出現(xiàn)并持續(xù)。再加上環(huán)境的短期變化,進(jìn)一步增加了難度。盡管已經(jīng)有很多促進(jìn)合作的機(jī)制被發(fā)現(xiàn),人們對(duì)合作何時(shí)才能真正發(fā)生、在哪些條件下能保持穩(wěn)定,還缺乏深入理解。這些問(wèn)題對(duì)于探索可持續(xù)轉(zhuǎn)型尤為關(guān)鍵。
為應(yīng)對(duì)這些挑戰(zhàn),數(shù)學(xué)模型變得不可或缺。過(guò)程驅(qū)動(dòng)的機(jī)制模型可以幫助理論建立,并通過(guò)計(jì)算機(jī)仿真來(lái)探索實(shí)驗(yàn)難以驗(yàn)證的假設(shè)。復(fù)雜系統(tǒng)科學(xué)(CSS)已經(jīng)在解釋看似簡(jiǎn)單的個(gè)體如何通過(guò)相互作用產(chǎn)生宏觀結(jié)構(gòu)和規(guī)律方面,積累了豐富的成果,比如群體智能、進(jìn)化博弈論和種群動(dòng)力學(xué)等。然而,在生物、社會(huì)和人工系統(tǒng)中,個(gè)體層面的行為和交互都非常復(fù)雜,這些微觀層面的特性,往往無(wú)法用過(guò)于簡(jiǎn)化的模型來(lái)準(zhǔn)確刻畫(huà)。一個(gè)尚未解決的重要問(wèn)題是:當(dāng)擁有復(fù)雜認(rèn)知的個(gè)體在特定環(huán)境中相互作用時(shí),會(huì)產(chǎn)生怎樣的集體行為。基于智能體的建模以及人工生命領(lǐng)域,提供了一種方法,能夠?qū)€(gè)體的決策規(guī)則和差異性納入考量。然而,這種復(fù)雜性也意味著模型往往無(wú)法用數(shù)學(xué)公式直接分析,只能依賴模擬。許多基于智能體的模型還面臨一個(gè)著名批評(píng):"垃圾進(jìn)、垃圾出"。也就是說(shuō),如果模型中用于指導(dǎo)智能體行為的規(guī)則不夠合理或缺乏實(shí)證支持,結(jié)果就會(huì)缺乏可信度。
與此同時(shí)多智能體強(qiáng)化學(xué)習(xí)(MARL)可以被視為一種特殊的基于智能體的建模方式,在這里,智能體的行為不需要提前假設(shè)規(guī)則,而是通過(guò)學(xué)習(xí)自主形成。然而,MARL模擬往往非常隨機(jī),計(jì)算代價(jià)高昂,而且通常涉及大量自由參數(shù),使得結(jié)果不易解釋。
二、理論突破:CSS與MARL的優(yōu)雅結(jié)合
(一)背景知識(shí)
在應(yīng)對(duì)合作問(wèn)題時(shí),復(fù)雜系統(tǒng)科學(xué)(CSS)和多智能體強(qiáng)化學(xué)習(xí)(MARL)提供了兩條各具特色的發(fā)展路徑。兩者在目標(biāo)、方法和理論深度上既有差異,也存在互補(bǔ)性。理解它們各自的特點(diǎn),是把兩種方法有效融合的前提。
1. 復(fù)雜系統(tǒng)科學(xué)(CSS)
復(fù)雜系統(tǒng)科學(xué)關(guān)注的是:看似簡(jiǎn)單的個(gè)體,通過(guò)相互作用如何自發(fā)形成宏觀層面的合作結(jié)構(gòu)和規(guī)律。其研究對(duì)象是由多組分構(gòu)成的動(dòng)態(tài)非均衡系統(tǒng)(Levin, 2002),探索簡(jiǎn)單個(gè)體如何通過(guò)非線性相互作用(Bialek et al., 2012)和跨尺度耦合自發(fā)形成宏觀合作結(jié)構(gòu)與涌現(xiàn)性規(guī)律(Daniels et al., 2021)。CSS的重要目標(biāo),是先理解合作如何自然出現(xiàn),再考慮如何進(jìn)行干預(yù)和改善。在研究方法上,CSS傾向于從最簡(jiǎn)單但可信的機(jī)制出發(fā),探索合作行為如何涌現(xiàn),具體包括進(jìn)化博弈論(Axelrod & Hamilton, 1981)、非線性動(dòng)力學(xué)(Jhawar et al., 2020)、復(fù)雜網(wǎng)絡(luò)(Newman, 2003)和信息論(Rosas et al., 2019)等,它成功解釋了從社會(huì)合作(Nowak, 2006)到集體運(yùn)動(dòng)(Bialek et al., 2012)等涌現(xiàn)現(xiàn)象。CSS研究合作的視角強(qiáng)調(diào)過(guò)程的動(dòng)態(tài)性,以及微觀層面與宏觀層面之間的耦合關(guān)系。這一方法往往將模型簡(jiǎn)化到低維度,使得研究更加直觀、可解釋,也更容易用數(shù)學(xué)方法推導(dǎo)。一個(gè)典型例子是著名的“以牙還牙”策略(tit-for-tat):僅僅通過(guò)簡(jiǎn)單的模仿和互惠機(jī)制,就可以在重復(fù)博弈中產(chǎn)生穩(wěn)定的合作,比很多復(fù)雜策略都更有效。這類研究揭示了:合作行為可以從極其基礎(chǔ)的規(guī)則出發(fā),演變成高度穩(wěn)定的社會(huì)現(xiàn)象。
不過(guò),CSS傳統(tǒng)模型通常假設(shè)個(gè)體比較簡(jiǎn)單,對(duì)復(fù)雜認(rèn)知、環(huán)境變化以及策略多樣性考慮有限。如何將人類或智能體更高階的推理能力納入模型,仍是該領(lǐng)域面臨的重要挑戰(zhàn)。
2. 多智能體強(qiáng)化學(xué)習(xí)(MARL)
MARL來(lái)自人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,關(guān)注在復(fù)雜動(dòng)態(tài)環(huán)境中,多個(gè)智能體如何通過(guò)學(xué)習(xí)逐步形成有效策略。
在典型的MARL框架中每個(gè)智能體會(huì)觀察環(huán)境狀態(tài),然后采取行動(dòng),再根據(jù)環(huán)境反饋(獎(jiǎng)勵(lì))更新自己的策略。這個(gè)過(guò)程可以理解為智能體在“狀態(tài)–動(dòng)作–狀態(tài)”的序列中不斷試錯(cuò),優(yōu)化長(zhǎng)期回報(bào)。MARL的一個(gè)核心特征,是不依賴事先定義好的合作規(guī)則,而是讓智能體自己通過(guò)試驗(yàn)與學(xué)習(xí)發(fā)現(xiàn)合作方式。因此,MARL非常適合用于高度不確定和復(fù)雜的情境。近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,MARL在游戲、機(jī)器人、分布式控制等領(lǐng)域取得了顯著進(jìn)展。
然而,MARL也存在局限:(1)訓(xùn)練過(guò)程通常高度隨機(jī),結(jié)果難以解釋。(2)模型參數(shù)眾多,依賴海量計(jì)算資源。(3)與CSS相比,MARL更關(guān)注如何直接提升合作效率,而不是先從理論上理解合作的涌現(xiàn)機(jī)制。
這也就意味著,MARL雖擅長(zhǎng)解決“如何合作”的問(wèn)題,但在解釋“合作為什么出現(xiàn)”方面,理論深度尚顯不足。
3. CSS VS MARL
CSS和MARL在合作研究上的對(duì)比可以用表1來(lái)進(jìn)行概括:
表1:復(fù)雜系統(tǒng)科學(xué)與多智能體強(qiáng)化學(xué)習(xí)的對(duì)比
維度
復(fù)雜系統(tǒng)科學(xué)(CSS)
多智能體強(qiáng)化學(xué)習(xí)(MARL)
目標(biāo)
先理解合作,再干預(yù)優(yōu)化
先提升合作表現(xiàn),再理解其中原理
研究范圍
低維環(huán)境、可用的合作行為
高維環(huán)境、需學(xué)習(xí)的合作行為
評(píng)估標(biāo)準(zhǔn)
行為多樣性、機(jī)制合理性、模型簡(jiǎn)潔性
總體社會(huì)效益、算法可擴(kuò)展性、泛化能力
主要工具
分析方法、簡(jiǎn)化模型、數(shù)學(xué)推導(dǎo)
仿真方法、深度學(xué)習(xí)、算法設(shè)計(jì)
適用環(huán)境
小規(guī)模、低維的可解釋性環(huán)境
大規(guī)模、高維的復(fù)雜環(huán)境
優(yōu)勢(shì)
理論清晰、可解釋性強(qiáng)、計(jì)算負(fù)擔(dān)低
靈活適應(yīng)復(fù)雜情況、能直接優(yōu)化行為表現(xiàn)
通過(guò)上表可以分析得出,CSS擅長(zhǎng)提供理論基礎(chǔ),解釋合作如何從簡(jiǎn)單機(jī)制中演化出來(lái);而MARL擅長(zhǎng)在復(fù)雜環(huán)境中學(xué)習(xí)和優(yōu)化合作策略。兩者結(jié)合,能夠同時(shí)兼顧理論解釋力與實(shí)際適應(yīng)性,為理解和設(shè)計(jì)群體合作系統(tǒng)提供更加完備的工具。
(二)群體強(qiáng)化學(xué)習(xí)動(dòng)力學(xué):復(fù)雜合作的橋梁
復(fù)雜系統(tǒng)科學(xué)(CSS)與多智能體強(qiáng)化學(xué)習(xí)(MARL)的交叉融合為理解合作行為的涌現(xiàn)機(jī)制提供了新范式。通過(guò)將MARL視為復(fù)雜動(dòng)力系統(tǒng),我們可以建立兩者間的共同框架。CSS的數(shù)學(xué)工具能夠?yàn)镸ARL提供關(guān)于集體學(xué)習(xí)動(dòng)力學(xué)的定性洞察,而MARL則可以幫助CSS在動(dòng)態(tài)環(huán)境中形式化從認(rèn)知過(guò)程到集體行為的映射關(guān)系。這種互補(bǔ)性催生了“群體強(qiáng)化學(xué)習(xí)動(dòng)力學(xué)”(Collective Reinforcement Learning Dynamics, CRLD)這一新興研究方向。
CRLD研究呈現(xiàn)出典型的跨學(xué)科特征,融合了經(jīng)濟(jì)學(xué)(關(guān)注均衡收斂)、統(tǒng)計(jì)力學(xué)(研究非收斂場(chǎng)景)、機(jī)器學(xué)習(xí)(開(kāi)發(fā)可擴(kuò)展算法)、控制理論(系統(tǒng)穩(wěn)定性分析)以及數(shù)學(xué)生物學(xué)(生物適應(yīng)性建模)等多領(lǐng)域視角。其中,數(shù)學(xué)生物學(xué)和社會(huì)學(xué)的研究特別表明,強(qiáng)化學(xué)習(xí)可以作為生物合理的人類行為模型,這為研究合作行為提供了新思路。然而現(xiàn)有研究多聚焦于收斂性分析,對(duì)合作機(jī)制的系統(tǒng)性探討仍顯不足。
在方法論上,CRLD研究采用兩種理想化路徑:首先將高維MARL問(wèn)題簡(jiǎn)化為低維環(huán)境(如兩個(gè)智能體的靜態(tài)博弈),其次通過(guò)確定性學(xué)習(xí)方程(微分/差分方程)替代隨機(jī)強(qiáng)化學(xué)習(xí)算法。這種簡(jiǎn)化源自隨機(jī)近似理論或演化博弈論,其中復(fù)制動(dòng)力學(xué)既能描述種群演化過(guò)程,也能刻畫(huà)個(gè)體學(xué)習(xí)行為。值得注意的是,CRLD的獨(dú)特價(jià)值在于:它既能描述多智能體宏觀行為的低維動(dòng)力學(xué)特征,也能表征單個(gè)/少量智能體的理想化學(xué)習(xí)過(guò)程。
圖2:群體強(qiáng)化學(xué)習(xí)動(dòng)力學(xué)過(guò)程示意圖
CRLD在復(fù)雜系統(tǒng)科學(xué)(CSS)與多智能體強(qiáng)化學(xué)習(xí)(MARL)之間搭建了一座橋梁,其理論基礎(chǔ)建立在MARL的數(shù)學(xué)框架(圖2):在每一個(gè)時(shí)刻,每個(gè)智能體i ∈ {1, …, N}都可以從其對(duì)應(yīng)的動(dòng)作集合Ai中選擇一個(gè)動(dòng)作 (左側(cè)紅色部分)。這些智能體被嵌入到一個(gè)(物理、生態(tài)或社會(huì))環(huán)境中,該環(huán)境具有一組可能的狀態(tài)S。狀態(tài)會(huì)根據(jù)環(huán)境的轉(zhuǎn)移函數(shù) (, , ′)發(fā)生變化,智能體在從狀態(tài) s 經(jīng)過(guò)動(dòng)作 a 轉(zhuǎn)移到狀態(tài) s' 的過(guò)程中會(huì)接收到外部獎(jiǎng)勵(lì),對(duì)每個(gè)智能體 i,每次這樣的轉(zhuǎn)移都會(huì)得到一個(gè)數(shù)值獎(jiǎng)勵(lì):Ri(s, a, s')。
與傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法不同,CRLD使用一組動(dòng)力學(xué)方程來(lái)建模智能體的學(xué)習(xí)過(guò)程。和其他算法一樣,CRLD也存在多種不同的變體。在這里,作者使用時(shí)間差分學(xué)習(xí)(Temporal-Difference Learning)的動(dòng)力學(xué)方程加以示例:
圖3:群體強(qiáng)化學(xué)習(xí)動(dòng)力學(xué)方程說(shuō)明
其中圖中①表示智能體 i 在 t+1 時(shí)刻和狀態(tài)為 s時(shí) 選擇動(dòng)作 a 的概率,其更新規(guī)則由上一步的概率②與一個(gè)指數(shù)項(xiàng)相乘:這個(gè)指數(shù)項(xiàng)包含上一步的策略平均時(shí)間差分誤差⑤以及有效學(xué)習(xí)率④。此外③是歸一化因子,確保所有動(dòng)作概率之和為1,從而形成一個(gè)合法的概率分布。而智能體的聯(lián)合策略①是由上一次的策略②與一個(gè)根據(jù)時(shí)間差分誤差進(jìn)行調(diào)整的因子相乘得到的,這個(gè)誤差告訴智能體如何更新策略以便長(zhǎng)期獲得更多的獎(jiǎng)勵(lì)。
平均時(shí)間差分誤差⑤衡量的是當(dāng)前策略下,智能體在狀態(tài) s 選擇動(dòng)作 a 時(shí),期望獎(jiǎng)勵(lì)與現(xiàn)有估計(jì)的偏差,它會(huì)將所有因智能體策略隨機(jī)性和環(huán)境狀態(tài)轉(zhuǎn)移帶來(lái)的波動(dòng)進(jìn)行平均化。
圖4:公共產(chǎn)品博弈示例。圖4展示了一個(gè)用于研究生態(tài)臨界點(diǎn)環(huán)境下集體行為的示例。在該環(huán)境中,兩個(gè)智能體進(jìn)行一個(gè)標(biāo)準(zhǔn)的公共物品博弈(public goods game),每個(gè)個(gè)體通過(guò)合作都能獲得更好的結(jié)果,但每個(gè)智能體同時(shí)也有立即利用對(duì)方的動(dòng)機(jī)。然而,在本模型中,智能體被嵌入到一個(gè)動(dòng)態(tài)環(huán)境中,該環(huán)境包含兩種狀態(tài),一種是繁榮狀態(tài),另一種是退化狀態(tài)每當(dāng)有一個(gè)智能體選擇背叛(defecting),就會(huì)以qc / 2的幅度增加環(huán)境崩潰(collapse)的概率。一旦環(huán)境崩潰至退化狀態(tài),每個(gè)智能體在每個(gè)時(shí)間點(diǎn)都會(huì)遭受一個(gè)負(fù)面影響 m,直到環(huán)境以恢復(fù)概率pr回到繁榮狀態(tài)。(在本文中,作者使用的參數(shù)設(shè)置為m = –5,qc = 0.2,qr = 0.01。)
圖5:CRLD框架揭示的多穩(wěn)態(tài)現(xiàn)象(基于公共物品博弈仿真結(jié)果):(A)繁榮狀態(tài)的相空間;(B)臨界點(diǎn)附近的精細(xì)學(xué)習(xí)軌跡;(C)瞬態(tài)動(dòng)力學(xué)中的時(shí)間尺度分離;(D)臨界減速現(xiàn)象。 研究發(fā)現(xiàn)多穩(wěn)態(tài)性是群體強(qiáng)化學(xué)習(xí)動(dòng)力學(xué)研究中的重要特征之一,傳統(tǒng)MARL研究通常關(guān)注學(xué)習(xí)過(guò)程的最終收斂結(jié)果,而CSS方法則著眼于分析智能體在環(huán)境中學(xué)習(xí)時(shí)產(chǎn)生的完整動(dòng)力學(xué)行為。
通過(guò)對(duì)圖4示例在繁榮狀態(tài)下的相空間進(jìn)行可視化,我們可以觀察到每個(gè)箭頭代表智能體在當(dāng)前策略點(diǎn)感知的平均有效獎(jiǎng)勵(lì)預(yù)測(cè)誤差,這些箭頭直觀揭示了集體學(xué)習(xí)的方向演變。相空間視角凸顯了系統(tǒng)的穩(wěn)定性景觀,例如能夠識(shí)別當(dāng)前情境是否存在多個(gè)均衡點(diǎn)——圖5A中藍(lán)色學(xué)習(xí)軌跡收斂于相互合作的策略均衡,而紅色軌跡則趨向共同背叛,若假設(shè)初始策略分布均勻,特定均衡吸引域的大小直接決定了該均衡出現(xiàn)的概率。這種多穩(wěn)態(tài)現(xiàn)象具有多重意義:首先,合作均衡吸引域的規(guī)模可作為衡量集體(合作)智能的關(guān)鍵指標(biāo);其次,穩(wěn)定性景觀分析為研究社會(huì)-生態(tài)系統(tǒng)韌性提供了新工具;再者,特定均衡的選擇本質(zhì)上構(gòu)成了一種信息存儲(chǔ)機(jī)制,可解釋技術(shù)標(biāo)準(zhǔn)、文化規(guī)范等社會(huì)慣例的形成;最后,吸引域的相對(duì)尺寸為臨時(shí)團(tuán)隊(duì)協(xié)作研究提供了幾何視角,能預(yù)測(cè)新加入智能體對(duì)既有群體策略均衡的影響。在吸引域邊界(即相圖中的紫色虛線分隔線)附近,系統(tǒng)會(huì)呈現(xiàn)復(fù)雜的瞬態(tài)動(dòng)力學(xué)特征——如圖5B所示,分隔線附近微小的初始合作度差異將導(dǎo)致最終策略狀態(tài)的顯著分化。當(dāng)接近分岔點(diǎn)時(shí)(圖5C),學(xué)習(xí)軌跡會(huì)分離出快慢不同的演化方向,某些軌跡在180個(gè)時(shí)間步后看似收斂并保持200多步穩(wěn)定,卻突然轉(zhuǎn)向截然不同的策略,這種現(xiàn)象源于策略空間存在鞍點(diǎn)(圖5A紫色十字標(biāo)記)的幾何特性:在鞍點(diǎn)均衡附近,策略空間同時(shí)存在穩(wěn)定與不穩(wěn)定方向,智能體沿穩(wěn)定方向緩慢趨近鞍點(diǎn)后,一旦進(jìn)入不穩(wěn)定方向便會(huì)快速發(fā)散。值得注意的是(圖5D),系統(tǒng)收斂時(shí)間強(qiáng)烈依賴于初始策略位置,分隔線附近的收斂時(shí)間可比遠(yuǎn)離區(qū)域延長(zhǎng)一個(gè)數(shù)量級(jí),這種"臨界減速"現(xiàn)象表明在接近臨界點(diǎn)時(shí),系統(tǒng)時(shí)間尺度會(huì)顯著增大,此時(shí)單純討論收斂性已不足夠,必須精細(xì)考察外部參數(shù)變化引發(fā)的暫態(tài)動(dòng)力學(xué)及均衡間轉(zhuǎn)換過(guò)程。
圖6. CRLD框架揭示的臨界相變現(xiàn)象(基于公共物品博弈仿真結(jié)果)。(A)合作水平和最終獎(jiǎng)勵(lì)隨折扣因子的變化;(B) 收斂所需步數(shù)顯示在臨界點(diǎn)附近出現(xiàn)了明顯的“臨界減速”現(xiàn)象。 臨界相變現(xiàn)象是群體強(qiáng)化學(xué)習(xí)動(dòng)力學(xué)研究的核心議題之一——當(dāng)外部參數(shù)的微小變化引發(fā)系統(tǒng)行為的顯著改變時(shí),CSS理論將其稱為臨界相變(亦稱體制轉(zhuǎn)換、分岔、臨界點(diǎn)或相變)。在MARL框架中,這類外部參數(shù)包括學(xué)習(xí)超參數(shù)(如智能體的學(xué)習(xí)率,決定新信息覆蓋舊信息的程度)和環(huán)境定義參數(shù)(如圖3中環(huán)境崩潰的嚴(yán)重程度m和發(fā)生概率qc)。這種機(jī)制與經(jīng)典統(tǒng)計(jì)力學(xué)中的相變具有深刻類比:正如水在壓力/溫度參數(shù)變化下會(huì)呈現(xiàn)液態(tài)、固態(tài)、氣態(tài)等不同穩(wěn)定形態(tài),當(dāng)調(diào)節(jié)智能體的未來(lái)收益貼現(xiàn)因子(表征其對(duì)長(zhǎng)遠(yuǎn)福祉的重視程度)時(shí),系統(tǒng)也會(huì)發(fā)生行為模式的突變。圖6A清晰展示了這種轉(zhuǎn)變過(guò)程:當(dāng)貼現(xiàn)因子低于0.7時(shí),完全背叛策略具有全局穩(wěn)定性;超過(guò)0.85時(shí)完全合作策略成為全局穩(wěn)定解;而在0.7-0.85的臨界區(qū)間內(nèi),系統(tǒng)呈現(xiàn)雙穩(wěn)態(tài)特征——如圖4A所示,完全合作與完全背叛兩種均衡共存。這種轉(zhuǎn)變的突發(fā)性體現(xiàn)為圖2A中四分位數(shù)的劇烈跳變,而平均值的平滑變化則揭示吸引域從完全背叛到完全合作的連續(xù)遷移過(guò)程。在臨界區(qū)域附近,可以再次觀察到典型的“臨界減速”現(xiàn)象(圖6B):當(dāng)貼現(xiàn)因子約為0.75時(shí),學(xué)習(xí)耗時(shí)約為低貼現(xiàn)因子區(qū)的兩倍,比高貼現(xiàn)因子區(qū)更是高出近一個(gè)數(shù)量級(jí)。這一現(xiàn)象不僅強(qiáng)調(diào)了研究暫態(tài)學(xué)習(xí)動(dòng)力學(xué)的重要性,更啟發(fā)了潛在的應(yīng)用方向——CSS領(lǐng)域發(fā)展的“早期預(yù)警指標(biāo)”可被移植到集體學(xué)習(xí)過(guò)程中,用于檢測(cè)并主動(dòng)應(yīng)對(duì)臨近的相變點(diǎn)。值得注意的是,這種相變行為與社交-生態(tài)系統(tǒng)中突現(xiàn)的社會(huì)臨界點(diǎn)具有高度相似性,使得CRLD成為研究人地系統(tǒng)交互中突發(fā)性轉(zhuǎn)變的理想建模工具。通過(guò)精確調(diào)控學(xué)習(xí)率、環(huán)境壓力等參數(shù),研究者能夠模擬各類社會(huì)困境中合作規(guī)范的涌現(xiàn)閾值,為預(yù)測(cè)現(xiàn)實(shí)世界的系統(tǒng)性風(fēng)險(xiǎn)提供理論框架。
圖7:CRLD框架揭示的滯后效應(yīng)(基于公共物品博弈仿真結(jié)果)。當(dāng)系統(tǒng)經(jīng)歷臨界相變后,若逆向調(diào)整外部參數(shù)(如圖7中的收益貼現(xiàn)因子),系統(tǒng)狀態(tài)并不沿原路徑返回,即呈現(xiàn)典型的滯后效應(yīng)。與圖6獨(dú)立模擬各參數(shù)點(diǎn)不同,圖7通過(guò)緩慢連續(xù)調(diào)節(jié)貼現(xiàn)因子(0.7→0.9→0.7)揭示出顯著的非對(duì)稱行為:在貼現(xiàn)因子升至0.83時(shí),系統(tǒng)從背叛態(tài)突變?yōu)楹献鲬B(tài);而當(dāng)因子回降至0.7時(shí),合作態(tài)才崩潰回歸背叛態(tài)。這種0.7-0.83的滯后區(qū)間表明,智能體策略不僅取決于當(dāng)前參數(shù)值,更依賴于參數(shù)變化的歷史軌跡——本質(zhì)上構(gòu)成了一種環(huán)境驅(qū)動(dòng)的集體記憶。當(dāng)外部參數(shù)變化的時(shí)間尺度接近系統(tǒng)內(nèi)部學(xué)習(xí)動(dòng)力學(xué)尺度時(shí),可能引發(fā)更復(fù)雜的非線性現(xiàn)象(如自課程學(xué)習(xí)中的環(huán)境分布漸變)。這種滯后效應(yīng)為大規(guī)模MARL系統(tǒng)設(shè)計(jì)提供了新思路:通過(guò)構(gòu)建智能體間的認(rèn)知功能分布式網(wǎng)絡(luò),可使合作技能在環(huán)境分布動(dòng)態(tài)變化時(shí)保持魯棒性。結(jié)合多穩(wěn)態(tài)、臨界相變等復(fù)雜涌現(xiàn)現(xiàn)象,CRLD為分析和設(shè)計(jì)MARL系統(tǒng)提供了普適性框架。盡管這些現(xiàn)象在高維MARL中的存在性已獲驗(yàn)證,但其發(fā)生條件與工程化應(yīng)用(如通過(guò)參數(shù)調(diào)控實(shí)現(xiàn)合作穩(wěn)態(tài)的定向誘導(dǎo))仍是待探索的前沿領(lǐng)域。
三、應(yīng)用前景:認(rèn)知科學(xué)與集體動(dòng)力學(xué)的融合創(chuàng)新
CRLD框架的跨學(xué)科特性為解決集體合作問(wèn)題開(kāi)辟了多維應(yīng)用路徑。在認(rèn)知層面,該研究突破了傳統(tǒng)社會(huì)學(xué)習(xí)理論的局限,通過(guò)整合多智能體強(qiáng)化學(xué)習(xí)的認(rèn)知建模優(yōu)勢(shì)與復(fù)雜系統(tǒng)科學(xué)的分析工具,為理解異質(zhì)性認(rèn)知如何影響合作涌現(xiàn)提供了新范式。研究表明,當(dāng)智能體具備親社會(huì)偏好(將他者收益納入自身回報(bào)函數(shù))、內(nèi)在探索動(dòng)機(jī)(如好奇心驅(qū)動(dòng))以及精確的世界模型時(shí),合作更易形成;而部分可觀測(cè)環(huán)境中的認(rèn)知噪聲反而可能促進(jìn)合作,這種反直覺(jué)現(xiàn)象通過(guò)CRLD的隨機(jī)動(dòng)力學(xué)分析得到了合理解釋。針對(duì)大規(guī)模集體場(chǎng)景,研究團(tuán)隊(duì)借鑒統(tǒng)計(jì)物理中的平均場(chǎng)方法,通過(guò)福克-普朗克方程描述智能體群體的理想化學(xué)習(xí)行為,有效降低了高維狀態(tài)空間的計(jì)算復(fù)雜度,為分析城市交通調(diào)度、分布式能源網(wǎng)絡(luò)等現(xiàn)實(shí)系統(tǒng)提供了理論工具。在動(dòng)態(tài)環(huán)境建模方面,CRLD通過(guò)將復(fù)雜環(huán)境抽象為有限狀態(tài)的隨機(jī)博弈,既保持了分析的可操作性,又捕捉了環(huán)境反饋(如資源崩潰風(fēng)險(xiǎn)qc與恢復(fù)概率pr)與群體行為的耦合機(jī)制。特別值得注意的是,研究證實(shí)當(dāng)智能體對(duì)未來(lái)收益的折扣因子超過(guò)臨界值(0.85)時(shí),即使沒(méi)有互惠機(jī)制,系統(tǒng)也會(huì)自發(fā)從“公地悲劇”轉(zhuǎn)變?yōu)椤昂献飨矂 保@一發(fā)現(xiàn)為設(shè)計(jì)促進(jìn)可持續(xù)發(fā)展的行為干預(yù)策略提供了量化依據(jù)。這些突破性進(jìn)展彰顯了認(rèn)知建模、集體動(dòng)力學(xué)與環(huán)境科學(xué)交叉融合的巨大潛力,為應(yīng)對(duì)氣候變化等全球性挑戰(zhàn)提供了全新的理論框架和方法論支撐。
四、未來(lái)展望:群體合作智能的五大前沿方向
CRLD框架為集體合作研究開(kāi)辟了廣闊的研究前景,其中五個(gè)關(guān)鍵方向尤為值得關(guān)注。
首先是CRLD統(tǒng)一理論的構(gòu)建,需要深入探索不同強(qiáng)化學(xué)習(xí)更新機(jī)制的內(nèi)在原理及其相互關(guān)系,特別是要厘清哪些算法細(xì)節(jié)在集體層面真正影響合作涌現(xiàn)。這一理論突破將幫助我們建立從微觀學(xué)習(xí)規(guī)則到宏觀合作現(xiàn)象的完整認(rèn)知鏈條。
其次是對(duì)復(fù)雜動(dòng)態(tài)現(xiàn)象的系統(tǒng)研究,包括多穩(wěn)態(tài)、突變轉(zhuǎn)換、滯后效應(yīng)等非線性行為在CRLD和大規(guī)模MARL中的產(chǎn)生條件與應(yīng)用價(jià)值。這些現(xiàn)象的深入理解將為設(shè)計(jì)具有魯棒性的合作系統(tǒng)提供理論基礎(chǔ),特別是在社會(huì)-生態(tài)系統(tǒng)韌性評(píng)估方面具有重要應(yīng)用潛力。
第三個(gè)方向聚焦認(rèn)知機(jī)制的整合,需要突破現(xiàn)有框架的局限,將表征學(xué)習(xí)、世界模型、心智理論等高級(jí)認(rèn)知功能納入CRLD體系。特別值得關(guān)注的是內(nèi)在噪聲在動(dòng)態(tài)環(huán)境中促進(jìn)合作的特殊作用,這可能為解釋人類集體行為中的"非理性"合作現(xiàn)象提供新視角。
第四個(gè)關(guān)鍵方向是大規(guī)模群體中的合作機(jī)制。當(dāng)前各種均值場(chǎng)方法尚未形成統(tǒng)一框架,亟需建立能夠處理智能體異質(zhì)性和網(wǎng)絡(luò)結(jié)構(gòu)的普適性理論。這一突破將直接助力于智慧城市、分布式能源網(wǎng)絡(luò)等大規(guī)模人機(jī)混合系統(tǒng)的設(shè)計(jì)與優(yōu)化。
最后是動(dòng)態(tài)環(huán)境抽象方法的研究,需要建立不同尺度環(huán)境模型之間的對(duì)應(yīng)關(guān)系,發(fā)展既能保持關(guān)鍵特征又可解析處理的環(huán)境降維技術(shù)。重點(diǎn)探索環(huán)境不確定性、獎(jiǎng)勵(lì)延遲、空間擴(kuò)展性等因素如何影響合作學(xué)習(xí),這些發(fā)現(xiàn)將為氣候變化等全球性挑戰(zhàn)的治理提供科學(xué)依據(jù)。這五大方向的突破將共同推動(dòng)集體合作智能從理論到應(yīng)用的跨越式發(fā)展。
參考文獻(xiàn)
[1]Barfuss, Wolfram, et al. "Collective cooperative intelligence." Proceedings of the National Academy of Sciences 122.25 (2025): e2319948121.
[2]W. Barfuss, “Supplementary information to collective cooperative intelligence”. https://github.com/wbarfuss/collective-cooperative-intelligence. Zenodo. https://doi.org/10.5281/zenodo.11611242. Deposited 24 June 2024.
[3]Sehwag, Udari Madhushani, Alex McAvoy, and Joshua B. Plotkin. "Collective artificial intelligence and evolutionary dynamics." Proceedings of the National Academy of Sciences 122.25 (2025): e2505860122.
[4]McAvoy, Alex, et al. "Unilateral incentive alignment in two-agent stochastic games." Proceedings of the National Academy of Sciences 122.25 (2025): e2319927121.
[5]S. A. Levin, “Collective cooperation: From ecological communities to global governance and back” in Unsolved Problems in Ecology, A. Dobson , D. Tilman, R. D. Holt, Eds. (Princeton University Press, 2020), pp.
311–317.
[6]W. Barfuss, J. M. Meylahn, Intrinsic fluctuations of reinforcement learning promote cooperation. Sci. Rep. 13, 1309 (2023).
「大模型時(shí)代下的Agent建模與仿真」讀書(shū)會(huì)
集智俱樂(lè)部聯(lián)合山東工商學(xué)院副教授高德華、天津大學(xué)教授薛霄、北京師范大學(xué)教授張江、國(guó)防科技大學(xué)博士研究生曾利共同發(fā)起。讀書(shū)會(huì)自2025年7月8日開(kāi)始,每周二晚上7:30-9:30進(jìn)行,預(yù)計(jì)持續(xù)分享8周左右。掃碼加入Agent建模與仿真的前沿探索之旅,一起共學(xué)、共創(chuàng)、共建、共享「大模型時(shí)代下的Agent建模與仿真」社區(qū),共同暢想大模型時(shí)代人工社會(huì)的未來(lái)圖景!
核心問(wèn)題
Agent建模與仿真是什么,核心技術(shù)發(fā)生了怎樣的演變?
大模型時(shí)代,Agent建模與仿真會(huì)給復(fù)雜系統(tǒng)理論帶來(lái)哪些突破?
大模型如何賦能Agent實(shí)現(xiàn)自主思考與動(dòng)態(tài)適應(yīng)?
大模型驅(qū)動(dòng)的Agent交互會(huì)涌現(xiàn)出什么新型的社會(huì)現(xiàn)象?
Agent建模與仿真如何改變金融、心理、管理、軍事等領(lǐng)域的研究范式?
你將收獲
梳理Agent建模與仿真的歷史發(fā)展脈絡(luò)與方法論;
掌握一套理解、分析、控制、預(yù)測(cè)復(fù)雜系統(tǒng)的計(jì)算實(shí)驗(yàn)框架;
掌握基于多主體強(qiáng)化學(xué)習(xí)的復(fù)雜系統(tǒng)優(yōu)化方法;
領(lǐng)略領(lǐng)域前沿學(xué)者的研究體系與科研路徑。
詳情請(qǐng)見(jiàn):
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.