Extending Iterated, Spatialized Prisoners’ Dilemma to Understand Multicellularity- Game theory with Self-scaling Players
將迭代空間化囚徒困境擴(kuò)展至多細(xì)胞系統(tǒng):具有自縮放能力的玩家參與的博弈論
https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10970107
摘要
進(jìn)化發(fā)育生物學(xué)、生物醫(yī)學(xué)、神經(jīng)科學(xué)以及社會(huì)科學(xué)的許多方面都受到促進(jìn)活性亞單位合并為新興集體的力量的見(jiàn)解的影響。主體之間的互動(dòng)動(dòng)態(tài)通常在博弈論中研究,例如流行的囚徒困境(PD)范式,但這些模型對(duì)更高層次組織的影響,以及它們對(duì)主體如何區(qū)分自身與外界邊界的問(wèn)題的貢獻(xiàn),尚不清楚。在這里,我們應(yīng)用了一種空間化的、重復(fù)的PD模型,以理解由單細(xì)胞主體形成大規(guī)模組織(作為一個(gè)整體行動(dòng)的群體)的動(dòng)態(tài)。特別是,我們打破了PD的一個(gè)標(biāo)準(zhǔn)假設(shè):我們沒(méi)有固定數(shù)量的參與者在每一輪中選擇合作或背叛,而是讓個(gè)體的邊界保持流動(dòng),使主體能夠合并或分裂。允許主體的行為改變世界中的主體數(shù)量會(huì)導(dǎo)致非線性動(dòng)態(tài),這些動(dòng)態(tài)是事先未知的:是否會(huì)涌現(xiàn)出更高層次的(復(fù)合)個(gè)體?我們以亞單位的記憶大小為函數(shù),描述了集體形成的動(dòng)態(tài)變化。結(jié)果表明,當(dāng)主體的數(shù)量由主體的行為決定時(shí),PD動(dòng)態(tài)有利于多細(xì)胞性,包括結(jié)構(gòu)化細(xì)胞群體的出現(xiàn),最終導(dǎo)致一個(gè)完全合并的單一組織。這些更大的主體被發(fā)現(xiàn)比更小的主體具有更高的因果涌現(xiàn)性。此外,我們觀察到合并的連通性與相似行為傾向的空間分布不同,揭示了在物理結(jié)構(gòu)層面和行為傾向空間中可以共存豐富但不同的結(jié)構(gòu)。這些動(dòng)態(tài)引發(fā)了許多有趣且深刻的問(wèn)題,關(guān)于一個(gè)從代謝問(wèn)題空間向形態(tài)問(wèn)題空間轉(zhuǎn)變的自修改系統(tǒng)中的決策,以及集體智能如何出現(xiàn)、擴(kuò)展和模式化。
索引詞——集體智能,博弈論,重復(fù)囚徒困境
I. 引言
A. 新興主體與集體智能的擴(kuò)展
智能本質(zhì)上是一種集體現(xiàn)象,因?yàn)樗薪鉀Q問(wèn)題的主體都是由必須協(xié)同工作的部件組成的,這些部件的目標(biāo)屬于集體[1]。除了眾所周知的集體智能,如螞蟻和蜜蜂群體[2]–[6]以及機(jī)器人集群[7]–[10]之外,即使是看似統(tǒng)一的人類智能,也是由細(xì)胞組成的,這些細(xì)胞必須整合它們的活動(dòng)以產(chǎn)生新興的適應(yīng)性行為。一個(gè)令人興奮的研究項(xiàng)目處于復(fù)雜性、信息和認(rèn)知科學(xué)的交叉點(diǎn),旨在理解指導(dǎo)活性亞單位之間合作與競(jìng)爭(zhēng)互動(dòng)的決策如何產(chǎn)生新的集體心智[11]–[15]。
重要的是,集體智能的動(dòng)態(tài)不僅限于成年生物在其一生中的行為。正如圖靈[16]所認(rèn)識(shí)到的,心智的自創(chuàng)生與胚胎發(fā)育過(guò)程中身體的自組裝密切相關(guān)。無(wú)論是在發(fā)育時(shí)間尺度[17]上,還是在進(jìn)化時(shí)間尺度[18]–[21]上,推動(dòng)多細(xì)胞性的動(dòng)態(tài)是理解生命和心智的關(guān)鍵特征。理性主體從細(xì)胞組分中自我組裝而成(這些細(xì)胞本身由具有學(xué)習(xí)能力的化學(xué)網(wǎng)絡(luò)組成[22], [23]),就像胚胎是由細(xì)胞群體通過(guò)物理和行為上的對(duì)齊,在解剖結(jié)構(gòu)空間中導(dǎo)航而形成的。盡管這些過(guò)程的機(jī)制已經(jīng)開(kāi)始被理解,但關(guān)于單個(gè)細(xì)胞的決策以及它們的局部生理/代謝目標(biāo)如何產(chǎn)生解剖空間中的新興問(wèn)題解決能力以及最終在行為空間中的智能,仍有許多重要問(wèn)題亟待解決[24]。
盡管博弈論[25], [26]研究了塑造主體之間互動(dòng)的力量,但它尚未與描述主體從其組成部分起源和擴(kuò)展的形式化方法充分整合[27], [28]。是什么讓我們能夠識(shí)別一個(gè)胚胎(一個(gè)個(gè)體)與大量獨(dú)立細(xì)胞的集合?在胚胎發(fā)育過(guò)程中,每個(gè)細(xì)胞都有其他細(xì)胞作為鄰居,但胚胎的出現(xiàn)是因?yàn)榧?xì)胞合并成生理信號(hào)網(wǎng)絡(luò),這些網(wǎng)絡(luò)通過(guò)共享記憶和應(yīng)激景觀[17], [29]合作實(shí)現(xiàn)形態(tài)發(fā)生目標(biāo)(形成正確的物種特異性解剖結(jié)構(gòu))。
然而,這是一個(gè)非常活躍的過(guò)程:胚胎原腸胚中個(gè)體的數(shù)量(以及“自我”,在經(jīng)濟(jì)和博弈論形式化中“自身利益”的意義上,以及在行為科學(xué)中一個(gè)集中化、單一的決策主體的意義上)并非由遺傳學(xué)固定:它可能是0、1(單胎)或幾個(gè)(連體雙胞胎、三胞胎等),這取決于將原腸胚區(qū)域化為一定數(shù)量的自主但內(nèi)部一致的形態(tài)發(fā)生區(qū)域的生理因素。實(shí)際的個(gè)體數(shù)量以及主體之間的邊界是細(xì)胞決策的動(dòng)態(tài)結(jié)果,這些決策涉及它們建立和維持的連接[27]。博弈論是一個(gè)重要的工具,可以用來(lái)開(kāi)始解開(kāi)需要在局部自身利益與全局、長(zhǎng)期目標(biāo)之間進(jìn)行優(yōu)化的亞單位的決策。大多數(shù)博弈論形式化方法都假設(shè)有固定且已知數(shù)量的參與者,他們的行為會(huì)影響他們的福祉,但不會(huì)影響他們的本質(zhì)屬性。這限制了博弈論方法在胚胎發(fā)育、癌癥以及其他主體的大小、規(guī)模和組成不僅具有可塑性,而且可以受到其行為影響的場(chǎng)景中的適用性。
為了將經(jīng)濟(jì)學(xué)和博弈論的方法與多細(xì)胞性的進(jìn)化和集體智能的動(dòng)態(tài)問(wèn)題統(tǒng)一起來(lái),我們構(gòu)建并分析了一個(gè)計(jì)算模擬,模擬了一個(gè)自我參照的理性自私系統(tǒng),其中主體可以合并或分裂,將自我與世界之間的邊界大小作為他們可以執(zhí)行的行為之一。我們模糊了傳統(tǒng)上固定的主體與可能的行為之間的界限,并分析了一個(gè)模擬世界,在這個(gè)世界中,主體與世界之間的邊界不是固定的,修改了經(jīng)濟(jì)學(xué)和博弈論中一個(gè)常用的形式化方法——囚徒困境。
B. 囚徒困境及其變體
囚徒困境(PD)是博弈論中的一個(gè)理論框架,描述了兩個(gè)玩家在某一特定時(shí)間點(diǎn)處理決策問(wèn)題時(shí)的合作與競(jìng)爭(zhēng)的演變[30], [31]。生物學(xué)和經(jīng)濟(jì)學(xué)中的現(xiàn)實(shí)場(chǎng)景通常會(huì)在更長(zhǎng)的時(shí)間跨度內(nèi)展開(kāi),其中主體會(huì)與多個(gè)互動(dòng)伙伴處于類似的情境中。這種情境,伴隨著不同程度的歷史性(玩家對(duì)互動(dòng)的個(gè)體記憶),通過(guò)重復(fù)囚徒困境(IPD)進(jìn)行了研究[32]。在IPD設(shè)置中,主體會(huì)考慮與他主體未來(lái)互動(dòng)的不確定性,并相應(yīng)地發(fā)展出時(shí)間依賴的策略,以獲得更好的收益[33], [34]。當(dāng)考慮到記憶的作用時(shí),IPD中的策略類型變得有趣:例如,如果允許主體記住對(duì)手之前的行動(dòng),就會(huì)出現(xiàn)具有敵意、寬恕、利他、嫉妒和互惠等特質(zhì)的多樣化策略[35]。如果這些策略被允許依賴于過(guò)去的N步(“N記憶策略”),它們會(huì)呈現(xiàn)出概率性特征,策略成為主體與對(duì)手過(guò)去“N”次相遇的函數(shù)[36], [37]。
IPD游戲并不局限于兩人設(shè)置,還可以涉及分布在空間中的多個(gè)主體。在這種空間化的設(shè)置中,位置信息決定了主體的互動(dòng)性,進(jìn)而影響其行為,為集體動(dòng)態(tài)引入了另一個(gè)復(fù)雜因素[38], [39]。鑒于主體在這種設(shè)置中遇到的迭代互動(dòng)的組合,分析工具需要比非空間化情況更為復(fù)雜[40]。因此,研究者通過(guò)采用強(qiáng)化學(xué)習(xí)(RL)框架來(lái)探索動(dòng)態(tài)策略。主體現(xiàn)在可以被視為一個(gè)獨(dú)立實(shí)體,通過(guò)優(yōu)化其策略以在長(zhǎng)時(shí)期內(nèi)最大化其收益[32], [41], [42]。盡管這提供了額外的建模能力,但大多數(shù)文獻(xiàn)中的工作在采用RL時(shí)假設(shè)了相互作用的主體數(shù)量是固定的。
在本研究中,我們考慮了一個(gè)多主體、隨機(jī)、基于記憶的IPD公式,其中主體數(shù)量是變化的:二維世界中的細(xì)胞可以選擇與鄰居連接(或斷開(kāi)連接),就像真實(shí)的生物細(xì)胞可以通過(guò)縫隙連接等方式相互連接以共享代謝、信息和其他功能方面一樣。這種數(shù)量的變化是通過(guò)在每個(gè)個(gè)體PD游戲中引入合并或分裂的可能性來(lái)實(shí)現(xiàn)的。在模擬過(guò)程中,通過(guò)合并或分裂,主體數(shù)量會(huì)減少或增加:選擇合并的主體會(huì)聚合成一個(gè)新的主體;相反,選擇分裂的合并主體會(huì)分解為其組成主體。IPD游戲中數(shù)量的波動(dòng)是理解從生物學(xué)(胚胎發(fā)育、再生和癌癥中的自組織行為[1], [43]–[45])到經(jīng)濟(jì)學(xué)(合并、收購(gòu)、拆分及其對(duì)經(jīng)濟(jì)的影響[31], [46])再到心理學(xué)(人類內(nèi)部多個(gè)“自我”之間的決策行為[47])等不同領(lǐng)域中合作動(dòng)態(tài)的重要部分。
II. 方法
我們模擬了多個(gè)具有記憶的主體之間進(jìn)行空間化的重復(fù)囚徒困境(IPD)游戲。與傳統(tǒng)的囚徒困境(PD)游戲不同,我們的主體的動(dòng)作空間擴(kuò)展了兩個(gè)額外的動(dòng)作:合并(Merge)和分裂(Split),相應(yīng)的收益矩陣也進(jìn)行了擴(kuò)展(圖1A.II)。選擇執(zhí)行“合并”動(dòng)作的主體會(huì)與另一個(gè)主體結(jié)合,形成一個(gè)整體。相反,選擇“分裂”的合并主體會(huì)分解為其組成主體。由于這兩種操作,參與游戲的活躍主體數(shù)量在模擬過(guò)程中會(huì)發(fā)生變化。我們觀察了合并和分裂對(duì)主體行為的影響,記錄了它們的記憶、適應(yīng)度分?jǐn)?shù)以及它們形成多主體集群的傾向。
A. 世界狀態(tài)
每次模擬涉及在大小為 (N X M) 的矩形網(wǎng)格中放置的主體之間進(jìn)行的游戲(圖1A.I)。世界狀態(tài)中的主體占據(jù)網(wǎng)格中離散的位置,對(duì)應(yīng)于網(wǎng)格中的單個(gè) (i, j) 單元格(其中 (i = 1 ... N),(j = 1 ... M)。每個(gè)主體攜帶:a) 它自己的記憶(最初為空),以及 b) 一個(gè)將記憶狀態(tài)映射到動(dòng)作的策略表,初始值為隨機(jī)值。主體被設(shè)計(jì)為僅與其鄰居(包括對(duì)角線方向)進(jìn)行IPD游戲(以主體為中心的3x3鄰域)。
單次游戲的展開(kāi)過(guò)程如下:隨機(jī)選擇一個(gè)主體(假設(shè)為“挑戰(zhàn)者”)及其一個(gè)鄰居(假設(shè)為“對(duì)手”)(圖1B.I)。為了確定要執(zhí)行的動(dòng)作,挑戰(zhàn)者構(gòu)建一個(gè)“記憶狀態(tài)”,并使用該狀態(tài)從其策略表中采樣一個(gè)動(dòng)作。同時(shí),對(duì)手構(gòu)建自己的“記憶狀態(tài)”,并使用它從自己的策略表中采樣一個(gè)動(dòng)作。根據(jù)各自的動(dòng)作,每個(gè)主體獲得一個(gè)收益分?jǐn)?shù)(圖1B.II),挑戰(zhàn)者和對(duì)手使用該分?jǐn)?shù)更新它們的記憶和策略表。最后,世界狀態(tài)被更新以反映這些變化(圖1B.III)。
B. 主體記憶
主體的記憶是其與不同對(duì)手采取行動(dòng)的歷史記錄,其大小由一個(gè)稱為記憶大小的超參數(shù)決定。鑒于記憶大小在決定主體能夠在多大程度上“參考”過(guò)去以做出當(dāng)前決策方面的作用,我們將其作為主體所擁有的“智能”程度的代理。
C. 記憶狀態(tài)
主體的記憶狀態(tài)是其與其他主體過(guò)去行為的綜合記錄,提供有關(guān)其當(dāng)前狀態(tài)的信息。我們通過(guò)一個(gè)例子來(lái)說(shuō)明其構(gòu)建過(guò)程:考慮兩個(gè)主體之間進(jìn)行的一場(chǎng)游戲:挑戰(zhàn)者和它的鄰居對(duì)手。在幾輪游戲 k 之后,假設(shè)挑戰(zhàn)者的記憶是一個(gè)列表:
這種記憶狀態(tài)的構(gòu)建方式考慮了挑戰(zhàn)者和對(duì)手的過(guò)去行為,為主體提供了一個(gè)狀態(tài)表示,它們可以根據(jù)此采取后續(xù)行動(dòng)。這一方法由[32]引入,我們?cè)诒疚闹斜3植蛔儭?/p>
D. 策略表
除了記憶之外,每個(gè)主體還攜帶一個(gè)將記憶狀態(tài)映射到動(dòng)作的策略表。我們實(shí)驗(yàn)的一個(gè)創(chuàng)新之處是在囚徒困境中的“合作”和“背叛”動(dòng)作之外,增加了“合并”和“分裂”動(dòng)作。主體使用策略表首先采樣動(dòng)作,然后根據(jù)收到的收益分?jǐn)?shù)更新其值。鑒于存在策略表和記憶,我們將每個(gè)主體的設(shè)置視為一個(gè)強(qiáng)化學(xué)習(xí)框架,并采用與[32]類似的方法。策略表的更新規(guī)則基于無(wú)模型的強(qiáng)化學(xué)習(xí)算法:Q學(xué)習(xí)。
E. 合并操作符
如果兩個(gè)主體(假設(shè)為挑戰(zhàn)者和對(duì)手)中的任何一個(gè)選擇執(zhí)行“合并”動(dòng)作,它們可以合并成一個(gè)復(fù)合主體。結(jié)果產(chǎn)生的主體獲得了一個(gè)新的標(biāo)識(shí)符(圖1C.II);其記憶、策略表和超參數(shù)根據(jù)哪一個(gè)主體具有最高的時(shí)間平均收益分?jǐn)?shù)而從挑戰(zhàn)者或?qū)κ种欣^承。(我們還嘗試了其他機(jī)制:選擇低適應(yīng)度組成部分的記憶、策略表和超參數(shù),或者隨機(jī)選擇一個(gè)組成部分。我們將在討論部分和補(bǔ)充材料1中詳細(xì)闡述這些結(jié)果。)在合并過(guò)程之后,合并后的主體占據(jù)了其組成部分的物理位置(圖1C.III)。
F. 分裂操作符
合并后的主體也可以分解為其組成部分(圖1C.IV)。如果在一場(chǎng)游戲中,兩個(gè)主體(假設(shè)為復(fù)合主體或單體對(duì)手)選擇執(zhí)行“分裂”動(dòng)作,那么執(zhí)行分裂動(dòng)作的主體可以分解為其組成部分,前提是它可以被分解為更簡(jiǎn)單的部分。例如,選擇分裂的復(fù)合主體可以被分解為其直接的組成部分主體(即創(chuàng)建它的那兩個(gè)主體),這些組成部分繼承了它的記憶、策略和超參數(shù)。然而,如果在同一場(chǎng)游戲中,單體對(duì)手(一個(gè)不能再被分解的單一主體)執(zhí)行了分裂動(dòng)作,則其意圖被忽略(圖1C.VI)。
G. 適應(yīng)度分?jǐn)?shù)
主體的適應(yīng)度分?jǐn)?shù)是其在游戲中獲得的平均收益分?jǐn)?shù):
其中, R(t) 是在時(shí)間(游戲輪次) t 時(shí)收到的收益分?jǐn)?shù), T 是在評(píng)估時(shí)已經(jīng)進(jìn)行的總游戲輪次。
H. 選擇
在預(yù)設(shè)的概率下,如果世界狀態(tài)中表現(xiàn)較差(以適應(yīng)度分?jǐn)?shù)衡量)的主體 A 的表現(xiàn)不如其鄰居集合 P 中的任何一個(gè)主體,那么主體 A 將被一個(gè)新主體替換,新主體的策略與集合 P 中表現(xiàn)最好的主體的策略相同。
III. 結(jié)果
我們開(kāi)展了一系列涉及合并(Merge)和分裂(Split)操作符的重復(fù)囚徒困境(IPD)游戲的實(shí)驗(yàn)(稱為“IPD-ms”),通過(guò)這些操作可以修改每個(gè)主體的邊界。在研究影響結(jié)果動(dòng)態(tài)的因素時(shí),我們優(yōu)先調(diào)查了主體的記憶大小,因?yàn)橹黧w決定建立或打破邊界預(yù)計(jì)會(huì)是其過(guò)去經(jīng)驗(yàn)的函數(shù)。因此,我們的實(shí)驗(yàn)旨在研究合并或分裂操作對(duì)主體記憶大小的影響。我們從主體被均勻分配固定記憶大小的模擬開(kāi)始,最終轉(zhuǎn)向具有異質(zhì)性記憶大小混合的模擬。
A. 較高的記憶大小允許積極合并
首先,為了探究主體傾向于合并還是分裂(分別增加或減少其邊界大小),我們模擬了IPD-ms游戲,并監(jiān)測(cè)了模擬過(guò)程中主體的平均大小(圖2)。具體來(lái)說(shuō),我們運(yùn)行了四次IPD-ms模擬,每次模擬包含400個(gè)主體,放置在一個(gè)20x20的網(wǎng)格中,初始記憶大小固定為1、2、3或4,持續(xù)時(shí)間為50k游戲輪次。在每次模擬中,我們繪制了每個(gè)主體的平均大小(“平均組織大小”),由于合并或分裂操作的存在,該值可以分別增加或減少到介于[1, 400]之間的整數(shù)值。
從我們的模擬中,我們觀察到記憶大小為1的主體表現(xiàn)出較低的平均組織大小,其最大值在游戲 ≈ 2k時(shí)達(dá)到16(±6),并在模擬結(jié)束時(shí)減少到 ≈ 4(±2)(圖2.I)。相比之下,記憶大小為2、3和4的主體在不到5k游戲輪次內(nèi)成功達(dá)到了最大可能的組織大小400。模擬沒(méi)有超過(guò)這一點(diǎn)的原因與缺乏對(duì)手有關(guān):組織大小為400表明存在一個(gè)完全合并的統(tǒng)一主體,大小為400,沒(méi)有其他主體可供游戲互動(dòng)。這種向完全合并的統(tǒng)一主體的驅(qū)動(dòng)被觀察到以組織大小快速上升和恒定平衡的周期性方式發(fā)生。例如,在記憶大小為2的模擬中(圖2.II),我們觀察到組織大小的上升-平衡動(dòng)態(tài)發(fā)生了三個(gè)周期;在記憶大小為3的模擬中發(fā)生了五個(gè)周期(圖2.III),而在記憶大小為4的模擬中發(fā)生了兩個(gè)周期(圖2.IV)。
此外,我們觀察到達(dá)到統(tǒng)一主體狀態(tài)所需的時(shí)間隨著記憶大小的增加而減少。例如,記憶大小為2的主體需要 ≈ 3.9k游戲輪次才能成長(zhǎng)為統(tǒng)一主體;記憶大小為3的主體需要減少100輪游戲,而記憶大小為4的主體需要減少 ≈ 1100輪游戲。我們得出結(jié)論,記憶大小為1的主體在整個(gè)模擬過(guò)程中保持相對(duì)較低的組織大小,沒(méi)有形成大集群的趨勢(shì)。記憶大小在[2, 4]范圍內(nèi)的主體表現(xiàn)出其組織大小的上升-平衡階段的周期性模式,且這些主體成長(zhǎng)為統(tǒng)一主體所需的時(shí)間隨著記憶大小的增加而減少。
B. 多細(xì)胞組織優(yōu)于單細(xì)胞組織
其次,為了檢查具有較大組成部分的合并主體是否比個(gè)體主體獲得更高的分?jǐn)?shù),我們模擬了IPD-ms游戲,在模擬過(guò)程中比較了單個(gè)大小主體(“單細(xì)胞組織”)和合并多大小主體(“多細(xì)胞組織”)的適應(yīng)度值(圖3B)。與我們之前的實(shí)驗(yàn)類似,我們模擬了四個(gè)獨(dú)立的IPD-ms實(shí)驗(yàn),每個(gè)實(shí)驗(yàn)包含400個(gè)主體,放置在一個(gè)20x20的網(wǎng)格中,初始記憶大小固定為1、2、3或4,并運(yùn)行了50k游戲。我們?cè)诿總€(gè)時(shí)間步繪制了單細(xì)胞主體集群的平均適應(yīng)度和多細(xì)胞主體集群的平均適應(yīng)度。
我們的模擬結(jié)果顯示,在不同記憶大小的情況下,多細(xì)胞組織的平均表現(xiàn)優(yōu)于單細(xì)胞組織(圖3A;面板I、II、III和IV)。在記憶大小為1的主體中,這種優(yōu)勢(shì)在整個(gè)50k游戲過(guò)程中是一致的(平均適應(yīng)度差距為2.0分)(;在幾個(gè)游戲步驟中測(cè)量)。在記憶大小為2的主體中,多細(xì)胞優(yōu)勢(shì)持續(xù)了2k游戲輪次(平均適應(yīng)度差距約為4.0分();但此后我們注意到兩種組織的適應(yīng)度急劇下降(平均差距為0.5分),其值在剩余的1.9k游戲輪次中趨于收斂,最終形成一個(gè)單一主體(圖3A.II)。在記憶大小為3和4的主體中也觀察到了類似的模式:多細(xì)胞優(yōu)勢(shì)持續(xù)了2k時(shí)間步,隨后適應(yīng)度值趨于收斂,分別持續(xù)了1.8k和0.7k游戲輪次(圖3A.III、3A.IV)。
我們得出結(jié)論,在記憶大小為1的主體群體中,多細(xì)胞組織在整個(gè)模擬過(guò)程中優(yōu)于單細(xì)胞組織。在更高的記憶大小下,存在兩個(gè)階段:一個(gè)多細(xì)胞組織優(yōu)于單細(xì)胞組織的初始階段,以及隨后的一個(gè)階段,它們的適應(yīng)度值趨于收斂并最終減少到0,表明存在一個(gè)完全合并的統(tǒng)一主體。
C. 高度的組內(nèi)合作并不導(dǎo)致高度的組間合作
第三,我們檢查了在不同記憶大小下,單細(xì)胞和多細(xì)胞集群的合作傾向。我們通過(guò)模擬IPD-ms游戲,并觀察單細(xì)胞和多細(xì)胞主體在整個(gè)模擬過(guò)程中表現(xiàn)出的主體間合作來(lái)實(shí)現(xiàn)這一點(diǎn)(圖4)。為此,我們運(yùn)行了四次IPD-ms模擬,每次模擬包含400個(gè)主體,放置在一個(gè)20x20的網(wǎng)格中,初始記憶大小固定為1、2、3或4,并持續(xù)50k游戲輪次。在每次模擬中,我們將主體分為兩組:1. 合并的主體(多細(xì)胞組織);2. 未合并的個(gè)體主體(單細(xì)胞組織)。模擬開(kāi)始時(shí),世界狀態(tài)由單細(xì)胞組織組成;但由于合并和分裂動(dòng)作的存在,這個(gè)集群會(huì)將其數(shù)量讓給(或從)多細(xì)胞組織集群。在模擬的任何時(shí)刻,我們檢查單細(xì)胞組織與其他組織(單細(xì)胞或多細(xì)胞)合作的數(shù)量,并且同樣檢查多細(xì)胞組織與其他組織(單細(xì)胞或多細(xì)胞)合作的數(shù)量。這個(gè)值被繪制為它們各自群體大小的比例。
在測(cè)試記憶對(duì)結(jié)果動(dòng)態(tài)的影響時(shí),我們檢查了“合作傾向”作為記憶大小的函數(shù)(不是適應(yīng)度,僅僅是行為上的合作)。我們觀察到,在所有四種記憶大小下,多細(xì)胞組織的合作方式與單細(xì)胞組織完全相同。例如,記憶大小為1的單細(xì)胞和多細(xì)胞主體在整個(gè)50k游戲過(guò)程中表現(xiàn)出的合作傾向沒(méi)有差異(p = 0.92)(圖4.I)。在記憶大小為2、3和4的模擬中也發(fā)現(xiàn)了類似的動(dòng)態(tài)(對(duì)應(yīng)的(p)值分別為0.8、0.91和0.86;圖4.II、4.III和4.IV)。此外,在所有四種記憶大小下,組織群體的合作比例達(dá)到了40%的峰值,但在大部分模擬時(shí)間內(nèi),其值保持在30%以下。
此外,我們觀察到記憶大小對(duì)穩(wěn)定性的影響存在波動(dòng):記憶大小為1的組織群體表現(xiàn)出較大的不穩(wěn)定性,其標(biāo)準(zhǔn)差在整個(gè)模擬過(guò)程中約為10(圖4.I)。記憶大小為2、3和4的組織群體表現(xiàn)出更高的穩(wěn)定性,主體在前2k游戲輪次中表現(xiàn)出相對(duì)較低的標(biāo)準(zhǔn)差,隨后在主體聚合成一個(gè)完全合并的統(tǒng)一主體之前,標(biāo)準(zhǔn)差短暫增加,之后又降低。
我們得出結(jié)論,主體形成較大集群的傾向并不會(huì)使其與其他主體的合作傾向高于較小集群。此外,增加主體的記憶大小在統(tǒng)計(jì)上并沒(méi)有顯著影響大集群中主體之間的合作。
D. 合并/分裂使群體的記憶分布偏向較小的尺寸
接下來(lái),我們研究了當(dāng)主體被允許進(jìn)行傳統(tǒng)IPD游戲與IPD-ms游戲時(shí)的記憶偏好。與之前的實(shí)驗(yàn)不同,群體被初始化為具有異質(zhì)性混合記憶大小,這些記憶大小在0到4(包括0和4)之間均勻隨機(jī)選擇。鑒于群體的異質(zhì)性內(nèi)容,主體還有另一種途徑在適應(yīng)度上超越其他主體:利用較大或較短的記憶大小來(lái)發(fā)展更好的策略。
由于合并和分裂操作符的存在,IPD-ms群體中的記憶大小可能會(huì)波動(dòng),這些操作符的作用允許“淘汰”表現(xiàn)不佳的記憶大小:例如,考慮兩個(gè)主體A1和A2,它們的記憶大小分別為1和4,適應(yīng)度值分別為2.0和10.0,假設(shè)它們?cè)谀M過(guò)程中的某一輪游戲中選擇合并,那么結(jié)果產(chǎn)生的主體(假設(shè)為A3)將繼承適應(yīng)度較高的主體A2的記憶大小,從而“淘汰”表現(xiàn)不佳的主體A1的“特征”。
我們的目標(biāo)是觀察合并和分裂操作符在影響群體記憶大小分布方面的作用。為此,我們模擬了兩個(gè)實(shí)驗(yàn),持續(xù)100k輪游戲:a)主體進(jìn)行傳統(tǒng)的合作-背叛IPD游戲;b)主體進(jìn)行包含四個(gè)動(dòng)作的IPD-ms游戲(圖5)。在每個(gè)實(shí)驗(yàn)中,400個(gè)主體被放置在一個(gè)20x20的網(wǎng)格中,并且其記憶大小在0到4(包括0和4)之間均勻初始化,我們的目標(biāo)是監(jiān)測(cè)整個(gè)模擬過(guò)程中記憶大小的分布。
我們觀察到,在IPD群體中,平均記憶大小在整個(gè)模擬過(guò)程中保持不變(沒(méi)有變化),而IPD-ms群體在游戲 ≈ 2k時(shí)平均記憶大小略有增加,隨后急劇下降到1.0,這表明群體傾向于選擇具有較低記憶大小的主體(圖5A)。我們通過(guò)觀察最終(第50k輪)游戲時(shí)記憶大小分布的直方圖來(lái)驗(yàn)證這種行為,結(jié)果表明IPD-ms群體傾向于從低記憶大小中采樣(圖5B)。具體來(lái)說(shuō),80%的群體由記憶大小為0(執(zhí)行無(wú)記憶的隨機(jī)策略)或記憶大小為1的主體組成。剩下的20%的群體由記憶大小為3的主體組成。我們將這種不均衡歸因于記憶大小為0和1的主體具有較高的適應(yīng)度值(適應(yīng)度 = 4.4),而記憶大小為3的主體適應(yīng)度值較低(適應(yīng)度 = 1.3)(圖5B;黑色曲線,右側(cè)y軸)。
在IPD群體的情況下,我們?cè)谀M了50k輪游戲后觀察到記憶大小的均勻分布(圖5C),適應(yīng)度值在6.3到7.0之間,分布較為均勻且方差較小(圖5C,黑色曲線,右側(cè)y軸)。
我們得出結(jié)論,在IPD-ms游戲中,合并/分裂的能力賦予了具有較低記憶(甚至沒(méi)有記憶)的主體適應(yīng)度優(yōu)勢(shì)。這種適應(yīng)度優(yōu)勢(shì)使得低記憶大小的主體能夠超越其高記憶大小的對(duì)手,并隨著時(shí)間的推移在群體中占據(jù)主導(dǎo)地位。相比之下,進(jìn)行傳統(tǒng)合作/背叛IPD游戲的主體沒(méi)有表現(xiàn)出這種不均衡性,而是保持了大致相似的適應(yīng)度值。
E. 形態(tài)學(xué)模式是連續(xù)合并的結(jié)果
為了可視化合并集群的空間分布,我們?cè)谑澜鐮顟B(tài)中對(duì)不同大小的組織進(jìn)行了顏色編碼,并觀察了它們?cè)谡麄€(gè)模擬過(guò)程中的演變。具體來(lái)說(shuō),我們進(jìn)化了一個(gè)由400個(gè)主體組成的單一IPD-ms群體,每個(gè)主體的記憶大小固定為2,排列在一個(gè)20x20的網(wǎng)格中。在模擬的每一步,我們通過(guò)根據(jù)主體的大小(“集群大小”)對(duì)主體進(jìn)行空間著色來(lái)可視化世界狀態(tài)(圖6)。隨著主體進(jìn)行IPD-ms游戲,我們觀察到模式的多樣性不斷增加:從均勻分布的世界狀態(tài)開(kāi)始,出現(xiàn)了一個(gè)復(fù)雜的組織集群(從左到右、從上到下追蹤圖6A),其空間分布最終隨著完全合并的統(tǒng)一主體的出現(xiàn)而變得均勻(圖6A.IX)。
出現(xiàn)的模式的一個(gè)奇特特征是相似大小的組織傾向于聚集在一起,較小的組織聚集在較大組織的周圍。為了量化一種特定組織大小與其他組織大小的分布關(guān)系,我們測(cè)量了找到大小為X的主體與大小為Y的主體相鄰的概率。這種量化結(jié)果是一個(gè)熱圖(圖6B),其中行表示大小X,列表示大小Y,任何(X, Y)組合表示找到大小為X的集群與大小為Y的集群相鄰的概率。我們觀察到,較小的組織(大小在1到50之間)(圖6B中的Y變量)傾向于聚集在任何可能的解剖大小的主體周圍(圖6B中的X變量),這表明無(wú)論主體的組織大小如何,其周圍都有較高概率存在較小的主體(組織大小小于50)。
近鄰組織的后果是關(guān)于邊界的提問(wèn):如果兩個(gè)相似大小的集群彼此相鄰,外部觀察者如何劃分它們各自的邊界?觀察者將它們誤認(rèn)為是一個(gè)連續(xù)主體的可能性有多大?例如,考慮圖6.C中顯示的世界狀態(tài)的一個(gè)部分(為了視覺(jué)支持繪制了網(wǎng)格線)。圖中包含多個(gè)大小相似的主體,它們緊密聚集在一起。我們請(qǐng)讀者注意網(wǎng)格左側(cè)用虛線標(biāo)記的兩個(gè)這樣的群體。如果沒(méi)有這些明確繪制的關(guān)于它們主體邊界的真值信息,外部觀察者在特定時(shí)間步查看群體快照時(shí),很自然地會(huì)將這些相鄰放置的主體視為一個(gè)單一主體,而實(shí)際上它們是具有獨(dú)立策略的多個(gè)主體。這種誤歸因說(shuō)明了從多尺度復(fù)雜系統(tǒng)的結(jié)構(gòu)觀察中,確定生物學(xué)中目標(biāo)導(dǎo)向自主主體(以及外部世界)之間的邊界是多么困難。實(shí)際上,這說(shuō)明了結(jié)構(gòu)上連續(xù)的組織的出現(xiàn),其生理區(qū)域化在解剖水平上并不明顯。
我們得出結(jié)論,允許主體邊界流動(dòng)的IPD動(dòng)態(tài)逐漸導(dǎo)致集群的出現(xiàn),相對(duì)較小的“組織”聚集在相對(duì)較大的聚合體周圍。因此,IPD動(dòng)態(tài)產(chǎn)生了豐富的新興空間(形態(tài)學(xué))模式,讓人聯(lián)想到生物學(xué)組織,但從這種拓?fù)湫畔⒅胁荒軉为?dú)推斷出集群內(nèi)部和集群之間的行為一致性。
F. 整合信息理論強(qiáng)調(diào)較大的主體比小的主體與環(huán)境更整合
在識(shí)別出這個(gè)系統(tǒng)中的新興空間結(jié)構(gòu)后,我們研究了更大規(guī)模集群的另一個(gè)關(guān)鍵組成部分:信息整合。大量文獻(xiàn)[49]–[58]展示了在某些架構(gòu)中,更高層次的組織如何獲得整合自主性,并成為顯著超越其組成部分的主體。多細(xì)胞合并集群所誘導(dǎo)的組織是否表現(xiàn)出顯著的信息整合?
本質(zhì)上,計(jì)算了整體對(duì)未來(lái)的信息減去各部分關(guān)于自身的全部信息。直觀上,較高的 意味著系統(tǒng)的運(yùn)行方式不能完全通過(guò)其組成部分來(lái)解釋。
在我們的案例中,我們觀察到主體大小的增加導(dǎo)致波動(dòng)的相應(yīng)增加。對(duì)這些波動(dòng)進(jìn)行線性回歸擬合得出的斜率為正值(圖7B中的紅色虛線)。回歸線的斜率被發(fā)現(xiàn)顯著為正,表明隨著主體大小的增加,主體與環(huán)境其他部分之間的整合也在增加。我們的結(jié)果表明,較大的子單元以單個(gè)部分無(wú)法完全解釋的方式影響未來(lái)的IPD-ms動(dòng)態(tài),并定量地證明了在IPD-ms游戲中,較大尺寸的主體傾向于從較小尺寸的主體中因果性地出現(xiàn)。
G. 主體的邊界可以是解剖學(xué)的,也可以是行為學(xué)的
主體通常被視為占據(jù)物理空間的目標(biāo)導(dǎo)向?qū)嶓w。然而,自我強(qiáng)化的持久動(dòng)態(tài)狀態(tài)(在可激發(fā)介質(zhì)中的模式)也可以存在于其他空間中[60]–[63],并且已經(jīng)指出,生物主體系統(tǒng)也是代謝、遺傳信息和記憶的臨時(shí)模式[64]–[67]。此外,不同的觀察者專注于測(cè)量系統(tǒng)中不同的量,可能會(huì)看到非常不同的模式,并以非常不同的方式劃分活躍主體之間的邊界[68]。因此,不僅追蹤連接的物理模式(哪些主體與哪些其他主體合并的真相)變得有趣,而且追蹤信息模式也很重要,這些模式可能會(huì)以不尊重主體之間物理邊界的方式在群體中持續(xù)和傳播[69]。例如,行為空間是主體在其一生中管理感知/執(zhí)行映射的所有可能策略的空間。多個(gè)表現(xiàn)出相同行為的主體可能對(duì)一個(gè)外部觀察者來(lái)說(shuō)看起來(lái)是“合并”的,該觀察者看到的是行為而不是主體的內(nèi)部狀態(tài),盡管它們的物理邊界仍然保持完整。因此,為了檢查在這個(gè)模型中行為空間與解剖空間的模式化程度是否不同,我們分析了同一模擬的實(shí)例:一個(gè)是我們根據(jù)主體的物理邊界進(jìn)行顏色編碼,另一個(gè)是根據(jù)主體的個(gè)性(它們選擇執(zhí)行的策略)進(jìn)行顏色編碼(圖8A)。
為此,400個(gè)主體,每個(gè)主體的記憶大小固定為2,排列在一個(gè)20x20的網(wǎng)格中,進(jìn)行IPD-ms游戲。我們通過(guò)根據(jù)(1)物理邊界(解剖輪廓)和(2)主體執(zhí)行的策略(行為輪廓)對(duì)主體進(jìn)行可視化,研究了主體邊界和分組在兩個(gè)不同空間中的模式(具體細(xì)節(jié)見(jiàn)補(bǔ)充材料1)。我們觀察到,從這兩個(gè)角度觀察到的模擬過(guò)程中的主體邊界差異顯著。在模擬初期(在第40輪游戲時(shí)),我們發(fā)現(xiàn)主體根據(jù)行為被分組到共同的行為邊界中,盡管它們尚未物理合并(圖8A.I、8A.IV)。隨著模擬的進(jìn)行,這種效應(yīng)增強(qiáng),到第260輪游戲時(shí),行為邊界與解剖邊界無(wú)法區(qū)分:它們的復(fù)雜性超過(guò)了解剖合并的速度(圖8A.III、8A.VI)。我們得出結(jié)論,主體之間的新興模式和邊界(在物理連接或行為上有所不同)可能因分析群體中的哪些可觀測(cè)量而不同。
鑒于這兩種對(duì)系統(tǒng)中主體邊界的視角,我們?cè)噲D描述它們各自的因果關(guān)系:是解剖模式還是行為模式相互影響。具體來(lái)說(shuō),我們描述了一個(gè)變量(解剖或行為)的過(guò)去在多大程度上影響了另一個(gè)變量的未來(lái)值,測(cè)試了因果關(guān)系中可能的不同滯后長(zhǎng)度。為此,我們通過(guò)記錄模擬過(guò)程中集群大小和行為的序列,計(jì)算了400個(gè)主體的解剖和行為之間的轉(zhuǎn)移熵(TE)[70]–[73],在不同的滯后時(shí)間間隔內(nèi)進(jìn)行計(jì)算(具體細(xì)節(jié)見(jiàn)補(bǔ)充材料1)。
我們觀察到,在滯后時(shí)間從1到120輪游戲的范圍內(nèi),從解剖到行為(A-B)的TE值高于從行為到解剖(B-A)的TE值(圖8B)。在滯后時(shí)間為1時(shí),解剖和行為之間觀察到強(qiáng)烈的雙向關(guān)系。隨著滯后時(shí)間的增加,任一方向的TE值均有所下降,其中從B-A的TE值下降速度相對(duì)較快。有趣的是,在滯后時(shí)間為20到60輪游戲的范圍內(nèi),從B-A的TE值為負(fù)值,表明行為模式增加了(而不是減少了)解剖模式的未來(lái)不確定性,在其因果影響中發(fā)揮了負(fù)面作用。然而,這種反向因果關(guān)系并未持續(xù),在滯后時(shí)間超過(guò)60輪游戲后,從B-A的TE值逐漸增加。然而,我們注意到,盡管有所增加,其絕對(duì)值在滯后時(shí)間長(zhǎng)達(dá)120輪游戲的范圍內(nèi),仍顯著低于其互惠關(guān)系(A-B)的值。
我們的觀察表明,行為和解剖模式之間在多個(gè)時(shí)間尺度上存在耦合影響;連接模式和行為之間存在雙向因果關(guān)系,從多達(dá)120輪游戲步驟之前的新興解剖模式對(duì)當(dāng)前行為傾向的分布影響程度大于反之。
IV. 討論
大多數(shù)有趣的事物都是由部分組成的,對(duì)于生物主體(由器官組成的生物體,而器官又由組織、細(xì)胞和分子網(wǎng)絡(luò)組成)[74]來(lái)說(shuō)尤其如此。因此,理解這些部分之間的相互作用如何產(chǎn)生更大規(guī)模系統(tǒng)的行為空間變得尤為重要。這一問(wèn)題不僅限于生物學(xué),還涉及生態(tài)系統(tǒng)、金融系統(tǒng)、社會(huì)結(jié)構(gòu)等的起源和管理問(wèn)題。大量跨越進(jìn)化、人類行為和經(jīng)濟(jì)學(xué)的文獻(xiàn)關(guān)注了自身利益的新興后果[75], [76]。然而,這預(yù)設(shè)了一個(gè)單一的、統(tǒng)一的、持久的“自我”,它至少能夠承受其決策的后果,而且通常還會(huì)權(quán)衡并遵循特定的策略以最大化某些結(jié)果。該領(lǐng)域的模型研究了能夠改變其策略的主體,但通常不涉及主體之間的邊界。也就是說(shuō),通常不存在一個(gè)主體在哪里結(jié)束,另一個(gè)主體在哪里開(kāi)始的問(wèn)題。同樣,除了雙曲貼現(xiàn)的研究[46], [77], [78]之外,很少有框架能夠理解當(dāng)一個(gè)人的行為徹底改變其結(jié)構(gòu),從而改變未來(lái)決策的感知收益矩陣時(shí)會(huì)發(fā)生什么。盡管歷史方法具有可處理性的好處,但它們限制了模型在現(xiàn)實(shí)世界中的適用性,并導(dǎo)致了生命系統(tǒng)動(dòng)態(tài)與在機(jī)器/數(shù)據(jù)、結(jié)構(gòu)/功能等方面做出明確區(qū)分的形式主義之間的契合度較差[68]。
有兩個(gè)生物系統(tǒng)說(shuō)明了放寬固定主體假設(shè)所引發(fā)的問(wèn)題。一個(gè)是毛毛蟲(chóng)-蝴蝶的變態(tài)過(guò)程——這些是基因相同的生物,但以兩種截然不同的形態(tài)出現(xiàn),對(duì)食物的需求也大不相同,其進(jìn)化過(guò)程中的競(jìng)爭(zhēng)動(dòng)態(tài)也很有趣。事實(shí)上,允許主體隨時(shí)間變化為研究記憶和預(yù)測(cè)提供了有趣的視角,因?yàn)檫@涉及到與過(guò)去的自我和未來(lái)的自我進(jìn)行溝通[65],從而使得主體能夠與具有不同偏好、脆弱性和能力的過(guò)去和未來(lái)的自我進(jìn)行競(jìng)爭(zhēng)和合作。
另一個(gè)生物例子是黏菌Physarum,它是一種多核但單細(xì)胞的生物體,已被用于理解基礎(chǔ)認(rèn)知以及行為和資源分配的許多相關(guān)方面[79]–[82]。考慮一個(gè)向燕麥片伸展的Physarum[83],當(dāng)一片刀片將前面的10%與后面的主體分離時(shí),前面的10%面臨一個(gè)選擇:繼續(xù)向燕麥片移動(dòng)并獨(dú)自消耗資源,而無(wú)需與群體的其他部分分享,或者向后流動(dòng)并與集體合并。請(qǐng)注意,這個(gè)問(wèn)題以及收益矩陣在截肢之前并不存在,如果碎片選擇先合并,那么它將再次不存在——一旦碎片成為集體的一部分,其所有自身利益都將消失。從那個(gè)潛在未來(lái)的角度來(lái)看,沒(méi)有需要做出的選擇,也沒(méi)有“我”,只有“我們”。Physarum可以常規(guī)地執(zhí)行分裂和合并,但即使是高等生物的細(xì)胞在胚胎發(fā)育過(guò)程中也可以做到這一點(diǎn),從而產(chǎn)生嵌合體和單卵雙胞胎。我們?nèi)绾嗡伎寄切?huì)改變所有未來(lái)行動(dòng)背景的行動(dòng)呢?在博弈論中,關(guān)于主體的行為會(huì)反饋以改變主體自身的性質(zhì)、數(shù)量和組成的場(chǎng)景的研究結(jié)果非常少。在這里,我們通過(guò)分析一個(gè)模擬來(lái)解決這個(gè)迷人的“怪圈”[84],在這個(gè)模擬中,收益表和互動(dòng)景觀可以被主體所做的決策實(shí)時(shí)改變。我們使用了經(jīng)典的囚徒困境范式[30], [85],對(duì)其進(jìn)行迭代和空間化處理,但增加了一個(gè)重要特征:主體的邊界不是固定的,主體可以決定合并或分裂,就像它們可以在每次互動(dòng)中決定合作或背叛一樣。這將合作與競(jìng)爭(zhēng)的問(wèn)題與認(rèn)知擴(kuò)展的研究領(lǐng)域聯(lián)系起來(lái):?jiǎn)渭?xì)胞如何通過(guò)發(fā)育和進(jìn)化過(guò)程結(jié)合成具有能力、目標(biāo)、偏好和記憶的器官和生物體,而這些能力、目標(biāo)、偏好和記憶是它們的任何部分所不具備的[20], [86]–[98]。這建立在我們之前的工作基礎(chǔ)上,我們研究了胚胎發(fā)育背景下自我的上行和下行擴(kuò)展過(guò)程以及實(shí)現(xiàn)這種可塑性的生物學(xué)過(guò)程[27], [28], [74],并指出正是這些動(dòng)態(tài)的崩潰導(dǎo)致了被稱為癌癥的身體計(jì)劃的背離[99], [100]:一種并非源于更自私的細(xì)胞,而是源于更小的“自我”的形態(tài)發(fā)生障礙。
A. 多細(xì)胞性在基于合并的IPD背景下出現(xiàn)
本文的數(shù)據(jù)揭示了,當(dāng)主體有機(jī)會(huì)改變其邊界時(shí),大規(guī)模的多主體集群會(huì)涌現(xiàn)出來(lái)(圖2、圖6)。我們特別研究了記憶對(duì)集群形成動(dòng)態(tài)的影響:記憶在博弈論模擬中傳統(tǒng)上用于記錄與特定對(duì)手的交戰(zhàn)歷史,以便模擬互惠、懲罰、報(bào)復(fù)、信任等行為。因此,我們將記憶作為主體“智能”的代理,模擬了從細(xì)胞中的分子通路到整個(gè)生物體和群體在生物學(xué)中不同尺度上所見(jiàn)的多樣化信息處理能力。我們的結(jié)果顯示,具有較高記憶大小的主體傾向于積極合并為一個(gè)單一主體(圖2)。我們還觀察到,無(wú)論記憶大小如何,合并后的集群比未合并的單一主體具有更高的適應(yīng)度(圖3)。
可以將這兩個(gè)結(jié)果解釋為類似選擇的過(guò)程的結(jié)果(合并操作允許表現(xiàn)最佳的組成部分的策略和記憶得以傳播)。這或許可以解釋為什么合并后的主體比單一主體具有更高的適應(yīng)度值(圖3)。然而,我們注意到這不能是唯一的解釋,正如我們?cè)谝粋€(gè)對(duì)照實(shí)驗(yàn)中所發(fā)現(xiàn)的那樣,我們?cè)O(shè)計(jì)合并操作符允許傳播表現(xiàn)最差的組成部分的策略和記憶,但仍然觀察到積極的合并行為以及合并集群的主導(dǎo)適應(yīng)度(補(bǔ)充材料1)。盡管很明顯記憶大小會(huì)影響合并行為,但合并集群的主導(dǎo)傾向并沒(méi)有一個(gè)明確的影響因素。我們推測(cè)合并后的主體可能與其同樣合并的同伴更好地合作,但這一假設(shè)也被證明是錯(cuò)誤的,因?yàn)槲覀儼l(fā)現(xiàn)合并后的主體與單一主體的合作程度大致相同(圖4)。
B. 群體動(dòng)態(tài)
可以對(duì)群體隨時(shí)間發(fā)展的總體趨勢(shì)做出一些觀察。首先,我們觀察到與組織大小相關(guān)的“間斷平衡”動(dòng)態(tài),這與進(jìn)化記錄中所見(jiàn)的情況類似[101]:在固定記憶大小大于或等于2的情況下,我們注意到長(zhǎng)時(shí)間的停滯之后是快速的上升(圖2)。其次,當(dāng)記憶大小受到進(jìn)化控制時(shí)(圖5),我們發(fā)現(xiàn)IPD-ms模擬中的主體傾向于選擇較低的記憶大小,相當(dāng)大比例的主體甚至選擇以0的記憶(即不考慮過(guò)去的記憶)來(lái)做出決策(圖5B)。低記憶主體能夠持續(xù)存在而高記憶主體不能的一個(gè)原因可能是它們能夠更好地體驗(yàn)其環(huán)境:低記憶主體在決策時(shí)考慮的記憶較少(事實(shí)上,在我們的框架中,與高記憶主體相比,它們考慮的記憶呈指數(shù)級(jí)減少)。因此,盡管游戲持續(xù)時(shí)間較長(zhǎng),但低記憶主體需要跟蹤的信息比高記憶主體少,而高記憶主體需要從大量狀態(tài)中學(xué)習(xí)以做出決策。一個(gè)關(guān)鍵結(jié)果是,低記憶主體的表現(xiàn)優(yōu)于高記憶主體;在高記憶主體通過(guò)足夠多的游戲來(lái)從其行為中學(xué)習(xí)之前,它們已經(jīng)被低記憶主體超越了。
我們?cè)谶@一可變記憶實(shí)驗(yàn)中(圖5)注意到的第二個(gè)有趣結(jié)果是,記憶大小為2的主體缺失了,盡管存在記憶大小為1和3的主體。這種行為不能歸因于偶然,因?yàn)樗谖宕尾煌哪M運(yùn)行中都可靠地發(fā)生了。我們無(wú)法確定這一結(jié)果的任何離散的、可定位的原因,并暫時(shí)將其視為這一復(fù)雜系統(tǒng)的新興特征,或許類似于某些細(xì)胞自動(dòng)機(jī)的特性[102]。
C. 分級(jí)結(jié)構(gòu):新興的“組織”
一個(gè)顯著的發(fā)現(xiàn)是“聚集”的組織的出現(xiàn)(圖6C)。這個(gè)模擬世界的物理規(guī)則只提供了兩個(gè)組織層次:?jiǎn)渭?xì)胞主體和合并成更大的群體。然而,我們觀察到了一個(gè)意外的結(jié)果:較小個(gè)體圍繞較大主體的自發(fā)聚集(圖6B)。這揭示了競(jìng)爭(zhēng)收益動(dòng)態(tài)與形態(tài)組織之間的因果聯(lián)系:這些結(jié)構(gòu)不需要被編程到模擬中,我們的主體也沒(méi)有任何形態(tài)發(fā)生的機(jī)制。看來(lái),結(jié)構(gòu)組織——不僅僅是單細(xì)胞與多細(xì)胞合胞體之間的區(qū)別——可以因代謝競(jìng)爭(zhēng)而自發(fā)產(chǎn)生。
此外,這些多細(xì)胞集群被發(fā)現(xiàn)具有更高的整合性。當(dāng)使用整合信息理論[59]的工具進(jìn)行測(cè)量時(shí),這些大規(guī)模集群顯示出與環(huán)境更高的整合度(圖7B)。它們的整合性暗示了它們的復(fù)雜性:包含一種傾向于編碼具有比單細(xì)胞主體更大的連貫復(fù)雜性的策略。簡(jiǎn)單競(jìng)爭(zhēng)游戲(有限資源下的代謝動(dòng)態(tài))能夠?qū)е滦螒B(tài)復(fù)雜性的出現(xiàn),以及因果涌現(xiàn)的增加(圖7),這已被提議作為認(rèn)知能力的度量[56], [103]–[107],這一點(diǎn)令人驚訝。這或許可以揭示進(jìn)化是如何在代謝、生理、轉(zhuǎn)錄、解剖、行為和語(yǔ)言空間中轉(zhuǎn)換能力的[24]。
D. 在多個(gè)空間中出現(xiàn)的模式
一個(gè)不共享我們關(guān)于主體必須發(fā)生的具體時(shí)空尺度假設(shè)的外星觀察者,在觀察我們的星球時(shí)將面臨一個(gè)有趣的挑戰(zhàn)。相關(guān)的分析(和交流)水平應(yīng)該是分子、細(xì)胞、器官、生物體、群體/群體、生態(tài)位,還是整個(gè)生態(tài)系統(tǒng)?多尺度主體由其組成部分之間的對(duì)齊和相似性定義,但相關(guān)的主體是通過(guò)物理對(duì)象的邊界(皮膚和其他決定連接程度的身體體現(xiàn))來(lái)劃分的,還是基于更微妙的熱力學(xué)或行為傾向等溫線繪制更有用的地圖?我們?cè)趯?duì)外星生物學(xué)的嘗試中將面臨同樣的困難:并不明顯在哪個(gè)尺度以及在哪個(gè)空間/基質(zhì)中尋找相關(guān)模式。關(guān)于基于主體的動(dòng)態(tài)的大多數(shù)工作假設(shè)了數(shù)量固定且定義明確的離散主體,這些定義來(lái)自于一個(gè)關(guān)于可觀測(cè)量的公認(rèn)視角。在這里,我們將這一傳統(tǒng)擴(kuò)展到兩個(gè)方向。首先,我們研究了活躍主體邊界變化的動(dòng)態(tài);在圖2-7的分析中,主體的邊界是流動(dòng)的(并且由主體自身的行為控制),但我們將其視為一個(gè)客觀事實(shí),即什么指標(biāo)決定了主體邊界的定義——決策中物理連接的真相。但隨后(圖8),我們甚至放寬了這一要求,檢查了這個(gè)計(jì)算機(jī)模擬世界中的兩個(gè)不同視角:“物理”連接模式與行為傾向(大致對(duì)應(yīng)于身體的遺傳編碼蛋白質(zhì)硬件以及在信號(hào)通路水平上、離子通道在原位開(kāi)放和關(guān)閉等生理動(dòng)態(tài))。
我們?cè)噲D建立一個(gè)最小模型,用于詢問(wèn)關(guān)于在生物學(xué)相關(guān)過(guò)程中檢測(cè)新模式的問(wèn)題。我們觀察到,基于實(shí)際連接關(guān)系(作為合并的結(jié)果)的視角與基于“哪些元素實(shí)際上行為相似”的視角提供了非常不同的信息。我們不認(rèn)為有可能說(shuō)這兩種視角中哪一種“更好”,這與生物學(xué)中沒(méi)有特權(quán)因果水平的原則一致[108]。這或許可以成為生物醫(yī)學(xué)人員的重要最小模型系統(tǒng),他們必須整合的不僅僅是組織學(xué)(解剖學(xué))模式,還有溫度、壓力、代謝、生物力學(xué)特性、基因表達(dá)、表觀遺傳年齡、生物電狀態(tài)等許多其他模式,以便從中推導(dǎo)出干預(yù)措施。很明顯,許多系統(tǒng)級(jí)疾病,如癌癥和免疫狀況,是由動(dòng)態(tài)的、不容易觀察到的信息、狀態(tài)和能量模式驅(qū)動(dòng)的,這些模式并不整齊地映射到組織和器官的物理邊界上[109]–[112]。有人認(rèn)為,開(kāi)始將生物醫(yī)學(xué)方法轉(zhuǎn)向不僅管理細(xì)胞和器官等物理對(duì)象,還管理能量、壓力、生理狀態(tài)和信息等可動(dòng)的、因果重要的、自我強(qiáng)化的模式的模型是至關(guān)重要的[113], [114]。
這里另一個(gè)重要方面是我們觀察到,盡管沒(méi)有物理合并,同質(zhì)主體仍然被分組到共同的行為邊界中(圖8A)。鑒于這兩種非常不同的邊界圖景在這個(gè)系統(tǒng)中共存,它們的因果關(guān)系是什么——一個(gè)是否驅(qū)動(dòng)或影響另一個(gè)?我們的數(shù)據(jù)與解剖連接模式和行為傾向模式相互影響的雙向關(guān)系一致——組織結(jié)構(gòu)的變化似乎改變了特定區(qū)域的行為,而行為模式又反饋以改變結(jié)構(gòu)。這種在多個(gè)時(shí)間尺度上“軟件”和“硬件”方面之間的相互關(guān)系是生物學(xué)在進(jìn)化、發(fā)育和認(rèn)知尺度上自我修改架構(gòu)的標(biāo)志。盡管很難量化轉(zhuǎn)移熵的絕對(duì)水平的統(tǒng)計(jì)顯著性,但我們發(fā)現(xiàn),與相反方向相比,解剖模式在多個(gè)滯后時(shí)間間隔內(nèi)更有可能在更大程度上影響行為圖(圖8B)。未來(lái)的工作將描述因果關(guān)系的更深層次方面,并檢查生物學(xué)中這種現(xiàn)象的可能類比,其中微妙的模式最終被固定為物理形式,可能包括行為模式的遺傳同化[115]–[118]、短期記憶被編碼成長(zhǎng)期印跡,以及思維模式影響基因表達(dá)并最終影響突觸結(jié)構(gòu)的心身效應(yīng)[118], [119]。
E. 終局:一個(gè)關(guān)于末世論的最小模型
模型中最有趣的方面之一是在每次運(yùn)行的后期階段,適應(yīng)度的急劇下降(圖3A.II、3A.III、3A.IV)。一開(kāi)始這讓我們非常困惑,但分析顯示了原因:當(dāng)群體合并為極少數(shù)主體時(shí),沒(méi)有足夠的游戲被進(jìn)行以支持來(lái)自IPD-ms收益的足夠收入:主體頻繁地執(zhí)行合并動(dòng)作,這些動(dòng)作的收益分?jǐn)?shù)為0.0,導(dǎo)致了每個(gè)人適應(yīng)度的下降。這引發(fā)了我們之前未曾考慮過(guò)的一個(gè)問(wèn)題:當(dāng)整個(gè)群體合并為一個(gè)統(tǒng)一的存在,而沒(méi)有可以競(jìng)爭(zhēng)或合作的對(duì)象時(shí),會(huì)發(fā)生什么?這與關(guān)于整個(gè)生態(tài)系統(tǒng)的適應(yīng)度以及在基于資源競(jìng)爭(zhēng)的常規(guī)生態(tài)和進(jìn)化模型中出現(xiàn)的奇點(diǎn)的類似想法相聯(lián)系。我們考慮了解決這個(gè)問(wèn)題的幾種一般方法。一種說(shuō)法是,當(dāng)一種生命形式擴(kuò)展到其世界的邊緣時(shí),沒(méi)有更多的資源可供獲取,一切都會(huì)死亡(一種宇宙熱寂)。
另一種思考方式是將其視為一系列分裂和重新統(tǒng)一的循環(huán)。這大致對(duì)應(yīng)于一些精神傳統(tǒng),其中世界開(kāi)始于一個(gè)普遍單一心靈的解離(也許是由于無(wú)聊),然后分裂成個(gè)體主體,隨后是碎片逐漸合并成越來(lái)越大的心靈(如[27]中描述的認(rèn)知光錐的擴(kuò)展),并最終與絕對(duì)者實(shí)現(xiàn)統(tǒng)一。然后這個(gè)循環(huán)可以無(wú)限期地繼續(xù)下去。我們沒(méi)有在我們的系統(tǒng)中模擬這個(gè)階段,但未來(lái)的工作可以通過(guò)在主體內(nèi)(以及可能在群體中)添加各種原認(rèn)知驅(qū)動(dòng)因素(以及可能的新興驅(qū)動(dòng)因素)來(lái)探索這種模型,這些驅(qū)動(dòng)因素可以實(shí)現(xiàn)刺激(信息趨化),從而實(shí)現(xiàn)由壓力或不確定性驅(qū)動(dòng)的分裂和重新關(guān)聯(lián)。這樣的工作提供了一個(gè)通用框架的可能性,用于在代謝、形態(tài)和認(rèn)知空間中擴(kuò)展主體性。
最后,也許最令人興奮的可能性是,達(dá)到其世界邊界系統(tǒng)的嘗試將其新發(fā)現(xiàn)的能力投射到一個(gè)新的問(wèn)題空間中。關(guān)于主體從一個(gè)環(huán)境逃逸以利用另一個(gè)環(huán)境的問(wèn)題與新能力的進(jìn)化(例如,從單細(xì)胞的生理問(wèn)題解決到導(dǎo)航解剖形態(tài)空間)、形式系統(tǒng)的邏輯和局限性[120], [121]以及對(duì)人工智能軟件主體從其虛擬機(jī)中逃逸的擔(dān)憂[122]有關(guān)。這項(xiàng)工作的未來(lái)路線圖涉及在我們的模型中實(shí)現(xiàn)額外的空間(以允許無(wú)限制的發(fā)現(xiàn)[123]–[126]),并識(shí)別主體需要具備的最小屬性,以便利用其多細(xì)胞性在新的問(wèn)題空間中找到新問(wèn)題來(lái)解決。與此同時(shí),研究外部觀察者如何檢測(cè)(并理想地預(yù)測(cè))給定系統(tǒng)何時(shí)以及如何超越其初始環(huán)境的問(wèn)題也很重要。
F. 研究的局限性
本研究存在一些局限性,這些局限性為未來(lái)的工作奠定了基礎(chǔ)。首先,還有其他處理合并(Merge)、分裂(Split)和主體替換發(fā)生條件的方法——探索其他策略的后果將非常有趣。其次,我們的框架在空間上限制為二維,主體占據(jù)離散的網(wǎng)格位置。這一限制約束了主體之間的互動(dòng)性,擴(kuò)展到三維或允許主體移動(dòng)(類似于Sole的“液體大腦”,例如螞蟻群體[127], [128])是否會(huì)改變結(jié)果將是一個(gè)有趣的問(wèn)題。第三,記憶狀態(tài)的數(shù)量(以及因此策略表的大小)隨著記憶大小呈指數(shù)增長(zhǎng),這阻礙了我們的框架擴(kuò)展到記憶大小大于10的情況。第四,在記憶大小大于2時(shí),許多記憶狀態(tài)仍未被訪問(wèn),策略圖中的動(dòng)作概率幾乎沒(méi)有或根本沒(méi)有從其初始狀態(tài)發(fā)生變化,這使得收斂變得不可能。
G. 未來(lái)工作
一個(gè)有前景的研究領(lǐng)域是更好地利用主體內(nèi)部的記憶。在當(dāng)前模型中,高記憶主體相對(duì)于低記憶主體總是處于劣勢(shì),因?yàn)樗鼈兊氖澜绮粔蚍€(wěn)定,無(wú)法被內(nèi)部建模:它們根本無(wú)法從其龐大的記憶中體驗(yàn)到足夠的“狀態(tài)”來(lái)利用它。有趣的是,可以實(shí)現(xiàn)一種粗粒化機(jī)制,這種機(jī)制較少關(guān)注每個(gè)玩家移動(dòng)歷史的確切細(xì)節(jié),而更多地關(guān)注“朋友與敵人”等一般類別的自動(dòng)推斷分類。這將極大地減少需要查找以確定在任何給定情況下如何行動(dòng)的具體動(dòng)作空間的大小。可以添加的一個(gè)具體機(jī)制是主動(dòng)推斷框架,該框架已經(jīng)開(kāi)始在集體智能的背景下被研究[129], [130]。此外,一個(gè)有用的擴(kuò)展可能是明確檢查合作/背叛行為作為主體之間的通信信息被利用的情況[131]–[133]。最后一個(gè)擴(kuò)展涉及對(duì)新興動(dòng)態(tài)的分析。對(duì)于一個(gè)不知道哪些主體與哪些鄰居合并的外部觀察者來(lái)說(shuō),了解他們會(huì)得出什么結(jié)論——他們會(huì)畫(huà)出哪些明顯的主體邊界——將是一個(gè)有趣且重要的問(wèn)題。在一個(gè)由子單元組成的海洋中,如何畫(huà)出更高層次新興實(shí)體之間的邊界,是發(fā)育生物學(xué)、外星生物學(xué)和社會(huì)科學(xué)等領(lǐng)域的一個(gè)具有挑戰(zhàn)性的開(kāi)放性問(wèn)題。新興的虛擬管理者在哪里[134], [135],以及如何識(shí)別它們?我們?cè)O(shè)想了一個(gè)并行的觀察者系統(tǒng)進(jìn)化,它可以進(jìn)行觀察和干擾實(shí)驗(yàn),以優(yōu)化其對(duì)這個(gè)多尺度系統(tǒng)中因果主體所在位置的模型[50]–[56],作為未來(lái)進(jìn)化我們對(duì)在不熟悉的基質(zhì)中檢測(cè)新興生物的理解的路線圖[136]。
V. 結(jié)論
生物圈中復(fù)雜性、主體性和多尺度組織的起源是一個(gè)令人興奮且活躍的研究主題。其相關(guān)性跨越了進(jìn)化發(fā)育生物學(xué)、出生缺陷和癌癥的再生醫(yī)學(xué),以及從簡(jiǎn)單主體的基本起源到行為擴(kuò)展的認(rèn)知科學(xué)。將博弈論動(dòng)態(tài)與主體對(duì)自身與世界邊界變化的控制相結(jié)合,揭示了在生物世界中觀察到的一系列令人驚訝的新興特征。這可能是揭示出現(xiàn)和擴(kuò)展關(guān)鍵結(jié)構(gòu)、功能和信息屬性所需的最小代謝動(dòng)態(tài)的令人興奮的路線圖的開(kāi)始。這反過(guò)來(lái)可能會(huì)提高我們?cè)诙喾N多樣形式中檢測(cè)、修復(fù)和創(chuàng)建這類系統(tǒng)的能力。
原文鏈接:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10970107
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.