導語
基于信息分解的因果涌現理論是一種用于理解和量化復雜系統中因果關系的理論框架。該理論通過信息分解的方法,將系統中多個目標變量與源變量之間的互信息分解為不重疊的信息原子,包括獨特信息、冗余信息和協同信息。基于這些信息原子的內在特性,該理論提供了一種量化因果涌現的定義,即通過測量源和目標變量之間的協同信息來量化因果涌現。該理論不僅能夠識別出數據中的因果涌現現象,還能夠基于特定的宏觀動態來量化數據中的因果涌現。這為理解復雜系統中的因果涌現現象提供了新的視角。
為了系統梳理因果涌現最新進展,北京師范大學系統科學學院教授、集智俱樂部創始人張江老師領銜因果涌現系列讀書會,目前已經持續到,如果你對這一話題感興趣,非常推薦你加入社區!
“集智百科精選”是一個長期專欄,持續為大家推送復雜性科學相關的基本概念和資源信息。作為集智俱樂部的開源科學項目,集智百科希望打造復雜性科學領域最全面的百科全書,歡迎對復雜性科學感興趣、熱愛知識整理和分享的朋友加入,文末可以掃碼報名加入百科志愿者!
↑↑↑掃碼直達百科詞條
關鍵詞:因果涌現,機器學習
呂奧博、張江 | 作者
張江、袁冰、楊明哲、王志鵬 | 整理&審校
目錄
1. 歷史
1.1 涌現
1.2 因果涌現
1.3 基于信息分解的因果涌現理論
2. 相關概念
2.1 部分信息分解
2.2 整合信息分解
3. 基于信息分解的因果涌現
3.1 基于協同信息的因果涌現定義
3.1.1 案例
3.2 基于宏觀態特有信息的因果涌現
3.3 基于宏觀態特有信息的近似計算
4. 因果涌現的分解
4.1 各項具體定義
4.1.1 系統因果涌現能力的分類定義
4.1.2 特定宏觀特征因果涌現的分類定義
4.1.3 存在問題
4.2 充分指標和近似計算
4.3 基于機器學習的方法
5. 總結與展望
1. 歷史
因果涌現理論是一種試圖用基于因果的定量研究方法,從現象學的角度回答什么是涌現這一問題的理論,因此因果涌現的發展與人們對涌現和因果等概念的認識和發展密切相關。
1.1 涌現
涌現一直是復雜系統中的一個重要特性,是許多關于系統復雜性,以及宏微觀之間關系討論的核心概念[1][2]。涌現可以簡單理解為整體大于部分之和,即整體上展現出構成它的個體所不具備的新特性[3]。盡管學者們在各個領域都指出存在涌現的現象[2][4],如鳥類的群體行為[5],大腦中的意識形成,以及大語言模型的涌現能力[6],但目前還沒有對這一現象普遍認可的統一理解。以往對涌現的研究大多停留在定性的階段,如 Bedau等人[7][8]對涌現進行了分類研究,即將涌現分為名義涌現[9][10]、弱涌現[7][11]與強涌現[12][13]。
1.2 因果涌現
涌現和因果是相互聯系的。具體來說,聯系存在于以下方面:一方面,涌現本身可以看做為一種因果作用的結果,它刻畫了復雜系統中各組成部分之間復雜的非線性相互作用;另一方面,涌現出的特性也會對復雜系統中的單個個體產生因果作用。此外,以往人們習慣于將宏觀因素歸因為微觀因素的影響,但是宏觀涌現出來的模式,往往無法找到微觀的歸因,所以也就無法找到對應的原因。由此可見,涌現與因果存在著深刻的聯系。再者,雖然我們有了對涌現的定性分類,然而卻無法定量的刻畫涌現的發生。因此,我們可以借助因果來定量刻畫涌現的發生。
2013年,美國理論神經生物學家 Erik Hoel 嘗試將因果引入涌現的衡量,提出了因果涌現這一概念,并且使用有效信息(Effective Information,簡稱 EI)來量化系統動力學的因果效應強弱[14][15]。因果涌現可以描述為:當一個系統在宏觀尺度相較其在微觀尺度上具有更強的因果效應的時候,就產生了因果涌現。因果涌現很好的刻畫了系統宏觀和微觀狀態之間的區別與聯系,同時把人工智能中的因果和復雜系統中的涌現這兩個核心概念結合起來,因果涌現也為學者回答一系列的哲學問題提供了一個定量化的視角。比如,可以借助因果涌現框架討論生命系統或者社會系統中的自上而下的因果特性。這里的自上而下因果指的是向下因果(downward causation),表示存在宏觀到微觀的因果效應。例如,壁虎斷尾現象,當遇到危險時,壁虎不管自己的尾巴怎樣,直接將它斷掉。這里整體是因,尾巴是果,那么就存在一個整體指向部分的因果力。
1.3 基于信息分解的因果涌現理論
然而,Erik Hoel基于有效信息的因果涌現理論存在著一定的弊端。首先,盡管因果涌現的量化定義為宏觀和微觀動力學的有效信息之差,但是這其中的宏觀動力學變量依然有可能包含微觀變量的部分信息,因而并不嚴格保證宏觀變量的不可約簡的特性;其次,為了得到宏觀變量和動力學,我們必須指定粗粒化策略,即使可以通過最大化有效信息從而消除對粗粒化策略的依賴,但是這個最大化策略的搜索仍然是一個計算上的難題;最后,這種對于涌現現象的量化,難以刻畫“整體大于部分之和”的效應。
因此,2020 年,Rosas 等[16]從信息理論視角出發,提出一種基于信息分解的方法來定義系統中的因果涌現,基于協同信息或者特有信息來定量的刻畫涌現,這一方面部分回避了基于有效信息因果涌現理論的上述弊端。所謂的信息分解是分析復雜系統中各個變量復雜相互關系的一種新方法,通過對互信息進行分解,用信息原子來表示每個部分信息,同時借助信息晶格圖將每個部分信息投射到信息原子中,其中協同信息以及冗余信息都可以用對應的信息原子來表示。該方法建立在 Williams 和 Beer 等[17]提出的多元信息非負分解理論的基礎之上,文中使用部分信息分解(PID)將系統上下時刻的互信息進行分解。然而,PID 框架只能分解關于多個源變量和一個目標變量之間的互信息,Rosas 擴展了該框架,提出整合信息分解方法 Φ I D [18]來處理多個源變量和多個目標變量之間的互信息,作者基于分解后的信息提出了兩種因果涌現的定義方法。
2. 相關概念
2.1 部分信息分解
在信息熵與互信息的基礎上,部分信息分解(Partial Information Decomposition)是信息論的進一步擴展,旨在將信息論所關注的成對關系拓展到多個變量間的復雜相互作用。
在兩變量場景下,信息論可以通過相互信息 I ( X 1 ; Y ) 量化單個源變量 X 1 對目標變量 Y 的信息量。如果我們考慮加入第三個變量 X 2 并探討其中某一變量與另兩個變量的關系時,經典信息論則只能描述聯合變量 { X 1 , X 2 } 與 Y 的相互信息,由 I ( X 1 , X 2 ; Y ) 給出,而無法深入探究 X 1 和 X 2 及其相互作用與 Y 間存在何種關系。
這種傳統測度局限性的一個體現就是變量間的協同效應:假設我們有兩個獨立的布爾變量作為源變量 X 1 , X 2 ∈ { 0 , 1 } 和一個通過對源變量進行異或操作所得到的目標變量 Y = X O R ( X 1 , X 2 ) 。在這種情況下,總互信息 I ( X 1 , X 2 ; Y ) = 1 ,而個體互信息 I ( X 1 ; Y ) = I ( X 2 ; Y ) = 0 。也就是說, X 1 , X 2 關于 Y 的相互作用產生了協同信息,而這無法用經典信息論中的互信息或是信息熵輕易捕捉到。
對于更加一般的三變量場景而言,部分信息分解將源變量 { X 1 , X 2 } 與目標變量 Y 之間的互信息分解為如下圖所示的四個部分:
此處各個符號的定義為
· Unq ( X 1 ; Y ? X 2 ) 表示特有信息,是指每一個微觀態變量單獨給宏觀態提供的信息: X 1 具有的關于 Y 的“獨特”信息,而 X 2 中沒有這些信息。
· Syn ( X 1 , X 2 ; Y ) 表示協同信息,是指所有微觀態 X 1 和 X 2 聯合在一起給宏觀態 Y 提供的信息。
· Red ( X 1 , X 2 ; Y ) 表示冗余信息,是指兩個微觀態 X 1 和 X 2 重復地給宏觀態 Y 的“冗余”信息。
它們每一項都稱為一個信息原子。
并且,這些信息原子滿足如下約束關系:
信息分解除了能夠被韋恩圖所直觀的呈現以外,更常被表示為晶格圖的形式以在更多變量的情況下維持其簡潔的結構。晶格圖(lattice)是抽象代數中研究的一種抽象結構,它由一個偏序集組成。信息分解所得到的信息原子也可以被描述為一種晶格結構,這一晶格結構被稱為冗余晶格(redundancy?lattice)。冗余晶格是用來系統化地列舉并組織所有可能信息源組合的結構。具體是由反鏈(antichain)和反鏈之間的偏序關系構成。
反鏈是信息源的非空子集作為元素所組合出的所有集合中元素間兩兩互不包含(即互相不為子集)的組合。?對于源變量集合S= { S 1 , … , S N } ,冗余晶格定義為, 這里是S的所有非空子集。
將所有反鏈收集起來后,它們之間的偏序關系定義為:給定兩條反鏈? α 和? β ,定義 α ≤ β ? ? B ∈ β , ? A ∈ α , s . t . A ? B . 也就是說,? α ?“高于”?? β ?當且僅當?? α ?中的每個集合都是?? β 中某個集合的子集。在冗余晶格上定義的每個節點對應一種“冗余信息份額”,而格的上下結構則刻畫了不同冗余成分之間的包含與分解關系,從而為 PID 提供了一個清晰的代數化視角。
以兩變量 { X 1 , X 2 } 為例,集合 { 1 , 2 } 的所有非空子集包含 { 1 , 2 } { 2 } 和 { 1 } ,因此所能構成的無重復變量的集合包括 { { 1 , 2 } } { { 2 } } { { 1 } } 和 { { 1 } { 2 } } 。如下圖所示,這些反鏈(anti-chain)與上圖的信息原子一一對應,既 { { 1 , 2 } } 對應協同信息, { { 2 } } 和 { { 1 } } 對應特有信息, { { 1 } { 2 } } 對應冗余信息。
2.2 整合信息分解
整合信息分解(Integrated Information Decomposition)是Rosas等[14]對于信息分解理論的進一步拓展。與部分信息分解關注一組變量與一個變量間的互信息不同,整合信息分解關注于兩組變量間互信息的更細致劃分。具體而言,該框架對兩組變量間的互信息進行了兩次不同方向的部分信息分解,分別是
1)將第一組的變量視為源變量,第二組的聯合變量視作目標變量進行部分信息分解。
2)反之,將第二組的變量視為源變量,第一組的聯合變量視作目標變量進行部分信息分解。
由于兩次分解都是針對相同的兩組變量間的互信息,因此我們得到了對該互信息的兩種劃分方式,通過對這兩種劃分方式進行組合,我們便得到了更加細粒度的信息分解框架。該框架對部分信息分解框架中目標變量的數量進行了進一步的拓展,使得我們能夠分析源變量等于目標變量的場景。而其中最重要的應用場景之一就是馬爾科夫系統的上下時刻間子系統間的關系,這也奠定了整合信息分解框架作為因果涌現框架的理論基礎的可能性。
以兩變量系統 { X 1 , X 2 } 為例,下圖a中是前后向視角下分別對系統上下時刻互信息的分解結果,通過對這兩種視角進行結合便得到了下圖b中的16個信息原子。其中,左圖中的彩色連邊對應了右圖中的彩色格點,例如左側最上方{12}到{12}的綠色線條對應右圖中最上方{12}->{12}格點。該圖中的記號與部分信息分解中冗余晶格的記號含義相同。
由于整合信息分解框架是對信息分解框架的進一步劃分,因此在整合信息原子計算時需要引入新的整合信息計算方法,該方法相比于已有的信息分解方法額外新增了一個自由度,因此需要在原有信息分解方法的基礎上定義一個新的(比如冗余到冗余原子)的計算方法。具體的計算方法,如部分信息分解框架一樣,也有很多廣泛的討論,但目前仍沒有一個被普遍接受的方法。(可進一步補充)
3. 基于信息分解的因果涌現
Rosas等[16] 從信息分解理論的視角出發,提出了一套基于信息原子定義因果涌現的方法。該方法可被分為兩個部分:首先是關于系統是否產生因果涌現的定義,包括指定宏觀態特征與不指定宏觀態特征的兩種場景。以及在此基礎上,基于整合信息分解(PhiID)的因果涌現類型劃分:即因果解耦(Causal Decoupling)和向下因果(Downward Causation)。以下分別是因果涌現定義,因果涌現分類框架以及基于部分信息分解和整合信息分解的即因果解耦和向下因果具體定義。
3.1 基于協同信息的因果涌現定義
在研究因果涌現(Causal Emergence)的框架下,我們考慮一個多變量動力系統,其中系統的狀態隨時間演化,并可以從微觀層級(microscopic level)和宏觀層級(macroscopic level)進行觀察和建模。基于部分信息分解(PID)框架,作者提出了系統在未指定宏觀變量情況下分別定義因果涌現的方法。
在每個時間步 t ,設系統的微觀狀態(microscopic state) 由 X t 表示,其中:。這里,代表該系統在時間 t 時刻的第 i 個微觀變量,整個狀態空間可以視為一個高維隨機變量,描述系統在該時刻的完整狀態。
基于協同信息的因果涌現定義:假設系統當前時刻的微觀態 X t 和下一時刻的微觀態 X t + 1 ,定義指標為對該系統因果涌現的量化指標,其中指的是系統內任何大于等于k的子集所能產生的所有協同效用的總效果。且若該信息大于零,則先前時刻與后續時刻變量之間存在不可約的協同效應(irreducible synergy),即系統發生因果涌現。
該指標指的是系統內任何大于等于k的子集所能產生的所有協同效用的總效果,而非PID框架中的特定協同信息原子。在系統只包含兩個微觀變量,且k=1的情況下,該定義等價于兩源變量系統的協同信息。以三變量系統為例,當源變量是當前時刻三個微觀變量,目標變量為下一時刻聯合變量時,系統的信息分解晶格圖如下所示。對于信息分解框架,三變量對自身聯合變量的協同信息應當為下圖中的 { 123 } ,但是該定義包含下圖中的粉色區域所有晶格。
3.1.1 案例
以下是一個四變量布爾網絡案例,其每個節點遵循如下的動力學規則:
A、B、C、D是四個布爾類型的變量,它們的連邊情況如上圖所示,其中A節點受到C、D兩個節點的影響;B節點受到C、D兩個節點的影響;C節點受到A、B的影響;D節點受到A、B的影響。右側的表格給出了節點彼此的相互作用規則。
進一步,根據上圖右側中的規則遍歷所有的狀態,我們可以得到系統轉移到另一個狀態的概率值,進而繪制出屬于該馬爾科夫鏈的狀態轉移圖。其中每個節點代表一種可能的狀態,箭頭的灰度代表概率值的大小,如下所示:
其中,每個節點代表一種系統狀態,連邊表示狀態彼此之間的概率轉移,灰度代表概率大小。
我們可以用William和Beer的方法計算冗余信息和這個四變量系統的冗余晶格。由于這是一個四節點的系統,因此冗余晶格過于龐雜而無法畫出。但我們可以列舉出所有非零的信息原子和相應的信息量:
信息原子及其對應的原子信息量與注釋
其中信息量相對較大的信息原子包括ABCD四變量的協同,A,B和C,D兩兩分組組合在一起的冗余,以及ABCD四個變量共享的冗余信息。其中由協同效應產生的信息原子(無法被任何單一變量所提供的信息)則為前12行。
因此,按照因果涌現的度量指標 S y n ( k ) ( A t , B t , C t , D t ; A t + 1 , B t + 1 , C t + 1 , D t + 1 ) ,即所有協同效應的總和,該案例存在因果涌現,并且其度量結果為前12個信息原子數量之和,共0.8018比特。
3.2 基于宏觀態特有信息的因果涌現
盡管上述基于協同信息的因果涌現是一種不依賴于任何粗粒化策略的因果涌現定義,同時它也能很好地刻畫出涌現的“整體大于部分之和”的特征,但是它卻很難被實際計算出來,這是因為計算各階的協同信息需要遍歷冗余晶格,其次冗余晶格的節點數會隨著系統中變量數的增長而指數爆炸。因此,Rosas在[16]中又提出了一種新的等價定義,該定義基于指定的宏觀態變量,并且基于該變量的特有信息。
為了研究系統在更高層級的行為,我們引入宏觀狀態(macroscopic state) V t ,其由微觀態 X t 通過某種粗粒化(coarse-graining)策略得到,即: V t = f ( X t ) 其中,函數 f ( ? ) 代表某種確定性的映射,將高維的微觀狀態映射到較低維的宏觀表征。因此,宏觀狀態 V t 是 X t 的隨附特征(supervenience),意味著 V t 的值完全依賴于 X t ,但不同的粗粒化方法可能導致不同的宏觀表征。
基于特有信息的因果涌現量化:在指定系統的宏觀隨附特征(即宏觀態變量) V t 后,系統的因果涌現可以被定義為
這里表示在給定 X t 的所有分量的情況下,變量 V t 對 X t + 1 所提供的不包括在任何 X t 中大小大于k的子集中的信息。
當: > 0 , 則稱系統發生了因果涌現,即當前時刻的宏觀態 V t 能超過當前時刻的微觀態 X t 給下一時刻的整體系統 X t + 1 提供更多信息,則系統存在因果涌現。此處的 k 表示排除掉系統內每 k 個變量所構成的變量組內部所產生的該效應(類似于在微觀和宏觀間加入針對所有大小為 k 的子集的粗粒化中間層,然后僅關注從該中間層出發到宏觀層間的因果效應)。為了便于理解,在本詞條的后續介紹中默認 k = 1 并不再標注,即不存在中間層的情況。
因果涌現指標想要表示的是不能夠被任何單一的微觀變量 所提供的信息,但是能夠被他們之間的協同效應(的代表 V t )所提供的關于下一時刻系統 X t + 1 的信息。該指標代表不能夠被任何單一的微觀變量 所提供的信息,但是能夠被 V t 所提供的關于下一時刻系統 X t + 1 的信息。以兩變量系統為例,令微觀變量為變量1和2,宏觀變量V t = { } 為變量3,目標變量為{ } ,此時三變量關于目標變量的信息分解如下圖所示,該定義包含下圖中的粉色區域所有晶格。
基于以上的定義,Rosas 等人進一步提出了引理以支撐因果涌現的定義[16]:
引理 1(因果涌現的必要條件),如果系統在時間 t 具有因果涌現特性,則必定滿足:
1. 系統的微觀變量至少大于等于2。這表明因果涌現的存在要求當前時刻的系統狀態必須具有協同信息貢獻(至少要來源于兩個或以上變量),否則宏觀態不會比微觀態提供更多的預測信息。
2. 宏觀變量不是任何一個微觀變量的確定性函數。這與第一點類似,既 V t 能夠以高于單一微觀態的方式(協同方式)預測系統的未來狀態。
值得注意的是,方法二判斷因果涌現的發生需要依賴宏觀態 V t 的選擇,而方法一是方法二的下界。這是因為:
若 U n ( V t ; X t + 1 | X t ) 大于 0,則系統必然會出現因果涌現。然而, V t 的選擇往往需要預先定義粗粒化函數,因此方法一無法回避 Erik Hoel因果涌現理論的局限。而方法二借助協同信息來判斷因果涌現的發生,但協同信息的計算復雜,存在組合爆炸問題,往往不可行。
3.3 基于宏觀態特有信息的近似計算
然而,即使根據公式1,該特有信息由于信息分解理論的不足和計算復雜性,仍然難以計算,因此Rosas等人在文獻[16]中進一步提出了一個近似計算該特有信息的方法,即:
因果涌現的近似計算方法:在給定宏觀態表里 V t 的條件下,系統的因果涌現可以被量化為:
且定義當
則系統發生了因果涌現。
值得指出的是,這個指標衡量的是兩個時間步長之間宏觀變量的互信息減去每個微觀狀態與下一宏觀狀態之間的互信息,減去微觀狀態與下一時刻宏觀狀態之間的互信息一定能夠保證所有的單一微觀態和下一時刻的宏觀態間的效果被從兩時刻宏觀態間的效果中剔除,但是這一不可避免的導致不同微觀態對下一時刻的宏觀態所提供的相同效果被重復的考慮。
4. 因果涌現的分解
在系統的時間演化過程中,微觀狀態 X t 影響下一時刻的微觀狀態 X t + 1 ,即: P ( X t + 1 | X t ) 同時,宏觀狀態 V t 也演化為 V t + 1 ,其變化取決于其自身的歷史狀態和底層的微觀演化: P ( V t + 1 | V t ) 。 此外,由于 V t 由 X t 生成,我們也可以定義: P ( V t | X t ) 以描述從微觀到宏觀的信息傳遞關系。
如上圖所示,因果涌現(Causal Emergence) 指的是在某些系統中,宏觀變量相比于微觀變量表現出更清晰或更強的因果關系(從當前時刻的宏觀態到下一時刻的系統,包含紅綠兩部分)。換句話說,系統的因果結構在某種粗粒化的表征下可能變得更具信息性,而不是簡單地由微觀層級直接推導出來。在這樣的設定下,框架具體關注因果涌現可以被進一步分解為兩種主要表現形式:
1. 向下因果(Downward Causation):宏觀態 V t 影響下一時刻微觀態 X t + 1 的部分變量,即宏觀變量能夠提供超過所有僅單獨考慮系統每個微觀變量的效果的總和,這意味著宏觀信息能夠提供額外的預測能力,而不僅僅是所有微觀狀態直接演化的線性組合。
2. 因果解耦(Causal Decoupling):某些宏觀態 V t 對于預測下一時刻宏觀態 V t + 1 具有比所有僅單獨考慮系統每個微觀變量的效果的總和更強的能力:這表明系統的演化在宏觀層級上可能表現出新的、在微觀尺度上不明顯的因果模式。
也就是說,無論如何定義因果涌現,它總可以被進一步分解為兩項,即向下因果和因果解耦。
以下案例能夠很直觀的說明以上兩種因果涌現的形式:
文中作者列舉了一個具體的例子(如上式),來說明什么時候發生因果解耜向下因果以及因果涌現。該該例子是一個特殊的馬爾科夫過程,這里, 表示動力學關系,為微觀態。所有微觀變量的異或為宏觀態。該過程是基于前后兩個時刻的變量 x t 和 x t + 1 取值間關系的概率定義的。
因而該過程的宏觀態可以就看做是整個序列所有維度和的奇偶性,該奇偶性的概率分布是微觀態的異或計算的結果。定義的第一行表示下一時刻的第一個微觀變量取值是由上一時刻宏觀態(全部微觀變量的異或操作)決定的,這種需要上一時刻所有變量共同參與才能夠進行的預測(運算)對應著向下因果。第二行和第三行確定了系統上下時刻宏觀態之間的關系,根據 γ 取值的不同,系統上下時刻間會存在不同的宏觀預測能力,而這對應著因果結耦。
4.1 各項具體定義
在給出了定義的基礎之上,因果涌現可被進一步劃分為向下因果(Downward Causation)與因果解耦(Causal Decoupling)兩個部分,并且它們也都分別有在指定宏觀變量和未指定宏觀變量情況下的定義。
4.1.1 系統因果涌現能力的分類定義
如果因果涌現采用協同信息的方式定義,即未指定系統的宏觀隨附特征時,測量系統是否存在因果涌現的指標可基于PhiID框架進一步分為如下兩部分:
其中代表向下因果的指標是指在系統進行整合信息分解后所產生的從協同原子(反鏈) α 到協同原子(反鏈) β 的所有信息原子。而代表因果結耦的指標,是指在系統進行整合信息分解后所產生的從協同原子(反鏈) α 到非協同原子(反鏈) β 的所有信息原子。這里的協同原子(反鏈)(包含在 中的原子)指的是僅能夠通過變量間的協同效應所產生而無法被任何一個變量所單獨提供的信息,其形式為所有不存在元素數為1的集合的反鏈。而非協同原子(包含在中的原子)則是存在至少一個元素數為1的集合作為其元素的反鏈。
以二變量系統為例: X t 由兩個微觀變量和 組成,而 X t + 1 受 X t 影響: 在 Φ I D 框架下,對系統從時間 t 到 t + 1 之間的互信息 I ( X t ; X t + 1 ) 進行分解,可以得到 16 個信息原子。這些信息原子由PID 信息原子的雙向作用形成,即每個 Φ I D 原子都可以表示為一個 P I D 信息原子對的有向組合。
特別地,從 12 出發的四個 Φ I D 原子與因果涌現的定義及其分類直接相關,其中:因果解耦(G)對應于 { { 12 } } → { { 12 } } ,其取值大于零則系統具有因果解耦。向下因果(D)對應于 { { 12 } } → { { 1 } } , { { 12 } } → { { 2 } } , { { 12 } } → { { 1 } { 2 } } ,其中任意取值大于零則系統具有向下因果。
通過這種方式,PhiID 允許我們將系統的因果涌現分解為不同的成分,并在數學上嚴格刻畫因果信息流的方向性。這一框架不僅適用于理論分析,還可以用于實際數據集的計算分析,幫助識別復雜系統中的因果結構。
4.1.2 特定宏觀特征因果涌現的分類定義
在指定系統的宏觀隨附特征 V t 時,基于前文對于因果涌現的定義,測量系統是否存在因果涌現的指標 U n ( V t ; X t + 1 | X t ) 可進一步分為如下兩部分:
1. 向下因果意味著宏觀變量 V t 對微觀變量 X t 的未來狀態 X t + 1 產生影響,而這個影響無法由單個解釋。其定義為, 其中代表微觀變量集合的一個大小為 | α | 的子集,即。
2. 因果解耦意味著某個宏觀特征 V t 影響未來宏觀狀態 V t + 1 ,但該信息在微觀層級( X t 或 X t + 1 )不可見。其定義為 U n ( V t ; V t + 1 ∣ X t , X t + 1 )
此外,如果系統存在因果涌現,即,并且對于微觀變量任意大小的子集都存在 ,則稱 V t 具有純粹的因果解耦。如果所有涌現特征都表現出純粹的因果解耦,則稱系統是完全解耦的。
編者注:此處的數學表述也有類似歧義,因此我們提議將以上兩個指標分別寫作和 ,該表示方式代表不能夠被任何單一的微觀變量 或 所提供的信息,但是能夠被 V t 所提供的關于下一時刻的信息。同樣需要注意的是,盡管這種表示方式能夠嚴謹的表達因果涌現的定義,但是無法套用PID算法對該指標進行計算。如果想要計算修正后的該指標,需要引入有粗礪化函數的PhiID框架。
4.1.3 存在問題
盡管信息分解提供了嚴謹的理論框架,但計算因果涌現仍然存在以下挑戰:
1. 計算復雜度 - 計算 P I D 或 Φ I D 中的信息原子隨著變量數的提升其復雜度與計算量均呈現指數提升,因此很難將該方法應用于實際系統。
2. 粗粒化選擇的影響 - 由于 V t 的定義會影響因果涌現的測度,如何自動選擇最佳的粗粒化策略仍然是一個未解決的問題。
3. 信息分解的不確定性 - 不同的信息分解方法可能導致不同的因果涌現度量,PID 計算的不一致性導致因果涌現的定義依賴于特定的 PID 計算。
這些挑戰說明,盡管 PID 框架提供了強有力的因果涌現理論基礎,但其應用仍然依賴于實際系統的計算方法和數據可獲取性。
4.2 充分指標和近似計算
為了解決上述提到的問題,Rosas簡化了因果涌現的計算,并建立了一套基于因果解耦和向下因果的識別標準。具體來說,為了避免該方法基于特定的某個協同信息和冗余信息的具體量化方法,這套標準通過反復減去冗余信息,使結果成為因果涌現的充分條件。三個指標如下:
1. ,這個指標衡量的是兩個時間步長之間宏觀變量的互信息減去每個微觀狀態與下一宏觀狀態之間的互信息。減去微觀狀態與下一時刻宏觀狀態之間的互信息一定能夠保證所有的單一微觀態和下一時刻的宏觀態間的效果被從兩時刻宏觀態間的效果中剔除,但是這一不可避免的導致不同微觀態對下一時刻的宏觀態所提供的相同效果被重復的考慮。
2. ,這個指標是 V t 與之間互信息與 與 之間互信息總和之間的差的最大值。
3. ,這個指標是 V t 與 之間最大互信息。這個指標既包含了上一時刻任意微觀態通過宏觀態對當前時刻微觀變量j的預測,也包括了只由上一時刻宏觀態所提供的對這一時刻微觀變量 X j 的預測。
對于上述指標, V 是一個預定義的宏觀變量。這些指標的具體用途如下:
1. 當 Ψ t , t + 1 ( V ) > 0 ,這是Vt因果涌現的充分條件。因為如果 I ( V t ; V t + 1 ) 在剔除所有從單一微觀變量到宏觀變量的效果后(包括重復剔除)仍保持正值,說明一定存在不能夠由任意單一微觀變量提供的只屬于宏觀態間的相互作用。
2. 當 Δ t , t + 1 ( V ) > 0 ,這是Vt表現出向下因果的充分條件。如果存在一個變量Vt使得該值為正,則說明對這個微觀變量 X j 而言即便重復考慮了所有其余變量對自身的效應,依舊沒有宏觀態對自身的影響大,因此一定存在從上一時刻宏觀態到這一時刻微觀態 X j 的向下因果效應。
3. 當 Ψ t , t + 1 ( V ) > 0 且 Γ t , t + 1 ( V ) = 0 時,這構成了因果解耦的充分條件。即如果對于任意微觀變量 X j ,上一時刻宏觀態都無法提供任何信息,那么存在的因果涌現就只能以因果解耦的形式存在。
盡管這三個指標避免了冗余信息計算的問題,但重要的是要注意,它們作為充分條件,而不是涌現性的決定性證明。換句話說,大于 0 的指標可以表明存在涌現性,但小于0的指標并不一定意味著不存在涌現性。這個指標的構建在識別具有大量冗余信息或大量變量的系統中的涌現性時面臨挑戰,并且這類系統在許多現實世界中通常是常見的情況。此外,這種方法的一個局限性是需要預先確定粗粒化變量 V ,而這個變量的不同選擇也會顯著影響結果。
為了強調該套指標的可行性,Rosas在文中使用了三個案例進行驗證,并得出了以下結論:粒子碰撞在康威的生命游戲(Conway’s Game of Life)中被驗證作為一個獨特的特征涌現,鳥群動態指標(平均位置)在模擬的鳥類行為中被驗證作為一個特征涌現,獼猴的運動行為被驗證從神經活動中涌現。具體研究設計詳見文章。
總體來說,Rosas不僅提出了一種基于 P I D 理念和 Φ I D 框架的定量表征和分類因果涌現的方法,還在此基礎之上給出了用于回避信息分解計算問題的因果涌現充分判斷指標,一定程度上彌合了因果涌現研究理論框架與定量實證研究之間的差距。
4.3 基于機器學習的方法
Kaplanis 等人[19]基于表示機器學習 (Representation learning) 的理論方法,用算法通過最大化 Ψ (即公式1)而自發學習到宏觀態變量 V 變量。具體的,作者們使用神經網絡 f θ 來學習將微觀輸入 X t 粗粒化成宏觀輸出 V t 的表示函數,同時使用神經網絡 g ? 和 h ξ 來分別學習 I ( V t ; V t + 1 ) 和等互信息的計算,最后該方法通過最大化兩者之間的差 (即 Ψ ) 來優化神經網絡。該神經網絡系統的架構圖如下圖a所示。
圖b展示了一個 toy 模型實例,微觀輸入存在 6 個維度,每個維度存在 0 和 1 兩種狀態, X t + 1 是 X t 的下一時刻輸出,宏觀態為,其中表示微觀輸入 X t 前 5 個維度加和模 2 的結果,前后兩個時刻的宏觀態存在 γ 概率相等,微觀輸入的前后兩個時刻的第6個維度以 γ e x t r a 概率的可能性相等()。
結果表明,在圖b所示的簡單例子中,通過圖a構建的模型最大化 Ψ ,實驗發現學習出來的 Ψ 和真實的 groundtruth Ψ 近似相等驗證了模型學習的有效性,該系統能夠正確地判斷出因果涌現的發生。但是該方法也存在著難以應對復雜多變量情形的問題,這是因為圖中的右側的神經網絡數量是正比于宏微觀變量對的數量的,因此微觀變量數(維度)越多,則神經網絡的數量就會成比例增長,這會導致計算復雜度的提升。此外,該方法僅在很少的案例上進行測試,因此尚無法規模化。最后,更主要的是,因為網絡計算的是因果涌現的近似指標,且得到的是涌現的充分非必要條件,所以上述近似算法的各種弊端會被此方法繼承。
5. 總結與展望
將 Hoel 的框架與 Rosas 的因果涌現量化框架進行比較,可以發現后者有幾個明顯的優勢。首先,Rosas 的理論不需要預先確定的粗粒化方法,這使得它在數學上更加嚴謹和正式。其次,它對因果涌現進行了詳細的分解,特別是向下因果關系和因果解耦。最后,它有效地避免了偽因果涌現的情況,即宏觀變量僅依賴于微觀變量中的獨特或冗余信息。
然而,也有一些缺點需要考慮。首先,為了獲得完整的信息格,需要對所有變量組成進行系統迭代。此外,盡管使用了近似公式,但仍需要定義一個宏觀變量。不幸的是,作者沒有提供任何方法來識別這樣的變量。其次,所有互信息及其分解都是基于相關性而不是因果關系。討論如何將因果因素(例如干預和反事實)納入框架至關重要。最后,前面的討論并沒有解決根據給定的行為時間序列數據來識別系統中是否發生因果涌現的問題。
為了解決這個問題,需要應用機器學習和人工智能等新興技術。這些技術可以為檢測和分析因果涌現提供有價值的工具和技術。
附錄
關聯關鍵詞解析:
1. 因果涌現:在復雜系統中,宏觀層面的因果關系可能比微觀層面更加明顯,即宏觀層面的因果關系能夠解釋更多的現象。
2. 整合信息論( Φ I D ):一種用來衡量因果涌現的方法,但其數學公式復雜且計算量大,難以應用于現實世界系統。
3. PID計算:一種計算方法,由于其不一致性,導致因果涌現的定義依賴于特定的PID計算方法。
4. 因果解耦:宏觀變量與微觀變量之間的因果關系被削弱或消除。
5. 向下因果:宏觀層面的因果關系對微觀層面產生影響。
6. 互信息:衡量兩個變量之間共享信息量的指標。
參考文獻
Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.
Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.
Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.
Holland, J.H. Hidden Order: How Adaptation Builds Complexity; Addison Wesley Longman Publishing Co., Inc.: Boston, MA, USA, 1996.
Reynolds, C.W. Flocks, herds and schools: A distributed behavioral model. In Proceedings of the 14th Annual Conference on Computer Graphics and Interactive Techniques, Anaheim, CA, USA, 27–31 July 1987; pp. 25–34.
Wei, J.; Tay, Y.; Bommasani, R.; Raffel, C.; Zoph, B.; Borgeaud, S.; Yogatama, D.; Bosma, M.; Zhou, D.; Metzler, D.; et al. Emergent abilities of large language models. arXiv 2022, arXiv:2206.07682.
Bedau, M.A. Weak emergence. Philos. Perspect. 1997, 11, 375–399. [CrossRef]
Bedau, M. Downward causation and the autonomy of weak emergence. Principia Int. J. Epistemol. 2002, 6, 5–50.
Harré, R. The Philosophies of Science; Oxford University Press: New York, NY, USA , 1985.
Baas, N.A. Emergence, hierarchies, and hyperstructures. In Artificial Life III, SFI Studies in the Science of Complexity, XVII; Routledge: Abingdon, UK, 1994; pp. 515–537.
Newman, D.V. Emergence and strange attractors. Philos. Sci. 1996, 63, 245–261. [CrossRef]
Kim, J. ‘Downward causation’ in emergentism and nonreductive physicalism. In Emergence or Reduction; Walter de Gruyter: Berlin, Germany, 1992; pp. 119–138.
O’Connor, T. Emergent properties. Am. Philos. Q. 1994, 31, 91–104
P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).
Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.
Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.
Williams P L, Beer R D. Nonnegative decomposition of multivariate information[J]. arXiv preprint arXiv:10042515, 2010.
P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).
Kaplanis C, Mediano P, Rosas F. Learning causally emergent representations[C]//NeurIPS 2023 workshop: Information-Theoretic Principles in Cognitive Systems. 2023.
(參考文獻可上下滑動查看)
作者簡介
本詞條由集智俱樂部眾包生產,難免存在紕漏和問題,歡迎大家留言反饋,一經采納,可以獲得對應的積分獎勵噢!
親愛的社區伙伴與知識探索者:
我們誠摯邀請熱愛知識分享的您,加入集智百科詞條編寫志愿團隊!無論您是領域專家,還是對特定主題充滿熱忱的學習者,這里都有您的舞臺。通過編寫百科詞條,您將為全球讀者傳遞權威知識,同時獲得專家指導與個人能力躍升的雙重成長。
志愿者職責
創作新詞條:覆蓋復雜系統、人工智能等前沿領域
迭代經典內容:更新現有詞條,守護知識的準確性與時效性
質量守護者:參與內容校對審核,共建精品知識庫
我們期待您
集智讀書會成員(需完成共創任務并獲得退費資格)
擁有清晰表達復雜概念的寫作能力
對特定領域有深度研究或強烈興趣
具備信息檢索與整合素養
懷揣責任感與協作精神,愿為知識共享賦能
您將收獲
百科積分(支持兌換集智俱樂部周邊:文化衫、復雜科學知識卡等)
集智俱樂部創始人張江教授親自指導寫作
科研助理晉升通道:表現優異者可加入張江教授科研團隊
加入任何一期讀書會并完成共創任務即可 讓我們一起,用知識連接世界!
因果涌現讀書會第六季
在霓虹燈的閃爍、蟻群的精密協作、人類意識的誕生中,隱藏著微觀與宏觀之間深刻的因果關聯——這些看似簡單的個體行為,如何跨越尺度,涌現出令人驚嘆的復雜現象?因果涌現理論為我們揭示了答案:復雜系統的宏觀特征無法通過微觀元素的簡單疊加解釋,而是源于多尺度動態交互中涌現的因果結構。從奇異值分解(SVD)驅動的動態可逆性分析,到因果抽象與信息分解的量化工具,研究者們正逐步構建起一套跨越數學、物理與信息科學的理論框架,試圖解碼復雜系統的“涌現密碼”。
為了系統梳理因果涌現最新進展,北京師范大學系統科學學院教授、集智俱樂部創始人張江老師領銜發起,組織對本話題感興趣的朋友,深入研讀相關文獻,激發科研靈感。
讀書會將從2025年3月16日開始,每周日早9:00-11:00,持續時間預計10周左右。每周進行線上會議,與主講人等社區成員當面交流,之后可以獲得視頻回放持續學習。誠摯邀請領域內研究者、尋求跨領域融合的研究者加入,共同探討。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.