Self-orthogonalizing attractor neural networks emerging from the free energy principle
正式化了吸引子網絡如何從應用于隨機動力學系統通用分區的自由能原理中出現
https://pni-lab.github.io/fep-attractor-network/
為自組織吸引子網絡提供了一個統一的理論框架,為人工智能與神經科學提供了新的洞見。
摘要
吸引子動力學是許多復雜系統的顯著特征,包括大腦在內。理解這種自組織動力學如何從第一原理中涌現出來,對于推進我們對神經元計算的理解以及人工智能系統的設計至關重要。本文中,我們將自由能原理應用于隨機動力系統的通用劃分,形式化地闡述了吸引子網絡是如何從中產生的。我們的方法無需顯式設定學習和推理規則,而是揭示了在這種自組織系統中涌現出的、高效且生物學上合理的推理與學習動力學。這些動力學構成了一個集體的、多層次的貝葉斯主動推理過程。自由能景觀上的吸引子編碼了先驗信念;推理過程將感官數據整合進后驗信念;而學習則通過調整連接強度以最小化長期的意外(surprise)。我們通過解析分析和數值模擬表明,所提出的網絡傾向于形成近似正交化的吸引子表征,這是同時優化預測準確性與模型復雜性的結果。這些吸引子有效地張成了輸入子空間,增強了泛化能力以及隱藏原因與可觀測效應之間的互信息。此外,隨機呈現的數據導致對稱且稀疏的連接結構,而序列數據則促進了非對稱連接與非平衡穩態動力學的形成,這為傳統的玻爾茲曼機提供了一個自然的擴展。我們的研究為自組織吸引子網絡提供了一個統一的理論框架,為人工智能與神經科學提供了新的洞見。
關鍵詞:吸引子網絡,主動推理,正交表征,自組織
Interactive manuscript: https://pni-lab.github.io/fep-attractor-network
1 研究亮點
? 吸引子網絡(Attractor networks)是從將自由能原理(Free Energy Principle, FEP)應用于隨機動力系統的通用劃分中推導出來的。
? 該方法產生了具有生物合理性的、自組織的推理與學習動態機制,形成了一種多層次的貝葉斯主動推理過程。
? 這些網絡傾向于近似正交化的吸引子表征,從而優化了預測準確性與模型復雜度之間的平衡。
? 序列化數據呈現導致了非對稱連接和非平衡穩態動力學,擴展了傳統的玻爾茲曼機(Boltzmann Machines)。
? 仿真結果表明,該模型能夠形成正交基、具備泛化能力、序列學習能力和抵抗災難性遺忘的能力。
2 引言
從漩渦和鳥群,到神經元網絡和社會系統,無數自然系統都可以用圍繞吸引子狀態組織起來的動力學來描述 [Haken, 1978]。這類系統可以被分解為一系列——復雜程度各異的——基本單元或“粒子”(例如水分子、鳥類、神經元或人類),它們通過局部相互作用耦合在一起。吸引子是這些局部互動所產生的集體動力學的一個涌現結果,而沒有任何單個粒子施加全局控制。
吸引子是動力系統理論中的一個核心概念,其定義為:在系統狀態空間中,鄰近軌跡會匯聚的一組狀態 [Guckenheimer et al., 1984]。從幾何上看,最簡單的吸引子是不動點和極限環(代表周期性振蕩)。然而,這一概念還可以擴展到更復雜的結構,如與混沌行為相關的奇異吸引子(strange attractors),以及出現在隨機或非平衡環境中的現象,例如狀態上的概率分布(隨機吸引子)、反映過去動態的瞬態(幽靈吸引子或吸引子殘跡),以及依次穿越不穩定狀態序列的軌跡(序列吸引子或異宿環)。人工吸引子神經網絡 [Amit, 1989] 是一類專門設計用來利用吸引子動力學的遞歸神經網絡。雖然這些網絡的具體形式和行為深受所采用的推理和學習規則的影響,但所有變體都具有一個關鍵特征:自組織。穩定狀態是從網絡元素之間的相互作用中自發涌現出來的,而非由外部明確協調形成。這種特性使它們特別適合作為自組織生物系統的模型,包括大腦。顯然,大腦本身也是一個復雜的吸引子網絡。
長期以來,人們認為吸引子動力學在回路層面的信息整合中起著重要作用 [Freeman, 1987, Amit, 1989, Deco 和 Rolls, 2003, Nartallo-Kaluarachchi 等, 2025, Tsodyks, 1999],并已成為運動控制、感覺放大、運動整合、證據整合、記憶、決策和空間導航等大腦標準回路的成熟模型(參見 Khona 和 Fiete [2022] 的綜述)。例如,頭部方向細胞的活動——一種根據方向選擇性放電的神經元——已知來源于一種圓形吸引子狀態,這是由所謂的環形吸引子網絡 [Zhang, 1996] 所產生的。多層次和多穩態的吸引子動力學還被認為延伸到了中觀尺度和宏觀尺度 [Rolls, 2009],“能夠協調異質元素” [Kelso, 2012],從而使吸引子動力學成為跨越大腦功能不同尺度的一種統一計算機制。作為復雜吸引子網絡的一個實例,大腦不僅展示了這種網絡架構的計算能力,也展示了它如何通過自組織來產生和演化。
當我們討論吸引子網絡中的自組織時,我們將區分兩個不同的層次。首先,我們可以談論操作層面的自組織:即一個預先形成的網絡在其運行過程中進入吸引子狀態的能力。但這并不包括網絡“自我構建”的能力——即從簡單的局部互動中無須顯式編程或全局控制地涌現,并通過學習來自適應地演化其結構和功能。后者這一層次的自組織,我們稱之為適應性自組織。這樣的架構不僅反映了神經系統作為吸引子網絡運行的能力,還反映了它通過自我導向的發展和學習過程,成為并保持為一個吸引子網絡的能力。此外,適應性自組織對于機器人技術和人工智能系統來說也將是一個非常理想的特性,不僅能通過持續學習增強其魯棒性和適應性,還可能引導系統隨著時間推移有機地提升其復雜性和能力(例如發展型機器人)。因此,在吸引子網絡中刻畫適應性自組織,對于深入理解大腦以及創建更加自主、適應性強、受大腦啟發的人工智能系統至關重要。
自由能原理(Free Energy Principle, FEP)提供了一個通用框架,用于研究非平衡穩態下的自組織作為一種貝葉斯推理過程(又稱主動推理)。FEP 在將復雜自組織系統的動力學與計算和推理過程聯系起來方面起到了關鍵作用,特別是在大腦功能的研究領域 [Friston et al., 2023, Friston 和 Ao, 2012, Palacios et al., 2020]。FEP 認為,任何“事物”——若想長期存在——必須維持對其環境的條件獨立性。這要求系統具有一種特定的稀疏耦合結構,稱為“特定劃分”(particular partition),該結構將系統劃分為內部狀態、外部狀態以及邊界狀態(感覺和行動狀態)(見圖1A)。可以證明,維持這種稀疏耦合等價于執行一個推理過程,其中內部狀態通過最小化變分自由能來推斷感覺輸入的原因(詳見 Friston et al. [2023] 或 [Friston et al., 2023] 的正式處理)。
在這里,我們描述了一類特殊的、直接從 FEP 中涌現的、適應性自組織的吸引子網絡,而無需顯式設定的學習或推理規則。首先,我們展示了一個特定劃分的層級化表述——這一概念適用于任何復雜動力系統——可以產生與眾所周知的人工吸引子網絡架構具有相同功能形式的系統。其次,我們展示,針對此類系統的內部狀態最小化變分自由能(VFE),可得到一種類似玻爾茲曼機的隨機更新機制,其中連續狀態的隨機霍普菲爾德網絡是一個特例。第三,我們展示,針對系統的內部毯層或邊界狀態(耦合)最小化 VFE,會引發一種基于廣義預測編碼的學習過程。關鍵的是,這一適應性過程不僅僅是加強具體的感官模式;它學會覆蓋整個關鍵模式的子空間,通過建立近似正交化的吸引子表征,系統可以在推理過程中組合這些表征。我們通過仿真識別出準正交吸引子涌現的必要條件,并展示了所提出的吸引子網絡對未見數據進行泛化的能力。最后,我們強調,所提出的吸引子網絡可以自然地生成序列吸引子(如果輸入數據以清晰的順序呈現),并通過自發活動舉例說明其持續學習能力和抵抗災難性遺忘的潛力。最后我們討論了該框架的可檢驗預測,并探討這些發現對自然智能和人工智能系統的廣泛意義。
3 主要結果
3.1 背景:特定劃分與自由能原理
我們對自組織吸引子網絡進行刻畫的努力,首先需要將“自我”從“非自我”中區分出來。特定劃分(particular partition)是自由能原理(Free Energy Principle, FEP)的核心概念之一 [Friston 等, 2022, 2023;Friston 與 Ao, 2012;Palacios 等, 2020],它為這種區分提供了一種自然的形式化方式。一個特定劃分是指一種狀態劃分方式,它根據系統狀態之間的稀疏耦合關系,將整個系統狀態 x 劃分為一個“粒子”或“事物”部分 (s, a, μ) ? x 及其外部狀態 η ? x:
其中,μ、s 和 a 分別代表該“粒子”的內部狀態、感覺狀態和主動狀態。漲落 ω?,其中 i ∈ (μ, s, a, η),被假設為彼此獨立的。特定狀態 μ、s 和 a 之間通過特定的流動依賴關系相互耦合;也就是說,外部狀態只能影響其自身和感覺狀態,而內部狀態只能影響其自身和主動狀態(見圖1A)。可以證明,當以毯層路徑(blanket paths)為條件時,這些耦合約束意味著外部路徑與內部路徑在統計上是獨立的 [Friston 等, 2022]:
正如 Friston 等人 [2023] 所示,這樣一個“粒子”若想長期持續存在,就必須維持這種條件獨立性結構,這種行為等價于一個推理過程:內部狀態通過毯層狀態(即感覺狀態和主動狀態)來推斷外部狀態,并通過最小化自由能來實現這一目標 [Friston, 2009, 2010;Friston 等, 2023]:
3.2 深層特定劃分與子粒子
特定劃分在某種意義上為復雜系統提供了一種通用描述:內部狀態 μ 的行為表現得好像它們是在一個生成模型下推斷外部狀態;也就是說,這是一個“黑箱”推理過程(或計算),其復雜度可以任意高。
同時,特定劃分的概念還表明,在越來越高的時空尺度上,事物的集合(ensemble)具有遞歸組合的特性 [Friston, 2019;Palacios 等, 2020;Clark, 2017],這為解析 μ 的內部復雜性提供了一種自然的方式。通過將“宏觀尺度”的粒子 μ 劃分為多個相互重疊的“微觀尺度”子粒子 {π?}??=?——而這些子粒子本身也是特定劃分——我們可以以任意程度展開宏觀粒子的復雜性。
由于子粒子可以任意嵌套——從而形成一個層級化的生成模型——我們將這種劃分稱為深層特定劃分(deep particular partition)。
如圖 1B 所示,每個子粒子 π? 都有其內部狀態 σ?,任意兩個子粒子 i和 j 之間的耦合是通過微觀尺度的邊界狀態來實現的:感覺狀態 s??(表示從 j 傳入 i 的感覺信息)和主動狀態 a??(表示 i 對 j 的作用)。子粒子的邊界狀態自然存在重疊:一個子粒子 σ?的感覺狀態就是另一個子粒子 σ? 的主動狀態,反之亦然,即 a?? = s?? 且 s?? = a??。
這也意味著,在微觀尺度上,某個子粒子 σ? ? μ的內部狀態對于另一個子粒子 σ? ? μ 來說屬于外部狀態。因此,給定子粒子的毯層狀態時,任一子粒子的內部狀態 σ? 在條件上獨立于其它子粒子的內部狀態 σ?(j ≠ i):
3.3從深層特定劃分中涌現的吸引子神經網絡
接下來,我們為任意的深層特定劃分建立了一個原型數學參數化模型,如圖2所示。我們的目標是證明:這種復雜的、稀疏耦合的隨機動力系統可以產生人工吸引子神經網絡。
這種聯合概率分布具有隨機連續狀態霍普菲爾德網絡(一種特定類型的玻爾茲曼機)的函數形式。正如在這類系統中所知,該平穩分布中的高概率密度區域將構成“隨機吸引子”(stochastic attractors),即系統傾向于收斂的狀態空間區域。
此外,如果存在非對稱耦合,則耦合矩陣的反對稱部分會引出“螺線型流”(solenoidal flows),從而擴展吸引子的類型,產生“序列吸引子”(sequence attractors),即異宿鏈(heteroclinic chains)。
重要的是,我們的推導表明,盡管非對稱耦合所產生的螺線型流可以破壞細致平衡(detailed balance)并引發非平衡動力學,但平穩分布仍然保持由對稱部分 J? 所決定的類似玻爾茲曼(Boltzmann-like)的形式。這依賴于一個假設:螺線型流是無散度的(divergence-free)——也就是說,它不會改變平穩分布的玻爾茲曼形式,而是沿著等勢面(iso-potential surfaces)驅動持續的、無散度的概率流。有觀點認為,在特定劃分下保守粒子滿足這一條件(參見附錄5以及 Friston 等 [2023];也見 Ao [2004] 和 Xing [2010])。在該條件下,耦合矩陣的反對稱部分僅切向作用于由對稱部分定義的等勢面,因此不會改變平穩分布的形式,只是在這些表面上驅動概率通量。
然而,正如我們在接下來的章節中將看到的那樣,從局部自由能最小化推導出的系統動力學仍然依賴于可能具有非對稱性的耦合矩陣 J。
3.4 推理
到目前為止,我們的推導僅依賴于系統的稀疏耦合結構(即深層特定劃分),而尚未實際應用自由能原理本身。現在,我們考慮**自由能最小化對所推導出的遞歸神經網絡動力學的影響。
我們首先從吸引子網絡中某個單一節點 σ?的視角出發,表達變分自由能(VFE,公式(3)),假設已知來自所有其他節點 σ\i 的觀測值:
在耦合對稱的情況下,上述方程簡化為一種類似玻爾茲曼的更新規則(具體來說,是連續狀態隨機霍普菲爾德網絡的更新規則,其中使用了特殊的S型函數 L)。雖然上述推理規則的確定性版本可以直接通過對公式(13)中指數部分的負值進行梯度下降推導出來,但基于自由能原理(FEP)的這一推導自然地將其擴展到了一個概率框架中,并且通過復雜度項自發地引入了一個S型函數。因此,FEP最小化提供了完整的概率推理機制,而不僅僅是沿著能量梯度進行確定性下降。
由此產生的隨機動力學可以得到變分推理下的最優期望信念(expected belief),自然地融合了先驗偏差、狀態約束(由于狀態空間為 {?1, 1} 而產生 S 型函數),并等價于一種局部近似貝葉斯推理,在這里,近似后驗信念 bq 在先驗信息(bi)和來自鄰居節點的證據(∑Jijσj)之間取得平衡。正如我們將在后面展示的那樣,這種推理過程本質上具有的隨機性,使得整個網絡能夠隨時間逃離局部能量極小值,從而實現宏觀尺度上的貝葉斯推理。
3.5 學習
當 q 與 p 完全匹配時,變分自由能(VFE)的導數將為零,系統達到最優狀態。當先驗偏差 bi 發生系統性的變化以對抗更新過程時,就發生了學習。這可能對應于外部輸入(例如代表某個外部事件證據增強的感覺信號),也可能源于子粒子內部可能存在的復雜動力學(例如內部序列動態或記憶提取)。
在這種情況下,一個子粒子可以通過另一個(更慢的)過程來降低其局部的 VFE:它可以改變其主動狀態的生成方式,并依賴這些行為對感覺信號產生的替代效應(vicarious effects)。在我們的參數化模型中,這一點可以通過改變與主動狀態相對應的耦合強度 Jji來實現。
值得注意的是,雖然改變 Jji 對應于子粒子局部層面(微觀尺度)上主動狀態生成方式的變化,但在宏觀尺度上,它可被視為整個系統生成模型(generative model)的改變。
讓我們從節點 i 的視角重新審視 VFE:
這種學習機制類似于“赫布(Hebbian)/ 反赫布(anti-Hebbian)”或“對比式”學習規則,并且明確實現了預測編碼(類似于前瞻性配置 [Song et al., 2024; Millidge et al., 2022a])。然而,與例如對比散度(contrastive divergence,Hinton, 2002,一種常用于訓練某些類型玻爾茲曼機的方法)不同的是,它不需要比較長時間的“夾持”階段(固定輸入)和“自由運行”階段的平均值,而是利用突觸前和突觸后激活的瞬時相關性來更新權重,從而使該架構具有高度的可擴展性。
正如我們在下面通過模擬1、2和4所展示的那樣,如果以隨機順序并經過較長的訓練周期呈現輸入數據,該學習規則會收斂到對稱的權重(類似于經典的連續狀態隨機霍普菲爾德網絡)。同時,如果數據是以快速變化的固定序列形式呈現(模擬3),則該學習規則會產生時間預測編碼,并學習出非對稱的權重,類似于 Millidge 等人 [2024] 的結果。如前所述,在這種情況下,J 的對稱部分編碼了固定點吸引子,而由反對稱部分引起的概率流則導致序列動力學(保守的螺線型流),但不會改變系統的穩態。
這一規則的另一個關鍵特征是其與 Sanger 規則 [Sanger, 1989] 的相似性,這表明它在吸引子狀態之間施加了近似的正交性。我們將在下一節中從理論和仿真兩個方面對此進行說明。
3.6 近似正交吸引子的涌現
3.7 隨機檢索作為宏觀尺度上的貝葉斯推理
由于自由能原理(FEP)的作用,上述推理過程——其中每個子粒子 σ? 根據局部信息(其偏置 b? 和輸入 ∑? J?? σ?)更新其狀態——可以被視為一種微觀尺度的推理過程,在這一過程中,由節點內部偏置定義的先驗信念,通過從鄰近子粒子收集到的證據進行更新,從而形成后驗信念。
然而,由于整個網絡本身也是一個特定劃分(具體來說,是一個深層特定劃分),它在宏觀尺度上也必須執行貝葉斯推理。
雖然上述論述提供了一個簡潔且自洽的證明,但宏觀尺度推理的本質可以通過所推導出的吸引子網絡與玻爾茲曼機(在耦合對稱的特殊情況下)之間的等價性來進一步闡明。確切地說,玻爾茲曼機通過馬爾可夫鏈蒙特卡洛(MCMC)采樣執行宏觀尺度上的近似貝葉斯推理的能力,在文獻中已有充分的研究和確立 [Ackley 等, 1985;Hinton, 2002]。
噪聲或隨機性使系統能夠探索后驗概率的地形(landscape),從而在先驗所繼承的局部極小值與當前證據發生沖突時,逃離這些局部極小值,并在多個與證據相容的吸引子之間進行混合。因此,最終的平均活動 ?σ? 代表了對編碼在權重中的先驗知識和編碼在偏置中的當前證據的一種貝葉斯整合。
這與確定性動力學形成了鮮明對比——后者只會陷入后驗地形中的某一個(可能是次優的)吸引子中。
此外,如果學習過程塑造了具有較少冗余(例如更正交)吸引子的先驗分布 p(σ),那么這種簡潔的先驗結構自然有助于形成更少冗余的后驗分布 p(σ|s)。當先驗信念結構高效且其模態(modes)清晰區分時,通過整合證據 s 所形成的后驗模態也不太可能出現模糊或高度重疊的情況。這使得推理過程更加穩健且易于解釋,因為網絡可以更清晰地區分感官數據的不同解釋。
至此,整個邏輯閉環得以完成。從自由能原理(FEP)框架中涌現出來的隨機吸引子網絡(如圖3A所示),通過其集體采樣動力學自然地實現了宏觀尺度上的貝葉斯推理,為整合先驗信念與傳入的感覺證據提供了一個穩健的機制。
這揭示了自由能原理深度遞歸應用的潛力:由相互作用的子粒子組成的整個網絡的集體行為——每個子粒子都在最小化自身的局部自由能——重現了一個單一宏觀粒子的推理動力學。這種遞歸可以延伸到任意深度,從而產生嵌套特定劃分的層級結構以及多個涌現的描述層次,每一層次都根據相同的基本原則執行貝葉斯主動推理。
4 計算機模擬演示
我們通過計算機模擬來展示所提出框架的關鍵特性。所有模擬基于一個簡單的 Python 實現的網絡,代碼可在以下地址獲取:https://github.com/tspisak/fep-attractor-networks。該實現更注重清晰性而非效率——它將 σ 狀態和邊界狀態分別作為不同的類進行實現,并未對性能進行優化。在所有模擬中,我們都使用推導出的學習規則以“持續學習”的方式(即同時進行推理與學習)訓練一個吸引子網絡。為了能夠在推理過程中控制精度以及調節學習速度,我們在公式(20)和(25)中引入了兩個系數:逆溫度參數 iT 和學習率 α。
4.1 模擬 1:正交基形成、宏觀尺度自由能最小化與貝葉斯推理的演示
在模擬 1 中,我們構建了一個包含 25 個子粒子(表示 5x5 的圖像)的網絡,并用兩個不同但相關的圖像(皮爾遜相關系數 r = 0.77,見圖3B)對其進行訓練。訓練時設定精度為 0.1,學習率為 0.01。訓練階段共進行了 500 輪(epoch),每輪隨機從訓練集中選取一個模式,在 10 個時間步內同時進行推理與學習。
如圖3B所示,由同步推理與學習過程執行的局部微觀尺度變分自由能(VFE)最小化,最終導致了宏觀尺度上的自由能最小化。接下來,我們通過確定性推理(即使用期望值更新而不是從 CB 分布中采樣,類似于 vanilla Hopfield 網絡)獲得了與輸入模式對應的吸引子狀態。正如理論預測的那樣,這些吸引子狀態并不是輸入模式的簡單復制,而是近似正交化的版本,其相關系數為 r = -0.19。
隨后,我們展示了該網絡(在隨機推理條件下)不僅能夠從帶有噪聲的輸入模式中恢復原始輸入模式(見圖3C),而且還能很好地泛化,通過組合其準正交的吸引子狀態重建第三個模式(見圖3D)。請注意,本模擬僅旨在展示所提架構的一些關鍵特性,關于網絡性能及其對參數依賴性的全面評估將在下一個模擬中進行。
4.2 模擬 2:學習機制的系統評估
在模擬 2 中,我們使用 10 張手寫數字圖像(每個從 0 到 9 的數字各一張,每張為 8x8 像素,來源于 scikit-learn 數據集,見圖 4C 上排)訓練網絡。其余的 1787 張圖像在訓練階段未被看到,僅作為測試集用于一次性學習(one-shot learning)的評估。
網絡以固定的學習率 0.01 進行訓練,共進行 5000 輪(epoch),每輪包含 10 個時間步,在此期間對訓練集中 10 張圖像中隨機選取的一張模式同時進行推理與學習。
我們評估了逆溫度參數 iT(即精度)以及訓練過程中證據強度的影響,即偏置變化 δbi 的大小。精度參數 iT 在 0.01 到 1 之間設置了 19 個不同值;訓練過程中的證據強度通過將偏置大小從 1 到 20 逐步增加來調節。
訓練前,輸入圖像首先進行了預處理:像素值平方(以增強對比度),并將每張圖像歸一化為零均值和單位方差。我們總共進行了 380 次運行,以網格搜索的方式調整這些參數。
所有情況都從兩個方面進行評估:(i) 從帶有噪聲的訓練圖像變體中進行隨機(貝葉斯)模式檢索;(ii) 對未見過的手寫數字樣本進行一次性泛化重建。在這兩種評估中,網絡通過其偏置接受一個帶有噪聲的隨機選擇圖像(訓練或測試圖像)。噪聲模式是通過對原始圖像像素添加標準差為 1 的高斯噪聲生成的(見圖 4B、C 和 D 中的“示例”)。
網絡的響應是通過對 100 個時間步的隨機推理結果進行平均得到的。性能通過網絡響應解釋原始目標模式(無噪聲)的方差比例相較于噪聲輸入所解釋的方差比例的提升來量化。
對于檢索和泛化任務,該方法分別重復了 100 次,每次從訓練集(10 張圖像)或測試集(1787 張圖像)中隨機采樣一張圖像。這 100 次重復中的中位數提升值被用作主要性能指標。
使用不同 iT 和 α 參數訓練的模型在檢索和一次性泛化方面的表現如圖 4A 所示(上排)。我們發現,雖然在檢索帶噪聲的訓練圖像時,最佳精度值在 0.1 到 0.5 之間,但在泛化到新數據時,較低的精度(iT < 0.1,即更隨機的動力學)表現更好。
此外,在所有模擬案例中,我們以原始測試圖像作為初始狀態,并通過確定性推理獲得對應的吸引子狀態。然后我們計算了吸引子狀態之間的成對相關性和點積。點積被轉換為角度(度數)。正交性最終通過吸引子之間的平均相關系數和偏離正交的平均平方角度偏差來量化。
為了建立參考值,我們還對原始模式(預處理后)重復了相同的程序,結果顯示平均相關系數為 0.2994,平均平方偏離正交角度為 29.94 度。每個模擬案例的吸引子正交性和吸引子數量如圖 4A 所示(下排)。
我們發現,根據網絡在學習階段的溫度,它可以處于高復雜度、低復雜度或平衡復雜度的特征性狀態(圖 4B)。在低溫(高精度)條件下,模型允許高復雜度(“精度驅動”),吸引子傾向于精確匹配訓練數據(圖 4C)。
相反,在高溫(低精度)條件下,網絡只有一個固定點吸引子且識別性能下降(圖 4E)。然而,這類網絡仍能較好地泛化到新數據,表明存在所謂的“軟吸引子”(例如鞍點狀結構),它們不是自由能景觀上的局部極小值,但對穩態后驗分布仍有顯著影響(尤其是在較長混合時間下)。
在中間訓練精度下可以找到一個平衡狀態(圖 4D),此時識別和一次性泛化性能都很高(類似于 Millidge 等人 [2022a] 提出的“標準狀態”)。這正是促進吸引子正交化的狀態,對于高效表示和泛化至關重要。
這些模型的復雜度限制導致它們復用相同的吸引子來表示不同的模式(例如在 D 面板的例子中,數字 5 和 7 共享同一個吸引子),最終導致吸引子數量減少,但每個吸引子具有更強的解釋能力,并且彼此近似正交。
圖 4 的 C-E 面板展示了在網絡處于不同狀態時對手寫數字任務的行為示例,包括:
(i) 訓練數據(在所有情況下相同);
(ii) 固定點吸引子(通過確定性更新獲得);
(iii) 吸引子正交性(吸引子之間的成對角度的極坐標直方圖);
(iv) 檢索和一次性泛化性能(對于 100 個隨機采樣的模式,在 100 個時間步后的網絡輸出與噪聲輸入之間的 R2);
(v) 識別和一次性泛化測試中的代表性示例(噪聲輸入、網絡輸出和真實模式)。
4.3 模擬 3:序列學習能力演示
在模擬 3 中,我們展示了所提出架構的序列學習能力。我們訓練網絡學習一個由 3 個手寫數字(1、2、3)組成的序列,按照固定的順序呈現(1 → 2 → 3 → 1 → 2 → 3 → ...),共訓練了 2000 輪(epoch),每輪僅包含一個時間步(見圖 5A)。
這種快速呈現輸入序列的方式迫使網絡從對前一個模式的響應中建模當前吸引子,即建立序列吸引子(sequence attractors)。逆溫度參數設置為 1,學習率設置為 0.001(在補充分析中我們發現,結果對這些參數的選擇具有相當強的魯棒性)。
如圖 5B 所示,這種訓練方式導致了耦合矩陣的**非對稱性**(而在之前所有的模擬中,耦合矩陣都非常接近對稱)。根據公式(12)和(13),我們將耦合矩陣分解為對稱部分和反對稱部分(見圖 5C 和 D)。
通過提取耦合矩陣對稱部分的固定點吸引子,我們得到了三個分別對應于這三個數字的吸引子(見圖 5C 和 E)。
而耦合矩陣的反對稱部分則編碼了序列的動力學信息。事實上,當讓網絡自由運行(偏置設為零)時,它自發地產生了一個不斷循環的數字變化序列:1 → 2 → 3 → 1 → 2 → 3 → 1 → ...,反映了原始訓練中的順序(見圖 5F)。
這表明,所提出的框架能夠生成和處理非對稱耦合,從而學會表示序列結構。
4.4 模擬 4:災難性遺忘抵抗能力的演示
在模擬 4 中,我們使用了在模擬 2 中訓練完成的一個網絡,其逆溫度參數為 0.17,證據強度等級為 11(即圖 4D 所示的那個網絡),并在保持學習率不變、但偏置設為零的情況下,讓該網絡繼續運行了 50000 輪(與訓練階段的輪數相同)。我們預期的是,隨著網絡在吸引子之間自發地游走,它會不斷強化這些吸引子,從而防止它們被完全“遺忘”。
事實上,正如圖 6 所示,該網絡的耦合矩陣(A 面板)、檢索性能(B 面板)和一次性泛化性能(C 面板)都與原始網絡非常相似。然而,網絡的吸引子狀態并不完全等同于原來的吸引子狀態,這表明其中一些原始吸引子已經變成了“軟吸引子”(或稱“幽靈吸引子”,ghost attractors)——它們不再是自由能景觀上的明確局部極小值,但它們對網絡動力學的影響仍然顯著(見文件:06-simulation-digits-catastrophic-forgetting.ipynb)。
5 討論
要闡明大腦功能,吸引子動力學(attractor dynamics)扮演著關鍵角色,這促使我們提出一個基礎性問題:根據自由能原理(Free Energy Principle, FEP)所闡述的自組織第一性原理[Friston et al., 2023, Friston, 2010],哪些類型的吸引子網絡會自然地從中涌現出來?在本文中,我們旨在回答這一問題。通過數學推導和一個典型的參數化模型,我們展示了由此產生的網絡通常表現為非平衡穩態(NESS)系統[Xing, 2010, Ao, 2004],其穩態概率分布由突觸效能的對稱部分所支配,并呈現出類似玻爾茲曼(Boltzmann)的形式[Amit, 1989, Hochreiter and Schmidhuber, 1997]。
這使得所生成的自組織吸引子網絡成為標準單層玻爾茲曼機或隨機霍普菲爾德網絡(stochastic Hopfield networks)[Hinton, 2002, Hopfield, 1982]的一種廣義形式,但區別在于它們具有不對稱耦合能力和連續值神經元狀態。支撐這一推導的主要假設——即“深度特定劃分”(deep particular partition)的存在以及由此而來的最小化變分自由能的需求——不僅簡潔明了,而且對于任何能在變化環境中維持自身完整性的隨機動力系統來說,這些假設可以說是基本的[Friston et al., 2023]。
我們的表述揭示出,在微觀尺度上(即由各個網絡節點或“子粒子”層面)最小化變分自由能,會在主動推理框架(active inference framework)[Friston, 2009]中引發雙重動態過程。首先,它為每個網絡節點規定了貝葉斯更新動態,類似于玻爾茲曼架構(如隨機霍普菲爾德網絡)中觀察到的隨機松弛現象,這對神經科學具有重要意義,尤其是在粗粒度的大腦網絡研究中,已有研究表明跨腦區的活動遵循類似的“流動”規則[Cole et al., 2016, Sanchez-Romero et al., 2023, Cole, 2024]。
其次,這種機制催生了一種獨特的耦合可塑性——一種局部的、增量式學習規則——該規則不斷調整耦合權重,以在預期未來感官輸入的前提下保持低自由能狀態,從而有效地實現主動推理意義上的動作選擇[Friston et al., 2016]。該學習規則本身具有高度的神經生物學合理性,因為它既類似于廣義赫布-反赫布學習[F?ldiák, 1990, Sanger, 1989],也類似于預測編碼(predictive coding)[Rao and Ballard, 1999, Millidge et al., 2022b, 2024]。通過將當前輸入的相關性與網絡在前一時間步生成模型的預測進行對比,該規則高效地實現了序列學習。
此外,借助其自發(隨機)回到吸引子的自然傾向,該網絡能夠緩解災難性遺忘(catastrophic forgetting)——這是當前深度學習架構在學習新知識時丟失舊表示的趨勢[Aleixo et al., 2023]。這一現象可能作為靜息態大腦活動中觀察到的自發波動(也與“白日夢”有關)的模型,并顯示出在人工系統中利用類似機制的潛力。
重要的是,我們表明在我們提出的自適應自組織網絡結構中,微觀尺度上的自由能最小化體現為(近似的)宏觀尺度上的自由能最小化——這符合宏觀尺度網絡本身也是一個特定劃分的事實。這意味著該網絡不僅在其節點層面執行貝葉斯推理,也在宏觀層面執行——這一結果在玻爾茲曼機和脈沖神經網絡的研究文獻中已有廣泛記錄[Ackley et al., 1985, Hinton, 2002, Buesing et al., 2011]。
我們的工作擴展了這些先前成果并提供了一個整體視角:由耦合效率塑造的自由能景觀,表現為一系列(軟)吸引子,編碼了系統的先驗信念;感官輸入或內部計算則通過擾動網絡節點的內部偏置來呈現,構成了似然函數;而網絡固有的隨機動態則通過類似于馬爾可夫鏈蒙特卡洛采樣(Markov Chain Monte Carlo sampling)的過程探索后驗景觀[Gelman and Rubin, 1992]。
這些動態的隨機性并非僅僅是副現象;它賦予了網絡進行主動推理的能力,使其能夠在狀態空間中動態地穿越軌跡,融合不同吸引子盆地的貢獻[Friston, 2009]。因此,對于那些雖是新的、但位于已學習吸引子張成的子空間內的輸入,網絡通過振蕩活動進行泛化——這是大腦神經計算的一個顯著特征。雖然此前已有研究(如[Liu et al., 2022])提出振蕩是由多穩態隨機動力學生成的,但由于系統吸引子構成的準正交基底,這樣的機制可能特別有效。
通過“深度特定劃分”,FEP 形式化方法本質上容納了多個層級嵌套的描述層次。人們可以通過合并子粒子任意地對系統進行粗粒化,最終得到一個簡單的特定劃分。借鑒中心流形定理(center manifold theorem)[Wagner, 1989]等概念,可以認為較低描述層次上的快速細粒度動態會收斂到低維流形上,系統隨后在更粗糙尺度上通過較慢過程演化。這種內在的時間尺度分離為理解大規模腦動力學提供了一個有力范式,其中快速的神經元活動支持了通過層級主動推理實現的較慢認知過程[Man et al., 2018]。
事實上,實證研究已經提供了大量證據,表明吸引子動力學存在于大規模腦活動中[Rolls, 2009, Kelso, 2012, Haken, 1978, Breakspear, 2017, Deco and Jirsa, 2012, Kelso, 2012, Gosti et al., 2024, Chen et al., 2025]。
正如在數學上所推導并在計算機模擬中所展示的那樣,由自由能原理(FEP)驅動的學習與推理同步過程的一個關鍵結果是:網絡傾向于形成**近似正交的吸引子狀態**。我們認為,這一顯著特性并非僅僅是副現象;它是保守粒子減少自由能[Friston 等, 2023]過程中不可避免的結果;這相當于同時最小化模型復雜性并最大化準確性——或者說,通過最大化互信息來最小化冗余。這一關鍵特征使自由能最小化的吸引子網絡自然地逼近一種最高效的吸引子網絡結構之一:即由 Kanter 和 Sompolinsky 所提出的投影網絡[Kanter and Sompolinsky, 1987, Personnaz et al., 1985]。
我們將吸引子狀態的近似正交性視為自由能最小化吸引子網絡的一個標志性特征,可能在自然系統(如神經數據)中被檢測到。已有初步證據來自大規模腦網絡數據,指向這一方向。使用一種與本文非常相似的吸引子網絡模型,最近的一篇論文表明標準靜息態網絡(RSNs)是大腦吸引子的表現形式,并可以從 fMRI 腦連接數據中重建[Englert et al., 2023]。最重要的是,這些經驗重構的大規模大腦吸引子被發現基本上是正交的——這正是本文所述自組織吸引子網絡的關鍵特征。未來研究需要仔細驗證這些大規模大腦吸引子及其所附帶的計算能力是否確實是基于 FEP 的吸引子網絡的真實直接表現。
除了在神經科學中的意義之外,我們的工作對人工智能研究也具有多重啟示。總體而言,基于預測編碼的神經網絡架構——類似于本文所提出的架構——正日益受到關注。最近的研究表明,這類方法不僅可以將反向傳播作為特殊情況再現[Millidge et al., 2022c],而且能夠高效擴展——即使對于循環圖(cyclic graphs)也是如此——并且在多個場景下可以優于傳統的反向傳播方法[Salvatori et al., 2023, 2021]。
此外,在我們的框架中——與近期關于深度學習的預測編碼表述一致[Millidge et al., 2022b]——學習和推理并非彼此獨立的過程,而是通過主動推理進行變分自由能最小化的兩個互補方面。正如我們通過仿真所展示的那樣,這種統一自然地賦予了所提出架構“持續學習”或“終身學習”的特性——即機器能夠在運行過程中不斷收集數據并微調其內部表示的能力[Wang et al., 2023]。
由于在所提出的網絡中,推理過程涉及自發地“重放”自身的吸引子(或其序列),即使沒有外部輸入(零偏置),該架構也可能自然地克服災難性遺忘[Aleixo et al., 2023]。進一步研究 FEP 基礎上的吸引子網絡在更復雜、多樣和長期的學習場景中的表現如何,是一個有前景的研究方向。
隨機性是我們網絡的另一個關鍵屬性,它實現了推理的精度控制,并使其在穩定性和靈活性之間取得平衡。這種固有的隨機性與節能型類腦架構[Schuman et al., 2022]高度契合,特別是在熱力學計算(thermodynamic computing)這一新興領域中尤為突出[Melanson et al., 2025]。
最后,我們基于 FEP 的形式化框架的遞歸性質為構建層級式、多尺度吸引子網絡提供了原則性的方法,可用于提升大規模 AI 系統的效率、魯棒性和可解釋性。總體而言,所提出的架構天然地體現了主動推理與預測編碼的所有上述優點[Millidge et al., 2022b, Salvatori et al., 2023]。在網絡描述的每一層面上,它都動態地平衡了準確性和復雜性,并可能自然表現出“信息尋求”行為(好奇心)[Friston et al., 2017]。
此外,該架構還可能為探索與主動推理相關的意識特質的長期哲學含義提供基礎[Pezzulo et al., 2024]。
綜上所述,通過從自由能原理出發推導出自適應、自組織——以及自我正交化——的吸引子網絡的涌現,本研究提供了一個將自組織、貝葉斯推理與神經計算統一起來的原則性綜合框架。吸引子正交化的內在趨勢、多尺度動力學以及持續學習能力,為更好地理解自然智能并通過主動推理的視角啟發人工對應系統提供了令人信服的、理論上有依據的展望。
https://pni-lab.github.io/fep-attractor-network/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.