網易首頁 > 網易號 > 正文申請入駐

逆向設計智能物質：可微分邏輯元胞自動機破解數十年難題

2025-04-24 22:47:17　來源: 集智俱樂部

北京舉報

分享至

摘要

可微分邏輯元胞自動機是一種突破性計算模型，解決了元胞自動機領域數十年來的核心難題：如何從目標模式逆向設計局部規則。融合神經元胞自動機的學習能力與可微分邏輯門網絡的離散特性，這一創新方法能以完全可微分方式自主推導規則，同時保留元胞自動機的離散本質。這一跨學科突破可能是邁向理論計算物質“Computronium”的關鍵一步，為未來計算描繪出能學習、支持本地處理且基于離散架構的新范式。

關鍵詞：元胞自動機、可微分邏輯網絡、逆向規則設計、計算物質（Computronium）、離散計算架構、神經元胞自動機

思無涯丨作者

想象一下這樣的場景：

你需要逆向推演，從簡單的規則中，尋找那些涌現出的復雜模式與行為。這些看似隨機的行為背后，隱藏著深層的規律。這一挑戰數十年來始終吸引著從事元胞自動機研究的學者與愛好者。

在元胞自動機領域，傳統的方法是自下而上：先設定局部規則，再觀察由此產生的全局的涌現模式。現在，設想一下我們可以構建這樣一種新型系統：在給定某種復雜系統的目標模式時，它能夠以完全可微分的方式，自主推導生成該模式的局部規則，同時完美保留元胞自動機固有的離散特性。那將意味著什么？這正是今天我們要共同揭開的謎題。

學習電路細節展示

由學習電路生成的“G”符號

先前研究曾嘗試運用不可微技術來學習轉換規則[1]，從而驗證了通過局部規則演化實現特定計算的可行性，同時，學界也對一維元胞自動機的可微改造進行了初步探索[2]。基于此，我們提出了一種全新的端到端可微方法，融合了兩大關鍵概念：神經元胞自動機（NCA）[3]與可微分邏輯門網絡[4][5]。神經元胞自動機具備學習任意模式與行為的能力，但其狀態空間本質并非離散，這使得系統更難以被解讀，同時，由于需要逐步更新其連續內部狀態，當前的硬件不得不執行代價高昂的矩陣運算。可微分邏輯門網絡已被用于發現組合邏輯電路，將離散狀態與可微分訓練信號相結合。雖然，它們尚未在遞歸環境中得到驗證。但神經元胞自動機（NCA）在空間和時間上都是遞歸的。這樣的組合聽起來，就非常吸引人。

從更宏觀的視角來看，我們認為可微分邏輯門與神經元胞自動機的結合，可能是邁向可編程物質（Computronium）的一步。Computronium [6]是一種理論上能夠執行任意計算的理論物理物質，可以成為“計算物質（Computronium）”。Toffoli 和 Margolus 曾通過 CAM-8 這一基于元胞自動機的計算架構開創了這一方向，該架構[7][8]理論上能夠實現大規模、水平可擴展的計算。然而，核心難題始終懸而未決：如何實際設計出實現特定宏觀計算所需的局部規則。正如 Amato 等人所指出的，“學界仍在為尋找對應真實自然系統的局部規則而困擾”[6]。如果我們能夠直接學習這些局部規則，并創建出結合了二進制邏輯、神經網絡的靈活性以及元胞自動機局部處理能力的模型，會怎樣？我們相信，我們的原型系統已勾勒出未來計算的雛形：它能夠學習，支持本地處理，且采用離散架構。

本文將逐步指導你實現可微分邏輯門的元胞自動機，并展示關鍵研究成果。

我們面臨兩個根本性問題：

?可微分邏輯元胞自動機能學習嗎？

為了回答這個問題，我們將從康威的生命游戲（Conway's Game of Life）入手。生命游戲或許是幾十年來最經典的元胞自動機，其簡單性（在功能上等同于學習一個真值表）將幫助我們驗證所提出框架的基本學習能力。接下來是一個更深刻的問題：

?在空間和時間上均具有遞歸特性的電路，能否學習到與傳統神經元胞自動機生成的復雜模式類似的結果？

雖然可微分邏輯門網絡和神經元胞自動機都已展現出可訓練性，但在可微分邏輯框架下，如何有效訓練出兼具時間遞歸和空間遞歸特性的電路，仍然是一個未被探索的領域。

第二個實驗將展示該模型學習遞歸電路的能力，這些電路能夠生成與傳統神經元胞自動機相似的復雜模式。

回顧：神經元胞自動機

本項目的核心是神經元胞自動機（NCA）。它巧妙融合了經典元胞自動機與現代深度學習技術。這一范式由Mordvintsev等人[3]開創，徹底顛覆了對計算系統的傳統認知。這類系統具備生長、適應并自我組織的能力。

傳統元胞自動機因其能夠從簡單的局部規則生成復雜行為而長期吸引著研究者。神經元胞自動機則通過梯度下降使這些規則可學習，進一步拓展了這一概念。系統不再依賴人工設計，而是自動發現規則，從而為自組織計算系統開辟了全新的可能性。

這種方法的獨特之處在于，它在保留元胞自動機核心原則的同時--局部性、并行性和基于狀態的計算，引入了神經網絡的適應性。

在接下來的章節中，我們將簡要總結《生長型神經元胞自動機》[3]一文中的主要概念，該研究提出了一種用于形態發生的神經元胞自動機。如果您已熟悉相關內容，可以跳過這一部分。

結構：二維網格中的智能元胞

該系統的核心是一個二維網格，類似于經典元胞自動機。每個元胞包含一個n 維信息向量，稱為元胞狀態（或通道）。在生長型神經元胞自動機（Growing-NCA）的具體案例中，狀態向量由以下元素組成：

RGB 顏色（3 個通道）：表征元胞的可見屬性，即其顏色。

Alpha（α）通道（1 個通道）：表示元胞的活力。如果 Alpha 值大于 0.1，則元胞被視為“存活”。
隱藏通道（n -4 個通道）：這些通道允許元胞傳遞關于其環境的更復雜信息，從而使交互更加豐富和動態。

但精髓不止于此。系統的核心突破在于：元胞通過兩階段機制完成互動，并在過程中持續演化。

兩階段更新機制：感知與更新感知階段

在第一階段，每個元胞會感知周圍環境。這一過程類似于元胞對所處世界進行“掃描”。為此，它使用索貝爾濾波器（Sobel filters）——這種數學工具，能夠對空間梯度進行數值近似，即“環境中的數值變化”。濾波器按通道分別應用，生成的結果稱為感知向量（perception vector）。該向量不僅整合了元胞的當前狀態，還結合了環境數據，其原理類似于生物元胞借助化學梯度感知并響應外界變化。

更新階段

在第二階段，神經網絡開始介入。每個元胞將感知向量輸入神經網絡，神經網絡對網格中的每個元胞執行相同的操作。通過約8000個參數，神經網絡根據元胞收集到的信息決定每個元胞應如何變化。正是在這一階段，系統得以演化，元胞適應并響應環境的變化。

生長型神經元胞自動機（Growing NCA）的學習過程，圖片來源：Mordvintsev 等人[3]。

可微分的力量

系統的強大之處在于可微分(differentiability)。從感知環境到狀態更新，每個步驟都可微分。這意味著整個系統能夠通過梯度下降進行優化。其運作方式與神經網絡學習數據的方式相同。因此，系統無需預設固定規則。它能真正學習到特定模式或行為。這使它成為模擬復雜系統的有力工具。

NCA生長過程。圖像來源：Growing Neural Cellular AutomataA. Mordvintsev, E. Randazzo, E. Niklasson, M. Levin.Distill. 2020.

盡管該系統的各個組成部分（如索貝爾濾波器和神經網絡）相對簡單，但它們的組合卻創造出了更為復雜的結果。這是一種簡單與復雜之間的平衡，類似于自然界中的生物系統，局部相互作用最終涌現出驚人的復雜行為。

這種方法不僅拓展了元胞自動機的應用邊界，還通過局部相互作用，實現學習、生長與模式形成的可能。無論您是研究人員、開發者，還是對人工智能與復雜性交叉領域充滿興趣的人，這里都有許多值得探索的內容。

神經元胞自動機的其他應用還包括圖像分割[9]、圖像分類[10]等。

回顧-可微分邏輯門網絡

如果我們可以將計算的基本構建模塊（如與門、或門和異或門等邏輯門）以動態學習的方式組合起來，以解決某些任務，會怎樣？這正是深度可微邏輯門網絡（DLGNs）所實現的，巧妙融合了數字電路的高效性與機器學習的能力。這一框架由Petersen團隊[4][5]開發，在資源受限的場景（如邊緣計算、嵌入式系統）中，展現出突破性的潛力。

卷積可微分邏輯門網絡示意圖，圖片由Petersen團隊提供。Convolutional Differentiable Logic Gate NetworksF. Petersen, H. Kuehne, C. Borgelt, J. Welzel, S. Ermon.NeurIPS. 2024.

深度可微分邏輯門網絡如何工作？邏輯門作為神經元

深度可微分邏輯門網絡（DLGNs）的核心，在于用邏輯門取代神經網絡的傳統人工神經元。在這種情況下，每個節點都是一個邏輯門，不進行加權求和與矩陣乘法，僅執行AND、OR、XOR等基礎操作。

架構：

DLGN的架構極為簡明：

網絡由多層邏輯門組成：每個邏輯門從前一層的兩個邏輯門接收輸入，從而形成一個天然稀疏的網絡。

邏輯門之間的連接是固定的：初始化時隨機設定，但在訓練過程中不會改變。學習過程決定每個邏輯門的功能，而非邏輯門之間的連接。

推理時，每個邏輯門根據其學習到的操作，執行單一二元操作（如AND或OR）。

學習過程：使離散運算可微分

與傳統神經網絡學習權重不同，該網絡學習每個邏輯門應執行何種邏輯運算。在訓練過程中，每個節點通過解決分類任務來確定應使用何種邏輯門，從而最小化目標函數。

然而，挑戰在于邏輯門本質上是離散且不可微分的，這使得它們不適合基于梯度的學習。那么，我們如何讓它們學習呢？通過兩個關鍵技巧：

連續邏輯運算

在訓練過程中，每個邏輯運算被替換為一個連續化處理（ continuous relaxation），這是一個可微分的版本，可處理 0 到 1 之間的連續值。例如，我們不再使用僅接受 0 或 1 的硬與門，而是使用一個軟與門，輸入0到1之間的值，輸出兩個連續混合結果。這些連續化處理（如下所列）使我們能夠使用梯度下降來訓練網絡。

概率門選擇

每個邏輯門都維持著一個概率分布，涵蓋了兩種輸入的16種可能組合，均為二元運算。這一分布由一個16維的參數向量表示，并通過_softmax_函數轉換為概率分布。在訓練過程中，16維向量的值會不斷被調整。隨著時間推移，邏輯門逐漸學會優先選擇特定的運算。

在訓練過程中，網絡使用邏輯運算的連續化處理版本，網絡訓練完成，切換至純二進制運算，這樣可以實現閃電般的推理速度。

單個門訓練示意圖

為了提升訓練穩定性，邏輯門的初始分布偏向于直通門（pass-through gate）。

訓練：學習邏輯門

訓練過程遵循標準的前向-反向傳播機制：

1. 前向傳播

a.輸入值在網絡中逐層傳播。

b.每個邏輯門接收兩個輸入后，使用連續化處理版本，計算全部16種可能邏輯運算的結果。

c.這些結果根據邏輯門的概率分布進行加權，其加權和即為該邏輯門的輸出。

2. 反向傳播

a.網絡計算關于概率分布的梯度，然后使用梯度下降法更新這些分布。

b.隨著訓練進行，每個邏輯門的分布逐漸變得更加集中，并自發地收斂到某一種單一運算操作，可能是AND、OR、XOR或者其他運算。

推理：二元運算的精妙

訓練完成后，網絡將被凍結。這意味著每個邏輯門穩定在最高概率的操作，邏輯運算的連續形式被丟棄，最終得到處理二進制值（0或1）的純邏輯電路。

這種最終形式具有令人難以置信的效率。在部署階段，網絡僅使用二元運算運行，這使得它在任何硬件上都能達到異常快速的運行速度。

可微分邏輯元胞自動機

將可微分邏輯門網絡與神經元胞自動機相結合，提供了一種在保持可微分性的同時處理離散狀態的解決方案。

我們將深入剖析這一體系，對比其與傳統神經元胞自動機的差異，梳理兩者共有的基本原理，并理解可微分邏輯門的基礎作用。我們將借用神經元胞自動機(NCA)的術語體系，重點突出我們模型的差異之處。

結構：由智能二值元胞構成的二維網格

與神經元胞自動機(NCA)類似，該系統構建于二維元胞網格之上，其中每個元胞的狀態由n維二值向量表示。這個二值狀態向量充當元胞的工作存儲器，存儲來自先前迭代的信息。在本文中，元胞狀態與通道可以互換使用。

雙階段更新機制：感知與更新

每個核函數以通道為單位運算，計算中心元胞與其鄰居之間的交互作用，模擬元胞自動機在摩爾鄰域內的相互作用。這個3×3的區塊展示了一個狀態維度為3的情況。電路的連接方式旨在處理中心元胞與周圍元胞之間的交互作用。第一層包含8個邏輯門，每個邏輯門將中心元胞作為其第一輸入，并將一個相鄰元胞作為其第二輸入。

給定狀態維度為4且具有2個核函數的元胞，其更新步驟的表示圖。

感知階段

在元胞自動機系統中，每個元胞必須感知其環境。傳統神經元胞自動機(NCA)使用Sobel濾波器來進行感知建模，而可微分邏輯元胞自動機(DiffLogic CA)則采用不同的方法。每個核函數都是一個獨特的電路，其中連接以特定結構固定，但邏輯門參數是通過學習獲得的。核函數計算按通道進行。每個電路采用四層結構，其連接設計用于計算中心元胞與其相鄰元胞之間的交互作用，如右圖所示。輸出維度是核函數數量與通道數量的乘積。替代方法涉及每個通道具有多位輸出的核函數，而非僅一位，這在某些情況下可改善收斂性。其他方案采用多比特內核，每個通道輸出超過一比特，這在某些情況下能提升收斂效率。

更新階段

更新機制遵循神經元胞自動機(NCA)的范式，但采用可微分邏輯網絡來計算每個元胞的新狀態。網絡連接可以隨機初始化，也可以特定結構化以確保所有輸入都包含在計算中。更新后的狀態是通過將可微分邏輯門網絡應用于元胞先前的記憶（圖中灰色表示）和從其鄰居接收的信息（圖中橙色表示）的拼接而確定的。在標準神經元胞自動機中，此時會增量更新狀態，將整個系統視為常微分方程(ODE)處理。而在可微分邏輯元胞自動機(DiffLogic CAs)中，我們直接輸出新狀態。

總而言之：感知階段使用邏輯門網絡處理二值鄰域狀態，取代傳統的基于卷積濾波器的操作；而更新規則則實現為另一個邏輯門網絡，該網絡將感知輸出和當前狀態作為輸入，并輸出元胞的下一個二值狀態。

4×4可微分邏輯元胞自動機網格示意圖。在每個時間步，每個元胞讀取并處理存儲在其相鄰元胞狀態中的信息，然后更新自身狀態。

上圖示意性地表示了一個4×4的可微分邏輯元胞自動機(DiffLogic CA)網格，每個小方格都是一個具有雙重記憶系統的微型計算單元。我們將這兩個寄存器分別可視化為灰色和橙色。網格中的每個元胞執行兩步過程，我們稍后將看到，這個過程可以同步執行，或在某些情況下異步執行：

步驟1：感知階段

首先，網格中的每個元胞都成為數據采集器。它們檢查鄰近元胞的灰色寄存器，處理觀察到的信息，并將結果存儲在自身的橙色寄存器中。

步驟2：更新階段

隨后，每個元胞轉變為決策者。它們同時使用兩個寄存器的數據，包括原始灰色寄存器與新填充的橙色寄存器。據此計算出新狀態，并將新狀態寫入灰色寄存器。橙色寄存器隨即清空，為下一輪感知做好準備。

整個系統如同獨立微型計算機組成的網絡。各元胞與鄰近元胞保持通信，基于觀測結果自主決策。每個元胞都是龐大互連網格中的微型處理器，通過簡單局部交互協同工作，共同完成復雜計算。我們結合本地連接與分布式處理，構建出能夠利用群體行為涌現，解決復雜任務的系統。

我們再次發現，Toffoli與Margolus提出的“可編程物質”（Programmable Matter）和“計算物質（Computronium）”與本研究有密切關聯。們提出的CAM-8[7][8]是一種基于元胞自動機的計算機架構，與上文所述的系統類似：每個元胞使用DRAM芯片存儲狀態變量，借助SRAM芯片進行運算處理。

CAM-8架構及圖像來自馬爾格魯斯團隊。

實驗一：學習生命游戲

康威生命游戲是一種精妙的數學模擬，展現了簡單規則如何涌現出復雜圖景。數學家John Conway于1970年創立了這一游戲，它并非傳統意義上的游戲——而本質上是一種元胞自動機。網格中的元胞生死存亡，僅由四條基本規則支配。盡管規則簡潔，卻能演化出令人驚嘆的現象：既有穩固的結構，也有動態的模式，宛如自主生命般運作。

康威生命游戲的模擬

這個康威生命游戲的規則優雅而簡單，專注于每個元胞如何與其周圍的八個鄰居元胞互動：

存活：一個死亡元胞（當前值為0）若恰好有三個活的鄰居，會在下一代中復活，類似于繁殖。

存活：一個活的元胞（當前值為1）若有兩個或三個活的鄰居，會存活到下一代，這代表一個平衡的環境。

生命數量不足：一個活的元胞若少于兩個活的鄰居，會在下一代因孤立而死亡。

生命數量過剩：一個活的元胞若有超過三個活的鄰居，會在下一代因過度擁擠而死亡。

這四條規則在每一步同時應用于網格中的每個元胞，創造出一場模式之舞。從這些基本交互中涌現出復雜行為：永不改變的穩定結構、按規律模式脈動的振蕩器，甚至看似在網格上移動的滑翔機。正是這種從簡單性中涌現的復雜性，使生命游戲成為自然系統中自組織的有力隱喻，從生物進化到星系形成，皆是如此。

鑒于其二值性和動態特性，所以生命游戲是檢驗可微分邏輯元胞自動機(DiffLogic CA)有效性的良好基準。

狀態與參數

規則不受歷史狀態影響，元胞狀態僅需占用1比特空間，系統本身無記憶。模型架構包含16個感知電路核，每個核的節點結構均為[8,4,2,1]。更新網絡共23層：前16層每層包含128個節點，后續七層的節點數依次為[64,32,16,8,4,2,1]。

損失函數

損失函數通過逐點計算獲得。將預測網格與真實網格的平方差求和，即可得到最終數值。數學表達式如下：

訓練數據集

模型訓練采用3x3周期性網格，時間步長設置為單步。在生命游戲中，每個元胞會與周圍的八個鄰近元胞進行互動。元胞的下一個狀態不僅取決于其當前狀態，同時也會受到鄰居狀態的影響。由于3x3網格存在512種唯一的構型，因此在訓練過程中，我們構建了覆蓋全部512種構型的網格。正確預測網格的下一狀態，意味著掌握了完整的生命游戲規則。訓練得到的參數隨后被用于模擬更大規模網格的表現。

左側的損失曲線顯示了兩種邏輯門表示方式的比較結果。軟損失使用前一節所述的連續近似方法計算門的輸出，而硬損失則僅選擇概率最高的門，并使用離散輸出。兩種損失完全收斂，表明生成的電路能夠完美模擬生命游戲。

通過硬推理（選擇概率最高的門），右側的模擬展示了學習電路的表現。該模擬基于更大規模的網格。涌現的圖案捕捉了康威生命游戲的特征：在網格間移動的滑翔機、保持固定位置的穩定方塊，以及保持其獨特形態的經典結構，如面包型和船型結構。對“生命游戲”特征模式的成功復現證明了我們的電路已有效掌握了底層局部規則。

DiffLogic CA學習生命游戲的訓練過程曲線

由學習電路模擬的生命游戲

生成電路分析

雖然電路優化并非本項目的主要關注點，但本節將對生成的電路進行簡要分析。

使用的有效邏輯門總數（不包括直通邏輯門A和B）為336個。通過對邏輯門分布的統計分析，我們發現在兩個網絡中使用頻率最高的邏輯門類型是OR門和AND門。

感知內核電路中邏輯門數量的分布

更新電路中邏輯門數的分布

鑒于我們的最終電路僅由一系列二進制邏輯門組成，我們可以進一步深入分析并可視化整個電路的邏輯結構，下圖展示了這336個邏輯門中的大部分（部分邏輯門因被確定對輸出沒有貢獻而被剪除）。

完整學習感知-更新電路實現生命游戲（可交互使用）https://google-research.github.io/self-organising-systems/difflogic-ca/gol.html

左側排列成3×3網格的方塊是輸入門，它們的排列方式模擬了“生命游戲”中單個中心元胞的視角。導線在高電平(1)時顯示為綠色，低電平(0)時顯示為紅色。各個邏輯門基本上是非常清晰的，包括AND（與）門、OR（或）門或XOR（異或）門，其中輸入端或輸出端的小圓圈表示在該連接處有NOT（非）操作。為簡化可視化效果，我們還將二元的NotB和NotA門替換為單輸入的非門，并剪除了未使用的輸入端，簡化視覺呈現。此外，部分門僅表示“True”（真）或“False”（假），它們與輸入端外觀幾乎相同，呈現為嵌套方塊：實心的代表True，空心的代表False。

在最右側，我們看到電路的單一輸出通道——這恰好表示“生命游戲”中元胞的新狀態。在圖中的這一特定配置下，我們可以看到電路正確計算了“任何死亡元胞，如果恰好有三個活的鄰居，就會變成活元胞，仿佛通過繁殖一樣”這一規則。

我們建議讀者直接操作此電路，進行交互體驗[11]。

https://google-research.github.io/self-organising-systems/difflogic-ca/gol.html

實驗二：斑圖生成

神經元胞自動機（NCA）在斑圖生成任務[3]中展現出了卓越的能力，這啟發我們探索可微分邏輯元胞自動機（diffLogic CA）的類似潛能。在此任務中，系統從隨機初始狀態出發，逐步演化至目標圖像。允許多步計算過程，僅在最終時刻評估損失函數。這一設計促使模型自主發現離散轉換規則。這些規則需引導系統經歷連貫的狀態序列，無需逐步監督。

成功學習重構圖像將驗證兩個關鍵方面：1.模型能否通過習得規則形成長效動力學；2.能否有效學習具有狀態記憶、時間遞歸和空間遞歸特性的電路結構。據我們所知，本研究尤為重要，因為它代表了首次在遞歸環境中對可微分邏輯門網絡[4][5]進行的探索。

狀態與參數

我們考慮元胞狀態（通道）為8位，并將DiffLogic CA迭代20步。模型架構包含16個感知電路核，每個核在各層分別有8、4和2個邏輯門。更新網絡包含16層：前10層每層各有256個門，隨后各層門數分別為[128、64、32、16、8、8]。

損失函數

我們將損失函數定義為：預測網格中第一通道與目標網格在最后時間步的平方差之和。

訓練數據集

模型訓練目標是在20個時間步內，重建16x16棋盤圖案。在每個訓練步驟中，初始狀態均采用隨機采樣方式生成。目標棋盤格圖案如下圖所示。

目標斑圖

實驗結果

DiffLogic CA完全收斂至目標圖案。訓練曲線圖（左圖）顯示軟損失函數和硬損失函數均呈現一致的收斂趨勢。用于計算損失函數的第一通道的演化過程（右圖）展示了清晰的斑圖形成。一個引人深思的涌現特性是，盡管模型沒有內置方向偏好，圖案仍呈現從左下至右上的定向傳播趨勢。

DiffLogic CA的訓練曲線

DiffLogic CA的演化過程，僅考慮元胞狀態中的第一位。

生成電路分析

所使用的有效邏輯門總數（不包括直通門A和B）為22個。對學習得到的邏輯門分析顯示，感知核與更新網絡之間存在不同的門分布。TRUE門似乎在感知過程中扮演關鍵角色，但在更新網絡中則不然。

感知內核電路中邏輯門數量的分布

更新電路中邏輯門數量的分布。

在下方，我們提供了剪枝后電路的交互式可視化。值得注意的是，我們最終只剩下六個邏輯門——其中一個是冗余的，即對同一輸入執行的AND操作。換言之，電路學習到的整個程序化棋盤格生成功能僅需五個邏輯門即可實現。同樣，大部分輸入和輸出保持未使用狀態。更關鍵的是，更新步驟完全不考慮單元自身視覺輸出。我們鼓勵讀者與下方電路進行交互[11]，通過點擊左側輸入的開關來觀察對輸出的影響。

完整學習感知-更新電路 | 上圖需要到原網頁交互體驗，非常推薦大家去試試https://google-research.github.io/self-organising-systems/difflogic-ca/?hn

解決方案的通用性如何？

從表面上看，我們的解決方案似乎是在迭代構建網格——可以說是在逐塊搭建。然而，在訓練過程中，我們僅使用了一種固定大小的網格。自然地，我們應當研究改變網格大小后會發生什么：我們學習到的規則究竟是一種真正的迭代式程序化解決方案，還是僅過擬合于特定網格尺寸？讓我們將空間和時間維度都擴大四倍——使用四倍大小的網格并運行四倍的時間步長。

泛化測試：學習規則在4倍大網格上的應用

成功了！電路在新場景中依舊運行如初。這不禁引發了一個有趣的疑問：模型的歸納偏好究竟如何？在NCA框架下，我們可以促使模型的行為不受網格尺寸的影響，也不隨時間而改變。然而，這需要使用一種特殊的空間不變損失函數[12]。以生長蜥蜴為例，必須建立“存活/死亡”機制[3]，以避免邊界條件的過擬合。在本例中，邊界條件同樣固定，但模型卻學會了“邊界尺寸不變”的斑圖生成方式。這種離散化處理與最小電路規模，是否正在揭示某種極簡的程序描述，用于生成目標斑圖？

基于我們的設置，我們通過兩組實驗測試了系統的損傷恢復能力和自我修復特性。在第一組測試（左圖）中，我們評估了當大部分元胞被永久禁用，模擬故障組件的情況。在第二組測試（右圖）中，被禁用的元胞在特定步數后重新激活。系統在兩種情況下都表現出了魯棒的行為：在第一種情況下，盡管存在永久性元胞損傷，仍能維持斑圖完整性；在第二種情況下，一旦受損元胞恢復在線，系統能夠成功自我修復并產生正確的斑圖。

可微分邏輯元胞自動機：魯棒計算的新范式

魯棒計算[13]標志著系統設計的根本轉變，其首要任務是確保系統在真實環境中可靠運行。與傳統計算依賴精密無錯的元件不同，魯棒系統的設計有著顯著差異。魯棒系統的設計目標是即便遭遇硬件故障、環境干擾、意外輸入或制造差異，這類系統仍能持續運作。當代計算系統（尤其是分布式系統）雖已有一定容錯設計，但與自然界中同等復雜系統相比仍顯脆弱。現有容錯機制大多針對特定故障設計，例如無法通過其他手段控制的宇宙射線引發內存位翻轉。

在上述實驗中，DiffLogic元胞自動機通過自主學習，展現出容錯與自愈行為。這些規則并非人為預設。當某些元胞失效時，損害被限制在局部，系統繼續運行，性能逐漸下降而非發生災難性故障。這體現了生物系統的可靠性實現方式：通過不完美元件構成的網絡，實現一定的魯棒性。這為未來計算系統指明方向：即使在非理想條件下，仍能維持功能運作。

異步性

受傳統神經元胞自動機訓練方法的啟發[14]，我們探索了異步更新機制。相較于同時更新所有元胞（這可類比于全局時鐘），改為我們在每一步隨機選擇一部分元胞進行局部更新。這模擬了每個元胞都擁有自己內部時鐘的場景。在此框架下，每個元胞可被概念化為一個獨立的微型計算單元，它們自主決策，互不影響。

我們直接將異步性引入訓練過程，預期這會比傳統神經元胞自動機訓練困難得多。首先，每一步的更新必須輸出完整的新狀態，而非僅僅是增量更新。其次，元胞必須應對周圍元胞的任意異步組合。任何給定的鄰居元胞可能“落后”或“領先”一步、兩步、三步或更多步。這種復雜性迫使元胞必須有效學習更多轉移規則。

令我們驚訝的是，在最簡單的圖案——棋盤格上，成功實現異步訓練相對容易。下面，我們展示了三種不同且獨特的斑圖重構過程，它們都從相同的初始狀態開始，但使用不同的隨機種子來決定元胞更新順序。盡管這些更新具有異步特性且產生了更復雜的更新規則，但元胞仍能在50步內精準重建目標圖案。而在原同步模式下，僅需20步即可完成。

通過異步更新方法訓練得出的斑圖。

此外，學習型電路展現出泛化能力，在更大規模網格上實現了成功重建，并且能有效抵御外部錯誤的干擾，其運行模式恰似自修復的棋盤格，令人稱奇。

異步訓練下的泛化能力

異步訓練下的自我修復行為

最為驚人的是測試原有規則時的表現。該規則經由同步訓練獲得，然而改用異步推理后，竟然能夠正常運行！這一結果實在出人意料，并進一步印證了最初發現的電路具有較強的魯棒性。

異步推理的成功促使我們提出新的猜想：直接通過異步更新訓練的模型可能會表現出更強的魯棒性。為了驗證這一猜想，我們在每個推理步驟中，都有意地在圖像區域隨機遮蔽一個10x10像素的方塊。下方的模擬清晰地展示了這一過程。

異步訓練

同步訓練

這些圖像初步揭示了抗噪聲能力上的差異——異步元胞從損傷中恢復的速度略快，而同步訓練得到的規則受影響程度似乎更大。通過將誤差測量為目標圖像與重建圖像間絕對差值的總和，我們發現在面對此類擾動時，異步訓練提高了系統的魯棒性。

實驗三：生成蜥蜴圖案

在新實驗中，我們通過在蜥蜴輪廓上訓練DiffLogic元胞自動機（CA），測試其學習任意形狀的能力，以此向原始神經元胞自動機研究致敬。與再現高度可壓縮的規則圖案（如棋盤）相比，這項任務需要更多的記憶能力。我們使用128位的元胞狀態，并使DiffLogic元胞自動機迭代12步。架構包含四個感知電路內核：各層門數分別為8、4、2、1。更新網絡共十層：前八層每層512門，后兩層節點數分別為256與128。

訓練數據集

我們訓練模型在12個時間步內生成20×20的蜥蜴斑圖。與NCA一樣，初始條件由一個中心種子構成，用于打破對稱性，同時在網格邊緣應用周期性邊界條件。我們采用了與棋盤實驗中相同的損失函數。

蜥蜴輪廓圖

實驗結果

為評估模型的泛化能力，我們在更大的40×40網格上測試了其表現。結果表明，模型成功學習了生長模式，且未依賴邊界條件。左圖展示了軟損失和硬損失都收斂至零。右圖可視化呈現了蜥蜴在更大網格中的成功生長過程。

生成蜥蜴斑圖的損失函數

用DiffLogic CA生成蜥蜴

下方展示的前32個隱藏狀態可視化結果，讓我們得以窺見模型在生長過程中的內部動態機制。

前32個隱藏狀態可視化

訓練DiffLogic元胞自動機生成復雜圖案，面臨著重大優化挑戰。這一過程需要進行大量的超參數調優。未來，通過改進模型架構，優化電路拓撲結構，這些改進有望加速模型收斂，增強穩定性。同時，或許能降低密集調參的需求。

生成電路分析

共使用了577個有效邏輯門電路，其中不包含A、B直通門。感知核電路主要采用TRUE門，而更新電路則幾乎使用了所有可用的門類型。

感知核電路中邏輯門數量的分布情況

更新電路中邏輯門數量的分布情況。

實驗四：帶顏色的字母G的學習

先前實驗主要集中于單色圖像生成，僅將最后一個通道用于可視化目的。為進一步探索復雜目標態，我們訓練模型通過15步生成16x16“彩色”圖像。每個元胞狀態包含64個通道。模型配置了四個感知電路核，每個核具有三層結構：分別設置8門、4門、2門。更新網絡架構由11層組成：前8層每層各有512個節點，最后是3層序列，節點數分別為[256、128、64]。

訓練數據集

經過15步訓練，模型成功生成16x16彩色字母（可能喚起某些形態聯想）。初始狀態設定為全零，不采用周期性邊界條件。遵循標準NCA規范[3]，前三通道對應RGB色彩。在本模型中，這些值被限定為二進制0或1，最終呈現出八種基礎顏色。

目標斑圖

損失函數

損失函數定義為預測網格與目標網格在最終時間步的平方差之和，僅考慮前三個通道（0、1、2）。

實驗結果

結果顯示，模型成功學會生成彩色字母G。左圖損失曲線顯示，軟損失與硬損失均趨于收斂。右圖展示了通過15步重建彩色G字母的過程。

彩色G字母的損失函數

由學習電路模擬生成的“G”字母

生成電路分析

實驗共使用927個有效邏輯門（不含直通門A和B）。分析發現，感知網絡與更新網絡的邏輯門分布明顯不同。值得注意的是，TRUE（恒真）和FALSE（恒假）門在兩個網絡中都被廣泛使用，而OR（或）門在更新網絡中最為普遍。我們注意到，與先前實驗相比，該電路比先前實驗更復雜：既難找到合適超參數，整體規模也更大。

感知內核電路中邏輯門數量的分布

更新電路中邏輯門數量的分布。

總結和討論

本研究提出DiffLogic CA，一種新型NCA架構。它采用完全離散的元胞狀態，通過可學習的循環二進制電路進行更新。我們用深度可微分邏輯網絡替代傳統神經網絡組件，使離散邏輯門能夠進行可微分訓練。通過兩項關鍵成果驗證其應用價值：成功復現康威生命游戲規則，以及通過學習離散動態生成多樣圖案。這些發現表明，在元胞自動機框架中整合離散邏輯具有顯著潛力。同時，實驗證明可微分邏輯門網絡能夠在循環架構中被有效學習。當前模型雖能學習簡單模式，但生成復雜結構仍面臨挑戰。未來改進方向包括探索分層NCA架構，以及引入專用門以輔助狀態遺忘。例如，在狀態更新過程中加入類似LSTM的機制，可以實現對過去狀態和新計算的候選狀態更豐富多樣的組合，從而有可能增強模型的動態性和表達能力。

致謝

我們感謝Blaise Aguera y Arcas的支持以及智能范式團隊（Paradigm of Intelligence Team）提供的富有成效和啟發性的討論。感謝Marek Materzok以及優秀DigitalJS電路可視化庫的貢獻者，本文所有交互式電路均由其修改版本實現。感謝emmelaich發現圖表錯誤。

參考文獻

[1]Evolving cellular automata to perform computations: mechanisms and impediments,M. Mitchell, J.P. Crutchfield, P.T. Hraber.,Physica D. Elsevier BV. 1994.

[2]Differentiable cellular automata,C. Martin. arXiv [cs.DM]. 2017.

[3]Growing Neural Cellular Automata,A. Mordvintsev, E. Randazzo, E. Niklasson, M. Levin.,Distill. 2020.

[4]Deep differentiable logic gate networks,F. Petersen, C. Borgelt, H. Kuehne, O. Deussen.,NeurIPS. 2022.

[5]Convolutional Differentiable Logic Gate Networks,F. Petersen, H. Kuehne, C. Borgelt, J. Welzel, S. Ermon.,NeurIPS. 2024.

[6]Speculating in precious computronium,I. Amato.Science. American Association for the Advancement of Science (AAAS). 1991.

[7]CAM-8: A Computer Architecture Based on Cellular Automata,N. Margolus. arXiv. 1995.

[8]Programmable matter: Concepts and realization,T. Toffoli, N. Margolus.Physica D. Elsevier BV. 1991.

[9]Image segmentation via Cellular Automata,M. Sandler, A. Zhmoginov, L. Luo, A. Mordvintsev, E. Randazzo,B.A.y. Arcas.,arXiv. 2020.

[10]Self-classifying MNIST Digits,E. Randazzo, A. Mordvintsev, E. Niklasson, M. Levin, S. Greydanus.,Distill. 2020.

[11]tilk/digitaljs: Teaching-focused digital circuit simulator,M. Materzok. GitHub. 2018.

[12]Self-Organising Textures,E. Niklasson, A. Mordvintsev, E. Randazzo, M. Levin.,Distill. 2021.

[13]A movable architecture for robust spatial computing,D.H. Ackley, D.C. Cannon, L.R. Williams.,Comput. J., pp. 1450--1468. Oxford University Press (OUP). 2013.

[14]Asynchronicity in Neural Cellular Automata,E. Niklasson, A. Mordvintsev, E. Randazzo.,The 2021 Conference on Artificial Life. MIT Press. 2021.

因果涌現讀書會第六季

在霓虹燈的閃爍、蟻群的精密協作、人類意識的誕生中，隱藏著微觀與宏觀之間深刻的因果關聯——這些看似簡單的個體行為，如何跨越尺度，涌現出令人驚嘆的復雜現象？因果涌現理論為我們揭示了答案：復雜系統的宏觀特征無法通過微觀元素的簡單疊加解釋，而是源于多尺度動態交互中涌現的因果結構。從奇異值分解（SVD）驅動的動態可逆性分析，到因果抽象與信息分解的量化工具，研究者們正逐步構建起一套跨越數學、物理與信息科學的理論框架，試圖解碼復雜系統的“涌現密碼”。

為了系統梳理因果涌現最新進展，北京師范大學系統科學學院教授、集智俱樂部創始人張江老師領銜發起，組織對本話題感興趣的朋友，深入研讀相關文獻，激發科研靈感。

讀書會將從2025年3月16日開始，每周日早9:00-11:00，持續時間預計10周左右。每周進行線上會議，與主講人等社區成員當面交流，之后可以獲得視頻回放持續學習。誠摯邀請領域內研究者、尋求跨領域融合的研究者加入，共同探討。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.