網易首頁 > 網易號 > 正文申請入駐

抽象與推理語料庫發展之策

2025-06-07 00:11:37　來源: CreateAMind

上海舉報

分享至

https://arxiv.org/pdf/2505.08778

ARC-NCA: Towards Developmental Solutions to theAbstraction and Reasoning Corpus

ARC-NCA：抽象與推理語料庫發展之策

摘要

最初命名為ARC，后更名為ARC-AGI的抽象與推理語料庫 （Abstraction and Reasoning Corpus）在通用人工智能（AGI）領域提出了一個根本性的挑戰。它要求解決方案能夠在多樣化的任務中展現出強大的抽象和推理能力，而每項任務僅提供少量正確示例（中位數為三個）。雖然ARC-AGI對人工智能系統來說仍然極具挑戰性，但人類卻相對容易解決。

本文介紹了ARC-NCA ，這是一種基于發育式方法 （developmental approach）的模型，利用標準的神經細胞自動機（Neural Cellular Automata, NCA）以及增強型NCA——帶隱藏記憶的EngramNCA （EngramNCA）來應對ARC-AGI基準測試。選擇NCA是因為它們天生具備模擬復雜動態和涌現模式的能力，能夠模仿生物系統中觀察到的發育過程。

采用發育式解決方案可能為提升AI的問題解決能力提供一條有前景的道路，使其超越單純依賴訓練數據進行外推的傳統方式。ARC-NCA展示了如何將“發育原理”整合進計算模型，從而促進自適應的推理與抽象能力的發展。

我們表明，ARC-NCA的概念驗證結果可以與甚至有時超過ChatGPT 4.5的表現相當，而所需成本卻低得多。

引言

通往通用人工智能 （AGI）的發展道路，需要一些能夠嚴格評估智能體在抽象、泛化和推理方面能力的基準測試。由（Chollet，2019）提出的抽象與推理語料庫 （Abstraction and Reasoning Corpus, ARC）就是這樣一個基準之一。它包含了一系列視覺模式轉換任務，每個任務僅通過少量輸入-輸出示例定義，挑戰AI模型推斷出其中隱藏的轉換規則，并將其應用于新的實例。

測試對由兩個部分組成：一個“輸入網格”（input grid），這是一個矩形細胞陣列，尺寸各異（最多30行×30列），每個單元格中包含十個不同“值”中的一個；以及一個“輸出網格”（output grid），其完全由輸入網格的屬性和結構決定。圖1展示了一個這樣的任務。目標是通過觀察示例對來理解問題的本質，并利用這種理解為每一個給定的測試輸入生成相應的輸出網格。對于每個輸入網格可以嘗試兩次。

每一項任務都是由人類設計者手工制作的，具有獨特的邏輯結構，因此很難提前為每一項任務做準備。這種對少樣本學習 的強調以及對廣泛泛化能力的需求，使得ARC-AGI對于當前的人工智能系統來說極具挑戰性。

相比之下，人類在這些任務上表現出色，他們依靠先天的認知能力，在極少數例子下就能識別模式并進行抽象推理。這種差異突顯了當前AI方法的一個根本性缺陷，并表明我們需要新的解決思路。

一個有前景的方向是發育式計算 （developmental computation），其靈感來自生物系統中觀察到的發育過程。神經細胞自動機 （Neural Cellular Automata, NCA）（Gilpin, 2019；Mordvintsev等，2020；Nichele等，2017）正是這一方向的代表。NCA是一種計算模型，其中網格上的每個單元根據由神經網絡控制的局部交互來更新自身狀態，從而涌現出復雜的全局模式。因此，NCA被用作生物形態發生 （biological morphogenesis）的模型（Ranazzo和Mordvintsev，2023；Stovold，2023；Pontes-Filho等，2022；Sudhakaran等，2021），即在發育過程中局部細胞相互作用形成有序結構（如身體和大腦）。此外，生物大腦還使用一些可能模仿發育過程的認知機制，通過動態、迭代和自組織的過程來促進推理、抽象和問題解決。例如：通過與環境互動不斷迭代優化心理圖式（McVee等，2005；Neumann和Kopcha，2018）；通過層級結構分解任務為子任務（Botvinick等，2009；Meunier等，2009）；以及通過預測建模來預判結果并主動調整解決方案（Friston，2003；Seth，2014；Millidge等，2021）。

本研究檢驗的核心假設是：NCA的發育特性是否特別適合處理類似ARC-AGI基準中的任務。

在過去幾年中，大多數針對ARC-AGI的方法依賴于離散程序搜索 （discrete program search），這是一種暴力枚舉的方法。最近，大型語言模型 （LLMs）以多種方式被用于該任務，包括用于優化特定領域語言（Chollet等，2024）。此外，LLMs也被用于程序合成（program synthesis），旨在生成通用編程語言（如Python）的程序來解決問題。測試時訓練 （test-time training），也稱為推理時微調 （inference-time fine-tuning），在過去幾個月中變得相當流行，目的是基于未見過的測試樣本來進行推理階段的適應。通常，混合方法，包括程序合成與變換（transductions，即直接提示LLM）被結合起來使用。然而，解決ARC仍然是一個開放性問題，真正的解決方案可能仍存在于尚未探索的模型選擇領域中。

本文提出ARC-NCA ，一種新穎的方法，利用標準神經細胞自動機 （Mordvintsev等，2020）的發育動力學及其增強版——帶有隱藏記憶狀態的EngramNCA （Guichard等，2025）來應對ARC-AGI基準測試。據我們所知，這是首次將NCA應用于二維的ARC-AGI基準測試。除了標準NCA外，我們還選擇了EngramNCA，因為它依賴于先學習低層次形態和操作機制，然后通過調控機制決定何時何地激活和傳播這些原始操作，這種機制被認為非常適合抽象和推理任務。

通過模擬生物發育和認知發展的原理，我們的模型旨在捕捉類人抽象與推理的關鍵方面。我們的ARC-NCA方法可被視為一種程序合成方法 ，其中為特定任務生成定制化的NCA（即“程序”），并通過類似于測試時訓練的微調過程實現。我們的概念驗證結果顯示，ARC-NCA的表現可以達到甚至超過現有模型（包括ChatGPT 4.5，詳見結果與討論章節），但所需的計算資源卻顯著減少。我們希望這項工作能激發人工生命社區對抽象與推理新方法的興趣。

相關工作

將細胞自動機 （CA）模型，以及廣義上的形態發生模型 （Wolfram, 1997）應用于ARC-AGI基準測試（Chollet, 2019）仍然是一個尚未被充分探索的領域。然而，CA研究中的一些進展表明，將CA方法應用于ARC任務具有潛在的可能性。

特別是，一種為學習CA規則開辟新機會的架構選擇是神經細胞自動機 （Neural Cellular Automata, NCA）（Gilpin, 2019；Mordvintsev等，2020；Nichele等，2017），其中用神經網絡取代了傳統的CA查找表。NCA曾被（Variengien等，2021）提出作為可能的具身控制器，他們將NCA與強化學習環境閉環連接，從而展示了一個自組織的“大腦”。

另一個有趣的研究方向是臨界NCA （critical NCAs）（Pontes-Filho等，2023；Guichard, 2024），即運行在混沌邊緣 （edge-of-chaos）（Langton, 1990）狀態下的CA模型，這可能是一種強大的預訓練策略。

在圖像處理方面，（Tesfaldet等，2022）提出了一個名為視覺Transformer細胞自動機 （Vision Transformer Cellular Automata, ViTCA）的模型，其靈感來自Transformer架構（Vaswani等，2017），并在模型中引入了注意力頭（attention heads）。(Reimers等，2023) 提出了帶有局部自注意力機制的變體，而 (Kvalsund等，2024) 則介紹了一種進化出的類注意力機制。

總體而言，Transformer可以學習基本的CA規則（Burtsev, 2024），這為未來將CA與大型語言模型（LLMs）結合用于ARC-AGI提供了令人興奮的可能性。

一項采用進化方法的工作是（Fischer等，2020），其中使用了語法進化 （grammatical evolution）來優化一種特定領域語言中的表達式，以實現逐層遞進的圖像變換。

(Faldor和Cully, 2024) 提出了一種加速的JAX實現方式，涵蓋了包括NCA在內的CA模型，并嘗試使用1D-NCA來解決更簡單的1D-ARC數據集（Xu等，2023）——這是ARC-AGI的一個非正式簡化版本，由一維像素行組成，顯著降低了任務復雜度。

關于目前主流解決ARC-AGI挑戰的方法綜述，包括結合深度學習技術的程序合成方法，可參考（Chollet等，2024）。

就在最近的2025年4月，OpenAI宣布其當時最強大的兩個模型——o3 和 o4 mini （兩種推理模型，使用支持token進行規劃，并在給出答案前調用內部token執行Python代碼）在ARC-AGI中取得了有希望的成績（Chollet, 2025；Kamradt, 2025）。具體來說，在半私有評估集上，o3-low得分為41%，o3-medium為53%，o4-mini-low為21%，o4-mini-medium為41%。此外，兩個使用高計算資源的o3版本（分別使用6次和1024次獨立推理樣本）得分分別為75.7%和87.5%，消耗的token數量分別為3350萬和57億個。據報道，使用6次推理樣本的版本每樣本成本為201美元，而使用1024次的版本則貴了172倍。

如此驚人的成本或許可以通過替代架構大幅降低。

模型與方法

本節詳細介紹了用于獲得抽象與推理語料庫 （ARC）發育式解決方案所使用的模型。我們主要探索了神經細胞自動機（NCA）模型及其變體，包括標準NCA和EngramNCA（以及對其的改進版本）。

NCA模型

我們選擇測試由（Mordvintsev等，2020）提出的Growing NCA ，以及由（Guichard等，2025）提出的四種版本的EngramNCA：EngramNCA v1（未經修改的標準版EngramNCA）、EngramNCA v2、v3 和 v4（經過針對ARC任務增強改進的版本）。

我們認為標準NCA模型無需過多介紹。簡而言之，它被實現為一個嵌入在細胞自動機框架 中的可微神經網絡 ，其中每個單元格維護一個連續狀態向量，并通過卷積神經網絡（CNN）根據學習到的局部更新規則進行更新。其架構如圖2所示。

然而，EngramNCA是一個相對較新的模型，因此值得簡要介紹。該模型的NCA具有雙狀態單元格 ，分別包含公開狀態（基于交互）和私有狀態 （基于記憶）。該模型是一個集成系統，包括：

GeneCA ：一種NCA，從編碼遺傳原語的種子單元格生成形態模式（見圖3）；
GenePropCA ：一種NCA，負責在整個細胞網絡中傳播并激活這些遺傳原語（見圖4），類似于基于RNA的通信（Shomrat和Levin，2013）。

EngramNCA的訓練分為兩個階段：

首先訓練GeneCA，使其從僅使用公開可見通道進行協調的情況下，生長出包含不可更改私有記憶編碼的原始形態；
然后訓練GenePropCA，在不改變單元格可見狀態的前提下調節其私有記憶，從而實現遺傳信息在整個網格中的傳遞。

有關該模型的更多細節，請參見（Guichard等，2025）。

表1展示了不同的CA架構。這些增強機制的細節分別在以下章節中進行了說明：局部與全局解決方案（Local versus Global Solutions）、環形與非環形問題（Toroidal versus Non-Toroidal Problems）以及不恰當感知（Inappropriate Sensing）。

從ARC空間到NCA空間的轉換

ARC數據集主要由二維整數網格組成。每個網格的尺寸可以從1×1到30×30不等，其中每個單元格的數值范圍在0到9之間。

我們將ARC網格轉換為適用于NCA（神經細胞自動機）格式的過程中，面臨兩個主要問題：

從二維整數網格到三維實數值格點的轉換
NCA主要運行在一個三維格點上，其維度為 H、W、C，其中 H 表示高度，W 表示寬度，C 表示通道數。通常圖像使用四個通道表示RGB?α（紅、綠、藍和透明度），也可以包含任意數量的隱藏通道。

為了將ARC網格轉換為NCA可用的格點形式，我們首先假設以下兩個條件：

恒定的α值 ：所有由10個整數表示的顏色都具有相同的α值1（完全不透明）
等間距顏色 ：這10種顏色（0到9）在HSL顏色空間（色相、飽和度、亮度）中是等距分布的，從0開始對應黑色。

隨后，我們通過一個整數→HSL→RGB?α 的轉換公式，將ARC問題轉換為RGB?α格式的三維格點表示：

這里，v 是該網格位置上的整數值，n 是顏色的總數。

我們通過基于顏色的二進制編碼來擴展RGB?α格點的通道維度 ，為每個像素添加額外的信息。最后，我們在通道維度上用數值“1”進行填充，以達到所需的隱藏通道數量。

處理變化的網格尺寸問題
某些ARC問題的解決方案網格尺寸與輸入網格不同。這帶來了一個棘手的問題，因為NCA無法修改其網格尺寸 。為了解決這個問題，我們嘗試了兩種方法：

忽略有問題的網格 ：在訓練過程中直接移除這些樣本。
最大尺寸填充法 ：將所有問題填充至最大的30×30尺寸，使用一個特殊的填充值（該值僅出現在填充區域中），并允許NCA修改填充部分的內容。

由于計算資源的限制，我們主要選擇忽略有問題的網格 這一策略。不過，在“進一步實驗”（Further Experiments）部分會詳細說明我們使用最大尺寸填充法 所進行的實驗。本文報告的所有結果均基于262個無需調整尺寸的問題 。

針對ARC任務的增強機制

ARC數據集帶來了一些NCA在處理時可能遇到的特定挑戰，其中一項已在“從ARC空間到NCA空間”部分中討論過。除此之外，我們還識別出另外三項挑戰：

環形與非環形問題（Toroidal versus Non-Toroidal Problems）

通常情況下，NCA是在一個環形格點 （toroidal lattice）上運行的。對于形態生成等任務來說，這種特性是有益的，因為它使得生成的形態具有位置不變性。然而，在ARC-AGI任務中，某些問題依賴于絕對位置和網格邊界 進行推理，這就會造成問題。

當然，完全禁用環形行為也不是一個合理的選擇，因為在某些ARC-AGI問題中，信息以環形方式傳播反而有助于問題求解。

為了解決這個問題，我們在EngramNCA v3 和 EngramNCA v4 中采用了兩種方法進行改進：我們將GeneCA和GenePropCA的功能進行了拆分——前者在一個非環形格點 上運行，而后者在一個環形格點 上運行，并且為每個單元格引入了按通道的局部自注意力機制 （channel-wise local self-attention）。

我們的假設是，通過功能拆分并引入注意力機制，EngramNCA可以自主選擇是否啟用環形功能。

局部與全局解決方案（Local versus Global Solutions）

另一個問題是：在解決ARC任務時，NCA應該關注全局信息 、局部信息 ，還是兩者結合？理論上這不應成為問題，但我們通過定性觀察發現，某些任務在處理細粒度的局部信息 時存在困難。

為此，我們引入了一種局部塊訓練策略 （patch training scheme），迫使NCA專注于局部信息。該方法的基本原理與標準的NCA訓練方式一致，關鍵區別在于：NCA是在3×3的小塊區域 （patch）上進行訓練的，并在這些小塊上累積損失函數，而不是在整個網格上一次性完成。

由于這是一種對NCA訓練過程的增強機制，因此會顯著增加訓練成本。因此，我們僅將此增強機制應用于EngramNCA v4 。

不恰當感知問題（Inappropriate Sensing）

由于NCA最初的應用場景是模擬生物體的生長過程，其感知機制 在一定程度上模仿了生物細胞的化學感應機制 ，具體表現為梯度感知核（gradient sensing kernels）。雖然這一類比很有幫助，但在處理ARC任務時可能會成為一種根本性的限制。

為了應對這一問題，我們在EngramNCA v3 和 EngramNCA v4 中使用了完全可學習的感知濾波器 （fully learnable sensing filters），替代原本使用的Sobel和Laplacian濾波器。濾波器的數量保持與標準EngramNCA一致。

訓練

確定解的質量

在訓練過程中，NCA實質上生成一張圖像。我們表面上并不考慮NCA到達最終解所經歷的發育步驟。因此，我們采用與（Mordvintsev等，2020）中相同的像素級均方誤差損失 （MSEPixelWiseLoss）。

為了判斷一個問題是否被解決，我們觀察NCA生成結果的平均像素誤差 。實驗表明，當評估損失為 log(MSEPixelWiseLoss) ≤ ?7 ，并且該損失在所有像素之間均勻分布時，可以認為NCA已經生成了ARC問題的精確解。

模型訓練

我們選擇通過測試時訓練 （test-time training）的方式來解決ARC問題。正如（Chollet, 2019；Chollet等，2024）所指出的那樣，程序生成器必須具備從新信息中學習的能力。我們將其理解為：我們的程序生成器——即用于訓練NCA的系統——能夠為每個問題訓練一個新的細胞自動機（CA）。

對于每一個ARC問題，我們都從頭開始，基于2到3個訓練樣例訓練一個新的CA，并在未見過的測試樣本上評估其性能。我們所有的實驗都在ARC-AGI公開評估集 上進行。

圖5展示了EngramNCA各版本訓練過程中的一個訓練迭代。該訓練流程與（Guichard等，2025）中描述的方法相似，但有一個關鍵修改：由于我們在每個問題中都從頭開始訓練GeneCA和GenePropCA ，因此GeneCA的權重不再被凍結，而是與GenePropCA的權重一起進行聯合優化。

而標準NCA的訓練則采用了（Mordvintsev等，2020）中所描述的相同訓練流程。

其中，H、W、C 分別表示圖像的高度、寬度和通道數，I 是參考圖像，? 是NCA的最終狀態。

我們使用 AdamW 作為優化器，學習率（LR）設為 1×10?3（1e-3） 。對于每個問題，細胞自動機（CA）總共訓練 3000次迭代 ，并在 第2000次迭代時 將學習率降低 66% （即降至原來的1/3）。

結果

總體結果

在本節中，我們以平均log(損失) 和 CA解題率 的形式展示每種CA模型的結果。此外，我們還報告了不同CA模型聯合使用 后的結果。

需要提醒讀者的是，在解決ARC問題時，每個問題可以提交兩個答案 。因此，通過將不同模型的結果進行聯合（即每個模型各生成一個輸出），我們仍然可以生成有效的提交結果。

表2 顯示了每種CA模型的平均損失（log值） 和 解題率 。其中，EngramNCA v3 在兩項指標中表現最佳，解題率接近 13% 。相比之下，EngramNCA v1 在所有指標中表現最差，解題率為 6.5% 。

表3 展示了我們實驗的CA模型與 ChatGPT 4.5 之間的成本對比 。我們選擇與ChatGPT 4.5進行比較，因為它的解題率與我們的相近，并且是目前最受歡迎的大型語言模型之一。在性能大致相同的情況下，我們的方法在成本上減少了約 1000倍 。

表4 顯示了六種不同CA模型組合（union） 的平均log(損失) 和解題率。在這些組合中，EngramNCA v1 與 EngramNCA v3的聯合使用 在解題率方面表現最佳，達到了 15.3% 。

實際上，EngramNCA v1 中有一半的解題結果是 EngramNCA v3 所未能找到的。所有模型組合的表現大致等于或優于表現最好的單一模型，這表明每種模型都能解決一些彼此無法覆蓋的問題。

在平均log損失方面，NCA 和 EngramNCA v3 表現最好，這也在預期之中，因為它們原本就具有最低的平均損失值。而 EngramNCA v1 和 EngramNCA v4 在這兩項指標中表現最差。

已解決問題展示

在本節中，我們為每種CA模型展示一個已解決的ARC問題示例，以說明CA模型在解決ARC任務時所經歷的發育過程 。更多視頻示例可在此處查看。

圖6a 展示了一個由標準NCA模型生成的解決方案示例；圖6b 展示了該問題的兩個訓練示例。
在這個問題中，輸入是一條位于隨機y坐標位置的線段，正確的解法是在其上方添加長度遞增的綠色線段，下方添加長度遞減的橙色線段。NCA能夠逐步地、增量式地生成正確的結構，并能泛化到未見過的y坐標位置。
圖7 展示了由標準版EngramNCA（即EngramNCA v1）生成的一個解決方案示例。
此問題中包含水平和垂直線條（在不同示例中顏色不同），它們相交從而在中間形成封閉空間，外部則為開放空間。正確解法是用指定顏色填充這些區域。CA通過生長綠色單元格填滿整個空間，當被邊界包圍時，能夠轉變為正確的顏色。
圖8 展示了EngramNCA v3生成的一個解決方案示例。
該測試問題中輸入為若干孤立的像素點，正確解法是將同一水平或垂直線上的像素連接起來。CA從像素點開始“生長”線條，有時會略微超出目標像素，但最終能夠刪除延伸到邊界外的多余部分。

圖9 展示了EngramNCA v4生成的一個解決方案示例。

該問題中左側網格上有一條垂直線。正確解法是在底部生成一條水平線，并從左下角到右上角生成一條對角線。CA生成的結構穿越了環形邊界，并從兩個角落同時生長，最終在中間連接。該解法可以泛化到不同尺寸的網格。

幾乎解決的問題（Almost Solved Problems）

ARC-NCA 具備生成部分正確解 或稱為“接近解決 ”問題的能力。這些解通常只有少數幾個像素錯誤 （或略微錯誤），但可以作為進一步優化的基礎。也有可能，通過改進模型架構，或簡單地增加NCA的規模，這些小錯誤就可以被消除。

為了評估如果我們專注于這些“部分解”能獲得怎樣的性能表現，我們將損失閾值放寬到 ?6 。表5 顯示了在放寬損失閾值后各模型的解題率。結果顯示，各模型能夠多解決 2% 到 6% 的問題，表明通過相對較小的調整，模型性能具有顯著提升的潛力。

表6 展示了不同CA模型結果的組合情況。

接下來我們進一步分析一些僅有少量錯誤 的案例：

圖10 展示了由 EngramNCA v3 生成的一個接近解決的示例。我們可以看到，模型已經掌握了正確解題的基本概念，但在某些開放空間區域中，有三個像素顏色錯誤 。這說明模型可能遇到了訓練集中未出現的邊緣情況。
圖11 展示了由 EngramNCA v1 生成的一個接近解決的示例。在這個例子中，模型在某一時刻已經生成了完全正確的解。但由于NCA本身具有異步運行的特性，我們讓模型繼續運行直到達到穩定狀態，而最終的穩定狀態偏離了正確解一個像素。

推理誤區（Reasoning Pitfalls）

有時我們會觀察到這樣的問題：模型在某種程度上完成了必要的推理步驟，但未能完全正確完成任務 。在本節中，我們展示了一些模型與問題的配對案例，并嘗試分析它們可能遇到的推理誤區 。

圖12展示了由 EngramNCA v4 生成的一個 部分推理成功 的解決方案示例。我們可以看到，模型學會了其中一個關鍵推理步驟——即在橙色點上生長出形狀正確的圖案；

然而，它未能將該模式推廣到左側區域，并且在像素顏色上出現了明顯錯誤。這表明模型在抽象泛化和細節精確性方面仍存在不足。

進一步實驗

在本節中，我們詳細介紹了兩個進一步實驗 的結果：

增加 EngramNCA v3 隱藏層的維度
使用“最大填充法”來解決所有 ARC-AGI 問題
（如“處理變化的網格尺寸”部分所述）
表8 顯示了 EngramNCA v3 及其采用最大填充法 處理后的版本與 ChatGPT 4.5 的結果對比。

通過增加隱藏層維度 ，我們可以觀察到所解決問題的數量有所增加。而使用最大填充法 雖然增加了CA需要處理的問題數量，但我們并未發現CA可解決問題的百分比下降，這表明：
不過，使用最大填充法確實帶來了代價：由于NCA的內存使用量和運行時間會隨著格點尺寸的增大而顯著上升，因此效率變差。
盡管如此，這兩種版本的表現仍然都優于 ChatGPT 4.5 。
在允許部分解的情況下，我們看到采用最大填充法的版本其解題率有了顯著提升 （從 16% 提升至 27% ）。
- 要么CA對自身尺寸的調整是相對容易實現的，
- 要么填充標記（padding tokens）所提供的額外信息幫助解決了部分問題。

總結與討論

本研究提出了 ARC-NCA ，這是一種基于神經細胞自動機 （NCA）的發育式框架 ，旨在應對抽象與推理語料庫 （ARC）基準測試所帶來的挑戰。該基準要求模型僅憑極少量的示例就能展現出強大的抽象與推理能力。

我們的 ARC-NCA 模型利用了 NCA 的內在特性，模擬出類似生物發育過程中的復雜、涌現式行為。我們評估了標準NCA以及多個改進版本的 EngramNCA 模型，這些模型經過增強以更好地適應 ARC 任務的特定特征。所引入的改進包括：

增強的感知機制，
局部與全局信息處理的調整，
以及對環形格點行為的管理策略。

實驗結果表明，ARC-NCA 模型在解題率上可與當前主流的大型語言模型（如 ChatGPT 4.5）相媲美，甚至在某些情況下表現更優，且計算成本顯著降低。

當我們將“部分正確解”也納入考量時，模型的成功率出現了明顯提升，這表明通過架構改進和參數規模擴展，還有進一步提升性能的空間。

對已解決問題和接近解決的問題的分析揭示了 NCA 的發育特性，展現了其在迭代優化和涌現式推理方面的能力。然而，一些“推理誤區”的案例也暴露了 NCA 在泛化能力方面的局限，尤其是在處理訓練集中未充分覆蓋的細粒度細節或邊緣情況時。

鑒于近期推出的更具挑戰性的基準測試集 ARC-AGI-2 （Chollet 等，2025），它被設計用于評估人工智能系統在獲取新技能（如符號理解、組合推理和上下文規則應用）方面的適應性與效率，我們的研究發現具有特別重要的意義。ARC-AGI-2 中的任務人類可在不到兩次嘗試內解決，而目前的AI系統成功率僅為個位數。

ARC-NCA 所提出的發育式方法，可能為通過局部交互驅動的發育過程 ，或與大型語言模型結合 來解決人工智能系統的抽象與推理問題提供新的思路。因此，我們鼓勵人工生命研究社區積極參與到人工智能領域尚未解決的重要問題中來。

未來工作

除了作為自然延伸的 ARC-AGI-2 之外，我們在下文中還列出了幾個值得進一步研究的方向。

一種預訓練機制 將非常有幫助，它可以使模型從每個任務僅有的少量示例中有效學習。這種預訓練機制應在適合ARC所需視覺推理類型的抽象層次上傳遞知識。例如，可以先學習在多個任務間通用的基本變換模式，再通過任務特定的微調進行適配。另一種可能的方向是臨界性預訓練 （criticality pre-training）。所謂“臨界性”是一種已知對多種計算形式都非常理想的運行狀態。一個假設是：處于臨界狀態下的NCA可能比隨機初始化的NCA更適合學習ARC任務。

目前我們的結果基于單次實驗，因為ARC官方只允許提交兩個候選解。然而，為了進行更嚴謹的研究，應進一步探索多次運行的結果及其穩定性 。此外，若要參與官方ARC-AGI排行榜 的競爭，還需要向半私有和完全私有評估集 提交解決方案。

在NCA與大型語言模型 （LLM）結合的方向上，也存在許多有前景的研究路徑。例如，LLM可以用于推薦優化后的NCA架構設計和超參數設置。此外，具備推理能力的LLM還可以作為NCA所生成的“幾乎正確”發育式解的糾錯機制 。當然，也可以考慮其他糾錯機制，例如基于NCA自身或其他計算機視覺技術的方法。

最后，一些在抽象潛空間中運行的NCA模型 （如 Menta等，2024 所提出的）可能通過將計算從輸入空間轉移到潛空間，從而捕捉對推理有益的基礎原語（primitives）。這對于像 EngramNCA 這類試圖先捕獲基礎操作原語，再建立調控機制來激活與通信 的架構來說，尤其具有相關性和啟發意義。

原文鏈接：https://arxiv.org/pdf/2505.08778

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.