網易首頁 > 網易號 > 正文申請入駐

AI 領域新動向！持續思考模型CTM橫空出世：AI 向生物智能邁出重要一步

2025-05-13 19:09:44　來源: AI寒武紀

江蘇舉報

分享至

聊聊 AI 領域的一個新動向。雖然現在的大模型很強大，但在靈活性、效率，尤其是像人一樣舉一反三、理解世界方面，還是差了很多

來自東京的 Sakana AI （Transformer 作者之一Llion Jones聯合創立）認為，關鍵可能在于我們簡化 AI 模型時，丟掉了一個生物大腦的核心要素——時間

基于此Sakana AI 正式推出了他們研發的新型 AI 模型——持續思考機器（Continuous Thought Machine, CTM）。這個 CTM 的核心理念，就是重新將「時間」和「神經元動態」引入 AI 計算的核心

blog：

https://sakana.ai/ctm/
https://pub.sakana.ai/ctm/

paper：

https://arxiv.org/abs/2505.05522

code：

https://github.com/SakanaAI/continuous-thought-machines/

CTM 的創新之處

傳統的神經網絡（ANNs），比如我們熟悉的 CNN、Transformer，雖然也受大腦啟發，但為了計算效率，往往將神經元的復雜動態過程簡化為一個靜態的激活值。神經元什么時候、以何種節奏、與其他神經元如何協同放電——這些豐富的時序信息，基本被忽略了

Sakana AI 的 CTM 試圖改變這一點，它有幾個關鍵的創新：

1.引入「內部思考維度」 (Internal 'Thinking' Dimension):CTM 可以在一個獨立于外部數據輸入節奏的內部時間維度上運行。想象一下，無論給它看一張靜態圖片，還是一個需要逐步解決的迷宮，CTM 都能在內部進行多步的“思考”和推理，迭代地構建和優化它的理解。這有點像我們人類在解決問題前，會先在腦子里“琢磨”一下

2.神經元級別的時序處理 (Neuron-Level Models, NLMs):CTM 里每個神經元不再是簡單的激活函數（如 ReLU）。相反，每個神經元都有自己獨立的、帶參數的模型（比如一個小型 MLP），它會處理一小段歷史的輸入信號（pre-activations），來計算當前的輸出（post-activation）。這意味著每個神經元都能根據近期的動態輸入調整自己的行為，從而產生極其豐富和復雜的神經活動模式

3.神經同步作為核心表征 (Neural Synchronization as Representation):這是 CTM 最具顛覆性的一點。它不再僅僅依賴神經元的激活值向量作為信息載體。CTM 會追蹤神經元在內部思考過程中的放電歷史，計算不同神經元之間活動的同步程度（形成一個“同步矩陣”）。這個“同步信息”被直接用作模型的潛在表征 (latent representation)，驅動模型進行注意力分配（看哪里）和最終的預測輸出（是什么/怎么做）。換句話說，神經元之間如何協同“起舞”，這個動態模式本身，就是 CTM 用來理解世界和做出決策的核心依據

CTM 測試

由于新增了時間維度，CTM 的一大優勢在于，可以觀察并直觀地看到它如何隨著時間的推移解決問題。與傳統的 AI 系統不同，傳統的 AI 系統可能只需通過神經網絡一次即可對圖像進行分類，而 CTM 可以分多個步驟來“思考”如何解決任務

為了展示 CTM 的強大功能和可解釋性，Sakana AI 在下面展示了兩個任務：迷宮探索和照片中的物體分類

像人一樣破解迷宮：在這個任務中，CTM 會被呈現一個二維自上而下的迷宮，并被要求輸出解決迷宮所需的步驟。這種模式尤其具有挑戰性，因為模型必須理解迷宮結構并規劃解決方案，而不是簡單地輸出路徑的視覺表示。CTM 內部連續的“思考步驟”使其能夠制定計劃，我們可以直觀地看到它在每個思考步驟中關注迷宮的哪些部分。值得注意的是，CTM 學會了一種非常類似于人類的迷宮求解方法——我們可以在它的注意力模式中看到它沿著迷宮路徑前進。

Sakana AI 還為此制作了交互式 Demo，你可以在瀏覽器里親自“指揮”或觀看 CTM 解迷宮！

CTM 通過觀察（使用注意力機制）并直接生成步驟（例如，向左、向右等）來解決迷宮問題。它直接利用神經動力學的同步（即使用基于同步本身的線性探測）來實現這一點

實驗結果顯示，CTM 不僅僅能高效解決 39x39 的迷宮，遠超 LSTM 等基線模型，甚至在面對從未見過的、路徑更長、尺寸更大（如 99x99）的迷宮時，也能展現出驚人的泛化能力

更「懂」圖像識別：在 ImageNet 和 CIFAR 圖像分類任務上，CTM 雖然目前精度還沒刷到 SOTA（研究團隊也表示目標并非刷榜），但展現了獨特的優勢：

?a.可解釋性強：注意力機制的可視化顯示，CTM 在識別圖像時，其“注視點”會像人眼一樣在不同顯著區域（如動物的眼睛、鼻子、嘴巴）之間平滑移動，例如，在識別大猩猩時，CTM 的注意力會從眼睛轉移到鼻子，再轉移到嘴巴，這與人類的視覺注意力模式非常相似
?b.優秀的校準度 (Calibration)：CTM 對自己預測的置信度非常“誠實”，甚至比人類標注者的平均水平還要準。這意味著當它說“我很確定”時，你大概率可以相信它
?c.自適應計算：對于簡單的圖像，CTM 會“覺得”差不多了，用較少的內部思考步驟就給出高置信度答案；而對于復雜的圖像，它會自然地進行更多步的思考。這種能力是其架構和特殊損失函數（結合最低損失點和最高置信度點的預測）帶來的涌現特性，無需額外復雜設計
?d.豐富的神經動態：對比 CTM 和 LSTM 在處理圖像時的神經元活動，你會發現 CTM 的神經元活動模式更加多樣和復雜，呈現出類似生物神經信號的多尺度、甚至周期性振蕩的行為（盡管沒有外部驅動信號），這與 LSTM 相對單調的動態形成鮮明對比。研究者甚至觀察到了類似大腦皮層中“行波 (traveling waves)”的現象

算法推理與記憶：在排序、奇偶校驗 (Parity)、Q&A MNIST（看圖回答計算題）等任務中，CTM 也表現出色。尤其是在 Q&A MNIST 任務里，即使需要回憶的數字已經超出了神經元模型的直接“記憶窗口”（輸入的歷史長度 M），CTM 依然能通過神經同步機制成功提取信息并進行計算，證明了同步表征在記憶和信息檢索方面的潛力

持續交互：在強化學習（CartPole, Acrobot, MiniGrid）任務中，CTM 也能在與環境的持續互動中學習策略，展現出與 LSTM 基線相當的性能，但其神經動態依然更加豐富

AI 向生物智能邁出的重要一步？

CTM 的出現，至少給我們帶來了幾點思考：

彌合差距：它在 AI 的計算效率與生物智能的動態復雜性之間，架起了一座有趣的橋梁

表征：“神經同步”作為一種全新的信息表征方式，其潛力和應用場景值得深入探索，尤其是在需要整合長期依賴、進行復雜推理和記憶的任務中。同步矩陣本身提供了一個巨大的、無需額外參數成本的高維表征空間

涌現與可解釋性：CTM 的許多能力（如自適應計算、路徑追蹤）是自然涌現的，而非刻意設計，并且其思考過程相對透明，這對于構建更值得信賴的 AI 系統至關重要。

未來方向：Sakana AI 提到，未來會將 CTM 應用于語言模型、視頻等時序數據，探索在更自然的“連續世界”設定下進行訓練，甚至結合生物可塑性原理（如 Hebbian 學習）進行梯度無關的優化

當然，CTM 并非完美：

訓練速度：其內部的串行思考過程無法像傳統模型那樣大規模并行，訓練時間會更長

參數開銷：每個神經元都有自己的模型（NLMs），這會帶來額外的參數量。

盡管現代人工智能以大腦為基礎，形成“人工神經網絡”，但即使在今天，人工智能研究與神經科學之間的重疊仍然少得驚人。人工智能研究人員選擇沿用上世紀80年代開發的極其簡單的模型，因為它簡單易用、訓練高效，并且在推動人工智能發展方面持續取得成功。另一方面，神經科學將創建更精確的大腦模型，但其主要目的是理解大腦，而不是試圖創建更高級的智能模型（當然，兩者之間也可能存在某種關聯）。盡管這些神經科學模型更加復雜，但它們的表現通常仍不及我們目前最先進的人工智能模型，因此，它們或許在人工智能應用方面缺乏進一步研究的吸引力

如果現代人工智能在某些方面不繼續向大腦靠攏，就錯失了良機，我們或許可以通過這種方式找到更強大、更高效的模型。2012 年，人工智能能力的大幅提升，即所謂的“深度學習革命”，正是源于神經網絡——一個受大腦啟發的模型。為了延續這一進步，我們是否應該繼續受到大腦的啟發？CTM 是首次嘗試彌合這兩個領域之間的差距，它展現出一些更接近大腦行為的初步跡象，同時仍然是一個解決重要問題的實用人工智能模型

感興趣的朋友，強烈建議去 Sakana AI 的項目主頁體驗交互式 Demo，并深入閱讀他們的技術報告原文和開源代碼，鏈接如下：

項目主頁 & 交互 Demo:

https://sakana.ai/ctm/ 或 https://pub.sakana.ai/ctm/

技術報告 (PDF):
[arXiv:2505.05522v1]

開源代碼 (GitHub):

https://github.com/SakanaAI/continuous-thought-machines/

關于 Sakana AI 這家公司

Sakana AI 是一家專注于人工智能基礎模型研究的公司，總部位于日本東京

創始團隊：這家公司由兩位 AI 領域的重量級人物于 2023 年創立：

?David Ha:他之前在 Google Brain 和 Stability AI 工作，以其在 World Models、生成模型、神經進化以及探索 AI 創造力方面的工作而聞名
?Llion Jones:他是著名的"Attention Is All You Need"論文的共同作者之一，這篇論文引入了 Transformer 架構，是當今絕大多數大型語言模型（LLMs）的基礎。Llion Jones 之前也在 Google 工作

研究方向與理念：Sakana AI 的一個顯著特點是其研究理念——從自然界和生物系統中汲取靈感來構建新一代的 AI

公司名字 "Sakana" 在日語中意為“魚”，這象征著他們希望從魚群等自然界的集體智能 (Collective Intelligence)和進化 (Evolution)過程中獲得啟發

他們探索的方向不僅僅是簡單地擴大現有模型的規模，而是尋求新的架構和學習范式。例如，他們研究如何：

? 使用進化算法來自動發現合并或組合現有開源模型的方法，以創造新的能力。
? 探索來自人工生命 (Artificial Life)的概念
? 開發受生物學啟發的模型，比如你剛了解到的持續思考機器 (CTM)，它就明確地借鑒了大腦中神經元的時間動態和同步機制

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.