聊聊 AI 領域的一個新動向。雖然現在的大模型很強大,但在靈活性、效率,尤其是像人一樣舉一反三、理解世界方面,還是差了很多
來自東京的 Sakana AI (Transformer 作者之一Llion Jones聯合創立)認為,關鍵可能在于我們簡化 AI 模型時,丟掉了一個生物大腦的核心要素——時間
基于此Sakana AI 正式推出了他們研發的新型 AI 模型——持續思考機器(Continuous Thought Machine, CTM)。這個 CTM 的核心理念,就是重新將「時間」和「神經元動態」引入 AI 計算的核心
blog:
https://sakana.ai/ctm/
https://pub.sakana.ai/ctm/
paper:
https://arxiv.org/abs/2505.05522
code:
https://github.com/SakanaAI/continuous-thought-machines/
CTM 的創新之處
傳統的神經網絡(ANNs),比如我們熟悉的 CNN、Transformer,雖然也受大腦啟發,但為了計算效率,往往將神經元的復雜動態過程簡化為一個靜態的激活值。神經元什么時候、以何種節奏、與其他神經元如何協同放電——這些豐富的時序信息,基本被忽略了
Sakana AI 的 CTM 試圖改變這一點,它有幾個關鍵的創新:
1.引入「內部思考維度」 (Internal 'Thinking' Dimension):CTM 可以在一個獨立于外部數據輸入節奏的內部時間維度上運行。想象一下,無論給它看一張靜態圖片,還是一個需要逐步解決的迷宮,CTM 都能在內部進行多步的“思考”和推理,迭代地構建和優化它的理解。這有點像我們人類在解決問題前,會先在腦子里“琢磨”一下
2.神經元級別的時序處理 (Neuron-Level Models, NLMs):CTM 里每個神經元不再是簡單的激活函數(如 ReLU)。相反,每個神經元都有自己獨立的、帶參數的模型(比如一個小型 MLP),它會處理一小段歷史的輸入信號(pre-activations),來計算當前的輸出(post-activation)。這意味著每個神經元都能根據近期的動態輸入調整自己的行為,從而產生極其豐富和復雜的神經活動模式
3.神經同步作為核心表征 (Neural Synchronization as Representation):這是 CTM 最具顛覆性的一點。它不再僅僅依賴神經元的激活值向量作為信息載體。CTM 會追蹤神經元在內部思考過程中的放電歷史,計算不同神經元之間活動的同步程度(形成一個“同步矩陣”)。這個“同步信息”被直接用作模型的潛在表征 (latent representation),驅動模型進行注意力分配(看哪里)和最終的預測輸出(是什么/怎么做)。換句話說,神經元之間如何協同“起舞”,這個動態模式本身,就是 CTM 用來理解世界和做出決策的核心依據
CTM 測試
由于新增了時間維度,CTM 的一大優勢在于,可以觀察并直觀地看到它如何隨著時間的推移解決問題。與傳統的 AI 系統不同,傳統的 AI 系統可能只需通過神經網絡一次即可對圖像進行分類,而 CTM 可以分多個步驟來“思考”如何解決任務
為了展示 CTM 的強大功能和可解釋性,Sakana AI 在下面展示了兩個任務:迷宮探索和照片中的物體分類
像人一樣破解迷宮:在這個任務中,CTM 會被呈現一個二維自上而下的迷宮,并被要求輸出解決迷宮所需的步驟。這種模式尤其具有挑戰性,因為模型必須理解迷宮結構并規劃解決方案,而不是簡單地輸出路徑的視覺表示。CTM 內部連續的“思考步驟”使其能夠制定計劃,我們可以直觀地看到它在每個思考步驟中關注迷宮的哪些部分。值得注意的是,CTM 學會了一種非常類似于人類的迷宮求解方法——我們可以在它的注意力模式中看到它沿著迷宮路徑前進。
Sakana AI 還為此制作了交互式 Demo,你可以在瀏覽器里親自“指揮”或觀看 CTM 解迷宮!
CTM 通過觀察(使用注意力機制)并直接生成步驟(例如,向左、向右等)來解決迷宮問題。它直接利用神經動力學的同步(即使用基于同步本身的線性探測)來實現這一點
實驗結果顯示,CTM 不僅僅能高效解決 39x39 的迷宮,遠超 LSTM 等基線模型,甚至在面對從未見過的、路徑更長、尺寸更大(如 99x99)的迷宮時,也能展現出驚人的泛化能力
更「懂」圖像識別:在 ImageNet 和 CIFAR 圖像分類任務上,CTM 雖然目前精度還沒刷到 SOTA(研究團隊也表示目標并非刷榜),但展現了獨特的優勢:
?a.可解釋性強:注意力機制的可視化顯示,CTM 在識別圖像時,其“注視點”會像人眼一樣在不同顯著區域(如動物的眼睛、鼻子、嘴巴)之間平滑移動,例如,在識別大猩猩時,CTM 的注意力會從眼睛轉移到鼻子,再轉移到嘴巴,這與人類的視覺注意力模式非常相似
?b.優秀的校準度 (Calibration):CTM 對自己預測的置信度非常“誠實”,甚至比人類標注者的平均水平還要準。這意味著當它說“我很確定”時,你大概率可以相信它
?c.自適應計算:對于簡單的圖像,CTM 會“覺得”差不多了,用較少的內部思考步驟就給出高置信度答案;而對于復雜的圖像,它會自然地進行更多步的思考。這種能力是其架構和特殊損失函數(結合最低損失點和最高置信度點的預測)帶來的涌現特性,無需額外復雜設計
?d.豐富的神經動態:對比 CTM 和 LSTM 在處理圖像時的神經元活動,你會發現 CTM 的神經元活動模式更加多樣和復雜,呈現出類似生物神經信號的多尺度、甚至周期性振蕩的行為(盡管沒有外部驅動信號),這與 LSTM 相對單調的動態形成鮮明對比。研究者甚至觀察到了類似大腦皮層中“行波 (traveling waves)”的現象
算法推理與記憶:在排序、奇偶校驗 (Parity)、Q&A MNIST(看圖回答計算題)等任務中,CTM 也表現出色。尤其是在 Q&A MNIST 任務里,即使需要回憶的數字已經超出了神經元模型的直接“記憶窗口”(輸入的歷史長度 M),CTM 依然能通過神經同步機制成功提取信息并進行計算,證明了同步表征在記憶和信息檢索方面的潛力
持續交互:在強化學習(CartPole, Acrobot, MiniGrid)任務中,CTM 也能在與環境的持續互動中學習策略,展現出與 LSTM 基線相當的性能,但其神經動態依然更加豐富
AI 向生物智能邁出的重要一步?
CTM 的出現,至少給我們帶來了幾點思考:
彌合差距:它在 AI 的計算效率與生物智能的動態復雜性之間,架起了一座有趣的橋梁
表征:“神經同步”作為一種全新的信息表征方式,其潛力和應用場景值得深入探索,尤其是在需要整合長期依賴、進行復雜推理和記憶的任務中。同步矩陣本身提供了一個巨大的、無需額外參數成本的高維表征空間
涌現與可解釋性:CTM 的許多能力(如自適應計算、路徑追蹤)是自然涌現的,而非刻意設計,并且其思考過程相對透明,這對于構建更值得信賴的 AI 系統至關重要。
未來方向:Sakana AI 提到,未來會將 CTM 應用于語言模型、視頻等時序數據,探索在更自然的“連續世界”設定下進行訓練,甚至結合生物可塑性原理(如 Hebbian 學習)進行梯度無關的優化
當然,CTM 并非完美:
訓練速度:其內部的串行思考過程無法像傳統模型那樣大規模并行,訓練時間會更長
參數開銷:每個神經元都有自己的模型(NLMs),這會帶來額外的參數量。
盡管現代人工智能以大腦為基礎,形成“人工神經網絡”,但即使在今天,人工智能研究與神經科學之間的重疊仍然少得驚人。人工智能研究人員選擇沿用上世紀80年代開發的極其簡單的模型,因為它簡單易用、訓練高效,并且在推動人工智能發展方面持續取得成功。另一方面,神經科學將創建更精確的大腦模型,但其主要目的是理解大腦,而不是試圖創建更高級的智能模型(當然,兩者之間也可能存在某種關聯)。盡管這些神經科學模型更加復雜,但它們的表現通常仍不及我們目前最先進的人工智能模型,因此,它們或許在人工智能應用方面缺乏進一步研究的吸引力
如果現代人工智能在某些方面不繼續向大腦靠攏,就錯失了良機,我們或許可以通過這種方式找到更強大、更高效的模型。2012 年,人工智能能力的大幅提升,即所謂的“深度學習革命”,正是源于神經網絡——一個受大腦啟發的模型。為了延續這一進步,我們是否應該繼續受到大腦的啟發?CTM 是首次嘗試彌合這兩個領域之間的差距,它展現出一些更接近大腦行為的初步跡象,同時仍然是一個解決重要問題的實用人工智能模型
感興趣的朋友,強烈建議去 Sakana AI 的項目主頁體驗交互式 Demo,并深入閱讀他們的技術報告原文和開源代碼,鏈接如下:
項目主頁 & 交互 Demo:
https://sakana.ai/ctm/ 或 https://pub.sakana.ai/ctm/
技術報告 (PDF):
[arXiv:2505.05522v1]
開源代碼 (GitHub):
https://github.com/SakanaAI/continuous-thought-machines/
關于 Sakana AI 這家公司
Sakana AI 是一家專注于人工智能基礎模型研究的公司,總部位于日本東京
創始團隊:這家公司由兩位 AI 領域的重量級人物于 2023 年創立:
?David Ha:他之前在 Google Brain 和 Stability AI 工作,以其在 World Models、生成模型、神經進化以及探索 AI 創造力方面的工作而聞名
?Llion Jones:他是著名的"Attention Is All You Need"論文的共同作者之一,這篇論文引入了 Transformer 架構,是當今絕大多數大型語言模型(LLMs)的基礎。Llion Jones 之前也在 Google 工作
研究方向與理念:Sakana AI 的一個顯著特點是其研究理念——從自然界和生物系統中汲取靈感來構建新一代的 AI
公司名字 "Sakana" 在日語中意為“魚”,這象征著他們希望從魚群等自然界的集體智能 (Collective Intelligence)和進化 (Evolution)過程中獲得啟發
他們探索的方向不僅僅是簡單地擴大現有模型的規模,而是尋求新的架構和學習范式。例如,他們研究如何:
? 使用進化算法來自動發現合并或組合現有開源模型的方法,以創造新的能力。
? 探索來自人工生命 (Artificial Life)的概念
? 開發受生物學啟發的模型,比如你剛了解到的持續思考機器 (CTM),它就明確地借鑒了大腦中神經元的時間動態和同步機制
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.