機器之心報道
編輯:杜偉、蛋醬
開啟「分步思考」新范式。
科學界的一個共識是:即使是最復雜的現代人工智能,也難以媲美人類大腦的表現和效率。
研究者經常從大自然中尋找靈感,了解如何在人工智能領域取得進步,例如利用進化來合并模型、為語言模型進化出更高效的記憶或探索人工生命的空間。雖然人工神經網絡近年來讓人工智能取得了非凡的成就,但它們仍然是其生物對應物的簡化表征。所以,能否通過結合生物大腦中的特征,將人工智能的能力和效率提升到新的水平?
他們決定重新思考認知核心的一個重要特征:時間。
剛剛,Transformer 作者之一 Llion Jones 聯合創立的的Sakana AI 發布了「連續思維機器」(Continuous Thought Machine,CTM),這是一種將神經元活動同步作為其核心推理機制的人工智能模型,也可看作一種新型人工神經網絡,它利用神經元動態之間的同步來完成任務。
- 博客地址:https://sakana.ai/ctm/
- 技術報告:https://pub.sakana.ai/ctm/paper/index.html
- 代碼地址:https://github.com/SakanaAI/continuous-thought-machines/
與傳統人工神經網絡不同,CTM 在神經元層面使用定時信息,從而實現了更復雜的神經行為和決策過程。這一創新使該模型能夠逐步「思考」問題,使其推理過程具有可解釋性和類人性。
研究表明,在各種任務中,機器人解決問題的能力和效率都有所提高。
Sakana AI 表示,CTM 是彌合人工神經網絡與生物神經網絡之間差距的重要一步,有可能開啟人工智能能力的新領域。
CTM 解迷宮和思考真實照片的可視化(圖片來源:Alon Cassidy)。值得注意的是,盡管 CTM 的設計并不明確,但它在迷宮中學會的解法卻非常容易解釋,而且類似于人類,可以看到它在「思考」解法時描繪出通過迷宮的路徑。對于真實圖像,雖然沒有明確的激勵措施讓它四處查看,但它會以直觀的方式查看。
研究創新
盡管隨著 2012 年深度學習的出現,人工智能的能力有了重大飛躍,但自 20 世紀 80 年代以來,人工智能模型中使用的人工神經元基本模型在很大程度上一直沒有改變。研究人員仍然主要使用神經元的單一輸出,這代表了神經元的激發情況,卻忽略了神經元相對于其他神經元激發的精確時間。
不過,有力的證據表明,這種定時信息在生物大腦中至關重要,例如在依賴于尖峰定時的可塑性中,它是生物大腦功能的基礎。
在新模型中,Sakana AI 用來表示這種信息的方法是讓神經元訪問自身的行為歷史,并學習如何利用這些信息來計算自身的下一個輸出,而不僅僅是知道自身的當前狀態。這樣,神經元就能根據過去不同時期的信息改變自己的行為。此外,新模型的主要行為是基于這些神經元之間的同步,這意味著它們必須學會利用這些時間信息來協調完成任務。研究者認為,與當代模型中觀察到的情況相比,這將產生更豐富的動態空間和不同的任務解決行為。
在添加了這種定時信息后,Sakana AI 在許多任務中看到了一系列非同尋常的行為。他們看到的行為具有很強的可解釋性:在觀察圖像時,CTM 會小心翼翼地在場景中移動其視線,選擇關注最顯著的特征,而且它在某些任務中的表現有所提高。這讓研究者驚訝于神經元活動動態中的行為多樣性。
CTM 中的神經元動態樣本,顯示神經元如何隨不同的輸入而變化。CTM 顯然學會了多種神經元行為。每個神經元(隨機顏色)如何與其他神經元同步。研究者對其進行測量,并將其作為 CTM 的表征。
新模型的行為基于一種新的表征:神經元之間隨時間的同步。研究者認為這更容易讓人聯想到生物大腦,但并非嚴格意義上的仿真。他們將由此產生的人工智能模型稱為「連續思考機器」,它能夠利用這種新的時間維度、豐富的神經元動態和同步信息來「思考」任務,并在給出答案前制定計劃。
命名中使用「連續」一詞,是因為 CTM 在推理時完全在內部「思考維度」運行。它對所消耗的數據是異步的:它可以以相同的方式對靜態數據(如圖像)或順序數據進行推理。研究者在大量任務中測試了這一新模型,發現它能夠解決各種問題,而且通常是以一種非常可解釋的方式。
研究者觀察到的神經元動態在某種程度上更像是在真實大腦中測量到的動態,而不是更傳統的人工神經網絡,后者表現出的行為多樣性要少得多(請參閱下圖與經典人工智能模型 LSTM 的比較)。CTM 顯示了以不同頻率和振幅振蕩的神經元。有時,單個神經元會出現不同頻率的振蕩,而其他神經元只有在完成任務時才會出現活動。值得強調的是,所有這些行為都是完全突發的,并沒有設計到模型中,而是作為添加定時信息和學習解決不同任務的副作用出現的。
CTM 完整架構如下圖所示,其中①為突觸模型(權重用藍線表示),建模跨神經元交互以產生預激活。對于每個神經元,②都會保留預激活的歷史記錄,其中最新的歷史記錄被 ③神經元級模型(權重用紅線表示)用于產生④后激活。此外還會保留 ⑤ 后激活的歷史記錄,并用于 ⑥ 計算同步矩陣。從同步矩陣中選擇⑦神經元對,從而產生⑧潛在表征。CTM 用這些表征⑨產生輸出并通過交叉注意力機制調制數據。調制后的數據(例如注意力輸出)將與后激活連接起來⑩,用于下一個內部時鐘周期。
CTM 架構的測試效果
由于新增了時間維度,CTM 的一大優勢在于:可以觀察并直觀地看到它如何隨著時間的推移解決問題。傳統的 AI 系統可能只需通過神經網絡一次性對圖像進行分類,而 CTM 可以分多個步驟來「思考」如何解決任務。
下面展示了兩個任務:解迷宮和照片中的物體分類。
首先來看解迷宮(Maze Solving)任務。在這個任務中,CTM 會被呈現一個自上而下的 2D 迷宮,并被要求輸出走出迷宮所需的步驟。這種模式尤其具有挑戰性,因為模型必須理解迷宮構造并規劃解決方案,而不是簡單地輸出路徑的視覺表示。
CTM 內部連續的「思考步驟」使其能夠制定計劃,從而可以直觀地看到它在每個思考步驟中關注迷宮的哪些部分。值得注意的是,CTM 學會了一種非常類似于人類的解迷宮方法 —— 在它的注意力模式中沿著迷宮路徑前進。
CTM 的行為模式尤其令人印象深刻,因為它自然而然地從模型架構中涌現出來。研究者并沒有特意設計 CTM 來追蹤迷宮中的路徑,它通過學習自行開發展了這種方法。他們還發現,當允許 CTM 進行更多思考步驟時,它會持續沿著訓練好的路徑前進,這表明它確實學會了解決這個問題的通用方法。
接下來是圖像識別任務。傳統的圖像識別系統只需一步即可做出分類決策,而 CTM 則需要多個步驟來檢查圖像的不同部分,然后再做出決策。這種循序漸進的方法不僅使人工智能的行為更易于解釋,也提高了準確率:它「思考」的時間越長,答案就越準確。
研究者還發現,這種方法使得 CTM 能夠減少在簡單圖像上思考的時間,從而節省算力。例如,在識別大猩猩時,CTM 的注意力會從眼睛轉移到鼻子,再轉移到嘴巴,這與人類的視覺注意力模式非常相似。
這些注意力模式為我們了解模型的推理過程提供了一個窗口,展示了它認為哪些特征與分類目標最相關。這種可解釋性不僅有助于理解模型的決策,還可能有助于識別和解決偏差或故障模式。
結論
盡管現代人工智能以「人工神經網絡」的形式建構在大腦之上,但即使在今天,人工智能研究與神經科學之間的重疊仍然少得驚人。AI 研究人員選擇沿用上世紀 80 年代開發的極簡模型,并且得益于簡單易用、訓練高效等屬性,這些模型在推動人工智能發展方面持續取得成功。
另一方面,神經科學可以創建更精確的大腦模型,但其主要目的是理解大腦,而非試圖創建更高級的智力模型。當然,兩者之間可能存在某種關聯。這些神經科學模型盡管更加復雜,但性能往往仍低于當前最先進的 AI 模型,因此,這類模型可能在人工智能應用領域缺乏進一步研究的吸引力。
盡管如此,研究者認為,如果現代人工智能在某些方面不能繼續向大腦的工作方式靠攏,我們將錯失良機。我們或許能夠通過這種方式創建更強大、更高效的模型。2012 年,得益于受大腦啟發的神經網絡模型,AI 能力出現躍升,「深度學習革命」才出現。
為了繼續推動這一進步,是否應該繼續受到大腦的啟發呢?CTM 是研究者首次嘗試彌合這兩個領域之間的差距,它展現出一些更像大腦行為的初步跡象,同時仍然是一個可以解決重要問題的實用人工智能模型。
研究者希望能夠繼續推動模型朝著這個受自然啟發的方向發展,并探索可能出現的新功能。關于 CTM 在不同任務中的行為,請參閱原始技術報告。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.