導語
近年來,人工智能,特別是大語言模型(Large Language Models, LLMs),已經在多個領域展現出令人驚訝的能力——不僅能像人一樣進行自然對話,還能在編程、游戲、化學、生物學等復雜任務中達到接近甚至超過專家的水平。比如,AlphaFold因為對蛋白質復雜結構的預測,獲得了2024年諾貝爾化學獎。這些強大的人工智能( AI) 系統最初其實是受到心理學和神經科學的啟發而發展起來的:早期的“連接主義”(Connectionism)模型就是對神經元活動的一種高度抽象的模擬。隨著技術的發展,現代AI逐漸脫離對神經系統的直接模仿,走向更注重工程效率的設計。人工智能的飛速發展,正在重新激發人們對一個關鍵問題的關注:AI 能否反過來幫助我們理解大腦?而大腦的結構和計算機制,又能否為構建更智能的 AI 提供線索?加州大學圣地亞哥分校五年級博士生,集智俱樂部「因果涌現」讀書會主題社區成員李濟安在此領域的相關研究被《Nature》和NeuralPS等期刊接收,對此進行報道。
關鍵詞:NeuroAI,人工智能,微型循環神經網絡,上下文學習,情景記憶
李濟安、熊華東丨作者
張江丨審校
在大語言模型能力如此強大的背景下,AI 與神經科學之間的聯系變得前所未有地重要,催生了一個新興領域:NeuroAI。它關注兩個角度的問題:
1. 用 AI 來研究大腦(AI for Neuro):在實驗上,AI 技術可以幫助科學家自動化數據分析、提取神經和行為特征;在理論上,人工神經網絡能模擬人腦中神經元的活動規律與認知過程,從而驗證、甚至提出新的神經科學理論。
2. 用大腦來啟發 AI(Neuro for AI):我們能否用神經科學技術理解 AI 系統的“內部工作原理”?此外,因為生物大腦的信息處理效率遠超當前的AI系統,我們能否基于神經科學的啟發讓 AI 更聰明、更節能、更類人?
為回應上述兩個核心問題,我們提出一種基于微型循環神經網絡的模型,它能用極少的參數來處理序列化數據,用以刻畫生物體的策略學習,揭示出決策行為中隱含的復雜認知機制,發表于《自然》期刊;并從認知神經科學的角度出發,系統分析了大語言模型的注意力機制,發現其運作方式與人類的自由回憶過程驚人地相似,發表于《神經信息處理系統大會》頂級會議。
AI for Neuro:用微型循環神經網絡讀懂生物決策的秘密
論文題目:Discovering cognitive strategies with tiny recurrent neural networks 論文來源:https://www.nature.com/articles/s41586-025-09142-4
在心理學和神經科學中,研究者常借助計算模型來描述和理解生物體的認知過程,比如人是如何感知、記憶、決策和學習的。以決策為例,當個體面對多個選擇時,模型可以幫助我們理解其如何基于過往經驗做出選擇。
傳統的認知建模方法通常由研究者基于任務結構手動構建,構造出一個被認為是“最優”的策略模型,被稱為貝葉斯最優模型。它假設生物個體像統計學家一樣,會整合所有可獲得的信息,以概率上最合理的方式做出判斷。例如醫生在診斷時,綜合病人癥狀、檢驗結果、流行病趨勢與以往經驗等,逐步積累證據以判斷疾病狀態,這種不確定信息下的整合正體現了貝葉斯推理的核心思想。貝葉斯最優模型會假設個體對信息和不確定性都有最優的估計。另一類常見模型是強化學習,它假設人或動物通過與環境互動,從獲得的“獎勵”或“懲罰”中學習行為策略。比如,在一個簡單的“賭博機”任務中,參與者面對兩臺看起來相同的老虎機,其中一臺中獎率較高。如果參與者反復嘗試并逐漸傾向于選擇那臺更常中獎的機器,就可以被認為是學會了利用獎勵信息進行策略優化。此類學習過程可由強化學習算法建模,模擬行為的價值更新機制。
這些模型具有一個共同特點:它們結構簡潔,參數量少,比如“學習率”(控制新信息更新速度)和“決策噪音”(反映行為的隨機性),因此容易解釋和擬合。但也正因為其簡潔性以及隱含的最優性假設,它們往往難以捕捉真實生物行為中廣為存在的復雜性和次優性。比如,實驗中發現,動物在獎勵結構改變后,常常依然固守之前的選擇偏好——哪怕新的選擇更優。這種“固執”的現象難以被最優模型解釋。研究者往往需要在模型中人為添加額外的“慣性”參數,或者設計某些特定的規則來逼近實際行為。但隨著所需解釋的行為細節增多,模型結構就變得越來越繁瑣,充滿“補丁式”的假設,不僅易引入主觀偏見,也難以推廣到其他任務中。
這引出了一個根本性問題:是否存在一種無需預設的建模方式,能夠讓模型直接從行為數據中“自主發現”策略?受到近年來物理學中“自動公式發現”思想的啟發,我們提出了一種新的方法:使用微型循環神經網絡(recurrent neural network,RNN)作為通用策略學習器,對個體的行為動態進行建模(圖1)。
圖1 RNN模型概覽 (a)認知模型與神經網絡在結構上非常相似:模型輸入會更新d個動態變量,這些變量再通過 softmax 輸出當前動作的概率 P(at)。(b)神經網絡中的隱藏單元會計算輸入與前一時刻狀態 h(t-1) 的函數。
RNN 是一種擅長建模時間序列的神經網絡結構,能自動捕捉行為隨時間演變的依賴關系。我們所采用的模型極為精簡,僅包含 1 至 4 個隱藏單元。這讓模型在保留足夠表達能力的同時,保持較強的可解釋性,使得對其內部機制的分析成為可能。
我們的核心研究問題是:這種結構極簡、完全數據驅動的模型,是否能夠在無需任何人為假設的前提下,捕捉復雜且非最優的行為模式——比如人們常常懶得換、愛用老辦法(“偏好保持”)或在“嘗鮮”和“吃老本”之間反復權衡(“探索-利用”權衡)等?它是否能夠在多樣化任務中超越傳統強化學習或混合策略模型的表現?
實驗結果顯示,這些微型循環神經網絡模型在六類經典獎勵學習任務中(涵蓋人類、猴子、小鼠、大鼠的行為數據)表現出色,在行為預測精度上全面優于傳統模型(如圖2所示),并可與更大規模的循環神經網絡相媲美(如圖3所示)。這表明,即便使用高度壓縮的網絡,它依舊能學會并舉一反三地模仿各種復雜決策,展現出用模型理解動物和人類的行為的巨大潛力。
圖2 RNN在動物任務中的表現。(d) 任務結構示意:被試在決策狀態下選擇動作A1或A2,隨后進入兩個可能的二級狀態 S1或 S2,這些狀態會以一定概率產生獎勵。(e) 模型在不同d(動態變量的數量)下的表現(數值越低越好)。
圖3 蒸餾模型的表現效果。(c)三種人類任務結構,從左到右分別是三臂反轉學習任務、四臂漂移賭博機任務、原始兩階段任務。(d)RNN模型表現與變量維度的關系,左圖三臂反轉學習任務(n = 1010);中圖為四臂漂移賭博機任務(n = 918);右圖為原始兩階段任務(n = 1961)。
更重要的是,這些僅有 1–4 個神經元構成的 RNN 在行為預測上不僅準確,而且具備很強的可解釋性。在模型中,動物行為的決策隨時間變化,可使用動力系統的分析方法,用一張圖來呈現決策過程,以當前動作偏好(Logit)為坐標、用箭頭或顏色指示下一步的變化方向與幅度,如圖4a-c所示。這些圖片清晰地展示了不同模型在運行時的關鍵特點,比如哪些狀態是穩定的,哪些狀態會吸引模型靠近,以及模型如何在狀態間切換,清晰呈現思維如何從一個想法或狀態轉變到另一個。這種動力系統方法帶來了很多意料之外的發現,例如,某些行為策略會根據不同的狀態調整學習速度,類似人在不同情境下改變學習方式。此外,它還揭示了一些傳統方法難以發現的新心理機制,如獎勵后可能表現出“無所謂”傾向,決策時不再在意差別(圖4d-f)。
圖4 基于動力系統分析的模型解釋和比較 (a)示意圖展示了模型在連續試次中偏好的變化過程。(b-c)相位圖(phase portraits)展示了當前偏好(logit)、選擇的動作(A1 藍色;A2 紅色)和獲得的獎勵(R=0 淺色;R=1 深色)共同作用下,動作偏好的變化情況。(b)擬合了猴子在反轉學習任務中行為的兩個一維模型的相位圖。(c)擬合了同一猴子數據下的一維RNN模型的相位圖。(d-f)偏好設定點分析。
極具啟發性的是,我們發現即使是面對復雜任務,描述單個個體的行為所需的最小網絡維度也很低。這提示了每個動物在特定任務中的“最小行為維度”是有限的(圖2e)。因此我們的方法不僅有助于刻畫個體差異,也為認知建模提供了一個新的、可量化的指標來描述行為的復雜性。因此,本研究不僅擴展了認知建模的工具集,也為高可解釋性行為建模提供了新的方向。
這一研究展示了一個關鍵轉變:神經網絡不再只是一個行為擬合的黑箱工具,而正在成為一種認知顯微鏡。它不僅具備數據驅動的建模能力,還能通過壓縮與抽象,揭示出潛在的行為生成機制。這種研究范式與當前 “AI for Science” 的趨勢高度一致,即:神經網絡作為模型發現的中介工具,能夠從高維實驗數據中提取結構化知識。
不過為了實現知識的可解釋表達,我們需要找到適當的結構化表示形式。理想的表示形式應滿足兩點:一是具備良好的預測能力,二是對人類研究者而言語義清晰、邏輯透明。例如,AlphaFold 在蛋白質建模中通過圖結構表示氨基酸間的幾何約束;物理學中的自動理論發現方法常用符號表達式揭示變量間的對稱性和守恒定律,二者都具有高可解釋性。在我們的研究中,這種結構化形式體現為低維離散動力系統,也就是一個用少數幾個關鍵指標,描述和預測事件隨時間如何一步步變化,這為生物體策略行為提供了一種可計算、可視化且易于理解的抽象結構。
在這篇用微型循環神經網絡來理解生物決策的研究中,我們發現可以通過合適的結構化表示,利用AI算法揭示人類行為背后的潛在生成機制,既準確又有很強的可解釋。除此之外,還有其他的研究路徑可以達到同樣的目標。例如強調可計算性與形式可解釋性的方法[2],通過引入符號回歸技術,把 RNN 學得的低維離散動力系統轉譯為形式簡潔的決策方程,在不犧牲預測精度的前提下,使模型規則一目了然;以及強調語義表達與泛化能力的方法[3],將實驗任務與被試逐試次行為序列轉換成自然語言描述,并用其微調大型語言模型,經微調的模型在未見任務與新被試上依然保持準確預測,自然語言本身也視為一種高度靈活、結構豐富的認知表征形式,可能成為理解復雜人類行為的通用建模接口。這些不同的方法共同構成了當前“以人工智能促進科學發現”范式中的關鍵組成部分。
Neuro for AI:大語言模型上下文學習與人類情景記憶的相似性
在前文中我們看到,人工神經網絡可以幫助我們理解人類的認知機制。而在下面這篇研究中,我們反過來嘗試用神經科學中的理論,來解釋大型語言模型(LLMs)所展現出的某些智能特性。
論文來源:NeurlPS 2024 論文標題:Linking In-context Learning in Transformers to Human Episodic Memory 論文鏈接:https://proceedings.neurips.cc/paper_files/paper/2024/file/0ba385c3ea3bb417ac6d6a33e24411bc-Paper-Conference.pdf
大語言模型擁有的一種令人驚訝的能力叫作“上下文學習”(in-context learning):它們在不經過任何參數更新的情況下,僅憑輸入中的幾個示例,就能臨時掌握新的任務或模式。這種能力不只是模仿格式,而是能在復雜任務中展示出一定程度的泛化能力。
比如,在一個語法學習任務中,如果模型輸入如下不存在的詞:
mize → mized
glorp → glorpped
tarn → ?
它可以根據前兩個例子自動“歸納”出構詞規律,判斷出 tarn 應該變為 tarned。這意味著,模型能夠在上下文中識別模式、臨時抽象出規則,并將其遷移到新例上。這種“舉一反三”的能力讓人聯想到人類的類比推理和工作記憶:我們也能在看到幾個例子后,迅速抽取其中的規律,并用于新的問題。
那么,大模型是怎么做到這一點的?它的機制是否真的與人腦的記憶過程相似?
之前的一些研究已經發現,在 Transformer 架構中,有一種被稱為歸納注意力頭(induction head)的結構,在上下文學習中起到了核心作用。它們的作用類似于一種“模式檢索與拷貝”機制:當模型在輸入中識別出重復出現的結構時,歸納注意力頭會學會對第一次出現的位置產生很強的注意力,并根據該位置的后綴部分預測后續結果。舉個例子,如果輸入序列是:
A P O Q Q E D A P O ?
雖然這些字符本身沒有具體含義,但歸納頭能識別出其中的重復結構“APOQ”,并在第二次遇到“A P O”時,自動預測下一個應為“Q”。也就是說,即便序列本身是隨機的(沒有出現在訓練語料中),只要有模式可循,歸納頭就能對其進行捕捉和復制。這一機制表明:即便在無顯式規則的條件下,歸納頭也能通過局部模式學習實現泛化,體現出類似“在觀察中學習”的能力。
我們進一步提出一個假設:這種歸納頭的行為機制是否類似于人類在自由回憶任務中的表現(圖5)自由回憶指的是個體在聽完一組單詞后盡可能多地回憶這些單詞的心理任務。心理學中一個經典模型是上下文維護與檢索(Context Maintenance and Retrieval,CMR)模型,它是一種人類的記憶方式,記憶的提取依賴于當前情境與過往記憶之間的上下文匹配。CMR 記憶模型能有效解釋兩類現象:新近效應(更易記住末尾項目)與時序效應(回憶順序傾向保留原來記憶刺激時的順序)。
圖5 人類實驗、 CMR 模型和大語言模型的條件回憶概率(CRP)。(左) PEERS 數據集(N=171)的參與者條件回憶概率(CRP)。(中) 展示了不同參數的 CMR 模型,有些參數對應人類自由回憶的行為。(右) 展示了幾個典型“歸納頭”的注意力分布及其由 CMR 模型擬合的注意力分布。
我們發現了令人驚訝的一個現象,LLM的部分中后層注意力頭在行為上高度類似于 CMR 人類記憶模型(圖5):它們傾向聚焦于時間上鄰近的詞元(token)。進一步分析表明,這些注意力機制的動態可以被 CMR 精確建模。更重要的是,隨著訓練的進行,這種“類人記憶偏好”在模型中自發增強,與人類的記憶方式越來越像。這表明,大語言模型在上下文學習中,可能自發形成了一種類似人的記憶內部機制,為我們理解其智能行為提供了新的認知科學視角。
為驗證這一 CMR 機制的功能性,我們設計了消融實驗,系統移除與 CMR 行為最接近的注意力頭。結果顯示,模型在多個上下文學習任務中的表現顯著下降。這說明,這些類似于人的記憶結構并不是偶然產物,而是支撐模型泛化與學習能力的關鍵組成部分。
在另一項后續研究中[5],我們借鑒了神經科學中研究神經反饋的經典實驗范式,用于探索LLM是否具備類似元認知的心理功能。結果表明,語言模型確實展現出一定程度的基于上下文學習的元認知能力:它們不僅能夠監控自己內部的神經狀態,還能在一定程度上對其進行調控。我們的方法可以對LLM的元認知能力及其影響因素進行系統性量化,為今后的研究提供了一個可推廣的評估框架。
我們正站在一個新的認知神經科學研究轉折點上:神經網絡不僅僅是模擬人類行為的黑箱,更可用作“認知顯微鏡”來理解人類心智。同時,心理學與神經科學的理論與技術也為解釋與改進 AI 系統提供了強有力的啟發。這種互為鏡像、相互促進的智能理解體系,正是 NeuroAI 所描繪的愿景。它不僅加深我們對智能本質的理解,也有望推動下一代 AI 系統向更加強大、高效、可解釋的方向發展。
參考資料
[1] Li Ji-An, Marcus K. Benna, and Marcelo G. Mattar. "Discovering Cognitive Strategies with Tiny Recurrent Neural Networks." Nature (2025).
[2] Hua-Dong Xiong, Li Ji-An, Marcelo G. Mattar, and Robert C. Wilson. "Distilling human decision-making dynamics: a comparative analysis of low-dimensional architectures." In NeurIPS 2023 AI for Science Workshop.
[3] Marcel Binz, Elif Akata, Matthias Bethge, Franziska Br?ndle, Fred Callaway, Julian Coda-Forno, Peter Dayan et al. "Centaur: a foundation model of human cognition." arXiv preprint arXiv:2410.20268 (2024).
[4] Li Ji-An, Corey Zhou, Marcus Benna, and Marcelo G. Mattar. "Linking in-context learning in transformers to human episodic memory." Advances in neural information processing systems 37 (2024): 6180-6212.
[5] Li Ji-An, Hua-Dong Xiong, Robert C. Wilson, Marcelo G. Mattar, and Marcus K. Benna. "Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations." arXiv preprint arXiv:2505.13763 (2025).
本文為科普中國·星空計劃扶持作品 作者:李濟安、熊華東 審核:張江 北京師范大學系統科學學院教授 出品:中國科協科普部 監制:中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司
大模型可解釋性讀書會
集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境,嘗試從以下四個視角梳理大語言模型可解釋性的科學方法論:
自下而上:Transformer circuit 為什么有效?
自上而下:神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚?
復雜科學:滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力?
系統工程:如何擁抱不確定性,在具體的業界實踐中創造價值?
五位發起人老師會帶領大家研讀領域前沿論文,現誠邀對此話題感興趣的朋友,一起共創、共建、共享「大模型可解釋性」主題社區,通過互相的交流與碰撞,促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復雜系統與智能本質的交叉學科探索者,還是追求模型安全可信的工程實踐者,誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。
讀書會計劃于2025年6月19日啟動,每周四晚19:30-21:30,預計持續分享10周左右。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.