摘要
為了在復雜環境中生存并獲得成功,動物和人工智能體必須學會自適應地行動,以最大化適應度(fitness)和獎勵(rewards)。這種自適應行為可以通過強化學習(reinforcement learning)習得,這類算法不僅在訓練人工智能主體方面取得了成功,還在刻畫中腦多巴胺能神經元(dopaminergic neurons)放電活動中發揮了作用。在經典強化學習模型中,智能體根據單一時間尺度(timescale)——即折扣因子(discount factor)——對未來獎勵進行指數折扣。本文探討了生物強化學習中多個時間尺度(multiple timescales)的存在。我們首先展示了在多重時間尺度上學習的強化學習智能體所具有的獨特計算優勢。隨后,我們報道了在執行兩種行為任務的小鼠中,多巴胺能神經元以多種折扣時間常數(discount time constants)編碼獎勵預測誤差(reward prediction error)。模型解釋了在由線索誘發的瞬時響應和稱為多巴胺攀升(dopamine ramps)的更慢時間尺度波動中觀察到的時間折扣異質性。更重要的是,單個神經元在兩種任務中測得的折扣因子呈現高度相關性,表明這是一種細胞特異性(cell-specific)的屬性。綜合而言,我們的研究為理解多巴胺能神經元功能異質性提供了新的范式,并為人類和動物在多種情境下采用非指數折扣(non-exponential discounts)的經驗觀察提供了機理基礎,同時也為設計更高效的強化學習算法開辟了新途徑。
關鍵詞:多時間尺度、強化學習(Reinforcement Learning, RL)、獎勵預測誤差、折扣因子(Discount Factor)、價值函數、拉普拉斯變換(Laplace Transform)、多巴胺神經元(Dopaminergic Neurons)、時序編碼(Temporal Representation)、神經異質性(Neuronal Heterogeneity)
彭晨丨作者
論文題目:Multi-timescale reinforcement learning in the brain 論文鏈接:https://www.nature.com/articles/s41586-025-08929-9 發表時間:2025年6月4日 論文來源:Nature
在復雜環境中,動物和人工智能系統都需學習如何在不確定的未來中做出最佳決策,以最大化回報。傳統的時間差分強化學習(Temporal-Difference Reinforcement Learning)依賴于單一時間尺度的折扣因子(Discount Factor),將未來獎勵按統一速率指數衰減。然而,行為經濟學與生態學研究表明,人類與動物通常表現出非指數型折扣,例如超曲線折扣(Hyperbolic Discounting),并能根據環境不確定性靈活調整。最新發表于 Nature 的一項研究,從計算與神經生物學視角提出:大腦中的多巴胺系統或通過多種時間尺度并行學習,實現更高效、更靈活的強化學習機制。
多時間尺度RL的計算優勢
研究團隊首先使用模型仿真比較了單一時間尺度與多時尺度強化學習的表現差異。以一個線性迷宮為例,智能體在每次試驗中都會在起點收到提示信號,然后在特定時刻獲得獎勵。傳統只采用單一折扣因子,獎勵大小與時延信息通常被壓縮到同一個標量中。而當引入多個折扣因子(γi)并行學習時,智能體對不同時間窗內的獎勵預期形成向量化表示(如公式所示)。
研究團隊首先在仿真環境中對比了單一折扣因子與多時尺度價值表征的性能差異,使用了四個任務(圖1e)。在“解耦獎勵大小與時間”(Task 1)中,單一折扣因子模型無法區分價值是來自于“小額近期獎勵”與“大額遠期獎勵”,而多時尺度系統則通過折扣價值譜(value spectrum)的形狀不變性,可以將獎勵時間與獎勵幅度相分離。進一步地,多時間尺度系統隱含了所有未來時刻的指數折扣值,使其能夠在同一表征上靈活重加權,以重現超曲線折扣(Task 2),甚至在學習尚未收斂時,就從折扣譜形狀中推斷出獎勵時延(Task 3),并可根據當前狀態在“近視”與“遠見”間切換以優化不完全學習場景下的決策(Task 4)。
圖 1. 多時間尺度強化學習的計算優勢。a. 在單時間尺度價值學習中,預測未來獎勵的線索(在 t = 0 時)的價值(左)通過單一指數折扣函數對這些獎勵進行折扣來評估(中)。預期獎勵的大小和時間被編碼在線索的價值中,但兩者相互混淆(右)。b. 在多時間尺度價值學習中,相同的獎勵延遲通過多個折扣函數進行評估(中左)。線索的相對價值作為折扣的函數取決于獎勵延遲(中右)。因此,基于拉普拉斯變換的簡單線性解碼器可以重建獎勵的預期時間和大小(右)。c. 比較單時間尺度與多時間尺度學習的實驗。tR 和 R 在每個episode中固定,但在不同episode中變化。d. 步驟 1:在每個episode中,價值函數通過使用多個折扣因子的表格更新來學習。給定這些值,步驟 2 包括訓練一個非線性解碼器以最大化任務特定報告的準確性。解碼器通過策略梯度在不同情節中進行訓練。e. 該架構在四項任務中進行訓練,以突顯多時間尺度強化學習的計算優勢,包括將獎勵大小和獎勵時間的信息解耦、能夠使用任意折扣函數進行學習、能夠在收斂前恢復獎勵時間信息以及能夠控制歸納偏差(見正文和方法部分)。f. 在 2000 次訓練回合后報告平均準確率,作為正確響應的比例。“三個折扣”對應于 [0.6, 0.9, 0.99] 的集合,“一個折扣”對應于在 {[0.6, 0.6, 0.6], [0.9, 0.9, 0.9], [0.99, 0.99, 0.99]} 中表現最佳的集合,“兩個折扣”情況類似。
多巴胺神經元中的折扣特性
緊接著,研究團隊在小鼠中進行了兩類行為任務的電生理記錄。其一是「氣味延遲任務」(Cued Delay Task),每個氣味線索對應不同的水獎勵時延;其二是在虛擬現實線性跑道中,動物需在行進接近目標時獲得獎勵。
研究發現,位于腹側被蓋區(VTA)的多巴胺神經元對提示信號的瞬時響應幅度隨預期獎勵時延而異,且單個神經元的響應隨時延衰減曲線服從指數模型而非超曲線模型,但在群體中呈現廣泛的折扣因子分布——有神經元更偏向「近視」(高折扣率),有則偏向「長遠」(低折扣率),形成多樣性的折扣譜。這一特性不僅解釋了為何整體行為表現出超曲線折扣,也為大腦如何同時編碼多時尺度獎勵預測誤差提供了神經基礎。
圖 2. 多巴胺能神經元表現出多種折扣因子,使解碼獎勵延遲成為可能。a. 有提示延遲任務圖示。b. 獎勵發放前的預期舔舐行為。c. 四種試驗類型的平均脈沖時序直方圖。d. 兩個單個神經元的示例提示反應擬合。e. 神經元群體的標準化提示反應。對于每個神經元,其反應被標準化為四種可能延遲中的最高反應。插圖顯示了每個神經元的推斷折扣因子。f. 數據更符合指數模型而非雙曲線模型。g. 神經元中推斷折扣因子的分布(自助法的平均折扣因子)。h,歸一化群體反應的形狀與獎勵延遲的關系。粗線表示平滑擬合,虛線表示理論值,點表示單個神經元。i,折扣矩陣。神經元的排序如圖 d 所示。j,解碼過程概述。k,未來獎勵的主觀預期時間可以從預測獎勵延遲的提示的群體反應中解碼出來。基于測試數據的提示平均反應的解碼(上行;見方法)優于使用具有單一折扣因子的模型(群體平均折扣因子;下行;細線(淺陰影)表示單個自助樣本的預測,粗線(淺陰影內的深陰影)表示自助樣本的平均預測,單個深垂直線表示獎勵時間;見方法;擴展數據圖 4e)。l,每個多巴胺能神經元的 RPE 對一個獨特的價值函數做出貢獻的模型(見方法;擴展數據圖 7f-k)。
漸進性攀升及其多時間尺度解釋
在更自然的任務場景中,多巴胺信號往往表現為沿目標接近而平滑上升的“遞進性攀升(Dopamine Ramping)”。此前對該現象的解釋多聚焦于逐步累積的獎勵預測誤差或路徑積分等,然而本研究指出,只需假定神經元共享一個“共同的價值函數”,并各自采用不同折扣因子,對該函數在時間上的導數進行指數折扣響應,就能再現多種攀升形態:有的神經元持續上升,有的先降后升,甚至有的下降趨勢(圖 3c)。換言之,攀升多樣性可被視為多時間尺度編碼與單一價值函數交互的解碼結果,無需假設多個獨立系統。
圖 3. 不同多巴胺神經元的折扣因子多樣性解釋了不同的攀升表現。a. 實驗裝置。虛擬現實走廊在運動開始時的視圖(左)。實驗裝置示意圖(中、右)。b. 單個多巴胺能神經元(n = 90)的平均活動在獎勵發放前軌道的最后幾秒內呈上升趨勢。c. 在接近獎勵的最后階段表現出不同上升活動的單個神經元示例,包括單調上升(深紅色)、非單調(紅色)和單調下降(淺紅色)上升。d. 整個神經元群體中的單個神經元在遞增活動方面表現出多樣性的譜系。神經元根據從共同價值函數模型推斷出的折扣因子進行排序(圖 k)。e. 圖 c 中所示單個神經元的示例模型擬合。f. 模型捕捉到了整個群體中遞增活動的多樣性。神經元的排序方式與圖 d 相同,依據的是推斷出的折扣因子。g、h. 指數價值函數的折扣因子與遞增多樣性之間的關系。i、j. 三次價值函數的折扣因子與遞增多樣性之間的關系。k. 推斷出的價值函數。灰色細線表示每次自助抽樣推斷出的價值函數。藍色粗線表示自助抽樣的平均值。l. 推斷出的折扣因子直方圖。
跨任務相關的折扣因子穩定性
為探究折扣因子的穩定性與任務依賴性,研究者對同只小鼠的同一神經元,在兩種任務中分別擬合折扣譜并進行相關性分析。結果表明,折扣參數在“氣味延遲任務”與“虛擬現實任務”中高度一致(Spearman ρ≈0.9),并通過自舉分析驗證了其統計學的魯棒性。這一發現既支持了單細胞折扣特性的固有性,也為未來在人工智能中引入“元學習折扣因子”或“狀態依賴折扣”提供了神經回路層面的借鑒。
圖 4.單個多巴胺能神經元的折現因子在不同的行為下是相關的。
結語與展望
本項研究通過嚴謹的計算仿真與電生理實驗結合,提出并驗證了“大腦或利用多時尺度價值表征,通過向量化預測誤差實現靈活決策”的新范式。其核心在于,神經系統在單元層面采用多樣化指數衰減編碼未來獎勵時序,再由下游電路或拉普拉斯逆變換等方式解碼,以獲得精準的獎勵時機與大小信息,兼容超曲線折扣與遞進性攀升等多種行為神經現象。該工作不僅深化了對多巴胺系統功能異質性的理解,也將激發人工智能領域在深度強化學習中發展更高效、更穩健的多時尺度算法,為在自然環境中面臨更復雜時序不確定性的智能體決策提供新的思路。
關于集智俱樂部
集智俱樂部成立于 2003 年,是一個從事學術研究、享受科學樂趣的探索者的團體,也是國內最早的研究人工智能、復雜系統的科學社區。它倡導以平等開放的態度、科學實證的精神,進行跨學科的研究與交流,力圖搭建一個中國的 “ 沒有圍墻的研究所 ”。集智科學研究中心(民間企業)是集智俱樂部的運營主體,長期運營社區生態,催化理論創新。使命:營造跨學科探索小生境,催化復雜性科學新理論。
計算神經科學讀書會
人類大腦是一個由數以百億計的神經元相互連接所構成的復雜系統,被認為是「已知宇宙中最復雜的物體」。本著促進來自神經科學、系統科學、信息科學、物理學、數學以及計算機科學等不同領域,對腦科學、類腦智能與計算、人工智能感興趣的學術工作者的交流與合作,集智俱樂部聯合國內外多所知名高校的專家學者發起神經、認知、智能系列讀書會第三季——,涵蓋復雜神經動力學、神經元建模與計算、跨尺度神經動力學、計算神經科學與AI的融合四大模塊,并希望探討計算神經科學對類腦智能和人工智能的啟發。讀書會已完結,現在報名可加入社群并解鎖回放視頻權限。
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.