大自然用了億萬年優(yōu)化的神經(jīng)算法,或許正是突破當前人工智能瓶頸的鑰匙。[1]”近日,美國哈佛大學(xué)團隊和合作者探索了生物強化學(xué)習(xí)中多個時間尺度的存在,借此證明在多個時間尺度上學(xué)習(xí)的強化學(xué)習(xí)智能體具有獨特的計算優(yōu)勢,并發(fā)現(xiàn)在執(zhí)行兩種行為任務(wù)的小鼠實驗中,當多巴胺能神經(jīng)元(Dopaminergic Neurons)編碼獎賞預(yù)測誤差時,表現(xiàn)出了多樣化地折扣時間常數(shù)的特性。
這一成果為理解多巴胺能神經(jīng)元的功能異質(zhì)性提供了新范式,為“人類和動物使用非指數(shù)折扣”這一經(jīng)驗性觀察提供了機制基礎(chǔ),并為設(shè)計更高效的強化學(xué)習(xí)算法開辟了新途徑。
圖 | 相關(guān)論文(來源:Nature)
日前,相關(guān)論文發(fā)表于Nature[2],加拿大麥吉爾大學(xué)助理教授、原美國哈佛大學(xué)博士后研究員保羅·馬賽(Paul Masset)是第一作者兼共同通訊作者。
(來源:https://mila.quebec/en/directory/paul-masset)
研究中,研究團隊使用專有模型解釋了時間折扣(temporal discounting)的異質(zhì)性,這種異質(zhì)性既體現(xiàn)在由線索引發(fā)的瞬時反應(yīng)中,也體現(xiàn)在被稱為“多巴胺斜坡”的較慢時間尺度波動里。其中的關(guān)鍵在于,單個神經(jīng)元在不同任務(wù)中測量得到的折扣因子具有顯著相關(guān)性,這表明這些折扣因子擁有同一種細胞特異性屬性。
需要說明的是,時間折扣(Temporal Discounting)是指個體對獎勵或懲罰的主觀價值評估會隨著時間延遲而下降的心理現(xiàn)象。這一概念在行為經(jīng)濟學(xué)、神經(jīng)科學(xué)和強化學(xué)習(xí)領(lǐng)域具有重要意義。折扣因子(Discount Factor)則是強化學(xué)習(xí)中的核心參數(shù),用于衡量智能體對于未來獎勵的重視程度。
大腦中的強化學(xué)習(xí)也表現(xiàn)出多時間尺度特性嗎?
不少人工智能領(lǐng)域的最新進展都依賴于時序差分(TD,temporal difference)強化學(xué)習(xí)。在這一學(xué)習(xí)方法中,時序差分的學(xué)習(xí)規(guī)則被用于學(xué)習(xí)預(yù)測信息。
在該領(lǐng)域之中,人們基于對于未來的預(yù)期值,來不斷地更新當前的估計值,這讓時序差分方法在解決“未來獎賞預(yù)測”和“行動規(guī)劃優(yōu)化”這兩類任務(wù)上展現(xiàn)出了卓越性能。
對于傳統(tǒng)時序差分學(xué)習(xí)來說,它采用固定折扣因子的標準化設(shè)定,即僅僅包含單一學(xué)習(xí)時間尺度。這一設(shè)定在算法收斂后會導(dǎo)致指數(shù)折扣的產(chǎn)生,即未來獎勵的價值會隨著時間單位呈現(xiàn)出固定比例的衰減。
盡管這種固定折扣因子的標準化設(shè)定,對于保持學(xué)習(xí)規(guī)則的簡潔性和自洽性至關(guān)重要,但是眾所周知的是人類和動物這些生物體在進行跨期決策時,并不會表現(xiàn)出指數(shù)型折扣行為。
相反,生物體普遍表現(xiàn)出雙曲線折扣行為:即獎賞價值會隨延遲時間出現(xiàn)“先銳減、后緩降”的特征。
人類與動物這些生物體能夠動態(tài)地調(diào)節(jié)自身的折扣函數(shù),以便適應(yīng)環(huán)境的時間統(tǒng)計特性。而當這種調(diào)節(jié)功能失調(diào)的時候,可能是出現(xiàn)心理異常或罹患某種疾病的標志。
研究團隊表示,將時序差分學(xué)習(xí)規(guī)則加以進一步擴展之后,能夠讓人造神經(jīng)系統(tǒng)與生物神經(jīng)系統(tǒng)學(xué)習(xí)更加復(fù)雜的預(yù)測表征。越來越多的證據(jù)表明,生物系統(tǒng)中存在豐富的時間表征,尤其是在基底神經(jīng)節(jié)中。需要說明的是,基底神經(jīng)節(jié)是脊椎動物大腦中一組起源不同的皮質(zhì)下核。而探明這些時間表征到底是如何學(xué)習(xí)的,仍然是神經(jīng)科學(xué)領(lǐng)域和心理學(xué)領(lǐng)域的一個關(guān)鍵問題。
在大多數(shù)時間學(xué)習(xí)理論中,一個重要組成部分便是多重時間尺度的存在,這使得系統(tǒng)能夠捕捉不同持續(xù)時間范圍內(nèi)的時間依賴性:較短的時間尺度,通常能夠處理快速變化的關(guān)系以及即時依賴性關(guān)系;較長的時間尺度,通常能夠捕捉緩慢變化的特征以及處理長期依賴性關(guān)系。
此外,人工智能領(lǐng)域的研究表明,通過納入多個時間尺度的學(xué)習(xí),深度強化學(xué)習(xí)算法的性能可以得到提升。那么,大腦中的強化學(xué)習(xí)是否也表現(xiàn)出這種多時間尺度特性?
為此,研究團隊研究了多時間尺度強化學(xué)習(xí)的計算含義。隨后,他們發(fā)現(xiàn)多巴胺能神經(jīng)元會在不同的時間尺度上編碼預(yù)測,從而能為大腦中的多時間尺度強化學(xué)習(xí)提供潛在的神經(jīng)基礎(chǔ)。
(來源:Nature)
解釋多巴胺能神經(jīng)元活動背后的多個原理
研究團隊發(fā)現(xiàn),對于在各類復(fù)雜問題中的表現(xiàn)來說,那些采用多時間尺度學(xué)習(xí)的強化學(xué)習(xí)智能體,遠遠優(yōu)于采用單一時間尺度的智能體。
為了說明多時間尺度表征的計算優(yōu)勢,他們展示了幾個示例任務(wù):包括一個簡單的線性迷宮、一個分支迷宮、一個導(dǎo)航場景和一個深度 Q 網(wǎng)絡(luò)(DQN,deepQ-network)場景。
(來源:Nature)
在線性迷宮任務(wù)中,智能體需要在一條線性軌道中導(dǎo)航,并會在特定時間點(tR)遇到一定大小的獎勵(R)。
(來源:Nature)
R 和 tR 的數(shù)值會在不同的回合之間變化,但在同一回合內(nèi)保持不變。每個回合由在初始狀態(tài)(s)呈現(xiàn)的提示信號開始。
在每個回合之中,智能體通過簡化強化學(xué)習(xí)算法,利用單個折扣因子或多個折扣因子來計算線索所預(yù)測的未來獎賞。
同時,智能體基于已經(jīng)習(xí)得的線索關(guān)聯(lián)價值,通過解碼網(wǎng)絡(luò)針對價值信息進行任務(wù)特異性轉(zhuǎn)換,最終生成與任務(wù)需求相匹配的行為輸出。
(來源:Nature)
由于某些任務(wù)涉及到多時間尺度值上的復(fù)雜非線性操作,于是研究團隊使用策略梯度為每個任務(wù)訓(xùn)練了一個通用的非線性解碼器。
鑒于本次研究旨在評估多時間尺度價值表征相比單時間尺度表征的核心優(yōu)勢,以及旨在探究這些優(yōu)勢能在多大程度上被一個與代碼無關(guān)的簡易解碼器所利用。因此,在研究團隊的模型中,多時間尺度價值信號并不直接驅(qū)動行為輸出,而是作為一種增強型狀態(tài)表征,以便能為后續(xù)任務(wù)特異性行為的解碼提供信息基礎(chǔ)。
通過此,他們分析了多時間尺度強化學(xué)習(xí)智能體的獨特計算優(yōu)勢,并表明這一視角能夠解釋多巴胺能神經(jīng)元活動背后的多個原理。
(來源:Nature)
為新一代算法設(shè)計帶來革命性啟示
研究團隊表示,“將多巴胺能神經(jīng)元理解為通過時序差分強化學(xué)習(xí)算法計算獎勵預(yù)測誤差”的觀點,徹底改變了人們對于這類神經(jīng)元的功能的認知。
但是,也有研究通過拓展記錄位點的解剖學(xué)范圍,揭示了多巴胺神經(jīng)元響應(yīng)存在顯著的異質(zhì)性,不過這些發(fā)現(xiàn)難以在經(jīng)典的時序差分強化學(xué)習(xí)框架中得到合理解釋。
同時,許多看似異常的發(fā)現(xiàn)可以在強化學(xué)習(xí)框架的擴展中得到調(diào)和和整合,從而進一步加強時序差分理論在捕捉大腦學(xué)習(xí)機制復(fù)雜性方面的強大能力和通用性。
在這項工作中,研究團隊還揭示了多巴胺能神經(jīng)元異質(zhì)性的另一個來源:即它們能在多個時間尺度上編碼預(yù)測誤差。
綜合來看,這些結(jié)果表明此次所觀察到的多巴胺反應(yīng)中的一部分異質(zhì)性,反映了強化學(xué)習(xí)框架中關(guān)鍵參數(shù)的變化。
相比傳統(tǒng)強化學(xué)習(xí)框架中基于標量預(yù)測誤差的方法,多巴胺系統(tǒng)能夠?qū)W習(xí)和表征更豐富的信息,這是因為多巴胺系統(tǒng)使用了“參數(shù)化向量預(yù)測誤差”。在“參數(shù)化向量預(yù)測誤差”中,包含了對于獎勵函數(shù)未來時間演化的離散拉普拉斯變換。
需要說明的是,離散拉普拉斯變換(DLT,Discrete Laplace Transform)是經(jīng)典拉普拉斯變換在離散時間或離散空間上的推廣,主要用于信號處理、系統(tǒng)控制和機器學(xué)習(xí)等領(lǐng)域。
另據(jù)悉,調(diào)整折扣因子已被用于在多種算法中提升性能,相關(guān)方法包括:通過元學(xué)習(xí)獲取最優(yōu)折扣因子、學(xué)習(xí)依賴狀態(tài)的折扣因子,以及結(jié)合并行指數(shù)折扣智能體。
但是,神經(jīng)元通過任務(wù)或情境來適配全局折扣函數(shù)的募集機制是什么?解剖位置與折扣行為之間的關(guān)聯(lián)是什么?以及 5-羥色胺等其他神經(jīng)遞質(zhì)對這種適配的貢獻是什么?這些都是尚未解決的問題。
同樣的,向量化誤差信號對于下游時間表征的調(diào)控機制仍有待進一步研究。而理解這種神經(jīng)資源“調(diào)動”機制的背后原理,有助于人們在機制層面理解時間尺度多樣性在時間決策中的校準作用與失調(diào)作用。
目前,研究團隊所面臨的一個難題是,強化學(xué)習(xí)理論使用指數(shù)折扣,而人類和動物這些動物體經(jīng)常表現(xiàn)出雙曲線折扣。
此前曾有研究探索了多巴胺能神經(jīng)元的折扣機制,并認為單個多巴胺能神經(jīng)元表現(xiàn)出雙曲線折扣。然而,此前這一研究采用非提示性獎勵反應(yīng)作為零延遲獎勵的測量指標,這種方法可能導(dǎo)致結(jié)果更加偏向于雙曲線折扣模型。
相比之下,本次研究團隊的數(shù)據(jù)與單個神經(jīng)元水平的指數(shù)折扣保持一致,這表明每個多巴胺能神經(jīng)元所定義的強化學(xué)習(xí)機制,和強化學(xué)習(xí)算法的規(guī)則是互相符合的。
當這些不同的指數(shù)折扣在生物體層面結(jié)合時,可能會出現(xiàn)類似雙曲線的折扣。也就是說,多個時間尺度對全局計算的相對貢獻決定了生物體水平的折扣函數(shù),并且該函數(shù)會根據(jù)環(huán)境風(fēng)險率的不確定性進行校準。
因此,適當?shù)匾胝劭垡蜃拥漠愘|(zhì)性,對于適應(yīng)環(huán)境的時間不確定性非常重要。這一觀點也與分布式強化學(xué)習(xí)假說存在相似之處,該假說認為樂觀與悲觀的校準失衡會導(dǎo)致習(xí)得價值出現(xiàn)偏差。
由于遺傳、發(fā)育或轉(zhuǎn)錄因素導(dǎo)致的這種分布偏差,可能會使生物體在學(xué)習(xí)過程中要么傾向于追求短期目標、要么傾向于追求長期目標。同樣的,這種觀點也可用于指導(dǎo)算法設(shè)計,使其能夠調(diào)動并利用這些自適應(yīng)的時間預(yù)測。
總的來說,本次成果創(chuàng)立了一個全新的研究范式,能被用于解析多巴胺能神經(jīng)元中預(yù)測誤差計算的功能機制,這不僅為生物體疾病狀態(tài)下的跨期決策障礙提供了新的機理解釋,更為新一代算法的設(shè)計帶來了重要啟示。
參考資料:
1.https://www.ebiotrade.com/newsf/2025-6/20250605082948946.htm
2.Masset, P., Tano, P., Kim, H.R.et al. Multi-timescale reinforcement learning in the brain.Nature(2025). https://doi.org/10.1038/s41586-025-08929-9
排版:溪樹
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.