99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

哈佛團隊發現多巴胺能神經元新機制,或是突破AI瓶頸的鑰匙

0
分享至

大自然用了億萬年優化的神經算法,或許正是突破當前人工智能瓶頸的鑰匙。[1]”近日,美國哈佛大學團隊和合作者探索了生物強化學習中多個時間尺度的存在,借此證明在多個時間尺度上學習的強化學習智能體具有獨特的計算優勢,并發現在執行兩種行為任務的小鼠實驗中,當多巴胺能神經元(Dopaminergic Neurons)編碼獎賞預測誤差時,表現出了多樣化地折扣時間常數的特性。

這一成果為理解多巴胺能神經元的功能異質性提供了新范式,為“人類和動物使用非指數折扣”這一經驗性觀察提供了機制基礎,并為設計更高效的強化學習算法開辟了新途徑。


圖 | 相關論文(來源:Nature)

日前,相關論文發表于Nature[2],加拿大麥吉爾大學助理教授、原美國哈佛大學博士后研究員保羅·馬賽(Paul Masset)是第一作者兼共同通訊作者。


(來源:https://mila.quebec/en/directory/paul-masset)

研究中,研究團隊使用專有模型解釋了時間折扣(temporal discounting)的異質性,這種異質性既體現在由線索引發的瞬時反應中,也體現在被稱為“多巴胺斜坡”的較慢時間尺度波動里。其中的關鍵在于,單個神經元在不同任務中測量得到的折扣因子具有顯著相關性,這表明這些折扣因子擁有同一種細胞特異性屬性。

需要說明的是,時間折扣(Temporal Discounting)是指個體對獎勵或懲罰的主觀價值評估會隨著時間延遲而下降的心理現象。這一概念在行為經濟學、神經科學和強化學習領域具有重要意義。折扣因子(Discount Factor)則是強化學習中的核心參數,用于衡量智能體對于未來獎勵的重視程度。



大腦中的強化學習也表現出多時間尺度特性嗎?

不少人工智能領域的最新進展都依賴于時序差分(TD,temporal difference)強化學習。在這一學習方法中,時序差分的學習規則被用于學習預測信息。

在該領域之中,人們基于對于未來的預期值,來不斷地更新當前的估計值,這讓時序差分方法在解決“未來獎賞預測”和“行動規劃優化”這兩類任務上展現出了卓越性能。

對于傳統時序差分學習來說,它采用固定折扣因子的標準化設定,即僅僅包含單一學習時間尺度。這一設定在算法收斂后會導致指數折扣的產生,即未來獎勵的價值會隨著時間單位呈現出固定比例的衰減。

盡管這種固定折扣因子的標準化設定,對于保持學習規則的簡潔性和自洽性至關重要,但是眾所周知的是人類和動物這些生物體在進行跨期決策時,并不會表現出指數型折扣行為。

相反,生物體普遍表現出雙曲線折扣行為:即獎賞價值會隨延遲時間出現“先銳減、后緩降”的特征。

人類與動物這些生物體能夠動態地調節自身的折扣函數,以便適應環境的時間統計特性。而當這種調節功能失調的時候,可能是出現心理異常或罹患某種疾病的標志。

研究團隊表示,將時序差分學習規則加以進一步擴展之后,能夠讓人造神經系統與生物神經系統學習更加復雜的預測表征。越來越多的證據表明,生物系統中存在豐富的時間表征,尤其是在基底神經節中。需要說明的是,基底神經節是脊椎動物大腦中一組起源不同的皮質下核。而探明這些時間表征到底是如何學習的,仍然是神經科學領域和心理學領域的一個關鍵問題。

在大多數時間學習理論中,一個重要組成部分便是多重時間尺度的存在,這使得系統能夠捕捉不同持續時間范圍內的時間依賴性:較短的時間尺度,通常能夠處理快速變化的關系以及即時依賴性關系;較長的時間尺度,通常能夠捕捉緩慢變化的特征以及處理長期依賴性關系。

此外,人工智能領域的研究表明,通過納入多個時間尺度的學習,深度強化學習算法的性能可以得到提升。那么,大腦中的強化學習是否也表現出這種多時間尺度特性?

為此,研究團隊研究了多時間尺度強化學習的計算含義。隨后,他們發現多巴胺能神經元會在不同的時間尺度上編碼預測,從而能為大腦中的多時間尺度強化學習提供潛在的神經基礎。


(來源:Nature)



解釋多巴胺能神經元活動背后的多個原理

研究團隊發現,對于在各類復雜問題中的表現來說,那些采用多時間尺度學習的強化學習智能體,遠遠優于采用單一時間尺度的智能體。

為了說明多時間尺度表征的計算優勢,他們展示了幾個示例任務:包括一個簡單的線性迷宮、一個分支迷宮、一個導航場景和一個深度 Q 網絡(DQN,deepQ-network)場景。


(來源:Nature)

在線性迷宮任務中,智能體需要在一條線性軌道中導航,并會在特定時間點(tR)遇到一定大小的獎勵(R)。


(來源:Nature)

R 和 tR 的數值會在不同的回合之間變化,但在同一回合內保持不變。每個回合由在初始狀態(s)呈現的提示信號開始。

在每個回合之中,智能體通過簡化強化學習算法,利用單個折扣因子或多個折扣因子來計算線索所預測的未來獎賞。

同時,智能體基于已經習得的線索關聯價值,通過解碼網絡針對價值信息進行任務特異性轉換,最終生成與任務需求相匹配的行為輸出。


(來源:Nature)

由于某些任務涉及到多時間尺度值上的復雜非線性操作,于是研究團隊使用策略梯度為每個任務訓練了一個通用的非線性解碼器。

鑒于本次研究旨在評估多時間尺度價值表征相比單時間尺度表征的核心優勢,以及旨在探究這些優勢能在多大程度上被一個與代碼無關的簡易解碼器所利用。因此,在研究團隊的模型中,多時間尺度價值信號并不直接驅動行為輸出,而是作為一種增強型狀態表征,以便能為后續任務特異性行為的解碼提供信息基礎。

通過此,他們分析了多時間尺度強化學習智能體的獨特計算優勢,并表明這一視角能夠解釋多巴胺能神經元活動背后的多個原理。


(來源:Nature)



為新一代算法設計帶來革命性啟示

研究團隊表示,“將多巴胺能神經元理解為通過時序差分強化學習算法計算獎勵預測誤差”的觀點,徹底改變了人們對于這類神經元的功能的認知。

但是,也有研究通過拓展記錄位點的解剖學范圍,揭示了多巴胺神經元響應存在顯著的異質性,不過這些發現難以在經典的時序差分強化學習框架中得到合理解釋。

同時,許多看似異常的發現可以在強化學習框架的擴展中得到調和和整合,從而進一步加強時序差分理論在捕捉大腦學習機制復雜性方面的強大能力和通用性。

在這項工作中,研究團隊還揭示了多巴胺能神經元異質性的另一個來源:即它們能在多個時間尺度上編碼預測誤差。

綜合來看,這些結果表明此次所觀察到的多巴胺反應中的一部分異質性,反映了強化學習框架中關鍵參數的變化。

相比傳統強化學習框架中基于標量預測誤差的方法,多巴胺系統能夠學習和表征更豐富的信息,這是因為多巴胺系統使用了“參數化向量預測誤差”。在“參數化向量預測誤差”中,包含了對于獎勵函數未來時間演化的離散拉普拉斯變換。

需要說明的是,離散拉普拉斯變換(DLT,Discrete Laplace Transform)是經典拉普拉斯變換在離散時間或離散空間上的推廣,主要用于信號處理、系統控制和機器學習等領域。

另據悉,調整折扣因子已被用于在多種算法中提升性能,相關方法包括:通過元學習獲取最優折扣因子、學習依賴狀態的折扣因子,以及結合并行指數折扣智能體。

但是,神經元通過任務或情境來適配全局折扣函數的募集機制是什么?解剖位置與折扣行為之間的關聯是什么?以及 5-羥色胺等其他神經遞質對這種適配的貢獻是什么?這些都是尚未解決的問題。

同樣的,向量化誤差信號對于下游時間表征的調控機制仍有待進一步研究。而理解這種神經資源“調動”機制的背后原理,有助于人們在機制層面理解時間尺度多樣性在時間決策中的校準作用與失調作用。

目前,研究團隊所面臨的一個難題是,強化學習理論使用指數折扣,而人類和動物這些動物體經常表現出雙曲線折扣。

此前曾有研究探索了多巴胺能神經元的折扣機制,并認為單個多巴胺能神經元表現出雙曲線折扣。然而,此前這一研究采用非提示性獎勵反應作為零延遲獎勵的測量指標,這種方法可能導致結果更加偏向于雙曲線折扣模型。

相比之下,本次研究團隊的數據與單個神經元水平的指數折扣保持一致,這表明每個多巴胺能神經元所定義的強化學習機制,和強化學習算法的規則是互相符合的。

當這些不同的指數折扣在生物體層面結合時,可能會出現類似雙曲線的折扣。也就是說,多個時間尺度對全局計算的相對貢獻決定了生物體水平的折扣函數,并且該函數會根據環境風險率的不確定性進行校準。

因此,適當地引入折扣因子的異質性,對于適應環境的時間不確定性非常重要。這一觀點也與分布式強化學習假說存在相似之處,該假說認為樂觀與悲觀的校準失衡會導致習得價值出現偏差。

由于遺傳、發育或轉錄因素導致的這種分布偏差,可能會使生物體在學習過程中要么傾向于追求短期目標、要么傾向于追求長期目標。同樣的,這種觀點也可用于指導算法設計,使其能夠調動并利用這些自適應的時間預測。

總的來說,本次成果創立了一個全新的研究范式,能被用于解析多巴胺能神經元中預測誤差計算的功能機制,這不僅為生物體疾病狀態下的跨期決策障礙提供了新的機理解釋,更為新一代算法的設計帶來了重要啟示。

參考資料:

1.https://www.ebiotrade.com/newsf/2025-6/20250605082948946.htm

2.Masset, P., Tano, P., Kim, H.R.et al. Multi-timescale reinforcement learning in the brain.Nature(2025). https://doi.org/10.1038/s41586-025-08929-9

排版:溪樹

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
溫州話直播無法無天,女網紅剎不住車

溫州話直播無法無天,女網紅剎不住車

溫曉生
2025-06-15 22:07:14
4年倒閉五萬家,曾經最暴利的行業要消失了

4年倒閉五萬家,曾經最暴利的行業要消失了

快刀財經
2025-06-10 22:19:36
替補出場打進三球,穆西亞拉成新世俱杯首位戴帽球員

替補出場打進三球,穆西亞拉成新世俱杯首位戴帽球員

懂球帝
2025-06-16 01:59:36
少婦天花板!

少婦天花板!

貴圈真亂
2025-06-10 12:03:31
內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

書雁飛史oh
2025-05-08 21:22:23
陳夢:我已圓夢!但如果說還能有一次奧運機會的話,我不想退役!

陳夢:我已圓夢!但如果說還能有一次奧運機會的話,我不想退役!

田先生籃球
2025-06-15 20:18:44
美媒:以色列暗殺胡塞武裝高級領導人失敗

美媒:以色列暗殺胡塞武裝高級領導人失敗

環球網資訊
2025-06-15 06:41:35
疫情雖走,這6種“怪現象”卻扎根你我生活,你中了幾條?

疫情雖走,這6種“怪現象”卻扎根你我生活,你中了幾條?

搬磚營Z
2025-06-15 21:54:22
這個隊瘋了吧!為了得到杜蘭特,二當家不要了,三當家也不要了

這個隊瘋了吧!為了得到杜蘭特,二當家不要了,三當家也不要了

球毛鬼胎
2025-06-15 16:51:48
杭州文旅再次破防!“天價”飯店還有衛生問題,老板態度囂張至極

杭州文旅再次破防!“天價”飯店還有衛生問題,老板態度囂張至極

云景侃記
2025-06-14 07:45:07
克雷桑被泰山隊同化了,克雷桑毫無紀律性可言,已遭遇7場進球荒

克雷桑被泰山隊同化了,克雷桑毫無紀律性可言,已遭遇7場進球荒

體壇風之子
2025-06-16 04:30:03
7月起,我國將明令禁止收取這5種物業費,業主們還需早知道!

7月起,我國將明令禁止收取這5種物業費,業主們還需早知道!

詩詞中國
2025-06-14 14:09:57
貝恩1換7大交易時間點,對火箭很不利!送灰熊搶杜蘭特的5大籌碼

貝恩1換7大交易時間點,對火箭很不利!送灰熊搶杜蘭特的5大籌碼

嘴炮體壇
2025-06-16 00:57:35
軍界高層:被策反成間諜,被查時攜情婦叛逃美國,后來被誰暗殺?

軍界高層:被策反成間諜,被查時攜情婦叛逃美國,后來被誰暗殺?

阿胡
2024-05-21 11:27:48
2000萬鎊,曼聯簽大馬丁替奧納納,4000萬鎊,安東尼去尤文

2000萬鎊,曼聯簽大馬丁替奧納納,4000萬鎊,安東尼去尤文

足球王國
2025-06-15 19:08:41
印航787墜毀真相!波音吹哨人遺言成讖,黑匣子數據撕裂資本謊言

印航787墜毀真相!波音吹哨人遺言成讖,黑匣子數據撕裂資本謊言

近史閣
2025-06-15 08:53:35
一場124-57,讓日澳看清現實!誕生三大不可思議,張子宇擋不住

一場124-57,讓日澳看清現實!誕生三大不可思議,張子宇擋不住

梅亭談
2025-06-15 22:42:28
驚喜!肯辛頓宮曬威廉父親節合影,三小只緊貼老父親,畫面很有愛

驚喜!肯辛頓宮曬威廉父親節合影,三小只緊貼老父親,畫面很有愛

小嵩
2025-06-15 17:32:35
想報復一個人,那就不要明著來,暗中做到這幾點,就贏定了

想報復一個人,那就不要明著來,暗中做到這幾點,就贏定了

匹夫來搞笑
2025-06-16 04:26:34
318國道天津夫婦插隊后續:正臉曝光,身份不一般,難怪這么囂張

318國道天津夫婦插隊后續:正臉曝光,身份不一般,難怪這么囂張

小李子體育
2025-06-16 00:40:02
2025-06-16 05:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15297文章數 513784關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網友

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

一汽豐田bZ5:試圖掀桌的“合資新力量”王牌

態度原創

健康
藝術
手機
親子
軍事航空

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

羅巍建議榮耀400系列手機用戶不貼鏡頭膜:影響拍照效果,還會導致雜音

親子要聞

如果有孩子告訴你遇到了壞人,請你一定要這么做!

軍事要聞

伊朗最高領袖高級顧問沙姆哈尼 因傷勢過重離世

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 雅安市| 威宁| 长沙市| 兴文县| 高安市| 疏勒县| 资兴市| 武鸣县| 瑞安市| 博爱县| 宁陵县| 登封市| 亳州市| 无棣县| 同心县| 乐至县| 兴和县| 田林县| 荔波县| 怀来县| 鲁山县| 阜阳市| 岚皋县| 海原县| 明水县| 拉萨市| 通辽市| 井研县| 大悟县| 汉中市| 博白县| 阿拉善左旗| 河东区| 化隆| 嘉善县| 晋州市| 邵武市| 星座| 平定县| 娱乐| 阿坝|