99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

哈佛團隊發(fā)現(xiàn)多巴胺能神經(jīng)元新機制,或是突破AI瓶頸的鑰匙

0
分享至

大自然用了億萬年優(yōu)化的神經(jīng)算法,或許正是突破當前人工智能瓶頸的鑰匙。[1]”近日,美國哈佛大學(xué)團隊和合作者探索了生物強化學(xué)習(xí)中多個時間尺度的存在,借此證明在多個時間尺度上學(xué)習(xí)的強化學(xué)習(xí)智能體具有獨特的計算優(yōu)勢,并發(fā)現(xiàn)在執(zhí)行兩種行為任務(wù)的小鼠實驗中,當多巴胺能神經(jīng)元(Dopaminergic Neurons)編碼獎賞預(yù)測誤差時,表現(xiàn)出了多樣化地折扣時間常數(shù)的特性。

這一成果為理解多巴胺能神經(jīng)元的功能異質(zhì)性提供了新范式,為“人類和動物使用非指數(shù)折扣”這一經(jīng)驗性觀察提供了機制基礎(chǔ),并為設(shè)計更高效的強化學(xué)習(xí)算法開辟了新途徑。


圖 | 相關(guān)論文(來源:Nature)

日前,相關(guān)論文發(fā)表于Nature[2],加拿大麥吉爾大學(xué)助理教授、原美國哈佛大學(xué)博士后研究員保羅·馬賽(Paul Masset)是第一作者兼共同通訊作者。


(來源:https://mila.quebec/en/directory/paul-masset)

研究中,研究團隊使用專有模型解釋了時間折扣(temporal discounting)的異質(zhì)性,這種異質(zhì)性既體現(xiàn)在由線索引發(fā)的瞬時反應(yīng)中,也體現(xiàn)在被稱為“多巴胺斜坡”的較慢時間尺度波動里。其中的關(guān)鍵在于,單個神經(jīng)元在不同任務(wù)中測量得到的折扣因子具有顯著相關(guān)性,這表明這些折扣因子擁有同一種細胞特異性屬性。

需要說明的是,時間折扣(Temporal Discounting)是指個體對獎勵或懲罰的主觀價值評估會隨著時間延遲而下降的心理現(xiàn)象。這一概念在行為經(jīng)濟學(xué)、神經(jīng)科學(xué)和強化學(xué)習(xí)領(lǐng)域具有重要意義。折扣因子(Discount Factor)則是強化學(xué)習(xí)中的核心參數(shù),用于衡量智能體對于未來獎勵的重視程度。



大腦中的強化學(xué)習(xí)也表現(xiàn)出多時間尺度特性嗎?

不少人工智能領(lǐng)域的最新進展都依賴于時序差分(TD,temporal difference)強化學(xué)習(xí)。在這一學(xué)習(xí)方法中,時序差分的學(xué)習(xí)規(guī)則被用于學(xué)習(xí)預(yù)測信息。

在該領(lǐng)域之中,人們基于對于未來的預(yù)期值,來不斷地更新當前的估計值,這讓時序差分方法在解決“未來獎賞預(yù)測”和“行動規(guī)劃優(yōu)化”這兩類任務(wù)上展現(xiàn)出了卓越性能。

對于傳統(tǒng)時序差分學(xué)習(xí)來說,它采用固定折扣因子的標準化設(shè)定,即僅僅包含單一學(xué)習(xí)時間尺度。這一設(shè)定在算法收斂后會導(dǎo)致指數(shù)折扣的產(chǎn)生,即未來獎勵的價值會隨著時間單位呈現(xiàn)出固定比例的衰減。

盡管這種固定折扣因子的標準化設(shè)定,對于保持學(xué)習(xí)規(guī)則的簡潔性和自洽性至關(guān)重要,但是眾所周知的是人類和動物這些生物體在進行跨期決策時,并不會表現(xiàn)出指數(shù)型折扣行為。

相反,生物體普遍表現(xiàn)出雙曲線折扣行為:即獎賞價值會隨延遲時間出現(xiàn)“先銳減、后緩降”的特征。

人類與動物這些生物體能夠動態(tài)地調(diào)節(jié)自身的折扣函數(shù),以便適應(yīng)環(huán)境的時間統(tǒng)計特性。而當這種調(diào)節(jié)功能失調(diào)的時候,可能是出現(xiàn)心理異常或罹患某種疾病的標志。

研究團隊表示,將時序差分學(xué)習(xí)規(guī)則加以進一步擴展之后,能夠讓人造神經(jīng)系統(tǒng)與生物神經(jīng)系統(tǒng)學(xué)習(xí)更加復(fù)雜的預(yù)測表征。越來越多的證據(jù)表明,生物系統(tǒng)中存在豐富的時間表征,尤其是在基底神經(jīng)節(jié)中。需要說明的是,基底神經(jīng)節(jié)是脊椎動物大腦中一組起源不同的皮質(zhì)下核。而探明這些時間表征到底是如何學(xué)習(xí)的,仍然是神經(jīng)科學(xué)領(lǐng)域和心理學(xué)領(lǐng)域的一個關(guān)鍵問題。

在大多數(shù)時間學(xué)習(xí)理論中,一個重要組成部分便是多重時間尺度的存在,這使得系統(tǒng)能夠捕捉不同持續(xù)時間范圍內(nèi)的時間依賴性:較短的時間尺度,通常能夠處理快速變化的關(guān)系以及即時依賴性關(guān)系;較長的時間尺度,通常能夠捕捉緩慢變化的特征以及處理長期依賴性關(guān)系。

此外,人工智能領(lǐng)域的研究表明,通過納入多個時間尺度的學(xué)習(xí),深度強化學(xué)習(xí)算法的性能可以得到提升。那么,大腦中的強化學(xué)習(xí)是否也表現(xiàn)出這種多時間尺度特性?

為此,研究團隊研究了多時間尺度強化學(xué)習(xí)的計算含義。隨后,他們發(fā)現(xiàn)多巴胺能神經(jīng)元會在不同的時間尺度上編碼預(yù)測,從而能為大腦中的多時間尺度強化學(xué)習(xí)提供潛在的神經(jīng)基礎(chǔ)。


(來源:Nature)



解釋多巴胺能神經(jīng)元活動背后的多個原理

研究團隊發(fā)現(xiàn),對于在各類復(fù)雜問題中的表現(xiàn)來說,那些采用多時間尺度學(xué)習(xí)的強化學(xué)習(xí)智能體,遠遠優(yōu)于采用單一時間尺度的智能體。

為了說明多時間尺度表征的計算優(yōu)勢,他們展示了幾個示例任務(wù):包括一個簡單的線性迷宮、一個分支迷宮、一個導(dǎo)航場景和一個深度 Q 網(wǎng)絡(luò)(DQN,deepQ-network)場景。


(來源:Nature)

在線性迷宮任務(wù)中,智能體需要在一條線性軌道中導(dǎo)航,并會在特定時間點(tR)遇到一定大小的獎勵(R)。


(來源:Nature)

R 和 tR 的數(shù)值會在不同的回合之間變化,但在同一回合內(nèi)保持不變。每個回合由在初始狀態(tài)(s)呈現(xiàn)的提示信號開始。

在每個回合之中,智能體通過簡化強化學(xué)習(xí)算法,利用單個折扣因子或多個折扣因子來計算線索所預(yù)測的未來獎賞。

同時,智能體基于已經(jīng)習(xí)得的線索關(guān)聯(lián)價值,通過解碼網(wǎng)絡(luò)針對價值信息進行任務(wù)特異性轉(zhuǎn)換,最終生成與任務(wù)需求相匹配的行為輸出。


(來源:Nature)

由于某些任務(wù)涉及到多時間尺度值上的復(fù)雜非線性操作,于是研究團隊使用策略梯度為每個任務(wù)訓(xùn)練了一個通用的非線性解碼器。

鑒于本次研究旨在評估多時間尺度價值表征相比單時間尺度表征的核心優(yōu)勢,以及旨在探究這些優(yōu)勢能在多大程度上被一個與代碼無關(guān)的簡易解碼器所利用。因此,在研究團隊的模型中,多時間尺度價值信號并不直接驅(qū)動行為輸出,而是作為一種增強型狀態(tài)表征,以便能為后續(xù)任務(wù)特異性行為的解碼提供信息基礎(chǔ)。

通過此,他們分析了多時間尺度強化學(xué)習(xí)智能體的獨特計算優(yōu)勢,并表明這一視角能夠解釋多巴胺能神經(jīng)元活動背后的多個原理。


(來源:Nature)



為新一代算法設(shè)計帶來革命性啟示

研究團隊表示,“將多巴胺能神經(jīng)元理解為通過時序差分強化學(xué)習(xí)算法計算獎勵預(yù)測誤差”的觀點,徹底改變了人們對于這類神經(jīng)元的功能的認知。

但是,也有研究通過拓展記錄位點的解剖學(xué)范圍,揭示了多巴胺神經(jīng)元響應(yīng)存在顯著的異質(zhì)性,不過這些發(fā)現(xiàn)難以在經(jīng)典的時序差分強化學(xué)習(xí)框架中得到合理解釋。

同時,許多看似異常的發(fā)現(xiàn)可以在強化學(xué)習(xí)框架的擴展中得到調(diào)和和整合,從而進一步加強時序差分理論在捕捉大腦學(xué)習(xí)機制復(fù)雜性方面的強大能力和通用性。

在這項工作中,研究團隊還揭示了多巴胺能神經(jīng)元異質(zhì)性的另一個來源:即它們能在多個時間尺度上編碼預(yù)測誤差。

綜合來看,這些結(jié)果表明此次所觀察到的多巴胺反應(yīng)中的一部分異質(zhì)性,反映了強化學(xué)習(xí)框架中關(guān)鍵參數(shù)的變化。

相比傳統(tǒng)強化學(xué)習(xí)框架中基于標量預(yù)測誤差的方法,多巴胺系統(tǒng)能夠?qū)W習(xí)和表征更豐富的信息,這是因為多巴胺系統(tǒng)使用了“參數(shù)化向量預(yù)測誤差”。在“參數(shù)化向量預(yù)測誤差”中,包含了對于獎勵函數(shù)未來時間演化的離散拉普拉斯變換。

需要說明的是,離散拉普拉斯變換(DLT,Discrete Laplace Transform)是經(jīng)典拉普拉斯變換在離散時間或離散空間上的推廣,主要用于信號處理、系統(tǒng)控制和機器學(xué)習(xí)等領(lǐng)域。

另據(jù)悉,調(diào)整折扣因子已被用于在多種算法中提升性能,相關(guān)方法包括:通過元學(xué)習(xí)獲取最優(yōu)折扣因子、學(xué)習(xí)依賴狀態(tài)的折扣因子,以及結(jié)合并行指數(shù)折扣智能體。

但是,神經(jīng)元通過任務(wù)或情境來適配全局折扣函數(shù)的募集機制是什么?解剖位置與折扣行為之間的關(guān)聯(lián)是什么?以及 5-羥色胺等其他神經(jīng)遞質(zhì)對這種適配的貢獻是什么?這些都是尚未解決的問題。

同樣的,向量化誤差信號對于下游時間表征的調(diào)控機制仍有待進一步研究。而理解這種神經(jīng)資源“調(diào)動”機制的背后原理,有助于人們在機制層面理解時間尺度多樣性在時間決策中的校準作用與失調(diào)作用。

目前,研究團隊所面臨的一個難題是,強化學(xué)習(xí)理論使用指數(shù)折扣,而人類和動物這些動物體經(jīng)常表現(xiàn)出雙曲線折扣。

此前曾有研究探索了多巴胺能神經(jīng)元的折扣機制,并認為單個多巴胺能神經(jīng)元表現(xiàn)出雙曲線折扣。然而,此前這一研究采用非提示性獎勵反應(yīng)作為零延遲獎勵的測量指標,這種方法可能導(dǎo)致結(jié)果更加偏向于雙曲線折扣模型。

相比之下,本次研究團隊的數(shù)據(jù)與單個神經(jīng)元水平的指數(shù)折扣保持一致,這表明每個多巴胺能神經(jīng)元所定義的強化學(xué)習(xí)機制,和強化學(xué)習(xí)算法的規(guī)則是互相符合的。

當這些不同的指數(shù)折扣在生物體層面結(jié)合時,可能會出現(xiàn)類似雙曲線的折扣。也就是說,多個時間尺度對全局計算的相對貢獻決定了生物體水平的折扣函數(shù),并且該函數(shù)會根據(jù)環(huán)境風(fēng)險率的不確定性進行校準。

因此,適當?shù)匾胝劭垡蜃拥漠愘|(zhì)性,對于適應(yīng)環(huán)境的時間不確定性非常重要。這一觀點也與分布式強化學(xué)習(xí)假說存在相似之處,該假說認為樂觀與悲觀的校準失衡會導(dǎo)致習(xí)得價值出現(xiàn)偏差。

由于遺傳、發(fā)育或轉(zhuǎn)錄因素導(dǎo)致的這種分布偏差,可能會使生物體在學(xué)習(xí)過程中要么傾向于追求短期目標、要么傾向于追求長期目標。同樣的,這種觀點也可用于指導(dǎo)算法設(shè)計,使其能夠調(diào)動并利用這些自適應(yīng)的時間預(yù)測。

總的來說,本次成果創(chuàng)立了一個全新的研究范式,能被用于解析多巴胺能神經(jīng)元中預(yù)測誤差計算的功能機制,這不僅為生物體疾病狀態(tài)下的跨期決策障礙提供了新的機理解釋,更為新一代算法的設(shè)計帶來了重要啟示。

參考資料:

1.https://www.ebiotrade.com/newsf/2025-6/20250605082948946.htm

2.Masset, P., Tano, P., Kim, H.R.et al. Multi-timescale reinforcement learning in the brain.Nature(2025). https://doi.org/10.1038/s41586-025-08929-9

排版:溪樹

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
27歲關(guān)曉彤,正式官宣!

27歲關(guān)曉彤,正式官宣!

CD潮生活
2025-06-09 12:08:04
85年我在新疆救了個女人,退伍返鄉(xiāng)之際,領(lǐng)導(dǎo)突然叫我去辦公室

85年我在新疆救了個女人,退伍返鄉(xiāng)之際,領(lǐng)導(dǎo)突然叫我去辦公室

球場的看客
2025-06-09 20:43:08
“考生帶作弊器進考場時,被當場查獲”,6人已歸案......結(jié)局來了!

“考生帶作弊器進考場時,被當場查獲”,6人已歸案......結(jié)局來了!

中國青年報
2025-06-09 19:11:13
獨家|美團王興及管理層股東大會現(xiàn)場讀稿,引發(fā)股東強烈不滿(附2萬字完整實錄)

獨家|美團王興及管理層股東大會現(xiàn)場讀稿,引發(fā)股東強烈不滿(附2萬字完整實錄)

劃重點KeyPoints
2025-06-09 22:41:17
科技不是第一生產(chǎn)力,自由才是

科技不是第一生產(chǎn)力,自由才是

霹靂炮
2025-06-05 22:14:24
曝湖南一男生高考失利,抑郁癥發(fā)作跳樓輕生,母親悲痛發(fā)聲!

曝湖南一男生高考失利,抑郁癥發(fā)作跳樓輕生,母親悲痛發(fā)聲!

古希臘掌管松餅的神
2025-06-10 08:50:02
北電杜英哲強奸上百名學(xué)生后續(xù)!律師曝新進展,多數(shù)都是未成年人

北電杜英哲強奸上百名學(xué)生后續(xù)!律師曝新進展,多數(shù)都是未成年人

我娛有約
2025-06-09 21:56:23
扎心了!一份火化清單,男性占比達84%,網(wǎng)友直言80后開始檢票…

扎心了!一份火化清單,男性占比達84%,網(wǎng)友直言80后開始檢票…

火山詩話
2025-06-09 13:24:38
禁止律師喝酒:權(quán)力之手不要伸得太長了

禁止律師喝酒:權(quán)力之手不要伸得太長了

千千法言
2025-06-10 11:06:00
53歲袁立現(xiàn)身巴黎,瘦身15斤顏值回春,小12歲老公邋遢似老頭

53歲袁立現(xiàn)身巴黎,瘦身15斤顏值回春,小12歲老公邋遢似老頭

觀察鑒娛
2025-06-10 08:45:39
將農(nóng)民工、網(wǎng)約車司機等群體納入社保范圍

將農(nóng)民工、網(wǎng)約車司機等群體納入社保范圍

北京商報
2025-06-09 17:53:09
今年銷售額已破100億元!胖東來最新聲明:員工被罵最高賠10萬!于東來回應(yīng)

今年銷售額已破100億元!胖東來最新聲明:員工被罵最高賠10萬!于東來回應(yīng)

每日經(jīng)濟新聞
2025-06-09 18:17:09
多地考生收到作弊記0分短信,回應(yīng)來了!

多地考生收到作弊記0分短信,回應(yīng)來了!

中國新聞周刊
2025-06-09 15:48:22
網(wǎng)傳升學(xué)宴和婚壽宴也不讓參加了!這波禁酒令,提醒得太及時了…

網(wǎng)傳升學(xué)宴和婚壽宴也不讓參加了!這波禁酒令,提醒得太及時了…

火山詩話
2025-06-09 15:31:39
中央政治局會議審議,決定開除朱芝松黨籍

中央政治局會議審議,決定開除朱芝松黨籍

新京報政事兒
2025-06-10 10:14:32
18強賽收官夜:直通世界杯僅剩1席!國足尊嚴戰(zhàn)1場生死斗

18強賽收官夜:直通世界杯僅剩1席!國足尊嚴戰(zhàn)1場生死斗

葉青足球世界
2025-06-10 08:51:40
特級教師怒批高考作文后續(xù),出題人親自回應(yīng):罵是因為有人喜歡看

特級教師怒批高考作文后續(xù),出題人親自回應(yīng):罵是因為有人喜歡看

不寫散文詩
2025-06-09 22:06:34
劉力已任重慶社會科學(xué)院黨組書記、院長

劉力已任重慶社會科學(xué)院黨組書記、院長

新京報
2025-06-10 11:47:07
央視除名,《長安的荔枝》女主演出事,曝升學(xué)內(nèi)幕,父親職位被扒

央視除名,《長安的荔枝》女主演出事,曝升學(xué)內(nèi)幕,父親職位被扒

傲傲講歷史
2025-06-09 18:28:39
火爆靠黃牛?網(wǎng)傳VC人士爆料:泡泡瑪特有二級玩偶做市團隊

火爆靠黃牛?網(wǎng)傳VC人士爆料:泡泡瑪特有二級玩偶做市團隊

風(fēng)向觀察
2025-06-10 10:04:42
2025-06-10 13:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15273文章數(shù) 513767關(guān)注度
往期回顧 全部

科技要聞

一文看懂WWDC:蘋果發(fā)布"十年一遇"設(shè)計革命

頭條要聞

中美經(jīng)貿(mào)磋商 美國三大財貿(mào)高官都來了

頭條要聞

中美經(jīng)貿(mào)磋商 美國三大財貿(mào)高官都來了

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

黃圣依首曝初戀是賈乃亮 仍經(jīng)常聯(lián)系

財經(jīng)要聞

泡泡瑪特王寧成“河南新首富”

汽車要聞

定位6座大型SUV 吉利銀河M9有望年內(nèi)上市

態(tài)度原創(chuàng)

數(shù)碼
本地
房產(chǎn)
公開課
軍事航空

數(shù)碼要聞

蘋果智能將在年內(nèi)支持繁體中文 中國內(nèi)地AI服務(wù)上線時間仍待定

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

房產(chǎn)要聞

45億!突然,又一民企巨頭殺入海南舊改!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

烏方稱俄發(fā)動沖突以來最大空襲

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 肥乡县| 河西区| 巫溪县| 永春县| 泉州市| 巢湖市| 洛浦县| 寿阳县| 花莲市| 中宁县| 临武县| 丰顺县| 日土县| 六盘水市| 桃源县| 朝阳区| 灵台县| 正宁县| 岗巴县| 建宁县| 凤城市| 淅川县| 曲水县| 顺义区| 新竹县| 韶关市| 赤水市| 元阳县| 区。| 重庆市| 长宁县| 香格里拉县| 和静县| 吉隆县| 兴化市| 阿荣旗| 司法| 永寿县| 濮阳市| 宁安市| 周至县|