摘要
人工神經網絡(ANNs)已成為機器學習領域的重要工具,在圖像與語音生成、游戲博弈、機器人技術等多個領域取得顯著成就。然而,人工神經網絡的運行機制與生物大腦存在本質差異,尤其在學習過程方面存在顯著區別。本文系統綜述了當前人工神經網絡中受大腦啟發的學習表征方法,探究了如何通過整合更具生物學合理性的機制(如突觸可塑性)來提升網絡性能,并深入分析了這種方法的潛在優勢與挑戰。本綜述還指明了這一快速發展領域中具有前景的未來研究方向,這些探索或將使我們更接近智能本質的理解。
關鍵詞:腦啟發學習(Brain-inspired Learning),人工神經網絡,脈沖神經網絡,突觸可塑性,神經調控,元可塑性,神經形態計算(Neuromorphic Computing),終身學習,赫布學習(Hebbian Learning),時序依賴可塑性(Spike-Timing-Dependent Plasticity, STDP),反向傳播,進化算法
集智編輯部丨作者
論文題目:Brain-inspired learning in artificial neural networks: A review 發表時間:2024年5月9日 論文地址:https://doi.org/10.1063/5.0186054 期刊名稱:APL Machine Learning
人工神經網絡(ANNs)在圖像生成、語音識別、機器人控制等領域取得了突破性進展,但其學習機制與生物大腦仍存在顯著差異。傳統ANNs依賴全局誤差反向傳播,而生物大腦通過局部可塑性規則(如突觸強度的動態調整)實現高效、自適應學習。這種差異引發了關鍵問題:能否將生物學習機制融入ANNs,以突破其終身學習、能效和適應性的瓶頸?近期發表于APL Machine Learning的綜述文章系統梳理了這一領域的前沿進展,探討了從突觸可塑性到神經形態硬件的跨學科探索。本文從生物機制啟發、算法創新和應用場景三個維度,揭示腦啟發學習如何重塑人工智能的未來。
生物大腦的學習密碼:從突觸到神經環路
生物學習的核心在于多尺度機制的協同,突觸可塑性(Synaptic Plasticity)作為其基礎,短期可塑性(Short-term Plasticity)在毫秒級調節突觸強度,支持即時記憶;長期可塑性(Long-term Plasticity)則通過結構改變鞏固長期記憶。例如,神經元A反復激活神經元B會增強兩者連接(“一起放電,一起連接”的赫布法則),而時序依賴可塑性(STDP)進一步引入時間維度:若突觸前神經元放電早于突觸后神經元,連接增強,反之則減弱(圖1)。這種機制已在實驗上證實與記憶編碼密切相關。
圖 1. 生物神經元突觸長時程增強(LTP)與長時程抑制(LTD)的圖示說明。(a)突觸連接的前后神經元;(b)神經元之間的連接點——突觸終末;(c)突觸強化(LTP)與突觸弱化(LTD);(d)(上)神經元軸丘膜電位動態變化,(下)前后神經元動作電位;(e)基于尖峰時序依賴可塑性(STDP)曲線的LTP與LTD實驗記錄。
神經調節(Neuromodulation)為學習提供全局信號。多巴胺、乙酰膽堿等遞質通過調節神經元興奮性和突觸可塑性,將外部獎勵或懲罰信號傳遞至局部環路,實現“三因素學習”(活動、誤差、調節信號結合)。例如,多巴胺的釋放可放大與成功行為相關的突觸變化,類似于強化學習中的獎勵機制。
更高階的元可塑性(Metaplasticity)則像“可塑性的守護者”,通過調節突觸的可塑性閾值,防止網絡因過度學習而飽和。膠質細胞(如星形膠質細胞)通過代謝支持和遞質回收,間接影響突觸穩定性。這些機制共同構成生物學習的動態平衡系統。
人工神經網絡的生物靈感:
從脈沖網絡到元優化
傳統ANNs依賴反向傳播,但存在兩大局限:能耗高(需全局梯度計算)和無法在線學習(需固定數據集)。脈沖神經網絡(SNNs)的提出直擊這些痛點。SNNs模擬生物神經元的脈沖通信:神經元積累膜電位,超過閾值時發射脈沖,信息編碼于脈沖時序而非激活值。這種機制天然適合處理動態數據,且功耗極低。例如,Intel的Loihi芯片利用SNNs實現比傳統GPU高1000倍的能效。
然而,SNNs的權重優化面臨挑戰:脈沖的離散性使反向傳播失效。研究者提出腦啟發局部學習算法,如結合STDP和獎勵信號的資格跡傳播(Eligibility Propagation)。該方法通過記錄突觸對近期活動的貢獻(資格跡),再與全局誤差信號相乘更新權重,無需反向傳播。實驗顯示,這類算法在機器人運動控制中可實時適應環境變化,例如地形突變。
元優化可塑性規則取得進一步突破,通過梯度下降或進化算法,自動搜索最優學習規則。例如,可微分可塑性(Differentiable Plasticity)將學習規則的參數(如STDP的時間常數)設為可微變量,用元訓練使其適應特定任務。在圖像分類任務中,此類模型展現出與反向傳播相當的性能,且支持在線微調。
應用藍圖:從神經形態芯片到終身學習機器人
神經形態計算(Neuromorphic Computing)是腦啟發學習的硬件載體。IBM TrueNorth、英特爾Loihi等芯片通過模擬神經元和突觸的物理特性,支持SNNs的高效部署。例如,Loihi芯片在語音識別任務中僅需毫瓦級功耗,為邊緣計算開辟新可能。
在機器人領域,局部學習規則賦予系統實時適應能力。加州大學團隊將STDP與三因素學習結合,使六足機器人在腿部損傷后數秒內調整步態;蘇黎世聯邦理工學院利用脈沖網絡控制機械臂,通過在線學習補償傳感器噪聲,精度提升40%。終身學習(Lifelong Learning)是另一關鍵戰場。傳統ANNs因災難性遺忘(Catastrophic Forgetting)難以持續學習新任務。腦啟發算法通過稀疏脈沖活動、突觸穩定性機制緩解這一問題。例如,資格跡傳播模型在連續手寫字符識別任務中,舊任務準確率保持90%以上,而傳統方法降至60%。
圖 2. 前饋神經網絡通過將輸入信息向下游傳遞來計算給定輸入對應的輸出。輸出的精確值由突觸連接權重系數決定。為提升特定任務下的輸出表現,需要調整突觸權重。突觸可塑性算法作為計算模型,模擬了大腦基于神經活動強化或弱化神經元間連接(即突觸)的能力,從而促進學習與記憶的形成。三因素可塑性是指一類突觸可塑性模型,其中神經連接強度的改變由三個要素決定:突觸前活動、突觸后活動及調控信號,這種機制能實現更精細的自適應學習過程。反饋對齊算法是一種神經網絡訓練技術,其使用隨機固定的反饋連接而非對稱權重矩陣進行訓練,證明即使沒有精確的反向傳播也能實現有效學習。反向傳播作為機器學習與人工智能領域的基礎算法,通過計算損失函數對網絡權重的梯度來訓練神經網絡。
英國伯明翰大學劉健教授課題組和中科院腦智中心、腦認知與類腦智能重點實驗室張鐵林研究員都在此領域做了諸多前沿探索,掃碼查看視頻了解詳情
未來挑戰:從算法到神經科學的雙向奔赴
盡管腦啟發學習前景廣闊,其發展仍面臨瓶頸:首先,局部學習規則泛化能力弱于反向傳播,需要考慮生物合理性與性能的權衡;其次,生物學習規則復雜度較高,現有神經形態芯片的兼容性需考慮,可能尚無法提供支持;最后,為了更好發揮生物設計的效果,需神經科學實驗與計算模型更緊密互動,進行多重跨學科的驗證。
神經科學對AI的啟示“并非直接復制,而是提出關鍵問題”。反向傳播是否隱含于大腦反饋環路?多巴胺如何協調分布式學習?這些問題的探索將推動AI與腦科學的共進。或許,下一代AI將不僅是“人工”智能,更是“類腦”智能。
彭晨| 編譯
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.