BAYESIAN PREDICTIVE CODINGcc
貝葉斯預測編碼
https://arxiv.org/pdf/2503.24016?
摘要
預測編碼(Predictive coding, PC)是關于大腦信息處理的一個有影響力理論,它為反向傳播提供了一種生物學上較為合理的替代方案。PC 的動機源于貝葉斯推理,通過在變分自由能上進行梯度下降來優化隱藏狀態和參數。然而,現有的 PC 實現依賴于對隱藏狀態的最大后驗估計(MAP)和對參數的最大似然估計(ML),這限制了其量化認識不確定性(epistemic uncertainty)的能力。
在本研究中,我們探討了一種對 PC 的貝葉斯擴展方法,該方法對網絡參數估計后驗分布。這一方法被稱為**貝葉斯預測編碼**(Bayesian Predictive Coding, BPC)。BPC 保留了 PC 的局部性,并導出了閉合形式的赫布型權重更新規則(Hebbian weight updates)。與 PC 相比,我們的 BPC 算法在全批量(full-batch)設置下收斂所需輪次更少,在小批量(mini-batch)設置下也具有競爭力。此外,我們展示了 BPC 提供的不確定性量化能力可與現有的貝葉斯深度學習方法相媲美,同時還能改善收斂性能。
綜上所述,BPC 為大腦中的貝葉斯學習提供了一種生物學上合理的機制,也為深度學習中的不確定性量化提供了一種有吸引力的新方法。
1 引言
預測編碼(Predictive Coding, PC)框架起源于神經科學領域 [1, 2, 3, 4],它提出神經可塑性的功能是最小化局部預測誤差,即估計信號與觀測信號之間的差異。該框架已被改造為一種僅使用局部信息訓練深度神經網絡的方法,成為反向傳播(Backpropagation, BP)的一種生物學上較為合理的替代方案 [5, 6, 7, 8]。與BP相比,PC具有多個優勢,包括在在線學習和持續學習場景中表現更佳 [9]、具備良好的優化特性 [10]、既可以以生成方式也可以以判別方式靈活使用 [11],以及擁有內在的自聯想記憶能力 [12]。
PC傳統上是通過變分貝葉斯推理來加以解釋的 [13, 14],它用概率分布描述隱藏狀態與參數之間的關系。然而,現有的PC實現通常并不直接操作概率分布,而是采用對隱藏狀態的最大后驗估計(MAP)和對參數的最大似然估計(ML)。這與貝葉斯深度學習 [15] 形成對比,在后者中,目標是對參數的后驗分布進行估計,從而量化認識不確定性(epistemic uncertainty)和偶然不確定性(aleatoric uncertainty),并用于模型比較、網絡剪枝或具有良好校準的信心估計。無論如何,不確定性量化對于學習系統的魯棒性、可靠性和可解釋性至關重要,而大腦如何執行這一過程仍然是一個未解之謎。
在本研究中,我們提出了一種對PC的擴展方法,該方法可以對網絡參數估計近似貝葉斯后驗分布。我們將這種方法稱為貝葉斯預測編碼(Bayesian Predictive Coding, BPC)。BPC以一種允許使用共軛先驗分布的方式來參數化神經活動,從而推導出權重分布的閉合形式更新規則。所得的更新規則是前突觸與后突觸活動的赫布函數(Hebbian functions),而隱藏狀態的更新仍保留其作為“精度加權預測誤差”的解釋,因此保留了PC算法的局部性與簡潔性。此外,能夠在閉合形式下計算后驗更新意味著BPC可以在比基于梯度的方法更少的迭代次數內收斂 [17]。相關工作綜述見附錄E。
在一系列實驗中,我們實證驗證了BPC在全批量訓練中實現了與PC和傳統BP相當的性能,并在小批量訓練中也保持競爭力。值得注意的是,在全批量訓練環境下,BPC在極少數輪次內即可收斂。此外,我們展示了所學到的后驗分布能夠在合成回歸任務中穩健地量化認識不確定性與偶然不確定性。我們將BPC與當前流行的貝葉斯深度學習基準方法進行了比較,結果表明我們的方法不僅在不確定性量化方面表現更優,而且在準確率和收斂速度方面也有提升。綜上所述,我們的研究結果表明,BPC是一種可行的、利用局部信息訓練具備不確定性感知能力神經網絡的方法,也為大腦中的不確定性量化機制提供了一個潛在的解釋路徑。
2 方法
對于每一個小批量數據,我們迭代應用方程(4) ,如算法1 中所述。
在測試階段,我們通過三種不同的方式來處理由參數后驗分布所捕捉到的不確定性:
3 實驗
3.1 準確率
我們實現了貝葉斯預測編碼(BPC)算法來訓練帶有ReLU激活函數的神經網絡,并將其在準確率上與通過預測編碼(PC)和反向傳播(BP)訓練的網絡進行比較。具體來說,我們在兩個小型數據集上使用全批量訓練進行評估:來自UCI數據集庫的能源數據集[21] 和 雙月數據集(two moons dataset)[22];在一個較大的MNIST數據集[23] 上則使用小批量訓練。有關超參數和數據集細節的信息,請參見附錄F。
實驗結果如圖1所示。在全批量訓練設置中,由于BPC使用了對參數后驗分布的閉合形式更新,它在前幾個訓練輪次內就實現了收斂,而PC和BP則需要多個輪次才能收斂。在小批量訓練設置中,BPC的表現與PC和BP相當,在平均準確率上僅相差約0.3%。值得注意的是,BP和PC均使用Adam優化器[24]進行優化,且PC還需要引入權重衰減(weight decay)[25]。當改用基礎隨機梯度下降(vanilla SGD)訓練時,BP和PC的收斂速度明顯慢于BPC,且PC的準確率往往顯著低于其他方法。這些實驗結果驗證了:方程(7)中的后驗更新提供了一種可行的方法,用于通過局部更新規則訓練貝葉斯深度神經網絡。
3.2 不確定性量化
為了評估所學習到的后驗分布,我們在兩個合成回歸任務 上訓練了一個緊湊結構的BPC模型,并實證驗證 該模型能夠量化偶然不確定性 (aleatoric uncertainty)與認識不確定性 (epistemic uncertainty)。為了量化偶然不確定性 ,我們通過網絡傳播不確定性,以估計輸出的一階矩和二階矩。這種方法自然適用于同方差噪聲 (homoscedastic variance);對于異方差噪聲 (heteroscedastic variance),我們還按照文獻[20]中描述的方法,在輸出層中引入一個方差節點 (variance node)進行參數化。為了量化認識不確定性 ,我們從參數后驗分布中多次采樣,并可視化所預測的函數。如圖2所示的結果表明,我們的模型能夠準確捕捉這兩種不確定性。有關回歸任務與網絡超參數的詳細信息,請參見附錄F。
最后,我們將BPC與一種流行的貝葉斯深度學習基準方法——“通過反向傳播實現貝葉斯推斷”(Bayes by Backprop, BBB)[26]進行了比較。BBB通過從后驗分布中采樣來估計變分自由能,并隨后使用反向傳播更新變分參數。我們在多個UCI回歸任務[21]中使用對數預測密度 (LPD)和均方根誤差 (RMSE)對BPC與BBB進行了比較。對于兩種方法,LPD都是通過對權重上的后驗分布進行多次采樣,并計算數據點的平均對數似然得到的。
表1顯示,在大多數任務中,BPC在LPD和RMSE指標上都優于BBB。圖2展示了在游艇數據集(yacht dataset)上,LPD與RMSE隨訓練輪次的變化情況,結果表明由于BPC采用了閉合形式更新,其收斂速度更快。我們在其他數據集中也觀察到了類似的收斂性能提升。
4 討論
在本研究中,我們提出了貝葉斯預測編碼 (Bayesian Predictive Coding, BPC)——一種通過在網絡參數上引入貝葉斯后驗分布來擴展預測編碼 (Predictive Coding, PC)的算法。
我們展示了由此得到的更新規則自然地轉化為前突觸與后突觸活動的赫布型函數 (Hebbian functions),從而保留了PC所強調的局部計算特性與生物學合理性 。此外,這些更新規則為后驗參數提供了閉合形式表達式 ,使得在全批量訓練中具備更優的收斂性能 。
總體而言,我們的研究結果表明,BPC為在生物系統中實現貝葉斯神經網絡提供了一種可行的方法 。
當前工作存在兩個主要局限性:
- 計算成本問題
:該方法繼承了在每次權重更新之前對隱變量 Z 執行梯度下降所帶來的計算開銷。這一局限性同樣存在于PC中,導致兩種算法在每輪訓練中的計算時間相近。
- 參數后驗分布的復雜性
:使用 矩陣正態-逆維希特分布 (Matrix Normal Wishart)作為參數后驗帶來了額外的計算復雜度。對于更大的神經網絡,有必要采用結構化的低秩近似方法。因此,如何選擇后驗近似方式是未來研究的重要方向之一。
需要指出的是,本文所有實驗均在消費級CPU上運行。
仍有多個值得進一步探索的方向:
例如,可以先使用反向傳播對模型進行預訓練,然后應用BPC通過對隱變量 Z 的估計和對 λ 的閉合形式后驗更新,在新批次數據上量化模型不確定性。
此外,還可以更深入地研究BPC的優化特性。例如,當前對 Σ 的估計在隱變量 Z 推斷過程中起到了自適應學習率 的作用,能夠動態強調更具信息量的(低方差)維度。
進一步地,使用共軛先驗分布可能會促進有益的優化行為;例如,對 Σ 使用類似單位矩陣的先驗可能鼓勵潛在維度之間的獨立性,從而有助于形成更解耦的表征,提升跨任務泛化能力。
原文鏈接: https://arxiv.org/pdf/2503.24016?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.