99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

待發(fā)貝葉斯在線自然梯度 (BONG) Bayesian Online Natural Gradient (BONG)

0
分享至

貝葉斯在線自然梯度 (BONG)

Bayesian Online Natural Gradient (BONG)

https://arxiv.org/pdf/2405.19681



摘要

我們提出了一種基于變分貝葉斯(Variational Bayes, VB)的序貫貝葉斯推理新方法。關(guān)鍵見解在于,在在線學(xué)習(xí)(online setting)中,我們不需要通過添加KL散度項(xiàng)來正則化到先驗(yàn)(即前一個(gè)時(shí)間步的后驗(yàn)分布);相反,我們可以僅優(yōu)化期望對(duì)數(shù)似然,并從先驗(yàn)預(yù)測(cè)出發(fā)執(zhí)行一步自然梯度下降。我們證明,如果模型是共軛的,該方法能夠恢復(fù)精確的貝葉斯推理。我們還展示了當(dāng)變分分布為高斯分布或其子族(包括對(duì)角加低秩精度矩陣的情況)時(shí),如何計(jì)算出一種高效的確定性近似方法,用于逼近VB目標(biāo)函數(shù)以及我們簡化后的目標(biāo)函數(shù)。我們?cè)趯?shí)證上表明,該方法在非共軛設(shè)置下優(yōu)于其他在線VB方法,例如神經(jīng)網(wǎng)絡(luò)的在線學(xué)習(xí),尤其是在考慮計(jì)算成本的情況下。

1 引言

神經(jīng)網(wǎng)絡(luò)(NN)訓(xùn)練的貝葉斯方法旨在最小化真實(shí)后驗(yàn)分布與估計(jì)后驗(yàn)分布之間的Kullback-Leibler(KL)散度。這等價(jià)于最小化變分損失(或負(fù)ELBO)。


其中,θ 是網(wǎng)絡(luò)參數(shù),ψ 是近似后驗(yàn)分布 qψ(θ) 的變分參數(shù),D 是訓(xùn)練數(shù)據(jù)集,p0(θ) 是先驗(yàn)。變分損失中的兩項(xiàng)分別對(duì)應(yīng)于數(shù)據(jù)擬合和對(duì)先驗(yàn)的正則化,后者類似于傳統(tǒng)點(diǎn)估計(jì)方法(如隨機(jī)梯度下降 SGD)中的正則項(xiàng) r(θ) = ? log p0(θ)。

一組重要的方法是通過對(duì) L(ψ) 進(jìn)行梯度下降來學(xué)習(xí)變分參數(shù) [Blundell 等, 2015]。最近,Khan 及其同事 [Khan 等, 2018b, Khan 和 Rue, 2023, Shen 等, 2024] 提出使用自然梯度 F?1ψ?ψL(ψ),其中 Fψ 是在 qψ 處計(jì)算的變分族的 Fisher 信息矩陣。自然梯度下降(NGD)通常比普通梯度下降更高效,因?yàn)樗紤]了變分族的內(nèi)在幾何結(jié)構(gòu) [Amari, 1998]。Khan 和 Rue [2023] 將這種方法稱為“貝葉斯學(xué)習(xí)規(guī)則”(Bayesian Learning Rule,BLR)。通過選擇不同的變分分布、用廣義損失替代負(fù)對(duì)數(shù)似然、以及其他近似方法,他們重現(xiàn)了許多標(biāo)準(zhǔn)優(yōu)化方法(如 Adam),并推導(dǎo)出了新的優(yōu)化方法。

我們研究的是在線學(xué)習(xí)中的貝葉斯神經(jīng)網(wǎng)絡(luò)優(yōu)化問題,在這種設(shè)置中,數(shù)據(jù)是按序列方式觀察到的,Dt = {(xk, yk)}?=1?,算法維護(hù)一個(gè)近似的后驗(yàn)分布 qψ?(θ?) ≈ p(θ?|Dt),并在每一步進(jìn)行更新。對(duì)于許多在線學(xué)習(xí)應(yīng)用來說,快速更新(無論是計(jì)算速度還是統(tǒng)計(jì)效率方面)都至關(guān)重要 [Zhang 等, 2024]。為了允許數(shù)據(jù)流中的非平穩(wěn)性(nonstationarity),我們?cè)?θ? 上引入時(shí)間索引,表示參數(shù)可能隨時(shí)間變化,這在基于狀態(tài)空間模型和擴(kuò)展卡爾曼濾波的方法中是標(biāo)準(zhǔn)做法(例如見 [S?rkk? 和 Svensson, 2023])。信念狀態(tài)通過前一步得到的先驗(yàn) qψ?|??? 遞歸更新,使得變分損失變?yōu)椋?/p>


對(duì)于這一在線學(xué)習(xí)問題,一個(gè)可行的做法是在每個(gè)時(shí)間步對(duì) L(ψ?) 應(yīng)用自然梯度下降(NGD),并在處理下一個(gè)觀測(cè)值之前迭代直到 ψ? 收斂。我們的第一項(xiàng)貢獻(xiàn)是提出跳過這一內(nèi)層循環(huán)的方法,具體做法是:(a) 執(zhí)行一次自然梯度下降步驟,且學(xué)習(xí)率為 1;(b) 省略式 (2) 中的 DKL 項(xiàng),使得學(xué)習(xí)僅基于期望對(duì)數(shù)似然:


這兩項(xiàng)改進(jìn)是協(xié)同工作的:我們不再通過顯式使用 DKL(qψ? || qψ?|t?1) 來正則化到先驗(yàn),而是通過將 ψ?|t?1 作為單步自然梯度下降的起點(diǎn)來隱式實(shí)現(xiàn)這一正則化。這看起來可能像是一種啟發(fā)式方法,但在命題 4.1 中我們證明了,當(dāng) qψ 和 p(y|x, θ) 是共軛的,并且 qψ 是以 ψ 為自然參數(shù)的指數(shù)族分布時(shí),這種方法能夠產(chǎn)生精確的貝葉斯推理。因此,我們提出的更新可以被視為對(duì)非共軛變分情形下的貝葉斯更新的一種推廣。與變分推理相關(guān)研究中的常見做法一樣,我們將共軛情形的結(jié)果視為一種激勵(lì)性的理論基礎(chǔ),確保我們的方法在某些簡單設(shè)置下是精確的。第5節(jié)和附錄B中報(bào)告的實(shí)驗(yàn)從實(shí)證角度補(bǔ)充了該理論,表明我們的方法在更一般的設(shè)置下也表現(xiàn)良好。我們將式(3)稱為貝葉斯在線自然梯度(Bayesian Online Natural Gradient, BONG)。

我們的第二項(xiàng)貢獻(xiàn)涉及如何計(jì)算式(1)至式(3)中的期望。對(duì)于神經(jīng)網(wǎng)絡(luò)來說,即使變分分布本身易于計(jì)算,這個(gè)期望仍然是難以處理的,因?yàn)樗迫坏男问綖?p(y?|x?, θ?) = p(y?|f(x?, θ?)),其中 f(x?, θ?) 表示網(wǎng)絡(luò)所計(jì)算的函數(shù),它是 θ? 的復(fù)雜非線性函數(shù)。許多先前的方法采用采樣方式近似期望對(duì)數(shù)似然,這種方法會(huì)引入方差并增加計(jì)算時(shí)間,尤其是采樣數(shù)量越多時(shí)越明顯 [Blundell 等, 2015; Shen 等, 2024]。我們提出了一種確定性的、閉合形式的更新方法,適用于變分分布為高斯分布(或其子族),且似然屬于指數(shù)族分布,其自然參數(shù)為 f(x?, θ?),均值參數(shù)為 h(x?, θ?) 的情況(例如,在分類任務(wù)中,f 輸出類別logits向量,h 輸出類別概率,且 h = softmax(f))。這種更新可以通過兩種等價(jià)的方式推導(dǎo)出來。第一種方法是使用局部線性近似 h(x?, θ?) ≈ ??(θ?) [Immer 等, 2021a] 和似然的高斯近似 N(y?|??(θ?), R?) [Ollivier, 2018; Tronarp 等, 2018]。在這些假設(shè)下,式(3)中的期望可以解析地計(jì)算。另一種方法則是采用不同的線性近似 f(x?, θ?) ≈ f??(θ?) 和 delta 近似 qψ?|t?1(θ?) ≈ δμ?|t?1(θ?),其中 μ?|t?1 = Eqψ?|t?1[θ?] 是先驗(yàn)均值,從而將式(3)中的期望替換為插件預(yù)測(cè)(plugin prediction)。線性(h)-高斯近似是已知的方法,而線性(f)-delta 近似是新的方法,我們?cè)诿}4.2中證明這兩種方法得出相同的更新,我們稱之為線性化 BONG(BONG-LIN)。最后,我們討論了目標(biāo)函數(shù)海森矩陣的不同近似方式,這是進(jìn)行自然梯度下降所必需的。

我們的 BONG 框架統(tǒng)一了幾種現(xiàn)有的貝葉斯在線學(xué)習(xí)方法,并基于不同的變分族或參數(shù)化方式提供了新的算法。我們通過結(jié)合 4 種不同的更新規(guī)則、4 種不同的期望梯度和海森矩陣計(jì)算方法,以及 3 種不同的變分族(具有完整、對(duì)角和對(duì)角加低秩精度矩陣的高斯分布),定義了一個(gè)廣泛的方法空間。我們系統(tǒng)地進(jìn)行了實(shí)驗(yàn),測(cè)試這些因素如何影響性能。我們?cè)诮y(tǒng)計(jì)效率和計(jì)算效率方面都驗(yàn)證了我們方法的三個(gè)核心原則——自然梯度下降、對(duì)先驗(yàn)的隱式正則化以及線性化——的有效性。我們的實(shí)驗(yàn)代碼可在 https://github.com/petergchang/bong/ 獲取。

2 相關(guān)工作

變分推斷(Variational Inference)通過在某個(gè)合適的分布族中逼近貝葉斯后驗(yàn)來繞過歸一化項(xiàng)的問題 [Zellner, 1988, Jordan 等, 1999]。一個(gè)常見的選擇是使用高斯分布作為變分族。對(duì)于在線學(xué)習(xí)任務(wù),高斯變分濾波的精確更新公式由 [Lambert 等, 2021] 提出的 RVGA 方法給出。該更新是隱式的,但可以通過一種顯式 RVGA 更新進(jìn)行近似,我們將在本文中說明它實(shí)際上是 BONG 的一個(gè)特例。

大多數(shù)高斯變分推斷的應(yīng)用采用的是對(duì)角協(xié)方差定義的均場(chǎng)近似(mean-field approximation),其計(jì)算復(fù)雜度與模型規(guī)模呈線性關(guān)系。更具表達(dá)能力但仍保持線性復(fù)雜度的方法則是將協(xié)方差 [Tomczak 等, 2020] 或精度矩陣 [Mishkin 等, 2018, Lambert 等, 2023, Chang 等, 2023] 表示為對(duì)角矩陣與低秩矩陣之和(DLR)。在本文中,我們考慮了三種變分族:全協(xié)方差、對(duì)角協(xié)方差和 DLR 協(xié)方差。

對(duì)于神經(jīng)網(wǎng)絡(luò)和其他復(fù)雜模型,即使使用變分近似也可能難以處理,因此人們開發(fā)了一些方法用于近似最小化變分損失。Backpropagation 的貝葉斯版本(Bayes by Backprop, BBB)[Blundell 等, 2015] 通過對(duì)式(1)中的 VI 損失進(jìn)行多次梯度下降迭代,學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)重上的變分分布。他們主要關(guān)注均場(chǎng)高斯近似,但該方法也適用于其他變分族。在本文中,我們將 BBB 適配到在線學(xué)習(xí)場(chǎng)景中,以與我們的方法進(jìn)行比較。

貝葉斯學(xué)習(xí)規(guī)則(Bayesian Learning Rule, BLR)用自然梯度下降(NGD)替代了 BBB 中的普通梯度下降 [Khan 和 Rue, 2023]。BLR 有多種變體,例如針對(duì)均場(chǎng)高斯先驗(yàn)的 VON 和 VOGN [Khan 等, 2018b],以及針對(duì) DLR 高斯分布的 SLANG [Mishkin 等, 2018]。BLR 還被用來推導(dǎo)許多經(jīng)典優(yōu)化器的貝葉斯版本,包括 SGD、RMSprop 和 Adam [Khan 等, 2018a, Khan 和 Rue, 2023, Lin 等, 2024, Shen 等, 2024]。盡管 BLR 已被應(yīng)用于在線學(xué)習(xí),但我們更特別關(guān)注貝葉斯濾波,尤其是在非平穩(wěn)環(huán)境下的濾波問題,在這種環(huán)境中數(shù)據(jù)必須逐個(gè)處理,每次更新都基于前一步的后驗(yàn)分布,并通常結(jié)合參數(shù)動(dòng)力學(xué)模型。因此,我們開發(fā)了 BLR 的濾波版本并與 BONG 進(jìn)行比較,其中一些在批量設(shè)置下退化為 VON、VOGN 和 SLANG,另一些則屬于新提出的方法。我們還注意到,BLR 是一個(gè)成熟的理論框架,包含了許多巧妙的技術(shù),這些尚未被我們完全整合進(jìn)當(dāng)前框架。

Khan 和 Rue [2023] 觀察到,共軛更新等價(jià)于一次學(xué)習(xí)率為 1 的 BLR 步驟。這與我們第 4.1 節(jié)中的命題類似,區(qū)別在于 BLR 在變分損失中保留了 KL 散度項(xiàng)。在這種情況下,BLR 和 BONG 得出相同的結(jié)果,因?yàn)?KL 散度項(xiàng)在 BLR 第一次迭代時(shí)梯度為零:?ψ=ψ?|t?1 DKL(qψ || qψ?|t?1) = 0。因此,BONG 可以被視為一種每觀測(cè)執(zhí)行一次更新步驟、學(xué)習(xí)率為 1 的 BLR 特例。我們的貢獻(xiàn)在于認(rèn)識(shí)到,僅執(zhí)行一次更新步驟允許我們完全省略 KL 項(xiàng),從而得到一個(gè)顯著更簡單的算法,并且我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn)它的性能也更好。

雖然 BLR 允許用除負(fù)對(duì)數(shù)似然(NLL)以外的損失函數(shù)代替,我們也可以用其他散度來替代 KL 散度 [Knoblauch 等, 2022]。我們的方法屬于“廣義變分貝葉斯”(generalized VB)框架,因?yàn)樗耆サ袅松⒍软?xiàng)。我們提出的“通過單步 NGD 隱式正則化到先驗(yàn)”的方法,也類似于 [Bencomo 等, 2023] 提出的“隱式最大后驗(yàn)估計(jì)濾波器”(implicit MAP filter),后者從先驗(yàn)?zāi)B(tài)出發(fā)執(zhí)行截?cái)嗟奶荻认陆怠V饕獏^(qū)別在于他們是在模型參數(shù)(θ?)上進(jìn)行 GD,而我們是在變分參數(shù)(ψ?)上進(jìn)行 NGD。因此,BONG 維持了一個(gè)完整的先驗(yàn)和后驗(yàn)分布,而 IMAP 更關(guān)注優(yōu)化器的選擇如何替代顯式的協(xié)方差跟蹤。

我們?cè)诟戒?D 中展示了另外兩種推導(dǎo) BONG 更新的方式之一:用線性近似替代式(2)中的期望 NLL,并求解所得方程。過去已有多個(gè)研究采取這一思路,得出了與我們類似的更新方式。Chérief-Abdellatif 等 [2019] 研究了流式變分貝葉斯,并提出了用線性化的期望 NLL 解決式(2)。當(dāng)變分族為指數(shù)族時(shí),他們的更新就變成了 NGD [Khan 和 Lin, 2017],并且與 BONG 更新一致。Hoeven 等 [2018] 展示了如何將鏡像下降(mirror descent)視為 Exponential Weights [Littlestone 和 Warmuth, 1994] 的一個(gè)特例,而后者與貝葉斯更新密切相關(guān)。所得到的算法與 BONG 類似,它是通過對(duì) NLL 而不是期望 NLL 進(jìn)行線性化并假設(shè)先驗(yàn)均值處的 delta 分布得出的。Lyu 和 Tsang [2021] 研究了一種松弛的黑盒優(yōu)化問題,其目標(biāo)函數(shù)形式為 arg minψ E?~qψ [f(x)],其中 f 是目標(biāo)函數(shù)。他們使用帶有線性化期望損失和 KL 正則項(xiàng)的鏡像下降公式,并證明所得更新等價(jià)于對(duì)期望損失進(jìn)行自然梯度下降,形式上與我們的 BONG 更新一致。

從這些先前工作的角度來看,我們的貢獻(xiàn)在于將 BONG 更新簡潔地表達(dá)為對(duì)期望 NLL 的自然梯度下降,并以“用隱式正則化替代 KL 散度”作為動(dòng)機(jī),同時(shí)展示了這種方法如何引出一系列已知和新穎的貝葉斯濾波算法。

將擴(kuò)展卡爾曼濾波(EKF)應(yīng)用于神經(jīng)網(wǎng)絡(luò)中,是通過使用對(duì)網(wǎng)絡(luò)的局部線性近似來進(jìn)行貝葉斯濾波,從而導(dǎo)出簡單且具有閉合形式的更新公式 [Singhal 和 Wu, 1989;Puskorius 和 Feldkamp, 1991]。經(jīng)典的 EKF 假設(shè)觀測(cè)服從高斯分布,但通過匹配均值和協(xié)方差,它已被擴(kuò)展到其他指數(shù)族分布(例如用于分類任務(wù)),我們稱這種方法為條件矩 EKF(Conditional Moments EKF, CM-EKF)[Ollivier, 2018;Tronarp 等, 2018]。若進(jìn)一步將 CM-EKF 投影到對(duì)角協(xié)方差矩陣空間并引入 KL 散度投影,則得到變分對(duì)角 EKF(Variational Diagonal EKF, VD-EKF)[Chang 等, 2022]。

另一種方法是使用奇異值分解(SVD)將分布投影到對(duì)角加低秩精度矩陣空間,從而得到了 LO-FI 方法 [Chang 等, 2023]。我們?cè)诒疚闹袑⑺羞@些方法推導(dǎo)為 BONG-LIN 的特例。

在這一方向上的進(jìn)一步發(fā)展包括 [Titsias 等, 2024] 提出的方法,該方法僅對(duì)神經(jīng)網(wǎng)絡(luò)的最后一層權(quán)重執(zhí)行貝葉斯濾波;以及 WoLF 方法 [Duran-Martin 等, 2024],它通過對(duì)對(duì)數(shù)似然進(jìn)行數(shù)據(jù)依賴的加權(quán),實(shí)現(xiàn)了對(duì)異常值的魯棒性。

3 背景




4 方法


這相當(dāng)于在公式(2)的變分損失上使用單位學(xué)習(xí)率的自然梯度下降(NGD),但忽略了 項(xiàng)。在本節(jié)中,我們首先證明該方法在模型是共軛的情況下是最優(yōu)的,然后描述如何將其擴(kuò)展到更復(fù)雜的、具有實(shí)際意義的情形。

4.1 共軛情形

我們的方法受到以下結(jié)果的啟發(fā):當(dāng)變分分布和似然屬于共軛指數(shù)族時(shí),BONG 與精確貝葉斯推斷是一致的。


4.2 變分情形

在實(shí)際應(yīng)用中,命題 4.1 中的共軛性假設(shè)通常不成立,因此公式(3)和(5)將只是對(duì)貝葉斯更新的近似。在本文中,我們將變分分布限制為高斯族。我們將不限制協(xié)方差形式的情況稱為FC(全協(xié)方差),其定義為如下變分分布:


4.3 蒙特卡洛近似


4.4 線性化 BONG

作為BONG-MC的一種替代方法,我們提出了一種稱為BONG-LIN的線性近似方法,它可以給出確定性的、閉合形式的更新。假設(shè)似然函數(shù)屬于指數(shù)族,如命題 4.1 中所述,但其自然參數(shù)由某個(gè)函數(shù)預(yù)測(cè)得到,即



4.5 經(jīng)驗(yàn) Fisher

第 4.3 節(jié)和第 4.4 節(jié)中的方法需要顯式計(jì)算損失的海森矩陣(MC-HESS)或網(wǎng)絡(luò)的雅可比矩陣(LIN-HESS)。對(duì)于大型模型或高維觀測(cè)來說,這些計(jì)算成本過高。相反,我們可以使用經(jīng)驗(yàn) Fisher 近似,用梯度的外積來代替海森矩陣(參見例如 [Martens, 2020])。


4.6 更新規(guī)則

除了四種近似期望海森矩陣的方法(總結(jié)在表 1 中),我們還根據(jù)優(yōu)化的目標(biāo)損失類型以及執(zhí)行的更新類型,考慮了 BONG 的四種變體,如下所述。請(qǐng)參見表 2 以獲取總結(jié)。




4.7 變分族及其參數(shù)化

我們研究了五種用于后驗(yàn)分布的變分族:


引入中心矩參數(shù)化是為了測(cè)試在命題 4.1 中所強(qiáng)調(diào)的使用自然參數(shù)的重要性。
對(duì)角族可以支持大規(guī)模模型的學(xué)習(xí),因?yàn)槠溆?jì)算復(fù)雜度隨模型大小 P線性增長。
DLR 同樣具有線性復(fù)雜度,但比對(duì)角族更具表達(dá)能力,它保留了部分在均場(chǎng)(對(duì)角)近似中丟失的參數(shù)相關(guān)性信息 [Lambert et al., 2023, Mishkin et al., 2018, Chang et al., 2023]。

使用自然梯度下降(NGD)方法對(duì) BONG 目標(biāo)函數(shù)關(guān)于參數(shù) (μ,Υ,W)進(jìn)行優(yōu)化是具有挑戰(zhàn)性的,因?yàn)樵谠搮?shù)化下,F(xiàn)isher 信息矩陣無法高效求逆。
因此,我們首先推導(dǎo)出關(guān)于全協(xié)方差自然參數(shù)的更新公式(利用先驗(yàn)是 DLR 的特性來保證效率),然后使用奇異值分解(SVD)將后驗(yàn)精度矩陣投影回低秩形式,這延續(xù)了我們之前的 LO-FI 工作 [Chang et al., 2023]。

然而,如果我們省略 Fisher 預(yù)條件矩陣,并像 BOG 和 BBB 中那樣使用普通梯度下降(GD),則可以直接對(duì)關(guān)于 (μ,Υ,W)的目標(biāo)函數(shù)進(jìn)行優(yōu)化(參見附錄 E.5)。

4.8 方法的整體空間

將表 2 中的四種算法、表 1 中的四種海森矩陣近似方法以及五種變分族進(jìn)行交叉組合,可以得到總共 80 種算法。
表 3 展示了其中基于三種可處理的海森近似方法,以及三種使用自然參數(shù)的變分族所得到的 36 種算法。


所有這些算法的更新公式都在附錄 E 中進(jìn)行了推導(dǎo)。
偽代碼在附錄 A 中給出。

5 實(shí)驗(yàn)



從該圖(以及附錄 B 中的附加結(jié)果)我們可以得出以下結(jié)論:

  • 線性化是有幫助的:LIN-HESS 和 LIN-EF 都優(yōu)于 MC 相關(guān)變體。
  • 自然梯度下降(NGD)是有幫助的:BONG 優(yōu)于 BOG。
  • 隱式正則化是有幫助的:BONG 優(yōu)于 BLR。
  • LIN-HESS 優(yōu)于 LIN-EF,至少在 BONG 方法中是如此。
  • BBB 總體表現(xiàn)較差
  • BONG 的后驗(yàn)預(yù)測(cè)(使用 LIN-HESS)比 BOG 稍微更校準(zhǔn)良好(well-calibrated),而且兩者都遠(yuǎn)優(yōu)于 BLR 和 BBB,尤其是在小樣本情況下,如圖 7 所示。
  • 插件后驗(yàn)預(yù)測(cè)與 Lin-MC 預(yù)測(cè)相似(見腳注 2),并且兩者通常都遠(yuǎn)優(yōu)于簡單的 MC 預(yù)測(cè),如圖 5 所示。

在圖 2 中,我們比較了使用不同變分族的 BONG 方法,并得出以下結(jié)論:

  • DLR-10 優(yōu)于 DLR-1,而 DLR-1 與對(duì)角形式相近(除了在使用 BONG-LIN-EF 時(shí),DLR-1 比對(duì)角形式差)。此外,我們還發(fā)現(xiàn)(此處未報(bào)告)秩為 5–10 時(shí)的結(jié)果通常與全協(xié)方差(FC)相當(dāng),但計(jì)算成本要低得多。
  • 對(duì)角表示的自然參數(shù)化和中心矩參數(shù)化表現(xiàn)相當(dāng),盡管在使用 LIN-EF 時(shí),中心矩參數(shù)化可能會(huì)出現(xiàn)數(shù)值不穩(wěn)定的情況。

最后,在圖 3 中,我們報(bào)告了這些實(shí)驗(yàn)的運(yùn)行時(shí)間并得出以下結(jié)論:


  • 一步法(BONG 和 BOG)快于迭代方法(BLR 和 BBB),這是符合預(yù)期的。
  • 線性化方法(LIN-HESS 和 LIN-EF)快于 MC 方法(MC-EF)

6 結(jié)論、局限性與未來工作

我們的實(shí)驗(yàn)結(jié)果表明,BONG 的三個(gè)核心原則帶來了顯著優(yōu)勢(shì):自然梯度下降(NGD)、對(duì)先驗(yàn)的隱式正則化以及線性化。在不同數(shù)據(jù)集和變分族中表現(xiàn)最出色的是BONG-LIN-HESS,它融合了全部三個(gè)原則。BLR-LIN-HESS的表現(xiàn)幾乎與之相當(dāng),但運(yùn)行速度要慢得多。

一些表現(xiàn)最佳的算法此前已有研究(尤其是 CM-EKF 和 LO-FI),但我們?cè)谶@項(xiàng)工作中提供了一個(gè)系統(tǒng)性的理論框架來解釋這些結(jié)果,并在此基礎(chǔ)上提出了新的方法(包括 BLR-LIN-HESS)。

BONG 的理論動(dòng)機(jī)來自命題 4.1,該命題僅適用于共軛先驗(yàn)的理想化設(shè)定。盡管如此,我們發(fā)現(xiàn)它在非共軛情形下也表現(xiàn)良好。另一方面,我們的實(shí)驗(yàn)主要基于相對(duì)較小的模型和數(shù)據(jù)集。未來一個(gè)重要的方向是測(cè)試我們的方法在更大規(guī)模上的擴(kuò)展能力,特別是使用具有潛力的 DLR 表示形式。



B 附加實(shí)驗(yàn)結(jié)果

在本節(jié)中,我們提供了更為全面的一組實(shí)驗(yàn)結(jié)果。

B.1 運(yùn)行時(shí)間測(cè)量

圖 3 展示了圖 1 和圖 2 中實(shí)驗(yàn)所用方法的運(yùn)行時(shí)間,這些實(shí)驗(yàn)是在 MNIST 數(shù)據(jù)集上擬合一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的結(jié)果。

圖 4 展示了在全協(xié)方差(FC)和低秩對(duì)角+低秩(DLR)情況下,使用多層感知機(jī)(MLP)擬合一個(gè)合成回歸數(shù)據(jù)集時(shí)各方法的運(yùn)行時(shí)間。與 BONG 相比,BLR 的運(yùn)行速度較慢(即使迭代次數(shù) I=1),至少部分原因在于 BLR 必須計(jì)算一個(gè)更大矩陣的奇異值分解(SVD)(詳見附錄 E.5.3 和 E.5.4)。



B.2 MNIST 上 CNN 的詳細(xì)結(jié)果

在本節(jié)中,我們報(bào)告了圖 1 和圖 2 所示實(shí)驗(yàn)中的更多指標(biāo)。我們展示了三種對(duì)NLPD(負(fù)對(duì)數(shù)預(yù)測(cè)密度)的近似方法:插件近似(plugin)、蒙特卡洛(MC)和線性化 MC(Linearized MC)。
對(duì)于每種后驗(yàn)預(yù)測(cè)的近似方式,我們還基于選擇最可能預(yù)測(cè)類別的結(jié)果,測(cè)量了相應(yīng)的分類錯(cuò)誤率(misclassification rate)。結(jié)果如圖 5 和圖 6 所示。



我們可以看到,插件近似線性化 MC(lin-MC)的表現(xiàn)相似,并且通常都遠(yuǎn)優(yōu)于標(biāo)準(zhǔn)的 MC 方法。

最后,在圖 7 和圖 8 中,我們報(bào)告了在時(shí)間步 [250, 500, 1,000, 2,000] 上的測(cè)試集預(yù)期校準(zhǔn)誤差(ECE),計(jì)算時(shí)使用了 20 個(gè)區(qū)間(bins)。


需要注意的是,在所有使用 LIN-HESS 的方法中,BONG-DLR-10方法的校準(zhǔn)效果最好(此外它在 plugin 和 linearized-MC 的 NLPD 指標(biāo)上也表現(xiàn)最優(yōu)),相比于其他 DLR-10 方法以及其他 BONG 變體,這一優(yōu)勢(shì)尤為明顯。


B.3.1 BONG、BLR、BBB 和 BOG 的比較

在圖 9 中,我們展示了使用LIN-HESS 近似的實(shí)驗(yàn)結(jié)果。
當(dāng)每步迭代次數(shù)為 1 次時(shí),BONG 和 BLR 的性能幾乎無法區(qū)分,BBB 和 BOG 的性能也相似,但明顯更差。


當(dāng)每步迭代次數(shù)增加到 10 次時(shí),BBB 顯著提升,并接近 BONG 和 BLR 的表現(xiàn)。然而此時(shí),BLR 和 BBB 的運(yùn)行時(shí)間大約是原來的 10 倍。(實(shí)際上,由于實(shí)現(xiàn)中存在常數(shù)項(xiàng)開銷,運(yùn)行時(shí)間的增加略小于 10 倍。)
需要注意的是,BONG 和 BOG 始終只使用單次迭代,因此它們的性能不會(huì)變化。

在圖 10 中,我們展示了使用MC-EF 近似(100 個(gè)樣本)的實(shí)驗(yàn)結(jié)果。其趨勢(shì)與 LIN-HESS 類似:

  • 當(dāng) I=1 時(shí),BONG 和 BLR 表現(xiàn)相近,BONG 略有優(yōu)勢(shì);

  • 當(dāng) I=10 時(shí),BBB 接近 BONG 和 BLR 的表現(xiàn),而 BOG 始終處于最末位。

  • 最后我們發(fā)現(xiàn),當(dāng) I=1 時(shí),MC-EF 的性能略遜于 LIN-HESS,但在 I=10 時(shí)兩者接近。然而,在更大規(guī)模的實(shí)驗(yàn)中,我們通常發(fā)現(xiàn)即使 I=10 ,LIN-HESS 仍顯著優(yōu)于 MC-EF。

B.3.2 學(xué)習(xí)率敏感性

在圖 11 中,我們展示了使用BLR(結(jié)合 LIN-HESS 近似)在測(cè)試集上的表現(xiàn),共測(cè)試了 5 個(gè)不同的學(xué)習(xí)率:分別是。

當(dāng)每步使用 1 次迭代時(shí),最佳學(xué)習(xí)率為 α=0.5,這也是根據(jù)驗(yàn)證集性能所選擇的值。使用該值時(shí),BLR 的表現(xiàn)與 BONG 相當(dāng)。對(duì)于其他學(xué)習(xí)率,BLR 的表現(xiàn)要差得多。

而當(dāng)每步使用 10 次迭代時(shí),有多個(gè)學(xué)習(xí)率都能達(dá)到與 BONG 相當(dāng)?shù)谋憩F(xiàn)。


在圖 12 中,我們展示了BBB的相應(yīng)結(jié)果圖。
當(dāng)每步使用 1 次迭代時(shí),所有學(xué)習(xí)率都導(dǎo)致較差的表現(xiàn),其中許多情況下甚至出現(xiàn)了 NaN(非數(shù)值)。
而當(dāng)每步使用 10 次迭代時(shí),有一些學(xué)習(xí)率可以使 BBB 的表現(xiàn)接近(但仍無法完全達(dá)到)BONG 的水平。

最后,在圖 13a 中,我們展示了使用LIN-HESSBOG的相應(yīng)結(jié)果圖;在圖 13b 中,我們展示了使用MC-EF的結(jié)果,其表現(xiàn)要差得多。

總體而言,我們得出結(jié)論:除BONG以外的所有方法對(duì)學(xué)習(xí)率都非常敏感。
在我們的實(shí)驗(yàn)中,我們是基于驗(yàn)證集上的表現(xiàn)來選擇學(xué)習(xí)率的。但在真正的在線學(xué)習(xí)場(chǎng)景中,由于只有一個(gè)數(shù)據(jù)流,很難選出最優(yōu)的學(xué)習(xí)率,這使得BONG具有了額外的優(yōu)勢(shì)。



D 鏡像下降形式化

在本節(jié)中,我們將BONG更詳細(xì)地推導(dǎo)為鏡像下降(mirror descent)的形式,并利用這一視角對(duì)BONG 如何近似精確的變分貝葉斯(VB)方法給出兩種不同的解釋:
(1) 通過將期望的負(fù)對(duì)數(shù)似然(NLL)近似為關(guān)于對(duì)偶參數(shù) ρ的線性函數(shù);

(2) 通過用一個(gè)顯式更新代替原本的隱式更新。

假設(shè)所使用的變分族是第 3 節(jié)末尾所介紹的指數(shù)族分布,其自然參數(shù)為 ψ,對(duì)偶參數(shù)為 ρ,充分統(tǒng)計(jì)量為 T(θ),對(duì)數(shù)配分函數(shù)為 Φ(ψ):



這是一個(gè)隱式更新,因?yàn)樘荻仁窃冢ㄎ粗模┖篁?yàn)分布處計(jì)算的;
而公式(69)是一個(gè)顯式更新,因?yàn)樗谙闰?yàn)分布處計(jì)算梯度。
(在高斯情形下,這些可以與 [Lambert et al., 2021] 中提出的隱式和顯式 RVGA 更新相對(duì)應(yīng)。)
因此,BONG也可以被解釋為對(duì)精確變分貝葉斯(VB)方法的一種近似,它用顯式更新(公式 69)代替了原本的隱式更新(公式 71)。

E 推導(dǎo)

本節(jié)推導(dǎo)了我們所研究的全部 80 種算法的更新公式(包括表 3 中的算法以及 MC-HESS 和 LIN-EF 變體)。
在附錄 E.6 中,我們還將 BLR 算法從我們的在線學(xué)習(xí)設(shè)定轉(zhuǎn)換回 Khan 和 Rue [2023] 中使用的批量(batch)學(xué)習(xí)設(shè)定。

對(duì)于具有自然參數(shù) ψ和對(duì)偶參數(shù) ρ的指數(shù)族變分分布,我們可以基于以下四個(gè)量來推導(dǎo)出全部 16 種方法的更新公式:
(BONG、BLR、BOG、BBB 在四種海森矩陣近似下的所有組合)




















原文鏈接:https://arxiv.org/pdf/2405.19681

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
熬出頭了!跳水總教練定了,農(nóng)民出身的全紅嬋,不用再卑微求出路

熬出頭了!跳水總教練定了,農(nóng)民出身的全紅嬋,不用再卑微求出路

老吳教育課堂
2025-06-24 15:03:40
撒貝寧再見章子怡,章子怡說我覺得有點(diǎn)夢(mèng)幻,撒貝寧說我很憂傷

撒貝寧再見章子怡,章子怡說我覺得有點(diǎn)夢(mèng)幻,撒貝寧說我很憂傷

情感大頭說說
2025-06-25 12:38:00
上海這條高速早不擴(kuò)晚不擴(kuò),偏要在上海松江站發(fā)展黃金期改擴(kuò)建!

上海這條高速早不擴(kuò)晚不擴(kuò),偏要在上海松江站發(fā)展黃金期改擴(kuò)建!

西莫的藝術(shù)宮殿
2025-06-25 12:38:50
拉夫羅夫:西方國家試圖讓烏克蘭“無條件停火”

拉夫羅夫:西方國家試圖讓烏克蘭“無條件停火”

參考消息
2025-06-25 14:51:23
代言人奇跡生還,五天沒露面的哈梅內(nèi)伊,卻開始安排自己的身后事

代言人奇跡生還,五天沒露面的哈梅內(nèi)伊,卻開始安排自己的身后事

成視Talk
2025-06-25 13:45:00
2025最新高考分?jǐn)?shù)線出爐,黑龍江考生最幸福,江蘇成最卷省份

2025最新高考分?jǐn)?shù)線出爐,黑龍江考生最幸福,江蘇成最卷省份

阿柒體訊
2025-06-25 12:53:55
裝逼一時(shí)爽,牢飯吃個(gè)飽!臨沂23人持械打砸一輛寶馬車和車主…

裝逼一時(shí)爽,牢飯吃個(gè)飽!臨沂23人持械打砸一輛寶馬車和車主…

火山詩話
2025-06-24 05:47:18
人到中年,家里達(dá)到四個(gè)以上條件,你已經(jīng)超越90%的家庭了

人到中年,家里達(dá)到四個(gè)以上條件,你已經(jīng)超越90%的家庭了

小嵩
2025-06-24 16:25:58
退休人員速看!國家直接打錢到個(gè)人賬戶,這些補(bǔ)貼你能領(lǐng)嗎?

退休人員速看!國家直接打錢到個(gè)人賬戶,這些補(bǔ)貼你能領(lǐng)嗎?

南南說娛
2025-06-19 09:20:27
瓜達(dá)爾港投資了多少,建設(shè)了多少年,建成后為什么幾乎沒有輪船停靠?

瓜達(dá)爾港投資了多少,建設(shè)了多少年,建成后為什么幾乎沒有輪船停靠?

高博新視野
2025-06-23 16:19:10
小獵豹遭妻子套路又懷四胎,這是要組足球隊(duì)?

小獵豹遭妻子套路又懷四胎,這是要組足球隊(duì)?

毒舌八卦
2025-05-20 00:52:28
特朗普希望中國,能夠成為韓國一樣的國家

特朗普希望中國,能夠成為韓國一樣的國家

慢看世界
2025-06-24 10:29:38
江毅與湖北省委書記王忠林舉行會(huì)談

江毅與湖北省委書記王忠林舉行會(huì)談

人民產(chǎn)經(jīng)觀察
2025-06-25 10:55:51
國家體育總局是正部級(jí)單位,機(jī)關(guān)部門數(shù)量有限,但直屬單位卻很多

國家體育總局是正部級(jí)單位,機(jī)關(guān)部門數(shù)量有限,但直屬單位卻很多

小圣雜談原創(chuàng)
2025-06-24 21:17:00
震驚!湖南一個(gè)古鎮(zhèn)花費(fèi)50億,卻淪為“空城”,幾乎沒有游客!

震驚!湖南一個(gè)古鎮(zhèn)花費(fèi)50億,卻淪為“空城”,幾乎沒有游客!

青眼財(cái)經(jīng)
2025-06-07 10:32:14
肋骨紋身真的不疼嗎?以前沒發(fā)現(xiàn)周冬雨有紋身,而且面積還挺大

肋骨紋身真的不疼嗎?以前沒發(fā)現(xiàn)周冬雨有紋身,而且面積還挺大

小嵩
2025-06-07 08:51:34
北京今年計(jì)劃開通兩段地鐵,多座地鐵站將新增出入口

北京今年計(jì)劃開通兩段地鐵,多座地鐵站將新增出入口

新京報(bào)
2025-06-25 10:25:07
5億年前,有只三葉蟲被踩了一腳,科學(xué)家疑惑:人穿鞋去海底干啥

5億年前,有只三葉蟲被踩了一腳,科學(xué)家疑惑:人穿鞋去海底干啥

兔斯基聊科學(xué)
2023-07-17 20:28:58
事關(guān)醫(yī)護(hù)薪酬!官方出手:醫(yī)院回款大提速

事關(guān)醫(yī)護(hù)薪酬!官方出手:醫(yī)院回款大提速

醫(yī)學(xué)界
2025-06-25 09:30:20
特朗普騎虎難下,美債被大量拋售

特朗普騎虎難下,美債被大量拋售

傲骨真新
2025-06-25 13:20:41
2025-06-25 15:35:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
639文章數(shù) 11關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運(yùn)往全國

頭條要聞

媒體:被洪森叔叔上了堂"現(xiàn)實(shí)的政治課" 佩通坦很受傷

頭條要聞

媒體:被洪森叔叔上了堂"現(xiàn)實(shí)的政治課" 佩通坦很受傷

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

林志穎15歲兒子眉眼間神似易烊千璽!

財(cái)經(jīng)要聞

3000億的泡泡瑪特,漲不動(dòng)了?

汽車要聞

樂高樂園x比亞迪官配曝光!兒童駕駛學(xué)校來了

態(tài)度原創(chuàng)

藝術(shù)
教育
時(shí)尚
數(shù)碼
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

2025,多少分能上長沙師范學(xué)院??

比英國女王還精彩的人生,85歲的前丹麥女王越活越美

數(shù)碼要聞

安全、流暢、智能獲認(rèn)可!鴻蒙電腦成夏季達(dá)沃斯中方辦公支持電腦

軍事要聞

伊朗總統(tǒng):12天戰(zhàn)爭(zhēng)結(jié)束 重建工作開啟

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 汶川县| 奉贤区| 武山县| 巴林左旗| 堆龙德庆县| 敦煌市| 易门县| 古丈县| 青田县| 东源县| 深泽县| 金湖县| 竹山县| 天等县| 兴仁县| 观塘区| 奇台县| 项城市| 通州市| 裕民县| 梅河口市| 哈密市| 益阳市| 桑植县| 长汀县| 金山区| 耿马| 澳门| 通化县| 门源| 泽普县| 晋州市| 曲水县| 乌兰察布市| 如皋市| 清水河县| 新绛县| 工布江达县| 昌吉市| 南丰县| 当涂县|