Weighted Fisher divergence forhigh-dimensional Gaussian variational inference
高維高斯變分推斷的加權(quán) Fisher 散度
https://arxiv.org/pdf/2503.04246
摘要:
貝葉斯推斷對(duì)于復(fù)雜模型有許多優(yōu)勢(shì)。然而,用于總結(jié)后驗(yàn)分布的標(biāo)準(zhǔn)蒙特卡洛方法在計(jì)算上可能非常耗時(shí),因此考慮基于優(yōu)化的變分近似方法具有吸引力。我們的研究考慮了具有稀疏精度矩陣的高斯近似,這種結(jié)構(gòu)在高維問(wèn)題中易于優(yōu)化。盡管最優(yōu)高斯近似通常被定義為在 Kullback-Leibler 散度下最接近目標(biāo)后驗(yàn)分布的形式,但在高斯假設(shè)較為粗糙的情況下,考慮其他類型的散度也是有益的,以便捕捉后驗(yàn)分布在特定應(yīng)用中的重要特征。我們的研究關(guān)注加權(quán) Fisher 散度,它聚焦于目標(biāo)后驗(yàn)與其近似之間的梯度差異,其中 Fisher 散度和基于得分的散度是其特殊情況。
我們做出了三個(gè)主要貢獻(xiàn)。首先,在均場(chǎng)假設(shè)下,我們將加權(quán) Fisher 散度的近似與 Kullback-Leibler 近似進(jìn)行了比較,適用于高斯和非高斯的目標(biāo)分布。其次,我們超越了均場(chǎng)假設(shè),考慮了具有稀疏精度矩陣的近似方法,以反映分層模型中后驗(yàn)分布的條件獨(dú)立性結(jié)構(gòu)。我們使用隨機(jī)梯度下降來(lái)實(shí)現(xiàn)稀疏性約束,并提出了兩種基于重新參數(shù)化技巧和目標(biāo)函數(shù)批量近似的方法來(lái)最小化加權(quán) Fisher 散度。最后,我們通過(guò)邏輯回歸、廣義線性混合模型和隨機(jī)波動(dòng)模型等實(shí)例檢驗(yàn)了我們方法的表現(xiàn)。
關(guān)鍵詞和短語(yǔ):Fisher 散度,基于得分的散度,隨機(jī)梯度下降,高斯變分近似
1. 引言
貝葉斯推斷是一種強(qiáng)大的不確定性量化工具,但其實(shí)施存在兩個(gè)方面的挑戰(zhàn)。首先,為所有未知變量和可觀測(cè)變量指定一個(gè)完整的概率模型需要仔細(xì)思考,并且模型的各個(gè)部分需要根據(jù)數(shù)據(jù)進(jìn)行驗(yàn)證。其次,貝葉斯計(jì)算較為困難,通常需要近似高維積分。對(duì)于許多貝葉斯模型來(lái)說(shuō),精確的后驗(yàn)推斷是不可行的,實(shí)踐中常使用多種數(shù)值方法來(lái)總結(jié)后驗(yàn)分布,例如馬爾可夫鏈蒙特卡洛(MCMC)和變分推斷(VI)。
MCMC 是漸進(jìn)無(wú)偏的,這意味著只要迭代次數(shù)足夠多,我們就可以以任意精度估計(jì)后驗(yàn)量。盡管 MCMC 常被視為后驗(yàn)估計(jì)的黃金標(biāo)準(zhǔn),但在處理大數(shù)據(jù)集或復(fù)雜模型時(shí),其計(jì)算成本可能過(guò)高(Robert and Casella, 2004; Maclaurin and Adams, 2015)。
另一方面,VI 通過(guò)最小化真實(shí)后驗(yàn)與一個(gè)更簡(jiǎn)單的變分分布之間的散度,將后驗(yàn)計(jì)算問(wèn)題轉(zhuǎn)化為一個(gè)優(yōu)化問(wèn)題。這種方法使得推理更快、更具擴(kuò)展性,并利用了優(yōu)化算法的發(fā)展成果(Blei et al., 2017)。因此,VI 因其在大規(guī)模問(wèn)題中的計(jì)算效率而日益受到歡迎。
VI 的性能主要取決于所選擇的變分近似族、優(yōu)化技術(shù)以及用于刻畫真實(shí)后驗(yàn)與變分密度之間差異的散度。大量 VI 文獻(xiàn)集中于提高變分族的表現(xiàn)力和增強(qiáng)優(yōu)化方法,通常使用 Kullback-Leibler 散度(KLD)作為衡量近似質(zhì)量的標(biāo)準(zhǔn)。為了更好地捕捉變量間的依賴結(jié)構(gòu)——這在分層模型中尤為明顯——可以采用模仿真實(shí)依賴結(jié)構(gòu)的結(jié)構(gòu)化變分近似(Hoffman and Blei, 2015; Tan and Nott, 2018; Durante and Rigon, 2019; Tan, 2021)。最近,基于流的方法也被引入,該方法通過(guò)一系列可逆變換將初始簡(jiǎn)單分布轉(zhuǎn)換為更靈活的形式(Rezende et al., 2014; Dinh et al., 2017; Agrawal and Domke, 2024)。這些方法使 VI 能夠捕捉高度復(fù)雜的后驗(yàn)分布,顯著增強(qiáng)了推理的靈活性。
盡管 KLD 非常流行,研究其替代散度仍然很重要,特別是在使用簡(jiǎn)單的變分族時(shí),這些變分族可能因高維問(wèn)題的可操作性而被采用。這些近似可能無(wú)法很好地匹配目標(biāo)后驗(yàn),而選擇適當(dāng)?shù)纳⒍瓤梢詭椭蹲教囟☉?yīng)用中后驗(yàn)最重要的特征。
一類包含 KLD 作為特殊情況的散度是 Rényi 的 α 族(Li 和 Turner, 2016),其中參數(shù) α 可以調(diào)整,從而得到 Hellinger 距離(α = 0.5)、χ2 散度(α = 2)和 KLD(α = 1)。α 的取值可以平衡模式尋求(mode-seeking)和覆蓋整個(gè)分布質(zhì)量(mass-covering)的行為。然而當(dāng) α = 1 時(shí),優(yōu)化變分 Rényi 界最實(shí)用的方法使用的是有偏的隨機(jī)梯度。
Stein 散度也逐漸成為 VI 中一種有力的目標(biāo)函數(shù)。Ranganath 等人(2016)提出了算子變分推斷(operator variational inference),這是一種極小極大方法,通過(guò)基于 Stein 算子構(gòu)建變分目標(biāo)來(lái)優(yōu)化 Stein 差異。Liu 和 Wang(2016)開(kāi)發(fā)了 Stein 變分梯度下降法(Stein variational gradient descent),該方法使用核化的 Stein 差異逐步將粒子向后驗(yàn)分布靠近。
在本文中,我們探討在高斯變分推斷中使用加權(quán) Fisher 散度的應(yīng)用,特別關(guān)注 Fisher 散度和基于得分的散度這兩種特殊情況。這些散度的定義及其研究動(dòng)機(jī)將在下文中介紹。
1.1 加權(quán) Fisher 散度
得分匹配(Score matching,Hyv?rinen, 2005)則關(guān)注對(duì)數(shù)密度關(guān)于變量 θ 的梯度之間的接近程度,盡管“得分函數(shù)”(score function)通常是指對(duì)數(shù)似然關(guān)于參數(shù)的梯度。這類差異的一種形式是加權(quán) Fisher 散度(weighted Fisher divergence,Barp 等人, 2019),其定義為:
近年來(lái),加權(quán) Fisher 散度在變分推斷(VI)中的應(yīng)用引起了越來(lái)越多的關(guān)注。Huggins 等人(2020)表明,以廣義 ?p 范數(shù)定義的 Fisher 散度是 p-Wasserstein 距離的一個(gè)上界,對(duì)其優(yōu)化可以確保變分密度在重要的點(diǎn)估計(jì)和不確定性方面與真實(shí)后驗(yàn)分布接近。Yang 等人(2019)推導(dǎo)出一種迭代加權(quán)最小二乘算法,用于最小化基于指數(shù)族變分近似的 Fisher 散度。Elkhalil 等人(2021)在其 Fisher 自編碼器框架中采用可分解的多項(xiàng)式指數(shù)族作為變分近似,其性能與其他現(xiàn)有方法相當(dāng)。Modi 等人(2023)通過(guò)最小化目標(biāo)分布與高斯變分密度之間的 KLD,并施加以得分函數(shù)匹配為約束條件,提出了具有閉合形式更新規(guī)則的高斯得分匹配變分推斷方法。對(duì)于結(jié)構(gòu)化的隱式變分族,Yu 和 Zhang(2023)使用 Fisher 散度將優(yōu)化目標(biāo)重新表述為一個(gè)極小極大問(wèn)題。Cai 等人(2024)提出了一種基于正交函數(shù)展開(kāi)的變分族,并利用 Fisher 散度將優(yōu)化目標(biāo)轉(zhuǎn)化為一個(gè)最小特征值問(wèn)題。
本文的貢獻(xiàn)主要有三個(gè)方面:
首先,我們研究了在均場(chǎng)高斯變分推斷中,加權(quán) Fisher 散度在高斯和非高斯目標(biāo)下的表現(xiàn),揭示了其相較于 KLD 更嚴(yán)重地低估后驗(yàn)方差的趨勢(shì)。
其次,我們?yōu)楦呔S分層模型開(kāi)發(fā)了高斯變分推斷方法,其中通過(guò)稀疏精度矩陣捕捉后驗(yàn)的條件獨(dú)立性結(jié)構(gòu)。我們使用隨機(jī)梯度下降(SGD)進(jìn)行參數(shù)更新,并提出了兩種用于最小化加權(quán) Fisher 散度的方法:第一種方法依賴于重新參數(shù)化技巧(reparametrization trick,Kingma 和 Welling, 2014),第二種方法則依賴于每次迭代中基于一批樣本的目標(biāo)函數(shù)的有偏估計(jì)(Elkhalil 等人, 2021;Cai 等人, 2024)。
第三,我們研究了在均場(chǎng)假設(shè)下,使用重新參數(shù)化技巧計(jì)算的無(wú)偏梯度估計(jì)的方差,以及基于批量近似的加權(quán) Fisher 散度在極限情況下的行為。
本文的結(jié)構(gòu)如下:在第 2 節(jié)和第 3 節(jié)中,我們分別研究了在變分推斷(VI)中使用加權(quán) Fisher 散度時(shí),針對(duì)高斯目標(biāo)和非高斯目標(biāo)的后驗(yàn)眾數(shù)與方差近似的質(zhì)量。第 4 節(jié)通過(guò)使用稀疏精度矩陣來(lái)捕捉后驗(yàn)的條件獨(dú)立性結(jié)構(gòu),介紹了針對(duì)分層模型的高斯變分推斷方法。第 5 節(jié)和第 6 節(jié)分別基于重新參數(shù)化技巧(reparametrization trick)和批量近似(batch approximation)提出了兩種用于最小化加權(quán) Fisher 散度的隨機(jī)梯度下降(SGD)方法。第 7 節(jié)討論了實(shí)驗(yàn)結(jié)果,并將其應(yīng)用于邏輯回歸、廣義線性混合模型(GLMMs)和隨機(jī)波動(dòng)模型。第 8 節(jié)總結(jié)全文的研究發(fā)現(xiàn),并展望未來(lái)的工作方向。
2. 高斯目標(biāo)下散度的排序
3. 非高斯目標(biāo)下散度的排序
三種散度都能成功捕捉到位于 0 的目標(biāo)后驗(yàn)眾數(shù)。從表 1 可以看出,基于得分的散度(SD)對(duì)后驗(yàn)方差的低估最為嚴(yán)重,其次是 Fisher 散度(FD),而 KLD 的低估程度最小。在積分絕對(duì)誤差(IAE)方面,F(xiàn)D 和 SD 得到的近似結(jié)果比 KLD 具有更高的準(zhǔn)確率。圖 2(前三個(gè)圖)比較了變分密度與目標(biāo)密度,可以看出,KLD 在眾數(shù)附近的概率質(zhì)量估計(jì)上比 FD 和 SD 更嚴(yán)重地偏低。
3.2 對(duì)數(shù)變換的逆伽馬分布
表 3 顯示,基于得分的散度(SD)提供了最準(zhǔn)確的眾數(shù)近似,但也表現(xiàn)出最嚴(yán)重的方差低估。
另一方面,KLD給出的眾數(shù)近似最不準(zhǔn)確,但在匹配目標(biāo)方差方面最為接近。
總體而言,KLD具有最高的準(zhǔn)確率,其次是FD和SD。
圖 2(最后一個(gè)圖)給出了可視化結(jié)果。
我們?cè)O(shè)定 m=0,并令 t∈{1,5}、λ∈{1,2,5}。從表 2 可以看出,在所有設(shè)置中,基于得分的散度(SD)對(duì)眾數(shù)的捕捉最為準(zhǔn)確,其次是KLD和FD(當(dāng)尺度和偏度都較大時(shí),F(xiàn)D 對(duì)眾數(shù)的估計(jì)非常差)。
三種散度都低估了方差,其中KLD和FD的低估程度較輕,而SD的低估最為嚴(yán)重(在 t 和 λ 增大時(shí),其方差估計(jì)趨近于零)。
當(dāng) t=1 且 λ∈{1,2} 時(shí),FD和SD的準(zhǔn)確率與KLD非常接近;但隨著偏度和尺度的增加,KLD的準(zhǔn)確率高于FD和SD。
圖 3 展示了目標(biāo)密度與最優(yōu)變分近似的密度圖。SD在識(shí)別眾數(shù)方面表現(xiàn)良好,而FD和KLD在估計(jì)方差方面更為準(zhǔn)確。在此背景下,SD被檢測(cè)出存在多個(gè)局部最小值。
本節(jié)中的例子表明,如果目標(biāo)密度具有偏態(tài),SD在捕捉眾數(shù)方面比FD和KLD更加準(zhǔn)確,但也最嚴(yán)重地低估了后驗(yàn)方差。當(dāng)目標(biāo)密度具有偏態(tài)時(shí),KLD的準(zhǔn)確率高于FD和SD;而當(dāng)目標(biāo)密度是對(duì)稱且具有重尾時(shí),KLD的準(zhǔn)確率則較低。
4. 稀疏高斯變分近似
5. 基于重參數(shù)化技巧的隨機(jī)梯度下降(SGD)
5.1 梯度估計(jì)的方差分析
我們研究了通過(guò)對(duì) KL、Fisher 和基于得分的散度應(yīng)用重參數(shù)化技巧所得到的無(wú)偏梯度估計(jì)的方差,以考察條件矩陣 的影響。這些梯度的方差在優(yōu)化穩(wěn)定性中起著關(guān)鍵作用,因?yàn)檩^大的方差可能導(dǎo)致“之字形”現(xiàn)象,從而使收斂變得困難。
這些梯度估計(jì)的方差依賴于真實(shí)目標(biāo)分布的均值和精度(它們是固定的),以及變分近似分布的均值和精度(它們?cè)?SGD 過(guò)程中不斷變化)。假設(shè) Λ 和 T 均為對(duì)角矩陣,則:
6. 基于批次近似的隨機(jī)梯度下降(SGD)
基于重參數(shù)化技巧得到的無(wú)偏梯度估計(jì)涉及 Hessian 矩陣 ,這在計(jì)算上較為昂貴,存儲(chǔ)需求高,并且會(huì)增加梯度估計(jì)的方差。這可能導(dǎo)致在最小化 Fisher 散度(FD)和基于得分散度(SD)時(shí)出現(xiàn)不穩(wěn)定性。
為了解決這些挑戰(zhàn),我們提出了一種替代方法,通過(guò)在每次迭代中從當(dāng)前變分近似分布中隨機(jī)選取一個(gè)樣本批次,來(lái)計(jì)算 FD 和 SD 的有偏估計(jì)值,并最小化這些估計(jì)值,從而消除了對(duì) Hessian 矩陣的依賴。
首先,SD 和 FD 可以分別表示為:
6.1 解釋與相關(guān)方法
此前,Elkhalil 等人(2021)設(shè)計(jì)了基于使用 SGD 最小化 Fisher 散度的批次近似值的自編碼器(autoencoders)。Cai 等人(2024)也提出了一種 BaM 算法,該算法通過(guò)最小化目標(biāo)函數(shù),推導(dǎo)出了 (μ,Σ)的閉式更新公式,
此外,BaM 是為全協(xié)方差矩陣設(shè)計(jì)的,不清楚如何在精度矩陣中施加稀疏性,以利用分層模型后驗(yàn)中的條件獨(dú)立結(jié)構(gòu)。在實(shí)際應(yīng)用中,BaM 還可能遇到病態(tài)矩陣導(dǎo)致的不穩(wěn)定性和數(shù)值問(wèn)題,即使增加批量大小也可能無(wú)法緩解這些問(wèn)題。
相比之下,SGD 允許直接更新精度矩陣的 Cholesky 因子,使得稀疏結(jié)構(gòu)可以輕松被施加。同時(shí)也可以使用更小的批量,進(jìn)一步減輕計(jì)算和存儲(chǔ)負(fù)擔(dān)。
綜上所述,雖然 BaM 更適合全協(xié)方差高斯變分推斷,但我們的方法為具有條件獨(dú)立結(jié)構(gòu)的高維分層模型提供了一種更具可擴(kuò)展性和穩(wěn)定性的替代方案。
6.2 均場(chǎng)假設(shè)下的批次近似目標(biāo)函數(shù)
接下來(lái),我們?cè)诘?節(jié)中考慮的均場(chǎng)假設(shè)下,研究批次近似下的 Fisher 散度(FD)和基于得分散度(SD)的行為。
7. 應(yīng)用
我們通過(guò)將表4和表5中的算法應(yīng)用于邏輯回歸、廣義線性混合模型(GLMMs)和隨機(jī)波動(dòng)模型,并將其結(jié)果與 BaM 和 MCMC 進(jìn)行比較,從而評(píng)估這些算法的性能。
MCMC 抽樣使用 RStan 實(shí)現(xiàn),運(yùn)行兩條并行鏈,每條鏈進(jìn)行 50,000 次迭代。前一半迭代作為預(yù)熱(burn-in)被舍棄,剩余的 50,000 次抽樣用于計(jì)算核密度估計(jì),作為金標(biāo)準(zhǔn)(gold standard)。
為了評(píng)估變分近似相對(duì)于 MCMC 的多變量精度,我們使用最大均值差異(Maximum Mean Discrepancy, MMD;Zhou 等,2023)。我們計(jì)算:
為了評(píng)估收斂性,我們追蹤了下界(lower bound)的無(wú)偏估計(jì) L^,并對(duì) SGD 方法每 1000 次迭代、對(duì) BaM 每 50 次迭代進(jìn)行平均,以減少噪聲。在 BaM 中使用的平均迭代次數(shù)較少,因?yàn)槠涫褂瞄]式更新,使得軌跡更加穩(wěn)定,振蕩更小。
此外,BaM 通常需要更大的批量大小,并且比 SGD 方法收斂得更快。
當(dāng)擬合于過(guò)去五個(gè)下界平均值的線性回歸線的梯度小于 0.01,或達(dá)到最大迭代次數(shù)時(shí),算法終止。
FDb 和 SDb 的批量大小根據(jù)模型復(fù)雜度進(jìn)行調(diào)整,對(duì)于更復(fù)雜的模型使用更大的批量。
所有實(shí)驗(yàn)均在一臺(tái)配備 16GB 內(nèi)存的 Apple M1 計(jì)算機(jī)上運(yùn)行,使用 R 和 Julia 1.11.2 編程實(shí)現(xiàn)。
我們將邏輯回歸模型應(yīng)用于來(lái)自 UCI 機(jī)器學(xué)習(xí)倉(cāng)庫(kù)(UCI machine learning repository)的兩個(gè)真實(shí)數(shù)據(jù)集。
第一個(gè)是德國(guó)信用數(shù)據(jù)(German credit data),該數(shù)據(jù)集包含 1000 名個(gè)體,被分類為“信用良好”或“信用不良”,并具有 20 個(gè)屬性。所有定量預(yù)測(cè)變量均被標(biāo)準(zhǔn)化為均值為零、標(biāo)準(zhǔn)差為一,定性預(yù)測(cè)變量則使用虛擬變量(dummy variables)進(jìn)行編碼。
第二個(gè)是 Adult 數(shù)據(jù)集,包含 48,842 條觀測(cè),用于預(yù)測(cè)某人的年收入是否超過(guò) 50,000 美元,基于 14 個(gè)屬性。為了使 MCMC 方法可行,我們使用了預(yù)處理后的 a4a 數(shù)據(jù)(網(wǎng)址:www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html),該數(shù)據(jù)集是從 Adult 數(shù)據(jù)中提取出的 4781 個(gè)訓(xùn)練樣本。
在預(yù)處理之后,德國(guó)信用數(shù)據(jù)的維度 d=49,而 a4a 數(shù)據(jù)的維度 d=124。由于 a4a 數(shù)據(jù)維數(shù)較高且觀測(cè)數(shù)量龐大,我們僅從兩條并行鏈中各抽取 10,000 次迭代,共生成 10,000 個(gè) MCMC 樣本。
對(duì)于 FDb 和 SDb,我們使用的批量大小為 B=3;對(duì)于 BaM,則使用 B=50。最大迭代次數(shù)設(shè)置為 60,000。
圖6展示了 SGD 方法下界(lower bound)的演化過(guò)程。FDr 和 SDr 收斂非常緩慢,并且在終止時(shí)所達(dá)到的下界遠(yuǎn)低于其他方法。這可能是由于它們的梯度估計(jì)具有較高的方差,正如第5.1節(jié)所討論的那樣。
相比之下,SDb 收斂速度很快,并且在前一千次迭代內(nèi)就達(dá)到了最高的下界,甚至超過(guò)了 KLD。而 FDb 所達(dá)到的下界則低于 KLD 和 SDb,但其表現(xiàn)仍優(yōu)于 FDr 和 SDr。
從表6中的 MMD 結(jié)果來(lái)看,F(xiàn)Dr 和 SDr 得到的變分近似遠(yuǎn)不如 KLD 準(zhǔn)確;而 FDb 和 SDb 相比 FDr 和 SDr 有顯著改進(jìn)。特別是,SDb 在德國(guó)信用數(shù)據(jù)上產(chǎn)生的結(jié)果與 KLD 相當(dāng),在 a4a 數(shù)據(jù)上的表現(xiàn)甚至優(yōu)于 KLD。
在運(yùn)行時(shí)間方面,KLD 是所有 SGD 方法中最快的。對(duì)于德國(guó)信用數(shù)據(jù),F(xiàn)Dr、SDr、FDb 和 SDb 每千次迭代大約各需 0.25 秒,但 FDb 和 SDb 收斂所需的迭代次數(shù)更少。而對(duì)于 a4a 數(shù)據(jù),由于高維情況下計(jì)算 Hessian 的代價(jià)更大,F(xiàn)Dr 和 SDr 每千次迭代需要約 3.5 秒,而 FDb 和 SDb 僅需約 1.5 秒。
BaM 收斂最快,在運(yùn)行時(shí)間上優(yōu)于所有 SGD 方法。其在德國(guó)信用數(shù)據(jù)上的 MMD 值與 KLD 相當(dāng),而在 a4a 數(shù)據(jù)上的 MMD 值則遠(yuǎn)高于所有 SGD 方法。
總體而言,基于批次近似的 FD 和 SD 優(yōu)化所得的 MMD 值始終高于基于重參數(shù)化技巧的方法。在準(zhǔn)確捕捉邊緣眾數(shù)(marginal mode)方面,SDb 和 BaM 在德國(guó)信用數(shù)據(jù)上與 KLD 表現(xiàn)相當(dāng),在更具挑戰(zhàn)性的 a4a 數(shù)據(jù)上則優(yōu)于 KLD。
所有變分近似方法至少比 MCMC 快一個(gè)數(shù)量級(jí),并且隨著維度和觀測(cè)數(shù)量的增加,這種加速效果更加明顯。
7.2 廣義線性混合模型(Generalized Linear Mixed Models, GLMMs)
首先,我們考慮來(lái)自一項(xiàng)臨床試驗(yàn)的癲癇數(shù)據(jù)(Thall 和 Vail,1990),該數(shù)據(jù)包含 n=59 名患者,他們被隨機(jī)分配到藥物組(服用普加巴林,Trt = 1)或安慰劑組(Trt = 0)。反應(yīng)變量是每位患者在四次隨訪期間所經(jīng)歷的癲癇發(fā)作次數(shù)。
協(xié)變量包括患者基線時(shí)年齡的對(duì)數(shù)值,并通過(guò)減去均值進(jìn)行了中心化處理(記為 Age);試驗(yàn)前癲癇發(fā)作次數(shù)的四分之一的對(duì)數(shù)值(記為 Base);隨訪次數(shù),編碼為 ?0.3、?0.1、0.1、0.3(記為 Visit);以及是否為第四次隨訪的指示變量(記為 V4)。
我們考慮具有隨機(jī)截距和隨機(jī)斜率的泊松混合模型(Breslow 和 Clayton,1993):
接下來(lái),考慮De Backer 等人(1998)提供的關(guān)于腳趾甲感染的數(shù)據(jù),這些數(shù)據(jù)來(lái)自一項(xiàng)臨床試驗(yàn),比較了兩種口服抗真菌藥物對(duì)腳趾甲感染的治療效果。共有294名患者參與,每名患者最多接受了七次隨訪檢查,總共產(chǎn)生了1908個(gè)觀測(cè)值。
患者被隨機(jī)分配接受每日250毫克的特比萘芬(Trt = 1)或每日200毫克的伊曲康唑(Trt = 0)。反應(yīng)變量(因變量)是二分類的:0 表示無(wú)分離或輕度甲分離,1 表示中度或重度甲分離。
隨訪時(shí)間(以月為單位)進(jìn)行了標(biāo)準(zhǔn)化處理,使其均值為0,方差為1。對(duì)該數(shù)據(jù)擬合了一個(gè)邏輯斯蒂隨機(jī)截距模型(logistic random intercept model),
最后,我們分析Hosmer 等人(2013)提供的多重用藥數(shù)據(jù)(polypharmacy data),該數(shù)據(jù)包含500名受試者,每人在7年內(nèi)被觀察其藥物使用情況,共產(chǎn)生了3500個(gè)二分類響應(yīng)值。
協(xié)變量包括:
性別(Gender):1 表示男性,0 表示女性;
種族(Race):0 表示白人,1 表示其他種族;
年齡(Age):取 log(age/10);
是否有住院精神健康就診記錄(INPTMHV):若沒(méi)有住院精神健康就診記錄則為0,否則為1。
門診精神健康就診次數(shù)(MHV)被編碼為以下三類:
MHV1 = 1,如果 1 ≤ MHV ≤ 5;
MHV2 = 1,如果 6 ≤ MHV ≤ 14;
MHV3 = 1,如果 MHV ≥ 15。
我們考慮擬合一個(gè)邏輯斯蒂隨機(jī)截距模型(logistic random intercept model)。
在本節(jié)中,我們對(duì)FDb和SDb使用的批量大小(batch size)為 B=5。
對(duì)于BAM方法,在癲癇數(shù)據(jù)中使用的批量大小為 B=100,而在腳趾甲數(shù)據(jù)和多重用藥數(shù)據(jù)中使用的批量大小為 B=1000。
在后兩種情況下使用更大的批量大小,是因?yàn)?strong>BAM 方法非常容易出現(xiàn)病態(tài)更新(ill-conditioned updates),并且在較小的批量大小下收斂速度非常慢。
對(duì)于癲癇數(shù)據(jù),最大迭代次數(shù)設(shè)置為 60,000;而對(duì)于包含更多觀測(cè)值的腳趾甲數(shù)據(jù)和多重用藥數(shù)據(jù),最大迭代次數(shù)減少至 30,000。
圖7顯示,在各種隨機(jī)梯度下降(SGD)方法中,SDb是收斂速度最快的之一。在Epi I、Epi II 和 polypharmacy 數(shù)據(jù)集上,它達(dá)到的下界高于 KLD;而在toenail 數(shù)據(jù)集上,其表現(xiàn)與 KLD 相當(dāng)。
雖然FDb在 Epi I 和 Epi II 上收斂很快,但在腳趾甲(toenail)和多重用藥(polypharmacy)數(shù)據(jù)上,在最大迭代次數(shù) 30,000 次內(nèi)未能完成收斂。
總體來(lái)看,基于有限差分(FD)的方法(如 FDr、FDb)似乎比基于隨機(jī)差分(SD)的方法(如 SDr、SDb)收斂得慢得多。
從表7中的 MMD 結(jié)果來(lái)看,FDr 和 SDr 的 MMD 最低。相比之下,FDb 和 SDb與其基于重參數(shù)化技巧的對(duì)應(yīng)方法相比有了顯著改進(jìn),達(dá)到了更高的 MMD 值。
在基于加權(quán) Fisher 散度的 SGD 方法中,SDb 的 MMD 最高,甚至超過(guò)了 Epi I 上的 KLD。
BaM在 Epi I 和 Epi II 上的表現(xiàn)優(yōu)于 KLD,但在 toenail 和 polypharmacy 數(shù)據(jù)上表現(xiàn)不佳,這反映了 BaM 在高維情況下面臨的挑戰(zhàn)——即當(dāng)參數(shù) θ 的維度更高時(shí),其性能會(huì)下降。
KLD 能夠最準(zhǔn)確地捕捉每個(gè)變量的邊緣后驗(yàn)眾數(shù)(marginal posterior mode),SDb 和 BaM 的表現(xiàn)則與之相當(dāng)。
BaM 在 Epi I 和 Epi II 中最準(zhǔn)確地捕捉了邊緣后驗(yàn)方差(marginal posterior variance),但在更高維的 toenail 和 polypharmacy 數(shù)據(jù)中,其表現(xiàn)落后于 KLD。
SDr 對(duì)邊緣后驗(yàn)方差的估計(jì)低估最為嚴(yán)重,這一點(diǎn)讓人聯(lián)想到其在平均場(chǎng)設(shè)定下所面臨的“變分坍縮”(variational collapse)問(wèn)題。
BaM 能以最少的迭代次數(shù)實(shí)現(xiàn)收斂,這是因?yàn)樗昧碎]合形式的更新公式以及更大的批量大小。然而,BaM 每次迭代的計(jì)算成本遠(yuǎn)高于 SGD 方法,因?yàn)楹笳呖梢岳镁染仃嚨南∈杞Y(jié)構(gòu)。隨著參數(shù) θ 維度的增加,這一問(wèn)題變得更加明顯。
在 SGD 方法中,KLD 的運(yùn)行時(shí)間最短。基于 FD 的方法通常比基于 SD 的方法需要更多的迭代次數(shù)才能收斂,因此運(yùn)行時(shí)間更長(zhǎng)。
SDb 能夠在與 KLD 大致相同的迭代次數(shù)內(nèi)收斂,盡管每次迭代所需的時(shí)間更長(zhǎng)。
圖8比較了使用 MCMC 得到的邊緣密度與來(lái)自 KLD、SDb 和 BaM 的變分近似結(jié)果,展示的是 Epi I 和 polypharmacy 數(shù)據(jù)集中部分變量的結(jié)果。
對(duì)于第一行的 Epi I 數(shù)據(jù),所有變分方法都與 MCMC 結(jié)果非常接近,除了變量 ζ,其中SDb 對(duì)邊緣后驗(yàn)方差的低估比 BaM 和 KLD 更嚴(yán)重。
對(duì)于第二行中更高維的 polypharmacy 數(shù)據(jù),KLD 與 MCMC 結(jié)果最為接近,而 SDb 和 BaM 更傾向于低估邊緣后驗(yàn)方差,盡管在某些情況下它們對(duì)眾數(shù)的估計(jì)更為準(zhǔn)確。
7.3 隨機(jī)波動(dòng)模型
隨機(jī)波動(dòng)模型被廣泛用于捕捉金融時(shí)間序列的動(dòng)態(tài)特性。它為像布萊克-舒爾斯模型(Black-Scholes model,Black 和 Scholes,1973)這樣的常數(shù)波動(dòng)率模型提供了一種有吸引力的替代方案,因?yàn)樵陔S機(jī)波動(dòng)模型中,資產(chǎn)收益的波動(dòng)率是根據(jù)一個(gè)隨機(jī)過(guò)程隨時(shí)間演變的。
在時(shí)間 t 的響應(yīng)變量(即觀測(cè)值)為:
其變分近似中與Ω具有相同稀疏結(jié)構(gòu)的矩陣,推導(dǎo)見(jiàn)補(bǔ)充材料。
我們分析了 R 軟件包Ecdat中Garch數(shù)據(jù)集提供的兩個(gè)數(shù)據(jù)集。
第一個(gè)數(shù)據(jù)集包含n = 945個(gè)觀測(cè)值,表示從1981 年 10 月 1 日至 1985 年 6 月 28 日的美元對(duì)英鎊(GBP)工作日匯率。
第二個(gè)數(shù)據(jù)集包含n = 1866個(gè)觀測(cè)值,表示從1980 年 1 月 2 日至 1987 年 6 月 21 日的美元對(duì)德國(guó)馬克(DEM)工作日匯率。
對(duì)于這兩個(gè)數(shù)據(jù)集,均值修正后的對(duì)數(shù)收益率序列 {yt} 是通過(guò)對(duì)匯率序列 {rt} 進(jìn)行如下處理得到的:
我們對(duì)FDb和SDb使用的批量大小為 B=10,而對(duì)于GBP 數(shù)據(jù)集上的BaM方法,使用的批量大小為 B=50。
我們嘗試使用更大的批量大小來(lái)運(yùn)行 BaM,但結(jié)果導(dǎo)致了嚴(yán)重的病態(tài)更新(ill-conditioned updates)。
對(duì)于維度更高的DEM 數(shù)據(jù)集,盡管嘗試了多種不同的批量大小,我們?nèi)詿o(wú)法使 BaM 收斂。
在該任務(wù)中,使用 BaM 推斷一個(gè)階數(shù)為 d=1869 的完整協(xié)方差矩陣的挑戰(zhàn)是非常巨大的,更不用說(shuō)還要承擔(dān)如此高階矩陣求逆所帶來(lái)的巨大計(jì)算成本。
我們將最大迭代次數(shù)設(shè)定為30,000次。
從表8中的 MMD 值可以看出,FDr、SDr 和 FDb的表現(xiàn)相較于其他方法非常差。
在優(yōu)化加權(quán) Fisher 散度的 SGD 方法中,SDb 表現(xiàn)最好。
它的 MMD 值與 GBP 數(shù)據(jù)集中 KLD 的值接近,在更高維的 DEM 數(shù)據(jù)集中甚至超過(guò)了 KLD。
此外,SDb 和 BaM在兩個(gè)數(shù)據(jù)集上都比 KLD 更準(zhǔn)確地捕捉到了后驗(yàn)分布的眾數(shù)(mode)。
在運(yùn)行時(shí)間方面,KLD 是最有效率的方法,它在最短的時(shí)間內(nèi)達(dá)到了很高的 MMD 值。
雖然BaM 所需的迭代次數(shù)較少即可收斂,但每次迭代的計(jì)算成本非常高,導(dǎo)致整體運(yùn)行時(shí)間很長(zhǎng)。
例如,在 GBP 數(shù)據(jù)集上,BaM 收斂所需時(shí)間為1521 秒,幾乎是 SDb 運(yùn)行時(shí)間的三倍。
隨著維度的增加,BaM 變得更加不穩(wěn)定,更容易出現(xiàn)病態(tài)更新,導(dǎo)致收斂變得非常困難;
而SDb 則提供了一種更為可靠且在計(jì)算上可行的方法,用于優(yōu)化基于批量近似的隨機(jī)差分(SD)。
圖9展示了在使用SDb方法時(shí),批量大小(batch size)對(duì)收斂速度和近似質(zhì)量(通過(guò) MMD 衡量)的影響。
增加批量大小顯然帶來(lái)了更快的收斂速度和更優(yōu)的近似質(zhì)量。
如圖9第一行圖例中所示,總運(yùn)行時(shí)間也減少了,因?yàn)槭諗克璧牡螖?shù)更少。
這表明,更大的批量大小可以同時(shí)提升 SDb 的穩(wěn)定性和準(zhǔn)確性。
圖10展示了來(lái)自MCMC、KLD 和 SDb(B = 10, 100)的邊緣后驗(yàn)密度估計(jì)結(jié)果,涵蓋了一些局部變量(local variables)以及 DEM 數(shù)據(jù)集中所有的全局變量(global variables)。
SDb 比 KLD 更準(zhǔn)確地捕捉到了邊緣后驗(yàn)眾數(shù)(marginal posterior mode),尤其是在每一個(gè)全局變量上表現(xiàn)更好;
但 SDb 更傾向于低估后驗(yàn)方差(posterior variance)。
將批量大小從 10 增加到 100 有助于減輕對(duì)后驗(yàn)方差的低估程度。
8. 結(jié)論
在本文中,我們通過(guò)關(guān)注Fisher 散度(FD)和隨機(jī)差分(SD),評(píng)估了基于加權(quán) Fisher 散度的高斯變分推斷方法的表現(xiàn)。
首先,我們考慮了在均場(chǎng)假設(shè)(mean-field assumption)下,針對(duì)高斯和非高斯目標(biāo)分布的情況。我們表明,在這種設(shè)定下:
- FD 和 SD 比 KLD 更嚴(yán)重地低估后驗(yàn)方差
對(duì)于偏態(tài)目標(biāo)分布,SD 比 FD 和 KLD 更能準(zhǔn)確捕捉后驗(yàn)眾數(shù),但也更嚴(yán)重地低估方差。
接下來(lái),我們研究了高維分層模型,在這類模型中,可以通過(guò)在高斯變分近似中使用稀疏精度矩陣來(lái)捕捉后驗(yàn)條件獨(dú)立結(jié)構(gòu)。
為了在精度矩陣的 Cholesky 分解中引入稀疏性,我們考慮了基于隨機(jī)梯度下降(SGD)的優(yōu)化方法,并提出了兩種基于重參數(shù)化技巧和目標(biāo)函數(shù)批量近似的新方法。
- 重參數(shù)化技巧
能夠提供無(wú)偏的梯度估計(jì),但涉及 Hessian 矩陣的計(jì)算,這在計(jì)算上非常昂貴,同時(shí)會(huì)增加梯度的變異性,導(dǎo)致穩(wěn)定性降低、收斂速度減慢。
為了解決這些問(wèn)題,我們引入了一種替代方法:在每次迭代中使用一個(gè)隨機(jī)樣本批次,對(duì) FD 和 SD 的目標(biāo)進(jìn)行有偏估計(jì)并最小化它。
這種方法消除了對(duì) Hessian 矩陣的依賴,提高了穩(wěn)定性;
它也可以被解釋為在不斷向后驗(yàn)高概率區(qū)域移動(dòng)的樣本點(diǎn)上,逐步改進(jìn)后驗(yàn)密度與變分密度之間梯度匹配的一種新目標(biāo)函數(shù)的優(yōu)化過(guò)程。
我們?cè)诟咚鼓繕?biāo)下對(duì)這一新目標(biāo)在均場(chǎng)假設(shè)下的表現(xiàn)進(jìn)行了評(píng)估,結(jié)果表明它可以緩解之前 SD 所面臨的“變分坍縮”問(wèn)題。
我們將提出的方法與KLD和BaM在邏輯回歸、廣義線性混合模型(GLMMs)和隨機(jī)波動(dòng)模型(stochastic volatility models)中的應(yīng)用進(jìn)行了比較。
大量實(shí)驗(yàn)表明:
- FDr 和 SDr 收斂非常緩慢
,且常常收斂到次優(yōu)的變分近似;
- FDb 和 SDb 相比 FDr 和 SDr 有了顯著改進(jìn)
,其中SDb 在收斂速度和變分近似質(zhì)量方面表現(xiàn)最優(yōu);
- BaM
依賴閉合形式更新,因此所需迭代次數(shù)較少,對(duì)于邏輯回歸非常有效;
但在 GLMMs 和 SSMs 中,BaM 的效率遠(yuǎn)低于 KLD;
隨著維度的增加,BaM 的性能逐漸惡化,最終甚至無(wú)法收斂;
- SDb 在高維情況下相比 BaM 具有優(yōu)勢(shì)
,因?yàn)樗軌蛟诰染仃囍惺┘酉∈栊裕3钟?jì)算可行性,具有更高的穩(wěn)定性和對(duì)初始值不敏感的特點(diǎn);
- SDb 能比 KLD 更準(zhǔn)確地捕捉后驗(yàn)眾數(shù)
,盡管它更容易低估方差。
未來(lái)的研究方向仍有多個(gè)值得探索:
我們的分析主要集中在FD 和 SD 的高斯變分近似上,未來(lái)可以研究在更靈活的變分族下 FD 和 SD 的表現(xiàn);
雖然我們使用了SGD 進(jìn)行優(yōu)化,但優(yōu)化器及其超參數(shù)的選擇對(duì)收斂行為有很大影響,未來(lái)可探索不依賴 SGD 的其他優(yōu)化技術(shù);
我們的研究也突出了批量近似 SD 方法的潛力,值得在其他情境中進(jìn)一步探討其性質(zhì)。
原文鏈接:https://arxiv.org/pdf/2503.04246
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.