熱力學(xué)貝葉斯推理
Thermodynamic Bayesian Inference
https://arxiv.org/pdf/2410.01793
摘要
對復(fù)雜的預(yù)測模型(如深度神經(jīng)網(wǎng)絡(luò))進行完全的貝葉斯處理,可以實現(xiàn)嚴(yán)格的不確定性量化,并能自動化更高層次的任務(wù)(如模型選擇)。然而,由于對大量參數(shù)上的貝葉斯后驗分布進行采樣的不可行性,限制了貝葉斯方法在最需要場景中的應(yīng)用。熱力學(xué)計算作為一種新興范式,能夠加速機器學(xué)習(xí)中常用的操作(如矩陣求逆),其基礎(chǔ)是將朗之萬方程映射到噪聲物理系統(tǒng)的動力學(xué)行為上。因此,考慮在熱力學(xué)設(shè)備上實現(xiàn)用于采樣的朗之萬算法是自然的選擇。在本研究中,我們提出了通過物理實現(xiàn)朗之萬動力學(xué)來從貝葉斯后驗分布中采樣的電子模擬設(shè)備。我們給出了用于高斯-高斯模型和貝葉斯邏輯回歸模型后驗采樣的電路設(shè)計,并通過仿真進行了驗證。結(jié)果表明,在合理的假設(shè)條件下,這些模型的貝葉斯后驗可以通過與維度 d 的對數(shù) ln(d) 成比例的時間完成采樣。對于高斯-高斯模型,能量消耗被證明與 d ln(d) 成比例。這些結(jié)果突顯了利用熱力學(xué)計算實現(xiàn)快速、高效貝葉斯推理的潛力。
引言
貝葉斯統(tǒng)計已被證明是一種在不確定性條件下進行預(yù)測的有效框架 [1]、[2]、[3]、[4]、[5]、[6],它也是實現(xiàn)機器學(xué)習(xí)自動化的提案中的核心內(nèi)容 [7]。貝葉斯方法通過引入先驗知識并建模參數(shù)的分布來實現(xiàn)不確定性量化。采用這種方法的流行機器學(xué)習(xí)方法包括貝葉斯線性與非線性回歸 [8]、卡爾曼濾波器 [9]、湯普森采樣 [2]、持續(xù)學(xué)習(xí) [10]、[11] 以及貝葉斯神經(jīng)網(wǎng)絡(luò) [3]、[12]。
不幸的是,在這些場景中計算后驗分布通常是難以處理的 [13]。在這種情況下可以使用拉普拉斯近似 [14] 和變分推斷 [15] 等方法來近似后驗分布,但這些方法對于復(fù)雜的后驗(如貝葉斯神經(jīng)網(wǎng)絡(luò)的后驗)效果不佳 [13]。無論如何,準(zhǔn)確地從這類后驗中采樣都需要巨大的計算資源 [13]。
貝葉斯推理中的計算瓶頸促使人們需要新型硬件加速器。為此目的,已經(jīng)提出了基于物理的采樣硬件,包括伊辛機 [16]、[17]、[18]、[19]、[20]、概率位計算機 [21]、[22]、[23],以及熱力學(xué)計算機 [24]、[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]。連續(xù)變量硬件尤其適合于貝葉斯推理,因為在概率機器學(xué)習(xí)中通常使用連續(xù)分布 [27]。然而,目前尚未對這種硬件如何以可擴展電路的方式執(zhí)行貝葉斯推理進行嚴(yán)謹(jǐn)?shù)难芯俊?/p>
用于精確貝葉斯推理的最易計算的算法是蒙特卡洛采樣算法。朗之萬采樣算法 [34]、[35] 是一個受統(tǒng)計物理啟發(fā)的優(yōu)雅示例,其基礎(chǔ)是一個與熱浴接觸的阻尼系統(tǒng)的動力學(xué)行為。我們在本工作中提出的是構(gòu)建一種物理系統(tǒng),該系統(tǒng)正是朗之萬算法所模擬的對象。該系統(tǒng)必須被設(shè)計為具有某種勢能函數(shù),使得吉布斯分布 p(x)∝e?βU(x) 正是我們希望得到的后驗分布,并且在熱力學(xué)平衡時達到這一分布。我們展示了針對兩個特定案例(貝葉斯推理)的電子設(shè)備實現(xiàn)的電路圖。第一個是高斯-高斯模型(其中先驗和似然均為多元正態(tài)分布,常見于線性回歸和卡爾曼濾波),第二個是邏輯回歸(其中先驗為高斯分布,似然為由邏輯函數(shù)參數(shù)化的伯努利分布)。在這兩種情況下,先驗和似然的參數(shù)都被編碼到電路元件的數(shù)值中,然后通過測量電壓或電流來進行隨機變量采樣。
盡管已有研究提出了用于線性代數(shù) [29] 和神經(jīng)網(wǎng)絡(luò)訓(xùn)練 [33] 的熱力學(xué)算法,我們的工作可以被視為首個用于從貝葉斯后驗中采樣的熱力學(xué)算法。此外,我們的工作也首次提出了利用熱力學(xué)硬件進行非高斯采樣的具體方案。總體而言,我們的研究開啟了利用熱力學(xué)計算機進行嚴(yán)格的貝葉斯推理的新領(lǐng)域,并為基于CMOS的可擴展芯片在概率機器學(xué)習(xí)中的應(yīng)用奠定了基礎(chǔ)。
我們表明,理論上,用于對高斯-高斯模型和邏輯回歸后驗進行采樣的設(shè)備可以在 d 維空間中用 O(Nlnd) 的時間獲得 N 個樣本。這相比于數(shù)字方法在相同問題上的典型耗時是一個顯著的加速;例如,數(shù)字方式采樣高斯-高斯后驗涉及矩陣求逆操作,其時間復(fù)雜度約為 O(dω),其中 2<ω<3。這種加速比超過了此前關(guān)于熱力學(xué)算法在線性代數(shù)基本運算中所發(fā)現(xiàn)的線性(隨維度增長)加速 [29]。之前的工作目標(biāo)只是加速標(biāo)準(zhǔn)計算,而并未從根本上改變哪些問題是可處理的。相比之下,我們在本工作中發(fā)現(xiàn)的更顯著的加速潛力有可能使以前無法完成的計算成為可能,特別是在非高斯后驗采樣的情況下,例如貝葉斯邏輯回歸。
2 熱力學(xué)貝葉斯推理
2.1 高斯-高斯模型
貝葉斯推理的一個特別簡單的特例是當(dāng)先驗分布和似然函數(shù)均為多元正態(tài)分布的情況。我們首先討論這一簡單模型,以便更清晰地說明我們的方法。
對于該模型,后驗分布是可解析求解的,并且可以在數(shù)字計算機上相對高效地計算。然而,當(dāng)維度非常大時,所需的矩陣求逆和矩陣乘法操作仍然會造成高昂的計算瓶頸。正如我們將看到的,熱力學(xué)方法提供了一種繞過這些昂貴的矩陣求逆和乘法運算的方式,從而加速該模型下的貝葉斯推理。
我們首先推導(dǎo)用于對該后驗分布進行采樣的朗之萬方程。針對該先驗和似然函數(shù),后驗分布的得分(score)由式(1)給出為:
事實上,該隨機微分方程(SDE)可以通過由電感器耦合的兩個電阻網(wǎng)絡(luò)來實現(xiàn),圖 2 展示了二維情況下的電路結(jié)構(gòu)。
圖 2 中電路的完整分析見附錄 B,但在此我們做一些簡要說明以解釋其工作原理。首先,我們定義電導(dǎo)矩陣 G 為:
其中,而 S 是每個噪聲源的功率譜密度。該方程的形式與式(14)相同,因此只需確定將分布參數(shù)映射到電路元件物理屬性的合適方式(見附錄 B)。我們通過運行 SPICE 仿真驗證了該電路的行為。結(jié)果如圖 3 所示,并在第 4 節(jié)中進行了更詳細的討論。
通過引入更多的電感器和耦合電阻器(以及電流源和電壓源),該設(shè)計可以推廣到任意維度。需要注意的是,由于式(15)中非對角線元素帶有負號,這種特定架構(gòu)只能實現(xiàn)非對角線元素為負的矩陣,因為無源元件無法實現(xiàn)負電導(dǎo)。這一限制可以通過修改架構(gòu)、引入電感變壓器以改變相互作用極性 [28],或采用差分設(shè)計,利用對稱性來改變相互作用方向加以克服。
該算法的能量和時間成本在附錄 C 中進行了分析,并將在第 3 節(jié)中展示。數(shù)值仿真結(jié)果見第 4 節(jié)。
2.2 貝葉斯線性回歸與卡爾曼濾波
高斯-高斯模型的一個推廣形式是貝葉斯線性回歸 [8](或等效地,卡爾曼濾波的更新步驟 [9]、[12])。在最一般的形式下,我們有:
2.3 貝葉斯邏輯回歸
邏輯回歸是一種用于分類任務(wù)(包括二分類和多分類)的方法,它使用邏輯函數(shù)對類別概率與自變量之間的依賴關(guān)系進行建模。在貝葉斯框架下,可以為邏輯回歸模型的參數(shù)設(shè)定先驗分布;例如,常見做法是假設(shè)一個高斯先驗。然而,在觀測數(shù)據(jù)條件下,所得到的后驗分布通常沒有解析閉合形式,這使得貝葉斯邏輯回歸遠不如直接獲取參數(shù)點估計那樣高效。
在本節(jié)中,我們提出了一種熱力學(xué)硬件架構(gòu),能夠?qū)Χ诸愡壿嫽貧w的后驗分布進行采樣,并展示了一些初步證據(jù),表明該架構(gòu)相比現(xiàn)有方法可以更高效地完成這一任務(wù)。
3 復(fù)雜度分析
與此前提出的熱力學(xué)算法(如 [29] 和 [33] 中的算法)相比,本文所介紹的算法有所不同,它們不需要對平衡分布的矩進行估計。例如,在用于矩陣求逆的算法 [29] 中,只有很小一部分時間用于讓系統(tǒng)達到平衡狀態(tài),而大部分時間都用于從該分布中采集樣本并估計二階矩。
因此,我們預(yù)期熱力學(xué)貝葉斯推理算法相比基于矩估計的算法能夠?qū)崿F(xiàn)更大的優(yōu)勢,并且我們將看到事實確實如此。
3.1 時間復(fù)雜度
需要注意的是,對于模擬計算設(shè)備而言,“時間復(fù)雜度”的概念在某種程度上是模糊的,通常還應(yīng)考慮能量成本 [43]。然而,研究完成一次模擬計算所需的物理時間以及其隨輸入規(guī)模的變化趨勢仍然是有意義的。
在本工作中,輸出是一個概率分布的樣本,因此必須使用適當(dāng)?shù)恼`差度量來定義成功計算的標(biāo)準(zhǔn)。在這里,我們采用采樣分布與目標(biāo)分布之間的 Wasserstein-2 距離 (歸一化為目標(biāo)協(xié)方差矩陣的范數(shù)),作為衡量標(biāo)準(zhǔn)(見附錄 A.1)。
3.1.1 高斯-高斯模型
對于高斯-高斯模型,我們做出如下假設(shè):
第一條假設(shè)反映了這樣一個事實:為了在模擬計算設(shè)備上求解一個問題,必須對問題進行重新縮放,以確保物理動力學(xué)量具有適當(dāng)?shù)男盘柗秶?/p>
第二條假設(shè)定義了問題的條件良好程度,并且我們在復(fù)雜度分析中將參數(shù) Mmax 的資源開銷規(guī)模納入考慮。
在滿足這些假設(shè)的前提下,附錄 C 中證明了:為了使采樣前的誤差滿足:
只需在采樣前等待的時間 T 滿足以下關(guān)系:
3.1.2 邏輯回歸
對于我們的貝葉斯邏輯回歸算法,要研究其所需的能量,相比高斯-高斯模型需要更加詳細的分析,這已超出了本文的討論范圍。
3.2 能量復(fù)雜度
對于僅提供模擬計算所需時間縮放關(guān)系的研究,我們應(yīng)保持一定的審慎態(tài)度。這是因為模擬設(shè)備本身通常會隨著維度增長而變大,可能會帶來額外的并行性;換句話說,可能某些維度上的縮放表現(xiàn)得過于樂觀,是因為可用的計算資源也隨著問題規(guī)模在增長。
因此,研究能量隨維度的增長關(guān)系也是非常必要的,這使得我們可以更公平地將熱力學(xué)計算與其他計算范式進行比較——在其他計算范式中,計算資源并不會隨著問題規(guī)模自動增長。
高斯-高斯模型協(xié)議所需的能量在附錄 C 中進行了推導(dǎo)。我們使用熱力學(xué)第一定律:
同樣,這仍然是一個最壞情況下的結(jié)果,對于平均情況的分析仍有待未來研究。
4. 實驗
4.1 高斯-高斯模型
為了驗證圖 2 中所提出的電路確實遵循正確的隨機微分方程(SDE)演化,我們進行了 SPICE 電路仿真。圖 3 展示了仿真的結(jié)果:在一個二維高斯先驗和二維高斯似然被編碼到電導(dǎo)中的情況下,通過測量每個電感中的電流來確定所得的后驗分布。電路仿真結(jié)果表明,理論預(yù)測的后驗分布與仿真得到的電流分布高度一致。
該系統(tǒng)被仿真運行了 100 微秒,采樣率為 2.0 MHz,并設(shè)置了 10 微秒的預(yù)熱(burn-in)期。為了清晰起見,圖 3 中僅繪制了用于經(jīng)驗協(xié)方差計算的 180,000 個電流樣本中的一小部分。
電導(dǎo)矩陣為:
4.2 貝葉斯線性回歸
在圖 4(b) 中,我們對用于貝葉斯線性回歸任務(wù)的熱力學(xué)線性代數(shù)設(shè)備 [29] 進行了仿真評估。我們從以下分布中采樣合成數(shù)據(jù):
4.3 貝葉斯邏輯回歸
在圖 5(a) 中,我們展示了在“雙月數(shù)據(jù)集”(two-moons dataset)上的貝葉斯邏輯回歸結(jié)果。該數(shù)據(jù)集由兩個類別組成,樣本點在二維平面上形成兩個相交的“月亮”形狀,如圖 5(a) 所示。
這些結(jié)果是通過對方程(20)所描述的隨機微分方程(SDE)進行仿真得到的,其中維度 d=2,因此對應(yīng)于熱力學(xué)硬件的理想仿真情況。在此場景中,共有 3 個參數(shù)需要采樣,并考慮了 N=100 個數(shù)據(jù)點。
從圖 5(a) 可以看出,即使對于這樣一個簡單的模型,也只有少數(shù)幾個點被錯誤分類。正如之前提到的,這種設(shè)置還能夠提供更優(yōu)的方法來估計預(yù)測中的不確定性。
在圖 5(b) 中,我們展示了隨著仿真時間變化,不同維度下樣本的 核 Stein 差異 (Kernel Stein Discrepancy, KSD) [45] 的變化情況。在這些實驗中,我們在 d 維超平面上隨機生成屬于兩類的數(shù)據(jù)點,類似于雙月數(shù)據(jù)集的結(jié)構(gòu)。圖中顯示,KSD 隨著時間呈指數(shù)方式趨近其最終值(該值不一定是零,見 [45]),這一趨勢與其他實驗中 Wasserstein 距離的變化類似。
5. 結(jié)論
貝葉斯推理與熱力學(xué)之間的聯(lián)系此前已被強調(diào) [46]、[47]、[48]、[49],但大多是在抽象層面上進行的。在本研究中,我們提出了一種基于熱力學(xué)的具體采樣貝葉斯后驗分布的方法。
在熱力學(xué)貝葉斯推理 (TBI)中,觀測數(shù)據(jù)被編碼為物理系統(tǒng)的約束條件,該系統(tǒng)的自由度代表了我們希望學(xué)習(xí)的變量。從數(shù)據(jù)中學(xué)習(xí)的過程是通過系統(tǒng)自然地趨向平衡實現(xiàn)的,等價于在給定約束下使系統(tǒng)的自由能最小化。
實現(xiàn)這一過程的設(shè)備可以被視為一種“熵泵”,它需要外部做功來降低系統(tǒng)的熵,并向環(huán)境中釋放熱量。有趣的是,已有研究指出,類似的機制可能被生物系統(tǒng)(特別是大腦)用于維持穩(wěn)態(tài)和從經(jīng)驗中學(xué)習(xí) [40]、[47]。
除了這些概念上的洞察之外,我們的工作還具有直接的實際意義。我們提出了可與CMOS兼容的模擬電路設(shè)計,以利用可擴展的硅芯片實現(xiàn)所提出的TBI算法。我們用于邏輯回歸的電路設(shè)計是首個在熱力學(xué)計算機上實現(xiàn)非高斯采樣的具體方案。
眾所周知,在數(shù)字計算機上進行非高斯采樣非常困難,因此常常通過引入高斯近似來避免此類問題。因此,我們提出的非高斯采樣方法有可能開啟一些全新的算法方向,而這些方向由于計算難度通常會被回避。
在高斯貝葉斯推理(高斯先驗、高斯似然)和邏輯回歸的情況下,我們的分析表明其復(fù)雜度隨維度 d 呈次線性增長,從而實現(xiàn)了比標(biāo)準(zhǔn)數(shù)字方法更快的速度提升,且這種加速比超過了此前熱力學(xué)線性代數(shù)方法 [29] 所能達到的線性加速。這表明,貝葉斯推理是熱力學(xué)計算的理想應(yīng)用場景。
我們的研究為使用基于物理的硬件加速貝葉斯推理奠定了基礎(chǔ),而貝葉斯推理是概率機器學(xué)習(xí)中的關(guān)鍵組成部分。
鑒于此前尚未有人探索使用熱力學(xué)計算進行貝葉斯推理,仍有許多開放性問題有待研究。近期的研究方向包括:設(shè)計用于貝葉斯線性回歸的電路實現(xiàn),以及量化我們提出的貝葉斯邏輯回歸協(xié)議的能量消耗。更長遠的目標(biāo)則是理解熱力學(xué)對貝葉斯推理在能量和時間等資源方面所施加的基本限制。
總體而言,我們認(rèn)為這項工作的意義不僅在于提供了一種新的貝葉斯計算實現(xiàn)方式,更重要的是,它通過熱力學(xué)的視角為我們提供了關(guān)于貝葉斯推理的新理解。
原文鏈接:https://arxiv.org/pdf/2410.01793
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.