On the Relationship Between Monotone and Squared Probabilistic Circuits
從單調(diào)到平方:概率電路的關(guān)系探秘
https://arxiv.org/pdf/2408.00876
摘要
概率電路是一種將函數(shù)表示為加權(quán)和與乘積的計(jì)算圖的統(tǒng)一體。它們的主要應(yīng)用在于概率建模,其中具有非負(fù)權(quán)重的概率電路(單調(diào)電路)可以用來表示和學(xué)習(xí)密度/質(zhì)量函數(shù),并且能夠進(jìn)行可追蹤的邊緣推理。最近,有人提出將密度表示為電路函數(shù)的平方(平方電路),這種方法允許使用負(fù)權(quán)重同時(shí)保持可追蹤性,并且在表達(dá)效率上可能比單調(diào)電路指數(shù)級(jí)更高效。然而,我們發(fā)現(xiàn)反過來也成立,這意味著單調(diào)電路和平方電路在一般情況下是無法比較的。這引發(fā)了一個(gè)問題:我們是否可以調(diào)和這兩種建模方法,并且確實(shí)能改進(jìn)它們?通過提出Inception PCs,一種新型的電路模型,我們給出了肯定的回答。Inception PCs自然地包含了單調(diào)電路和平方電路作為特例,并采用了復(fù)數(shù)參數(shù)。從實(shí)驗(yàn)上,我們驗(yàn)證了Inception PCs可以在多種表格數(shù)據(jù)和圖像數(shù)據(jù)集上優(yōu)于單調(diào)電路和平方電路。
代碼 — https://github.com/wangben88/InceptionPCs
1 引言
可追蹤概率建模(tractable probabilistic modeling)的理念主張通過設(shè)計(jì)支持對(duì)各種概率查詢進(jìn)行精確且高效推理的模型架構(gòu),來建模高維概率分布。這一特性使得它們?cè)诟怕释评碇袠O為有用;例如,可追蹤模型已被廣泛應(yīng)用于增強(qiáng)和控制不可追蹤生成模型(Zhang 等,2023;Liu, Niepert 和 Van den Broeck,2024),神經(jīng)符號(hào)人工智能(Ahmed 等,2022;Ahmed, Chang 和 Van den Broeck,2023),以及因果發(fā)現(xiàn)與推理(Wang, Wicker 和 Kwiatkowska,2022;Wang 和 Kwiatkowska,2023)。
可追蹤模型的通用語言是概率電路框架(Probabilistic Circuits,簡(jiǎn)稱 PC)(Choi, Vergari 和 Van den Broeck,2020),該框架使用加法和乘法的計(jì)算圖來定義函數(shù),統(tǒng)一了許多先前的可追蹤模型,如算術(shù)電路(Arithmetic Circuits)(Darwiche,2003)、和積網(wǎng)絡(luò)(Sum-Product Networks)(Poon 和 Domingos,2011)以及割集網(wǎng)絡(luò)(Cutset Networks)(Rahman, Kothalkar 和 Gogate,2014)。標(biāo)準(zhǔn)的建模方法是直接使用一個(gè)PC來表示概率分布(密度/質(zhì)量函數(shù))。為了確保PC輸出的非負(fù)性,通常限制其參數(shù)為非負(fù)值;這些被稱為單調(diào)PC(Monotone PCs)(Darwiche,2003;Poon 和 Domingos,2011)。然而,最近的研究表明,存在許多可追蹤的概率分布類別是無法用這種方式表達(dá)的(Zhang, Holtzen 和 Van den Broeck,2020;Yu, Trapp 和 Kersting,2023;Broadrick, Zhang 和 Van den Broeck,2024)。
這促使人們探索新的實(shí)用方法來構(gòu)建和學(xué)習(xí)廣義的可追蹤模型。為此,Loconte 等人(2024b)最近提出了平方電路(Squared Circuits),其中概率分布被定義為(正比于)電路函數(shù)的平方。在這種形式下,PC可以使用實(shí)數(shù)(甚至負(fù)數(shù))參數(shù),同時(shí)仍然定義一個(gè)有效的概率分布。理論上已經(jīng)證明,在某些分布類別上,這種方法相比單調(diào)PC具有指數(shù)級(jí)的表達(dá)效率優(yōu)勢(shì)。
在本文中,我們重新審視了單調(diào)電路和(結(jié)構(gòu)可分解的)平方電路,并表明它們?cè)谝话闱闆r下是不可比較的:任一者都可能比另一者在表達(dá)效率上指數(shù)級(jí)更優(yōu)。受此觀察啟發(fā),我們借鑒了PCs的潛在變量解釋(Peharz 等,2016),并揭示了這兩種電路之間的一種優(yōu)雅聯(lián)系:它們分別對(duì)應(yīng)于將潛變量求和操作放在平方外部或內(nèi)部,即“深度的和的平方”或“平方的和”。通過結(jié)合這兩類潛變量,我們提出了一種新型的可追蹤模型——深度的和的平方的平方(deep sum-of-square-of-sums),我們稱之為 Inception PC(IncPC),它嚴(yán)格地推廣并擴(kuò)展了(結(jié)構(gòu)可分解的)單調(diào)PC和平方PC。
我們進(jìn)一步研究了如何有效地大規(guī)模學(xué)習(xí)Inception PC。沿襲PC學(xué)習(xí)的最新趨勢(shì)(Peharz 等,2020b,a;Liu 和 Van den Broeck,2021;Mari, Vessio 和 Vergari,2023),我們?cè)O(shè)計(jì)了一個(gè)高效的張量化實(shí)現(xiàn)方案,能夠統(tǒng)一處理張量化的(結(jié)構(gòu)可分解的)單調(diào)PC和平方PC。實(shí)驗(yàn)結(jié)果驗(yàn)證了Inception PC在密度估計(jì)基準(zhǔn)任務(wù)中表現(xiàn)出了更高的表達(dá)效率。
我們的貢獻(xiàn)可以總結(jié)如下:
- 理論上,我們展示了一個(gè)簡(jiǎn)單的分布類別,在該類別中單調(diào)電路可能比平方電路小指數(shù)級(jí),這意味著在表達(dá)效率方面,單調(diào)電路和平方電路在一般情況下是不可比較的(第3節(jié));
我們從潛在變量視角對(duì)單調(diào)電路和平方電路進(jìn)行了分析,表明它們分別可以被解釋為“深度的和的平方”(sums-of-squares)和“平方的和”(squares-of-sums)。在此基礎(chǔ)上,我們提出了一種新型的可追蹤電路模型——Inception PCs(IncPC),它將這兩種電路統(tǒng)一起來并加以擴(kuò)展,形成一種“深度的和的平方的平方”(deep sum-of-square-of-sums)結(jié)構(gòu),并可以使用復(fù)數(shù)參數(shù)(第4節(jié));
我們?yōu)?Inception PC 提出了一個(gè)高效的張量化架構(gòu)設(shè)計(jì),使其能夠應(yīng)用于大規(guī)模數(shù)據(jù)集(第5節(jié));
- 實(shí)驗(yàn)上,我們展示了:(i) 結(jié)合兩種類型的潛變量并引入復(fù)數(shù)參數(shù)可以提升模型性能;(ii) 在包括降尺度版 ImageNet 在內(nèi)的多個(gè)具有挑戰(zhàn)性的基準(zhǔn)任務(wù)上,即使考慮計(jì)算時(shí)間歸一化的情況下,Inception PC 也能優(yōu)于單調(diào)電路和平方電路(第7節(jié))。
在同期的研究工作中,Loconte、Mengel 和 Vergari(2025)也使用類似的函數(shù)族證明了單調(diào)電路與平方電路之間的指數(shù)級(jí)差異(即我們的定理2)。他們還提出了兩種新的模型類別——SOCS 和 μSOCS,用于推廣平方電路。我們?cè)诟戒汚中詳細(xì)討論了這些模型與我們的 Inception PC 的聯(lián)系。
2 預(yù)備知識(shí)
記號(hào):我們使用大寫字母表示變量,小寫字母表示它們的賦值/取值(例如,X,x)。我們使用粗體字母(例如,X,x)表示變量集合或賦值集合。
概率電路是一種計(jì)算圖,用于表示通過加權(quán)和與乘積的層次化組合所構(gòu)建的函數(shù)。
其中每個(gè)和節(jié)點(diǎn)具有一組權(quán)重 {θ?,??}??∈in(n),其中 θ?,?? ∈ ?。每個(gè)節(jié)點(diǎn) n 都表示關(guān)于一組變量 sc(n) 的函數(shù),我們稱 sc(n) 為該節(jié)點(diǎn)的作用域(scope);對(duì)于內(nèi)部節(jié)點(diǎn),其作用域定義為 sc(n) = ∪??∈in(n) sc(n?)。整個(gè)概率電路 f_C 所表示的函數(shù),即為其根節(jié)點(diǎn)所表示的函數(shù)。一個(gè)概率電路 |C| 的大小定義為其有向無環(huán)圖(DAG)中的邊的數(shù)量。
在本文中,我們假設(shè)和節(jié)點(diǎn)與積節(jié)點(diǎn)是交替出現(xiàn)的;這一假設(shè)不失一般性,因?yàn)榭梢酝ㄟ^最多線性增加電路大小的方式,使任意概率電路滿足這一性質(zhì)。
概率電路的和-積結(jié)構(gòu)的一個(gè)關(guān)鍵特性是,它允許高效地(線性時(shí)間)計(jì)算邊緣分布,例如配分函數(shù),前提是電路是平滑(smooth)且可分解(decomposable)的:
定義 2(平滑性,可分解性):一個(gè)概率電路是平滑的,如果對(duì)于每一個(gè)和節(jié)點(diǎn) n,它的輸入節(jié)點(diǎn) ni 具有相同的作用域(scope)。一個(gè)概率電路是可分解的,如果對(duì)于每一個(gè)積節(jié)點(diǎn) n,它的輸入節(jié)點(diǎn)具有互不重疊的作用域。
我們還需要一種更強(qiáng)的可分解性形式,它使得多個(gè)電路可以被高效地相乘(Pipatsrisawat 和 Darwiche,2008;Vergari 等,2021):
定義 3(結(jié)構(gòu)化可分解性):一個(gè)平滑且可分解的概率電路被稱為結(jié)構(gòu)化可分解的,如果任意兩個(gè)作用域相同的積節(jié)點(diǎn) n 和 n′ 以相同的方式進(jìn)行分解。
在從數(shù)據(jù)中學(xué)習(xí)概率電路時(shí)(Liu 和 Van den Broeck,2021),以及從其他模型(如貝葉斯網(wǎng)絡(luò))編譯生成電路時(shí)(Choi, Kisa 和 Darwiche,2013),通常都會(huì)施加結(jié)構(gòu)化可分解性的約束。
3 單調(diào)與平方結(jié)構(gòu)化可分解電路的表達(dá)效率
概率電路的一個(gè)主要應(yīng)用是作為概率分布的可追蹤表示。因此,我們通常要求電路輸出的函數(shù)值為非負(fù)實(shí)數(shù)。實(shí)現(xiàn)這一要求的常用方法是對(duì)權(quán)重和輸入函數(shù)施加非負(fù)性約束:
定義 4(單調(diào) PC):一個(gè)概率電路被稱為單調(diào)電路(Monotone PC),如果其所有權(quán)重均為非負(fù)實(shí)數(shù),并且所有輸入函數(shù)的輸出也為非負(fù)實(shí)數(shù)。
這或許有些令人驚訝,因?yàn)閷?duì)概率電路進(jìn)行平方操作會(huì)生成具有可能為負(fù)的權(quán)重的結(jié)構(gòu)化電路,這表明它們應(yīng)該比單調(diào)結(jié)構(gòu)化的概率電路更通用。
關(guān)鍵在于,并非所有表示正函數(shù)的電路(甚至并非所有單調(diào)結(jié)構(gòu)化的電路)都可以通過對(duì)某個(gè)函數(shù)平方來生成。
綜合來看,這些結(jié)果有些令人不滿意,因?yàn)槲覀冎来嬖谝恍┓植几m合用未平方的單調(diào) PC 來表示,而另一些分布則更適合用平方后的實(shí)值 PC 來表示。
在下一節(jié)中,我們將探討如何調(diào)和這些不同的概率分布建模方法。
4 朝向深度和的平方的平方的統(tǒng)一模型
在本節(jié)中,我們深入探討單調(diào)電路與平方電路之間的關(guān)系。首先,我們展示如何為平方電路引入復(fù)數(shù)參數(shù)化(命題1)。其次,我們從一個(gè)新的角度解釋單調(diào)電路與平方電路:它們是邊緣化潛在變量的不同方式(圖1);并在此基礎(chǔ)上提出一種新的可追蹤模型——Inception PCs,將這兩種方法結(jié)合起來(定理3)。
4.1 復(fù)數(shù)參數(shù)
我們首先指出,除了簡(jiǎn)單的負(fù)參數(shù)之外,我們還可以允許使用復(fù)數(shù)權(quán)重和輸入函數(shù)2,即取值在復(fù)數(shù)域 ? 中。為了確保平方電路的非負(fù)性,我們將一個(gè)電路與其復(fù)共軛相乘。也就是說:
由于復(fù)共軛是復(fù)數(shù)域 ? 的一個(gè)域同構(gòu)映射(field isomorphism),對(duì)一個(gè)電路取復(fù)共軛,就如同對(duì)其中的每一個(gè)權(quán)重和輸入函數(shù)分別取復(fù)共軛,同時(shí)保留原電路相同的有向無環(huán)圖(DAG)結(jié)構(gòu)。這使得我們能夠高效地將概率分布 表示為一個(gè)(平滑且結(jié)構(gòu)化可分解的)電路:
4.2 深度和的平方的平方:一種潛在變量視角
在概率電路的潛在變量解釋(Latent Variable Interpretation, LVI)中(Peharz 等人,2016),對(duì)于每一個(gè)和節(jié)點(diǎn)(sum node),我們分配一個(gè)分類潛變量(categorical latent variable),其中該潛變量的每一個(gè)狀態(tài)對(duì)應(yīng)和節(jié)點(diǎn)的一個(gè)輸入;我們?cè)趫D1a中展示了一個(gè)示例。在這種解釋下,當(dāng)在概率電路中進(jìn)行推理時(shí),我們事先對(duì)所有潛變量進(jìn)行邊緣化(marginalize over)。
在電路具有結(jié)構(gòu)化可分解性的前提下,我們可以為電路中出現(xiàn)的變量作用域(即變量集合)分配對(duì)應(yīng)的潛變量。具體來說,對(duì)于兩個(gè)具有相同作用域 sc(n) = sc(n′) 的和節(jié)點(diǎn) n 和 n′,它們共享同一個(gè)潛變量 Zsc(n)。設(shè) Z 為所有潛變量的集合,則概率電路所表示的函數(shù)可以表達(dá)為:
其中,對(duì)于任意 z 的取值,fC(V,z) 是輸入函數(shù)的乘積。
換句話說,給定一個(gè)潛變量 z 的取值后,概率電路所表示的分布是完全可分解的(fully factorized)。
然而,當(dāng)我們考慮由平方電路定義的概率分布時(shí),對(duì)這些潛變量的解釋就變得復(fù)雜了。關(guān)鍵問題是:我們是在平方之前還是之后對(duì)潛變量進(jìn)行邊緣化?
我們?cè)趫D1b和圖1c中展示了這兩種情況:
在圖1b中,我們?cè)谶吘壔瘽撟兞?Z之前進(jìn)行平方。在這種情況下,每個(gè)和節(jié)點(diǎn)的權(quán)重都與其共軛相乘,結(jié)果得到一個(gè)具有非負(fù)實(shí)數(shù)參數(shù)的和節(jié)點(diǎn)。
另一方面,如果我們?cè)?strong>平方之前就對(duì)潛變量進(jìn)行邊緣化(如圖1c所示),那么我們將面對(duì)一個(gè)具有四個(gè)子節(jié)點(diǎn)且權(quán)重為復(fù)數(shù)的和節(jié)點(diǎn)。
有趣的是,前一種情況與直接構(gòu)造一個(gè)單調(diào)PC非常相似,而后一種情況則更像是在沒有潛變量的情況下進(jìn)行顯式的平方操作。
這表明,我們可以通過決定是否將潛變量的求和放在平方的內(nèi)部或外部,來在單調(diào)PC與平方PC之間切換。
基于這一視角,我們提出了以下模型,它顯式地將兩種類型的潛變量引入到電路中,從而生成一個(gè)深度的和的平方的平方(deep sum-of-square-of-sums)結(jié)構(gòu):
由于U-潛變量(U-latents)位于平方之外,而W-潛變量(W-latents)位于平方之內(nèi),我們將它們分別稱為1-范數(shù)潛變量和2-范數(shù)潛變量。
接下來的定理表明,給定一個(gè) Inception PC,我們可以高效地將其“具體化”為一個(gè)僅作用于觀測(cè)變量 V 上的可追蹤概率電路,該電路表示 Inception PC 的分布:
在圖2中,我們展示了一個(gè)示例性的 Inception PC(的一部分),以及通過定理3進(jìn)行“具體化”后的形式。在本文的其余部分,我們將這種形式稱為materialized Inception PC(具體化的 Inception PC)。關(guān)鍵在于:我們可以通過對(duì) materialized IncPC 使用標(biāo)準(zhǔn)的 PC 推理過程,來高效地對(duì) Inception PC 的分布進(jìn)行推理。
雖然這不是必須的,但我們假設(shè)(與單調(diào)PC和平方PC的LVI一致)W 和 U 是分類變量(categoricals),并且作用域覆蓋這些變量的輸入節(jié)點(diǎn)是指示函數(shù)(indicator),例如
然而,當(dāng)我們同時(shí)使用兩種類型的潛變量時(shí),我們就得到了一個(gè)廣義的PC模型,其表達(dá)效率嚴(yán)格優(yōu)于單獨(dú)使用任一類型。
推論 1(Inception PCs 的表達(dá)效率):
Inception PCs 在表達(dá)效率上嚴(yán)格優(yōu)于(結(jié)構(gòu)化可分解的)單調(diào)PC和平方PC。
5 張量化 Inception PCs
到目前為止,我們已經(jīng)描述了 Inception PCs 的一個(gè)通用形式,它只要求電路具有平滑性和結(jié)構(gòu)化可分解性。在實(shí)際應(yīng)用中,我們希望設(shè)計(jì)特定的電路架構(gòu)以用于學(xué)習(xí)與推理。
本節(jié)的目的有兩個(gè):
(i) 提出一種適合在 GPU 上進(jìn)行學(xué)習(xí)與推理的 Inception PC 架構(gòu);
(ii) 從另一個(gè)角度——即層級(jí)張量收縮(hierarchical tensor contractions)——來重新理解 Inception PCs。
我們?cè)趫D3中展示了這一和節(jié)點(diǎn)區(qū)域的結(jié)構(gòu)。從高層次來看,圖3中各節(jié)點(diǎn)組之間的連接可以看作是一個(gè)標(biāo)準(zhǔn)的單調(diào)PC;特別是,每個(gè)和節(jié)點(diǎn)組的值就是其子節(jié)點(diǎn)的加權(quán)和。然而,與傳統(tǒng)的標(biāo)量節(jié)點(diǎn)之間的加權(quán)邊不同,這里的每條加權(quán)邊連接的是兩組二維的“平方”節(jié)點(diǎn)("squared" nodes)。
前向傳播的復(fù)雜度可以從公式(5)中的張量收縮中推導(dǎo)出來。在表1中,我們比較了單調(diào)PC、平方PC和Inception PC在每個(gè)區(qū)域上的參數(shù)數(shù)量(即內(nèi)存開銷)以及前向傳播時(shí)間復(fù)雜度,其中 B 表示數(shù)據(jù)批次的大小。
可以看出,當(dāng)設(shè)置 ,Inception PC 的參數(shù)數(shù)量 / 復(fù)雜度分別與單調(diào)PC和平方PC相同,只是在平方PC的情況下復(fù)雜度略有不同:這是因?yàn)樵谶@一特殊情況下,平方操作可以在每批次中僅執(zhí)行一次(Loconte 等人,2024b)。
與之前的工作(Peharz 等人,2020a)一樣,我們將電路組織成層(即可以同時(shí)計(jì)算的一組區(qū)域),以進(jìn)一步利用GPU的并行計(jì)算能力。在訓(xùn)練過程中,我們對(duì)訓(xùn)練集的負(fù)對(duì)數(shù)似然使用梯度下降法進(jìn)行優(yōu)化。在使用復(fù)數(shù)參數(shù)的情況下,我們采用Wirtinger 導(dǎo)數(shù)(Kreutz-Delgado, 2009)來優(yōu)化復(fù)數(shù)權(quán)重和輸入函數(shù)。為了實(shí)現(xiàn)數(shù)值穩(wěn)定性,我們使用了一種針對(duì)復(fù)數(shù)的 log-sum-exp 技巧的變體,具體描述見附錄D。
6 相關(guān)工作
概率模型的空間可以通過可追蹤性(tractability)和表達(dá)效率(expressive efficiency)的視角來有效刻畫(Choi, Vergari 和 Van den Broeck,2020)。可追蹤性是一個(gè)連續(xù)譜系,從不可追蹤的模型(如擴(kuò)散模型 Ho, Jain 和 Abbeel,2020;變分自編碼器 Kingma 和 Welling,2014),到允許可追蹤似然的模型(如歸一化流 Papamakarios 等人,2021),再到允許可追蹤邊緣分布及更復(fù)雜查詢的模型(如概率電路 Vergari 等人,2021;Wang 等人,2024)。
然而,由于計(jì)算圖中施加了特定結(jié)構(gòu),概率電路在實(shí)踐中通常比那些可追蹤性較低的模型表達(dá)能力弱。因此,已有大量研究致力于在保持可追蹤性的前提下提升概率電路的表達(dá)效率(Sidheekh 和 Natarajan,2024)。
我們的工作建立在電路領(lǐng)域長(zhǎng)期的研究基礎(chǔ)上,這些研究考察了放寬電路中單調(diào)性條件的影響。理論上已知,在算術(shù)電路中引入負(fù)參數(shù)可以在簡(jiǎn)潔性上帶來指數(shù)級(jí)的提升(Valiant,1979),盡管這一結(jié)論并不適用于所有類型的子電路(de Colnet 和 Mengel,2021)。在實(shí)際應(yīng)用中,近期的研究也嘗試在概率建模中利用負(fù)參數(shù)(Zhang, Holtzen 和 Van den Broeck,2020;Zhang, Juba 和 Van den Broeck,2021;Sladek, Trapp 和 Solin,2023;Loconte 等人,2024b)。
Yu、Trapp 和 Kersting(2023)設(shè)計(jì)了用于表示分布特征函數(shù)的電路,該函數(shù)可以取復(fù)數(shù)值(特別是使用復(fù)數(shù)葉子節(jié)點(diǎn))。與我們工作同期,Loconte、Mengel 和 Vergari(2025)提出使用多個(gè)平方電路的和來克服我們?cè)诒疚闹杏^察到的類似限制。
此外,還存在一系列其他采用負(fù)參數(shù)化和/或平方機(jī)制的概率模型:
- 張量網(wǎng)絡(luò)
(tensor networks),例如流行的矩陣乘積態(tài)(Matrix Product States, MPS)(Perez-Garcia 等人,2007),通過稀疏張量收縮緊湊地編碼函數(shù)。它們常用于建模量子態(tài),其中觀測(cè)的概率是通過對(duì)波函數(shù)平方得到的(即 Born 規(guī)則,Dirac,1981);最近也被用于概率建模(Cheng 等人,2019;Glasser 等人,2019)。
在核方法文獻(xiàn)中,半正定模型(positive semidefinite models)(Rudi 和 Ciliberto,2021)使用淺層的平方和來定義未歸一化的分布。
Tsuchida、Ong 和 Sejdinovic(2023, 2024)最近提出了平方神經(jīng)族(squared neural families),其密度函數(shù)中使用了神經(jīng)網(wǎng)絡(luò)的平方 L2 范數(shù),并嚴(yán)格推廣了指數(shù)族模型。
我們?cè)诟戒汚中詳細(xì)討論了這些模型與我們提出的 Inception PC 的技術(shù)聯(lián)系。
7 實(shí)驗(yàn)
在我們的實(shí)驗(yàn)中,我們旨在回答以下研究問題:
Inception PCs 是否在表達(dá)能力和建模性能上優(yōu)于單調(diào)PC和平方PC?
在建模性能和計(jì)算成本之間,1-范數(shù)潛變量(one-norm latents)與2-范數(shù)潛變量(two-norm latents)的數(shù)量權(quán)衡如何?
Inception PCs 的復(fù)數(shù)參數(shù)化與非負(fù)參數(shù)化和實(shí)數(shù)參數(shù)化相比表現(xiàn)如何?
在所有實(shí)驗(yàn)中,我們都使用了隱藏 Chow-Liu 樹(Hidden Chow-Liu Trees, HCLT)作為概率電路的 vtree(Liu 和 Van den Broeck,2021),因?yàn)樗鼭M足所需的結(jié)構(gòu)化可分解性,并且已被證明可以為概率電路提供最先進(jìn)的似然性能。
更多實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參見附錄 E。
7.1 二值數(shù)據(jù)集
我們首先在20 個(gè)二值數(shù)據(jù)集上進(jìn)行評(píng)估,這些數(shù)據(jù)集被廣泛用作密度估計(jì)的基準(zhǔn)測(cè)試數(shù)據(jù)(Rooshenas 和 Lowd,2014;Peharz 等人,2020b)。
我們的目標(biāo)是研究在這組數(shù)據(jù)集中:
- 非負(fù)參數(shù)化、實(shí)數(shù)參數(shù)化和復(fù)數(shù)參數(shù)化
之間有何差異;
- Inception PCs
是否能夠有效利用兩種類型的潛變量,通過與單調(diào)PC和平方PC的對(duì)比來驗(yàn)證這一點(diǎn)。
具體來說,我們?yōu)椴煌P驮O(shè)定了以下參數(shù)規(guī)模:
單調(diào) PC:(N?, N?) = (8, 1)
平方 PC:(N?, N?) = (1, 8)
Inception PC:(N?, N?) = (8, 8)
我們使用 Adam 優(yōu)化器(Kingma 和 Ba,2015),以學(xué)習(xí)率 0.01,對(duì)每個(gè)模型訓(xùn)練 100 輪,優(yōu)化其負(fù)對(duì)數(shù)似然。每種配置下我們都進(jìn)行了 5 次實(shí)驗(yàn)并取平均結(jié)果。
實(shí)驗(yàn)結(jié)果見表2。可以看到,在 20 個(gè)數(shù)據(jù)集中,Inception PCs 在 14 個(gè)上取得了最佳似然表現(xiàn),這證實(shí)了它相比僅使用平方機(jī)制具有更強(qiáng)的建模能力。
與現(xiàn)有模型相比,Inception PCs 的表現(xiàn)也非常優(yōu)異,包括可追蹤模型如 RAT-SPNs(Peharz 等人,2020b),以及不可追蹤模型如重要性加權(quán)自編碼器(IWAE)(Burda, Grosse 和 Salakhutdinov,2016)。
有趣的是,即使平方PC使用的是非負(fù)參數(shù),它們的表現(xiàn)也優(yōu)于具有相同參數(shù)數(shù)量的單調(diào)PC——這一現(xiàn)象也在 Loconte 等人(2024b)圖3中被觀察到。
更值得注意的是,盡管邊緣權(quán)重的復(fù)數(shù)參數(shù)化嚴(yán)格地推廣了實(shí)數(shù)和非負(fù)參數(shù)化,但在性能上并沒有明顯的優(yōu)勢(shì)趨勢(shì)。在許多情況下,非負(fù)參數(shù)化反而能取得與實(shí)數(shù)或復(fù)數(shù)參數(shù)化相當(dāng)甚至更好的似然表現(xiàn)。
我們發(fā)現(xiàn),這(至少部分原因)是因?yàn)?strong>復(fù)數(shù)和負(fù)參數(shù)化更容易過擬合(參見附錄F中的訓(xùn)練似然結(jié)果)。
7.2 擴(kuò)展到大規(guī)模圖像數(shù)據(jù)集
在本節(jié)中,我們?cè)?strong>大規(guī)模圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),特別是將 ImageNet(Deng 等人,2009)降尺度為32×32和64×64的版本。
我們遵循近期在這些圖像數(shù)據(jù)集上構(gòu)建概率電路模型的相關(guān)工作(Liu, Zhang 和 Van den Broeck,2023;Liu 等人,2023;Liu, Ahmed 和 Van den Broeck,2024),使用有損的YCoCg 色彩空間變換對(duì)原始 RGB 數(shù)據(jù)進(jìn)行轉(zhuǎn)換。需要注意的是,因此在 YCoCg 轉(zhuǎn)換后的數(shù)據(jù)上獲得的似然值不能直接與原始 RGB 數(shù)據(jù)上的似然值進(jìn)行比較。
此外,為了提高訓(xùn)練效率,我們僅在原始圖像的16×16 像素塊上進(jìn)行訓(xùn)練,使得每個(gè) PC 模型建模16×16×3 = 768 個(gè)變量,每個(gè)變量具有256 個(gè)類別(對(duì)應(yīng)像素顏色值)。
我們?nèi)匀皇褂?Adam 優(yōu)化器以學(xué)習(xí)率 0.01 來最小化負(fù)對(duì)數(shù)似然函數(shù)進(jìn)行訓(xùn)練,并使用測(cè)試集上的每維度比特?cái)?shù)(bits-per-dimension,bpd)作為評(píng)估指標(biāo)。
我們首先考察兩種潛變量之間的權(quán)衡關(guān)系。為此,在圖4中,我們?cè)?ImageNet32 數(shù)據(jù)集上繪制了不同 (N?, N?) 配置下的測(cè)試 bpd 曲線。這些配置是基于對(duì) N?, N? ∈ {1, 2, 4, 8, 16, 32, 64} 的搜索結(jié)果確定的,同時(shí)受限于每個(gè)區(qū)域最多允許21? = 262,144 FLOPS(浮點(diǎn)運(yùn)算次數(shù)/秒)的計(jì)算預(yù)算(參見表1)。
可以看出,在這些限制條件下最優(yōu)的配置是(N? = 32, N? = 4),對(duì)應(yīng)的測(cè)試 bpd 為4.19。該配置結(jié)合了1-范數(shù)潛變量和2-范數(shù)潛變量,而不是單純使用單調(diào)結(jié)構(gòu)(N? = 1)或平方結(jié)構(gòu)(N? = 1)。
在表3中,我們總結(jié)了在ImageNet32和ImageNet64數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果:
- MPC
表示一個(gè)單調(diào)PC,配置為 (N?, N?) = (64, 1)
- SQC
表示一個(gè)平方PC,配置為 (N?, N?) = (1, 64)
- IncPC
表示一個(gè)張量化的 Inception PC,在給定計(jì)算時(shí)間約束下采用最優(yōu)配置 (N?, N?)
作為對(duì)比,我們還列出了使用期望最大化算法(EM)訓(xùn)練的單調(diào) HCLT PC,以及使用潛變量蒸餾(LVD)方法訓(xùn)練的模型——后者通過從現(xiàn)有的深度生成模型中提取信息來指導(dǎo) PC 的潛空間學(xué)習(xí)(Liu, Zhang 和 Van den Broeck,2023)。
實(shí)驗(yàn)結(jié)果顯示:通過 Adam 初始化即可有效地訓(xùn)練可追蹤的概率電路模型,其 bpd 性能可以達(dá)到當(dāng)前最先進(jìn)的水平。
8 結(jié)論
總而言之,我們展示了兩類重要的可追蹤概率模型——單調(diào)結(jié)構(gòu)化可分解PC與平方實(shí)數(shù)結(jié)構(gòu)化可分解PC——在表達(dá)效率上通常是不可比較的。因此,我們提出了一種新的概率電路模型——Inception PCs,它基于“深度和的平方的平方”(deep sums-of-squares-of-sums)結(jié)構(gòu),統(tǒng)一并推廣了上述兩種方法,并且可以使用復(fù)數(shù)參數(shù)。
我們還通過實(shí)驗(yàn)驗(yàn)證了 Inception PCs 在多種表格數(shù)據(jù)集和圖像數(shù)據(jù)集上能夠提供更優(yōu)的性能。
未來值得探索的方向包括:改進(jìn) Inception PCs 中復(fù)數(shù)參數(shù)的優(yōu)化方法;以及通過設(shè)計(jì)更高效的架構(gòu)來降低訓(xùn)練的計(jì)算成本。
原文鏈接:https://arxiv.org/pdf/2408.00876
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.