99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從單調(diào)到平方:概率電路的關(guān)系探秘

0
分享至

On the Relationship Between Monotone and Squared Probabilistic Circuits

從單調(diào)到平方:概率電路的關(guān)系探秘

https://arxiv.org/pdf/2408.00876



摘要
概率電路是一種將函數(shù)表示為加權(quán)和與乘積的計(jì)算圖的統(tǒng)一體。它們的主要應(yīng)用在于概率建模,其中具有非負(fù)權(quán)重的概率電路(單調(diào)電路)可以用來表示和學(xué)習(xí)密度/質(zhì)量函數(shù),并且能夠進(jìn)行可追蹤的邊緣推理。最近,有人提出將密度表示為電路函數(shù)的平方(平方電路),這種方法允許使用負(fù)權(quán)重同時(shí)保持可追蹤性,并且在表達(dá)效率上可能比單調(diào)電路指數(shù)級(jí)更高效。然而,我們發(fā)現(xiàn)反過來也成立,這意味著單調(diào)電路和平方電路在一般情況下是無法比較的。這引發(fā)了一個(gè)問題:我們是否可以調(diào)和這兩種建模方法,并且確實(shí)能改進(jìn)它們?通過提出Inception PCs,一種新型的電路模型,我們給出了肯定的回答。Inception PCs自然地包含了單調(diào)電路和平方電路作為特例,并采用了復(fù)數(shù)參數(shù)。從實(shí)驗(yàn)上,我們驗(yàn)證了Inception PCs可以在多種表格數(shù)據(jù)和圖像數(shù)據(jù)集上優(yōu)于單調(diào)電路和平方電路。


代碼 — https://github.com/wangben88/InceptionPCs

1 引言

可追蹤概率建模(tractable probabilistic modeling)的理念主張通過設(shè)計(jì)支持對(duì)各種概率查詢進(jìn)行精確且高效推理的模型架構(gòu),來建模高維概率分布。這一特性使得它們?cè)诟怕释评碇袠O為有用;例如,可追蹤模型已被廣泛應(yīng)用于增強(qiáng)和控制不可追蹤生成模型(Zhang 等,2023;Liu, Niepert 和 Van den Broeck,2024),神經(jīng)符號(hào)人工智能(Ahmed 等,2022;Ahmed, Chang 和 Van den Broeck,2023),以及因果發(fā)現(xiàn)與推理(Wang, Wicker 和 Kwiatkowska,2022;Wang 和 Kwiatkowska,2023)。

可追蹤模型的通用語言是概率電路框架(Probabilistic Circuits,簡(jiǎn)稱 PC)(Choi, Vergari 和 Van den Broeck,2020),該框架使用加法和乘法的計(jì)算圖來定義函數(shù),統(tǒng)一了許多先前的可追蹤模型,如算術(shù)電路(Arithmetic Circuits)(Darwiche,2003)、和積網(wǎng)絡(luò)(Sum-Product Networks)(Poon 和 Domingos,2011)以及割集網(wǎng)絡(luò)(Cutset Networks)(Rahman, Kothalkar 和 Gogate,2014)。標(biāo)準(zhǔn)的建模方法是直接使用一個(gè)PC來表示概率分布(密度/質(zhì)量函數(shù))。為了確保PC輸出的非負(fù)性,通常限制其參數(shù)為非負(fù)值;這些被稱為單調(diào)PC(Monotone PCs)(Darwiche,2003;Poon 和 Domingos,2011)。然而,最近的研究表明,存在許多可追蹤的概率分布類別是無法用這種方式表達(dá)的(Zhang, Holtzen 和 Van den Broeck,2020;Yu, Trapp 和 Kersting,2023;Broadrick, Zhang 和 Van den Broeck,2024)。

這促使人們探索新的實(shí)用方法來構(gòu)建和學(xué)習(xí)廣義的可追蹤模型。為此,Loconte 等人(2024b)最近提出了平方電路(Squared Circuits),其中概率分布被定義為(正比于)電路函數(shù)的平方。在這種形式下,PC可以使用實(shí)數(shù)(甚至負(fù)數(shù))參數(shù),同時(shí)仍然定義一個(gè)有效的概率分布。理論上已經(jīng)證明,在某些分布類別上,這種方法相比單調(diào)PC具有指數(shù)級(jí)的表達(dá)效率優(yōu)勢(shì)。

在本文中,我們重新審視了單調(diào)電路和(結(jié)構(gòu)可分解的)平方電路,并表明它們?cè)谝话闱闆r下是不可比較的:任一者都可能比另一者在表達(dá)效率上指數(shù)級(jí)更優(yōu)。受此觀察啟發(fā),我們借鑒了PCs的潛在變量解釋(Peharz 等,2016),并揭示了這兩種電路之間的一種優(yōu)雅聯(lián)系:它們分別對(duì)應(yīng)于將潛變量求和操作放在平方外部或內(nèi)部,即“深度的和的平方”或“平方的和”。通過結(jié)合這兩類潛變量,我們提出了一種新型的可追蹤模型——深度的和的平方的平方(deep sum-of-square-of-sums),我們稱之為 Inception PC(IncPC),它嚴(yán)格地推廣并擴(kuò)展了(結(jié)構(gòu)可分解的)單調(diào)PC和平方PC。

我們進(jìn)一步研究了如何有效地大規(guī)模學(xué)習(xí)Inception PC。沿襲PC學(xué)習(xí)的最新趨勢(shì)(Peharz 等,2020b,a;Liu 和 Van den Broeck,2021;Mari, Vessio 和 Vergari,2023),我們?cè)O(shè)計(jì)了一個(gè)高效的張量化實(shí)現(xiàn)方案,能夠統(tǒng)一處理張量化的(結(jié)構(gòu)可分解的)單調(diào)PC和平方PC。實(shí)驗(yàn)結(jié)果驗(yàn)證了Inception PC在密度估計(jì)基準(zhǔn)任務(wù)中表現(xiàn)出了更高的表達(dá)效率。

我們的貢獻(xiàn)可以總結(jié)如下:

  • 理論上,我們展示了一個(gè)簡(jiǎn)單的分布類別,在該類別中單調(diào)電路可能比平方電路小指數(shù)級(jí),這意味著在表達(dá)效率方面,單調(diào)電路和平方電路在一般情況下是不可比較的(第3節(jié));
  • 我們從潛在變量視角對(duì)單調(diào)電路和平方電路進(jìn)行了分析,表明它們分別可以被解釋為“深度的和的平方”(sums-of-squares)和“平方的和”(squares-of-sums)。在此基礎(chǔ)上,我們提出了一種新型的可追蹤電路模型——Inception PCs(IncPC),它將這兩種電路統(tǒng)一起來并加以擴(kuò)展,形成一種“深度的和的平方的平方”(deep sum-of-square-of-sums)結(jié)構(gòu),并可以使用復(fù)數(shù)參數(shù)(第4節(jié));

  • 我們?yōu)?Inception PC 提出了一個(gè)高效的張量化架構(gòu)設(shè)計(jì),使其能夠應(yīng)用于大規(guī)模數(shù)據(jù)集(第5節(jié));

  • 實(shí)驗(yàn)上,我們展示了:(i) 結(jié)合兩種類型的潛變量并引入復(fù)數(shù)參數(shù)可以提升模型性能;(ii) 在包括降尺度版 ImageNet 在內(nèi)的多個(gè)具有挑戰(zhàn)性的基準(zhǔn)任務(wù)上,即使考慮計(jì)算時(shí)間歸一化的情況下,Inception PC 也能優(yōu)于單調(diào)電路和平方電路(第7節(jié))。

在同期的研究工作中,Loconte、Mengel 和 Vergari(2025)也使用類似的函數(shù)族證明了單調(diào)電路與平方電路之間的指數(shù)級(jí)差異(即我們的定理2)。他們還提出了兩種新的模型類別——SOCS 和 μSOCS,用于推廣平方電路。我們?cè)诟戒汚中詳細(xì)討論了這些模型與我們的 Inception PC 的聯(lián)系。

2 預(yù)備知識(shí)

記號(hào):我們使用大寫字母表示變量,小寫字母表示它們的賦值/取值(例如,X,x)。我們使用粗體字母(例如,Xx)表示變量集合或賦值集合。

概率電路是一種計(jì)算圖,用于表示通過加權(quán)和與乘積的層次化組合所構(gòu)建的函數(shù)。


其中每個(gè)和節(jié)點(diǎn)具有一組權(quán)重 {θ?,??}??∈in(n),其中 θ?,?? ∈ ?。每個(gè)節(jié)點(diǎn) n 都表示關(guān)于一組變量 sc(n) 的函數(shù),我們稱 sc(n) 為該節(jié)點(diǎn)的作用域(scope);對(duì)于內(nèi)部節(jié)點(diǎn),其作用域定義為 sc(n) = ∪??∈in(n) sc(n?)。整個(gè)概率電路 f_C 所表示的函數(shù),即為其根節(jié)點(diǎn)所表示的函數(shù)。一個(gè)概率電路 |C| 的大小定義為其有向無環(huán)圖(DAG)中的邊的數(shù)量。

在本文中,我們假設(shè)和節(jié)點(diǎn)與積節(jié)點(diǎn)是交替出現(xiàn)的;這一假設(shè)不失一般性,因?yàn)榭梢酝ㄟ^最多線性增加電路大小的方式,使任意概率電路滿足這一性質(zhì)。

概率電路的和-積結(jié)構(gòu)的一個(gè)關(guān)鍵特性是,它允許高效地(線性時(shí)間)計(jì)算邊緣分布,例如配分函數(shù),前提是電路是平滑(smooth)且可分解(decomposable)的:

定義 2(平滑性,可分解性):一個(gè)概率電路是平滑的,如果對(duì)于每一個(gè)和節(jié)點(diǎn) n,它的輸入節(jié)點(diǎn) ni 具有相同的作用域(scope)。一個(gè)概率電路是可分解的,如果對(duì)于每一個(gè)積節(jié)點(diǎn) n,它的輸入節(jié)點(diǎn)具有互不重疊的作用域。

我們還需要一種更強(qiáng)的可分解性形式,它使得多個(gè)電路可以被高效地相乘(Pipatsrisawat 和 Darwiche,2008;Vergari 等,2021):

定義 3(結(jié)構(gòu)化可分解性):一個(gè)平滑且可分解的概率電路被稱為結(jié)構(gòu)化可分解的,如果任意兩個(gè)作用域相同的積節(jié)點(diǎn) n 和 n′ 以相同的方式進(jìn)行分解。

在從數(shù)據(jù)中學(xué)習(xí)概率電路時(shí)(Liu 和 Van den Broeck,2021),以及從其他模型(如貝葉斯網(wǎng)絡(luò))編譯生成電路時(shí)(Choi, Kisa 和 Darwiche,2013),通常都會(huì)施加結(jié)構(gòu)化可分解性的約束。

3 單調(diào)與平方結(jié)構(gòu)化可分解電路的表達(dá)效率

概率電路的一個(gè)主要應(yīng)用是作為概率分布的可追蹤表示。因此,我們通常要求電路輸出的函數(shù)值為非負(fù)實(shí)數(shù)。實(shí)現(xiàn)這一要求的常用方法是對(duì)權(quán)重和輸入函數(shù)施加非負(fù)性約束:

定義 4(單調(diào) PC):一個(gè)概率電路被稱為單調(diào)電路(Monotone PC),如果其所有權(quán)重均為非負(fù)實(shí)數(shù),并且所有輸入函數(shù)的輸出也為非負(fù)實(shí)數(shù)。



這或許有些令人驚訝,因?yàn)閷?duì)概率電路進(jìn)行平方操作會(huì)生成具有可能為負(fù)的權(quán)重的結(jié)構(gòu)化電路,這表明它們應(yīng)該比單調(diào)結(jié)構(gòu)化的概率電路更通用。

關(guān)鍵在于,并非所有表示正函數(shù)的電路(甚至并非所有單調(diào)結(jié)構(gòu)化的電路)都可以通過對(duì)某個(gè)函數(shù)平方來生成。

綜合來看,這些結(jié)果有些令人不滿意,因?yàn)槲覀冎来嬖谝恍┓植几m合用未平方的單調(diào) PC 來表示,而另一些分布則更適合用平方后的實(shí)值 PC 來表示。

在下一節(jié)中,我們將探討如何調(diào)和這些不同的概率分布建模方法。

4 朝向深度和的平方的平方的統(tǒng)一模型

在本節(jié)中,我們深入探討單調(diào)電路與平方電路之間的關(guān)系。首先,我們展示如何為平方電路引入復(fù)數(shù)參數(shù)化(命題1)。其次,我們從一個(gè)新的角度解釋單調(diào)電路與平方電路:它們是邊緣化潛在變量的不同方式(圖1);并在此基礎(chǔ)上提出一種新的可追蹤模型——Inception PCs,將這兩種方法結(jié)合起來(定理3)。


4.1 復(fù)數(shù)參數(shù)

我們首先指出,除了簡(jiǎn)單的負(fù)參數(shù)之外,我們還可以允許使用復(fù)數(shù)權(quán)重和輸入函數(shù)2,即取值在復(fù)數(shù)域 ? 中。為了確保平方電路的非負(fù)性,我們將一個(gè)電路與其復(fù)共軛相乘。也就是說:


由于復(fù)共軛是復(fù)數(shù)域 ? 的一個(gè)域同構(gòu)映射(field isomorphism),對(duì)一個(gè)電路取復(fù)共軛,就如同對(duì)其中的每一個(gè)權(quán)重和輸入函數(shù)分別取復(fù)共軛,同時(shí)保留原電路相同的有向無環(huán)圖(DAG)結(jié)構(gòu)。這使得我們能夠高效地將概率分布 表示為一個(gè)(平滑且結(jié)構(gòu)化可分解的)電路:


4.2 深度和的平方的平方:一種潛在變量視角

在概率電路的潛在變量解釋(Latent Variable Interpretation, LVI)中(Peharz 等人,2016),對(duì)于每一個(gè)和節(jié)點(diǎn)(sum node),我們分配一個(gè)分類潛變量(categorical latent variable),其中該潛變量的每一個(gè)狀態(tài)對(duì)應(yīng)和節(jié)點(diǎn)的一個(gè)輸入;我們?cè)趫D1a中展示了一個(gè)示例。在這種解釋下,當(dāng)在概率電路中進(jìn)行推理時(shí),我們事先對(duì)所有潛變量進(jìn)行邊緣化(marginalize over)。

在電路具有結(jié)構(gòu)化可分解性的前提下,我們可以為電路中出現(xiàn)的變量作用域(即變量集合)分配對(duì)應(yīng)的潛變量。具體來說,對(duì)于兩個(gè)具有相同作用域 sc(n) = sc(n′) 的和節(jié)點(diǎn) n 和 n′,它們共享同一個(gè)潛變量 Zsc(n)。設(shè) Z 為所有潛變量的集合,則概率電路所表示的函數(shù)可以表達(dá)為:


其中,對(duì)于任意 z 的取值,fC(V,z) 是輸入函數(shù)的乘積。

換句話說,給定一個(gè)潛變量 z 的取值后,概率電路所表示的分布是完全可分解的(fully factorized)。

然而,當(dāng)我們考慮由平方電路定義的概率分布時(shí),對(duì)這些潛變量的解釋就變得復(fù)雜了。關(guān)鍵問題是:我們是在平方之前還是之后對(duì)潛變量進(jìn)行邊緣化?

我們?cè)趫D1b和圖1c中展示了這兩種情況:

  • 在圖1b中,我們?cè)谶吘壔瘽撟兞?Z之前進(jìn)行平方。在這種情況下,每個(gè)和節(jié)點(diǎn)的權(quán)重都與其共軛相乘,結(jié)果得到一個(gè)具有非負(fù)實(shí)數(shù)參數(shù)的和節(jié)點(diǎn)。

  • 另一方面,如果我們?cè)?strong>平方之前就對(duì)潛變量進(jìn)行邊緣化(如圖1c所示),那么我們將面對(duì)一個(gè)具有四個(gè)子節(jié)點(diǎn)且權(quán)重為復(fù)數(shù)的和節(jié)點(diǎn)。

有趣的是,前一種情況與直接構(gòu)造一個(gè)單調(diào)PC非常相似,而后一種情況則更像是在沒有潛變量的情況下進(jìn)行顯式的平方操作。

這表明,我們可以通過決定是否將潛變量的求和放在平方的內(nèi)部或外部,來在單調(diào)PC與平方PC之間切換。

基于這一視角,我們提出了以下模型,它顯式地將兩種類型的潛變量引入到電路中,從而生成一個(gè)深度的和的平方的平方(deep sum-of-square-of-sums)結(jié)構(gòu):


由于U-潛變量(U-latents)位于平方之外,而W-潛變量(W-latents)位于平方之內(nèi),我們將它們分別稱為1-范數(shù)潛變量2-范數(shù)潛變量

接下來的定理表明,給定一個(gè) Inception PC,我們可以高效地將其“具體化”為一個(gè)僅作用于觀測(cè)變量 V 上的可追蹤概率電路,該電路表示 Inception PC 的分布:



在圖2中,我們展示了一個(gè)示例性的 Inception PC(的一部分),以及通過定理3進(jìn)行“具體化”后的形式。在本文的其余部分,我們將這種形式稱為materialized Inception PC(具體化的 Inception PC)。關(guān)鍵在于:我們可以通過對(duì) materialized IncPC 使用標(biāo)準(zhǔn)的 PC 推理過程,來高效地對(duì) Inception PC 的分布進(jìn)行推理。

雖然這不是必須的,但我們假設(shè)(與單調(diào)PC和平方PC的LVI一致)W 和 U 是分類變量(categoricals),并且作用域覆蓋這些變量的輸入節(jié)點(diǎn)是指示函數(shù)(indicator),例如



然而,當(dāng)我們同時(shí)使用兩種類型的潛變量時(shí),我們就得到了一個(gè)廣義的PC模型,其表達(dá)效率嚴(yán)格優(yōu)于單獨(dú)使用任一類型。

推論 1(Inception PCs 的表達(dá)效率)
Inception PCs 在表達(dá)效率上嚴(yán)格優(yōu)于(結(jié)構(gòu)化可分解的)單調(diào)PC和平方PC。

5 張量化 Inception PCs

到目前為止,我們已經(jīng)描述了 Inception PCs 的一個(gè)通用形式,它只要求電路具有平滑性結(jié)構(gòu)化可分解性。在實(shí)際應(yīng)用中,我們希望設(shè)計(jì)特定的電路架構(gòu)以用于學(xué)習(xí)與推理

本節(jié)的目的有兩個(gè):

(i) 提出一種適合在 GPU 上進(jìn)行學(xué)習(xí)與推理的 Inception PC 架構(gòu);
(ii) 從另一個(gè)角度——即層級(jí)張量收縮(hierarchical tensor contractions)——來重新理解 Inception PCs。


我們?cè)趫D3中展示了這一和節(jié)點(diǎn)區(qū)域的結(jié)構(gòu)。從高層次來看,圖3中各節(jié)點(diǎn)組之間的連接可以看作是一個(gè)標(biāo)準(zhǔn)的單調(diào)PC;特別是,每個(gè)和節(jié)點(diǎn)組的值就是其子節(jié)點(diǎn)的加權(quán)和。然而,與傳統(tǒng)的標(biāo)量節(jié)點(diǎn)之間的加權(quán)邊不同,這里的每條加權(quán)邊連接的是兩組二維的“平方”節(jié)點(diǎn)("squared" nodes)。


前向傳播的復(fù)雜度可以從公式(5)中的張量收縮中推導(dǎo)出來。在表1中,我們比較了單調(diào)PC、平方PC和Inception PC在每個(gè)區(qū)域上的參數(shù)數(shù)量(即內(nèi)存開銷)以及前向傳播時(shí)間復(fù)雜度,其中 B 表示數(shù)據(jù)批次的大小。


可以看出,當(dāng)設(shè)置 ,Inception PC 的參數(shù)數(shù)量 / 復(fù)雜度分別與單調(diào)PC和平方PC相同,只是在平方PC的情況下復(fù)雜度略有不同:這是因?yàn)樵谶@一特殊情況下,平方操作可以在每批次中僅執(zhí)行一次(Loconte 等人,2024b)。

與之前的工作(Peharz 等人,2020a)一樣,我們將電路組織成(即可以同時(shí)計(jì)算的一組區(qū)域),以進(jìn)一步利用GPU的并行計(jì)算能力。在訓(xùn)練過程中,我們對(duì)訓(xùn)練集的負(fù)對(duì)數(shù)似然使用梯度下降法進(jìn)行優(yōu)化。在使用復(fù)數(shù)參數(shù)的情況下,我們采用Wirtinger 導(dǎo)數(shù)(Kreutz-Delgado, 2009)來優(yōu)化復(fù)數(shù)權(quán)重和輸入函數(shù)。為了實(shí)現(xiàn)數(shù)值穩(wěn)定性,我們使用了一種針對(duì)復(fù)數(shù)的 log-sum-exp 技巧的變體,具體描述見附錄D。

6 相關(guān)工作

概率模型的空間可以通過可追蹤性(tractability)和表達(dá)效率(expressive efficiency)的視角來有效刻畫(Choi, Vergari 和 Van den Broeck,2020)。可追蹤性是一個(gè)連續(xù)譜系,從不可追蹤的模型(如擴(kuò)散模型 Ho, Jain 和 Abbeel,2020;變分自編碼器 Kingma 和 Welling,2014),到允許可追蹤似然的模型(如歸一化流 Papamakarios 等人,2021),再到允許可追蹤邊緣分布及更復(fù)雜查詢的模型(如概率電路 Vergari 等人,2021;Wang 等人,2024)。

然而,由于計(jì)算圖中施加了特定結(jié)構(gòu),概率電路在實(shí)踐中通常比那些可追蹤性較低的模型表達(dá)能力弱。因此,已有大量研究致力于在保持可追蹤性的前提下提升概率電路的表達(dá)效率(Sidheekh 和 Natarajan,2024)。

我們的工作建立在電路領(lǐng)域長(zhǎng)期的研究基礎(chǔ)上,這些研究考察了放寬電路中單調(diào)性條件的影響。理論上已知,在算術(shù)電路中引入負(fù)參數(shù)可以在簡(jiǎn)潔性上帶來指數(shù)級(jí)的提升(Valiant,1979),盡管這一結(jié)論并不適用于所有類型的子電路(de Colnet 和 Mengel,2021)。在實(shí)際應(yīng)用中,近期的研究也嘗試在概率建模中利用負(fù)參數(shù)(Zhang, Holtzen 和 Van den Broeck,2020;Zhang, Juba 和 Van den Broeck,2021;Sladek, Trapp 和 Solin,2023;Loconte 等人,2024b)。

Yu、Trapp 和 Kersting(2023)設(shè)計(jì)了用于表示分布特征函數(shù)的電路,該函數(shù)可以取復(fù)數(shù)值(特別是使用復(fù)數(shù)葉子節(jié)點(diǎn))。與我們工作同期,Loconte、Mengel 和 Vergari(2025)提出使用多個(gè)平方電路的和來克服我們?cè)诒疚闹杏^察到的類似限制。

此外,還存在一系列其他采用負(fù)參數(shù)化和/或平方機(jī)制的概率模型:

  • 張量網(wǎng)絡(luò)

    (tensor networks),例如流行的矩陣乘積態(tài)(Matrix Product States, MPS)(Perez-Garcia 等人,2007),通過稀疏張量收縮緊湊地編碼函數(shù)。它們常用于建模量子態(tài),其中觀測(cè)的概率是通過對(duì)波函數(shù)平方得到的(即 Born 規(guī)則,Dirac,1981);最近也被用于概率建模(Cheng 等人,2019;Glasser 等人,2019)。

  • 在核方法文獻(xiàn)中,半正定模型(positive semidefinite models)(Rudi 和 Ciliberto,2021)使用淺層的平方和來定義未歸一化的分布。

  • Tsuchida、Ong 和 Sejdinovic(2023, 2024)最近提出了平方神經(jīng)族(squared neural families),其密度函數(shù)中使用了神經(jīng)網(wǎng)絡(luò)的平方 L2 范數(shù),并嚴(yán)格推廣了指數(shù)族模型。

我們?cè)诟戒汚中詳細(xì)討論了這些模型與我們提出的 Inception PC 的技術(shù)聯(lián)系。

7 實(shí)驗(yàn)

在我們的實(shí)驗(yàn)中,我們旨在回答以下研究問題:

  1. Inception PCs 是否在表達(dá)能力和建模性能上優(yōu)于單調(diào)PC和平方PC?

  2. 在建模性能和計(jì)算成本之間,1-范數(shù)潛變量(one-norm latents)與2-范數(shù)潛變量(two-norm latents)的數(shù)量權(quán)衡如何?

  3. Inception PCs 的復(fù)數(shù)參數(shù)化非負(fù)參數(shù)化實(shí)數(shù)參數(shù)化相比表現(xiàn)如何?

在所有實(shí)驗(yàn)中,我們都使用了隱藏 Chow-Liu 樹(Hidden Chow-Liu Trees, HCLT)作為概率電路的 vtree(Liu 和 Van den Broeck,2021),因?yàn)樗鼭M足所需的結(jié)構(gòu)化可分解性,并且已被證明可以為概率電路提供最先進(jìn)的似然性能。

更多實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參見附錄 E。

7.1 二值數(shù)據(jù)集

我們首先在20 個(gè)二值數(shù)據(jù)集上進(jìn)行評(píng)估,這些數(shù)據(jù)集被廣泛用作密度估計(jì)的基準(zhǔn)測(cè)試數(shù)據(jù)(Rooshenas 和 Lowd,2014;Peharz 等人,2020b)。

我們的目標(biāo)是研究在這組數(shù)據(jù)集中:

  1. 非負(fù)參數(shù)化、實(shí)數(shù)參數(shù)化和復(fù)數(shù)參數(shù)化

    之間有何差異;

  2. Inception PCs

    是否能夠有效利用兩種類型的潛變量,通過與單調(diào)PC和平方PC的對(duì)比來驗(yàn)證這一點(diǎn)。

具體來說,我們?yōu)椴煌P驮O(shè)定了以下參數(shù)規(guī)模:

  • 單調(diào) PC:(N?, N?) = (8, 1)

  • 平方 PC:(N?, N?) = (1, 8)

  • Inception PC:(N?, N?) = (8, 8)

我們使用 Adam 優(yōu)化器(Kingma 和 Ba,2015),以學(xué)習(xí)率 0.01,對(duì)每個(gè)模型訓(xùn)練 100 輪,優(yōu)化其負(fù)對(duì)數(shù)似然。每種配置下我們都進(jìn)行了 5 次實(shí)驗(yàn)并取平均結(jié)果。

實(shí)驗(yàn)結(jié)果見表2。可以看到,在 20 個(gè)數(shù)據(jù)集中,Inception PCs 在 14 個(gè)上取得了最佳似然表現(xiàn),這證實(shí)了它相比僅使用平方機(jī)制具有更強(qiáng)的建模能力。


與現(xiàn)有模型相比,Inception PCs 的表現(xiàn)也非常優(yōu)異,包括可追蹤模型如 RAT-SPNs(Peharz 等人,2020b),以及不可追蹤模型如重要性加權(quán)自編碼器(IWAE)(Burda, Grosse 和 Salakhutdinov,2016)。

有趣的是,即使平方PC使用的是非負(fù)參數(shù),它們的表現(xiàn)也優(yōu)于具有相同參數(shù)數(shù)量的單調(diào)PC——這一現(xiàn)象也在 Loconte 等人(2024b)圖3中被觀察到。

更值得注意的是,盡管邊緣權(quán)重的復(fù)數(shù)參數(shù)化嚴(yán)格地推廣了實(shí)數(shù)和非負(fù)參數(shù)化,但在性能上并沒有明顯的優(yōu)勢(shì)趨勢(shì)。在許多情況下,非負(fù)參數(shù)化反而能取得與實(shí)數(shù)或復(fù)數(shù)參數(shù)化相當(dāng)甚至更好的似然表現(xiàn)

我們發(fā)現(xiàn),這(至少部分原因)是因?yàn)?strong>復(fù)數(shù)和負(fù)參數(shù)化更容易過擬合(參見附錄F中的訓(xùn)練似然結(jié)果)。

7.2 擴(kuò)展到大規(guī)模圖像數(shù)據(jù)集

在本節(jié)中,我們?cè)?strong>大規(guī)模圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),特別是將 ImageNet(Deng 等人,2009)降尺度為32×3264×64的版本。

我們遵循近期在這些圖像數(shù)據(jù)集上構(gòu)建概率電路模型的相關(guān)工作(Liu, Zhang 和 Van den Broeck,2023;Liu 等人,2023;Liu, Ahmed 和 Van den Broeck,2024),使用有損的YCoCg 色彩空間變換對(duì)原始 RGB 數(shù)據(jù)進(jìn)行轉(zhuǎn)換。需要注意的是,因此在 YCoCg 轉(zhuǎn)換后的數(shù)據(jù)上獲得的似然值不能直接與原始 RGB 數(shù)據(jù)上的似然值進(jìn)行比較。

此外,為了提高訓(xùn)練效率,我們僅在原始圖像的16×16 像素塊上進(jìn)行訓(xùn)練,使得每個(gè) PC 模型建模16×16×3 = 768 個(gè)變量,每個(gè)變量具有256 個(gè)類別(對(duì)應(yīng)像素顏色值)。

我們?nèi)匀皇褂?Adam 優(yōu)化器以學(xué)習(xí)率 0.01 來最小化負(fù)對(duì)數(shù)似然函數(shù)進(jìn)行訓(xùn)練,并使用測(cè)試集上的每維度比特?cái)?shù)(bits-per-dimension,bpd)作為評(píng)估指標(biāo)。

我們首先考察兩種潛變量之間的權(quán)衡關(guān)系。為此,在圖4中,我們?cè)?ImageNet32 數(shù)據(jù)集上繪制了不同 (N?, N?) 配置下的測(cè)試 bpd 曲線。這些配置是基于對(duì) N?, N? ∈ {1, 2, 4, 8, 16, 32, 64} 的搜索結(jié)果確定的,同時(shí)受限于每個(gè)區(qū)域最多允許21? = 262,144 FLOPS(浮點(diǎn)運(yùn)算次數(shù)/秒)的計(jì)算預(yù)算(參見表1)。


可以看出,在這些限制條件下最優(yōu)的配置是(N? = 32, N? = 4),對(duì)應(yīng)的測(cè)試 bpd 為4.19。該配置結(jié)合了1-范數(shù)潛變量2-范數(shù)潛變量,而不是單純使用單調(diào)結(jié)構(gòu)(N? = 1)或平方結(jié)構(gòu)(N? = 1)。

在表3中,我們總結(jié)了在ImageNet32ImageNet64數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果:


  • MPC

    表示一個(gè)單調(diào)PC,配置為 (N?, N?) = (64, 1)

  • SQC

    表示一個(gè)平方PC,配置為 (N?, N?) = (1, 64)

  • IncPC

    表示一個(gè)張量化的 Inception PC,在給定計(jì)算時(shí)間約束下采用最優(yōu)配置 (N?, N?)

作為對(duì)比,我們還列出了使用期望最大化算法(EM)訓(xùn)練的單調(diào) HCLT PC,以及使用潛變量蒸餾(LVD)方法訓(xùn)練的模型——后者通過從現(xiàn)有的深度生成模型中提取信息來指導(dǎo) PC 的潛空間學(xué)習(xí)(Liu, Zhang 和 Van den Broeck,2023)。

實(shí)驗(yàn)結(jié)果顯示:通過 Adam 初始化即可有效地訓(xùn)練可追蹤的概率電路模型,其 bpd 性能可以達(dá)到當(dāng)前最先進(jìn)的水平

8 結(jié)論

總而言之,我們展示了兩類重要的可追蹤概率模型——單調(diào)結(jié)構(gòu)化可分解PC平方實(shí)數(shù)結(jié)構(gòu)化可分解PC——在表達(dá)效率上通常是不可比較的。因此,我們提出了一種新的概率電路模型——Inception PCs,它基于“深度和的平方的平方”(deep sums-of-squares-of-sums)結(jié)構(gòu),統(tǒng)一并推廣了上述兩種方法,并且可以使用復(fù)數(shù)參數(shù)

我們還通過實(shí)驗(yàn)驗(yàn)證了 Inception PCs 在多種表格數(shù)據(jù)集和圖像數(shù)據(jù)集上能夠提供更優(yōu)的性能。

未來值得探索的方向包括:改進(jìn) Inception PCs 中復(fù)數(shù)參數(shù)的優(yōu)化方法;以及通過設(shè)計(jì)更高效的架構(gòu)來降低訓(xùn)練的計(jì)算成本。








原文鏈接:https://arxiv.org/pdf/2408.00876

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
看完報(bào)道,差點(diǎn)以為是伊朗贏了,美國(guó)投降了

看完報(bào)道,差點(diǎn)以為是伊朗贏了,美國(guó)投降了

走讀新生
2025-06-24 11:05:42
科技助力,中國(guó)有望從能源最大進(jìn)口國(guó)成為世界主要能源出口國(guó)。

科技助力,中國(guó)有望從能源最大進(jìn)口國(guó)成為世界主要能源出口國(guó)。

興史興談
2025-06-25 09:50:49
63歲阿湯哥戀情實(shí)錘后,女兒蘇瑞近照曝光,即將進(jìn)軍好萊塢

63歲阿湯哥戀情實(shí)錘后,女兒蘇瑞近照曝光,即將進(jìn)軍好萊塢

瘋狂影視圈
2025-06-24 23:38:47
以色列防長(zhǎng)稱恢復(fù)猛烈空襲德黑蘭

以色列防長(zhǎng)稱恢復(fù)猛烈空襲德黑蘭

魯中晨報(bào)
2025-06-24 16:27:02
新華社快訊:伊朗議會(huì)通過暫停與國(guó)際原子能機(jī)構(gòu)合作的法案

新華社快訊:伊朗議會(huì)通過暫停與國(guó)際原子能機(jī)構(gòu)合作的法案

新華社
2025-06-25 14:55:04
黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

素素娛樂
2025-06-25 10:18:47
雷霆奪冠游行:杰威致敬科比 卡皇掛湖人戒指 SGA抱獎(jiǎng)杯下車狂歡

雷霆奪冠游行:杰威致敬科比 卡皇掛湖人戒指 SGA抱獎(jiǎng)杯下車狂歡

顏小白的籃球夢(mèng)
2025-06-25 09:09:52
中國(guó)股市:未來即將有望乘風(fēng)破浪的10匹黑馬,值得收藏研究!!

中國(guó)股市:未來即將有望乘風(fēng)破浪的10匹黑馬,值得收藏研究!!

人生宥常
2025-06-25 10:00:10
互動(dòng)被挖,王楚欽戀情曝光?奧運(yùn),孫穎莎喊話想贏,誰注意他舉動(dòng)

互動(dòng)被挖,王楚欽戀情曝光?奧運(yùn),孫穎莎喊話想贏,誰注意他舉動(dòng)

樂聊球
2025-06-25 12:29:54
金正恩的喋血上位:母親幫他扳倒異母大哥,他自己一招搞垮親二哥

金正恩的喋血上位:母親幫他扳倒異母大哥,他自己一招搞垮親二哥

阿胡
2024-01-05 13:57:28
“朱雀玄武敕令”公布第三次高考分?jǐn)?shù)為246分:現(xiàn)在叫周景明,保底可以去兩所職業(yè)學(xué)院,內(nèi)心很平靜

“朱雀玄武敕令”公布第三次高考分?jǐn)?shù)為246分:現(xiàn)在叫周景明,保底可以去兩所職業(yè)學(xué)院,內(nèi)心很平靜

極目新聞
2025-06-25 00:12:47
掘金總裁:會(huì)與約基奇談3年2.12億續(xù)約 特定條件下會(huì)考慮交易他

掘金總裁:會(huì)與約基奇談3年2.12億續(xù)約 特定條件下會(huì)考慮交易他

顏小白的籃球夢(mèng)
2025-06-25 05:29:50
今年!慢特病無需申請(qǐng),醫(yī)保能報(bào)銷95%,門檻費(fèi)取消了

今年!慢特病無需申請(qǐng),醫(yī)保能報(bào)銷95%,門檻費(fèi)取消了

小劉嘮嗑醫(yī)保
2025-06-25 11:20:55
19歲騎手摔死后續(xù):家境被扒太凄慘,高中輟學(xué)養(yǎng)家,父母癱病在床

19歲騎手摔死后續(xù):家境被扒太凄慘,高中輟學(xué)養(yǎng)家,父母癱病在床

體制內(nèi)老陳
2025-06-22 14:22:47
王思聰資產(chǎn)被何猷君收購(gòu)!汪小菲也沒有想到,自己當(dāng)年的話應(yīng)驗(yàn)了

王思聰資產(chǎn)被何猷君收購(gòu)!汪小菲也沒有想到,自己當(dāng)年的話應(yīng)驗(yàn)了

振華觀史
2025-06-25 09:03:08
鄭爽在美國(guó)參加飯局!一直看身邊大佬,發(fā)福染黃發(fā)全程聊天哈哈笑

鄭爽在美國(guó)參加飯局!一直看身邊大佬,發(fā)福染黃發(fā)全程聊天哈哈笑

扒星人
2025-06-25 11:22:09
2-1!溫網(wǎng)首位贏球中國(guó)球員:苦戰(zhàn)三盤險(xiǎn)翻車 鄭欽文沖2885萬獎(jiǎng)金

2-1!溫網(wǎng)首位贏球中國(guó)球員:苦戰(zhàn)三盤險(xiǎn)翻車 鄭欽文沖2885萬獎(jiǎng)金

侃球熊弟
2025-06-24 21:41:58
女子腰腹部藏匿未申報(bào)港幣114.2萬元出境被海關(guān)查獲

女子腰腹部藏匿未申報(bào)港幣114.2萬元出境被海關(guān)查獲

環(huán)球網(wǎng)資訊
2025-06-24 14:51:02
344比79:川普因打擊伊朗而被提起彈劾,彈劾案被擱置

344比79:川普因打擊伊朗而被提起彈劾,彈劾案被擱置

寰宇大觀察
2025-06-25 10:17:34
海南17歲高一漂亮女生已找到,曝最后朋友圈,或早有征兆...

海南17歲高一漂亮女生已找到,曝最后朋友圈,或早有征兆...

小人物看盡人間百態(tài)
2025-06-24 16:22:16
2025-06-25 15:39:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
639文章數(shù) 11關(guān)注度
往期回顧 全部

頭條要聞

特朗普稱中國(guó)可以繼續(xù)從伊朗購(gòu)買石油 外交部回應(yīng)

頭條要聞

特朗普稱中國(guó)可以繼續(xù)從伊朗購(gòu)買石油 外交部回應(yīng)

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

林志穎15歲兒子眉眼間神似易烊千璽!

財(cái)經(jīng)要聞

3000億的泡泡瑪特,漲不動(dòng)了?

科技要聞

小米YU7已下線500輛展車 26日前運(yùn)往全國(guó)

汽車要聞

樂高樂園x比亞迪官配曝光!兒童駕駛學(xué)校來了

態(tài)度原創(chuàng)

健康
教育
游戲
手機(jī)
軍事航空

呼吸科專家破解呼吸道九大謠言!

教育要聞

山東省2025年高考分?jǐn)?shù)線公布

CEO確認(rèn)PS6游戲機(jī)開發(fā)工作已啟動(dòng)、外媒預(yù)測(cè)將實(shí)現(xiàn)4K 120FPS光追

手機(jī)要聞

vivo X Fold5青松圖賞:輕盈如松,薄似松風(fēng)

軍事要聞

伊朗總統(tǒng):12天戰(zhàn)爭(zhēng)結(jié)束 重建工作開啟

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 昭觉县| 温州市| 白城市| 桂阳县| 桂东县| 南充市| 灵武市| 芦山县| 西城区| 鹤岗市| 胶州市| 长寿区| 香港| 北流市| 富平县| 桃园县| 乐亭县| 东宁县| 永康市| 新干县| 宜阳县| 扶沟县| 南丹县| 北碚区| 仁化县| 鹤峰县| 新田县| 富裕县| 和林格尔县| 宁陵县| 惠水县| 道孚县| 长沙县| 万荣县| 张掖市| 蒙自县| 大余县| 贺兰县| 丹江口市| 安图县| 镇安县|