構建富有表現力且易于處理的概率生成模型:回顧
Building Expressive and Tractable Probabilistic Generative Models: A Review
https://arxiv.org/pdf/2402.00759.pdf
這種靈活的概率模型所帶來的可能性幾乎是無限的
摘要
我們提供了對易于處理的概率生成建模領域的進展和技術的全面調查,主要關注概率電路(PCs)。我們提供了一種統一的視角,強調了表達能力和易于處理性之間固有的權衡,突出了使得構建富有表現力和高效的PCs成為可能的設計原則和算法擴展,并提供了該領域的分類法。我們還討論了最近的工作,通過融合深度神經模型的概念來構建深度和混合PCs,并概述了可以指導未來研究的挑戰和待解決問題,這是一個不斷發展的領域。
1 簡介
生成建模在機器學習和人工智能領域中扮演著重要角色,因為它提供了一個強大的工具包,用于理解、解釋和重新創建我們數據豐富世界中存在的復雜模式。通過采用概率論作為捕捉給定數據集中固有不確定性的原則性方法,這些模型旨在近似生成數據的潛在分布或隨機過程。因此,概率生成模型具有解決各種問題的潛力,包括生成新數據樣本、給定觀察結果進行推理、估計事件的可能性以及推理不確定信息。
然而,從數據中學習分布是一個具有挑戰性的問題,通常需要在建模靈活性和概率推理的易處理性之間進行權衡。早期的生成模型優先考慮實現易處理的推理,通常通過在隨機變量上施加概率結構的形式,即圖形模型[Koller and Friedman,2009]。然而,結果是,它們缺乏對復雜分布進行建模的靈活性。易于處理的概率模型(TPMs)領域已經發展,提出了富有表達力的參數化和學習范式,形成了在統一概念下的廣泛和流行的模型類別,即概率電路。從易處理性的角度設計這些模型,使它們能夠進行有效的推理和精確的概率推理,使它們適用于需要快速和精確計算的任務。然而,隨著數據復雜性和維度的增加,它們仍然難以捕捉依賴關系。
相比之下,深度學習的進步催生了富有表達力的深度生成模型(DGMs),利用神經網絡學習復雜數據分布的靈活表示。值得注意的例子包括生成對抗網絡、變分自動編碼器和正則化流。這些模型優先考慮表達能力,并且已經展示了在捕捉依賴關系和生成高保真度樣本方面的卓越能力。然而,與TPMs不同,它們通常缺乏明確推理學習到的分布的能力。
因此,彌合TPMs和DGMs之間的差距是一個引人入勝的研究領域,旨在結合它們的優勢,創建既具有表達能力又易于處理的混合模型。本調查旨在全面探索在這個方向上的技術和最新進展。盡管以前的調查分別廣泛研究了DGMs[Bond-Taylor et al.,2022]和TPMs[S′anchez-Cauce et al.,2021],分析了它們的設計原則和相關挑戰,但仍然缺乏一個統一而連貫的視角。通過這項工作,我們希望填補這一空白,并為研究人員提供對該領域的整體理解。我們希望突出這種協同組合的好處和挑戰,以激勵加強對這個方向的研究。
我們將首先討論構建易于處理的生成模型的基本組成部分、特性、學習方法以及面臨的挑戰,重點放在概率電路上,并提供該領域的廣泛分類。然后,我們討論將TPMs與DGMs合并以實現兩者最佳結合的混合技術。最后,我們將確定挑戰、未解問題和潛在方向,為未來研究奠定基礎。我們旨在實現雙重目標,一方面為對該領域感興趣的初學者提供廣泛的理解,以構建富有表現力和易于處理的生成模型,另一方面通過理解領域的復雜性和細微差異,使經驗豐富的研究人員能夠推動研究邊界的拓展。
2 易于處理的概率模型
如果對應的概率查詢的答案可以在與模型大小和輸入大小多項式時間內精確計算,則稱概率生成模型對于推理任務是易于處理的。因此,易于處理性不僅取決于生成模型的特性,還取決于概率查詢的類型,即推理任務。正如我們將展示的那樣,一些推理任務天生比其他任務更困難,對于一個查詢易于處理的模型可能對于另一個查詢不易于處理。
2.1 推理查詢
最常見和基本的推理場景通常涉及計算與所有隨機變量的特定取值分配相關聯的概率。這通常被稱為證據推理,涉及在給定特定分配x的情況下,精確計算Pθ(X = x),而不需要使用任何近似方法。在許多實際問題中,由于數據的非均勻性或缺失特征,我們只關心模型化變量的子集。或者有時,在存在敏感特征的情況下,在決策中實施公平性可能需要消除這些變量的影響。更正式地說,給定子集X1、X2,使得X1∪X2 = X且X1 ∩ X2 = ?,通過邊際化其余部分評估感興趣變量的子集的可能性(比如X1)稱為邊際推理,即涉及計算。第三種推理場景涉及計算事件A發生的概率,假設另一個事件B已經發生。這被稱為條件推理,它涉及計算。
最大后驗(MAP)推理尋求基于證據的最可能的變量賦值,本質上是最大化與感興趣變量相關的后驗分布。這個任務對于參數估計和預測最可能的結果至關重要。更正式地說,它涉及計算arg max。
2.2 通過強加結構來增強可處理性
在生成模型的概率推理中實現易處理性的一種普遍策略是在其中施加結構約束。例如,將所有隨機變量視為獨立的做法會導致高度結構化的模型:。這簡化了邊緣分布、條件分布和MAP的計算,將它們歸納為對單變量分布的操作。將聯合分布的這種因式分解納入考慮是實現易處理性的關鍵。然而,這通常限制了模型的表現力,因為更嚴格的假設會減少可表示的概率分布的種類。為了平衡靈活性和簡單性,通常會使用混合模型,它們是更簡單分布的凸組合。一個顯著的例子是高斯混合模型,理論上能夠以足夠的復雜性逼近任何連續分布[Lindsay, 1995]。因此,設計通過因式分解強化結構和通過混合物增加靈活性的算法是構建易處理模型而不損失表現力的有效方法。
3 概率電路
基于上述因式分解和混合原理,出現了幾類易處理的概率模型,例如算術電路[Darwiche, 2003]、概率句子決策圖[Kisa等,2014]、AND-OR搜索空間[Marinescu和Dechter,2005]、和求和-乘積網絡[Poon和Domingos,2011]、割集網絡[Rahman等,2014]等。最近,[Choi等,2020]提出了這些模型的統一視角,將它們概括為概率電路(PCs)的概念下。我們強調PC作為學習數據分布的一種易處理表示,但通過提供對不同模型、它們的學習方法論的統一視角,并介紹利用深度學習思想的最新工作,我們超越了他們的工作。
定義1:概率電路C是一種通過因式分解和混合緊湊地編碼概率分布的計算圖。它由三種類型的節點組成 - 求和、乘積和葉子分布。圖中的每個節點計算一個非負函數,可以解釋為在一組隨機變量上的非歸一化概率度量,稱為節點的作用域。計算圖自底向上進行評估,并遞歸定義如下:
根節點的輸出構成了建模的密度。因此,概率電路C = {G, θ}具有結構,由計算圖G編碼,以及參數θ,對應于與求和節點相關聯的權重和葉子分布的參數。
3.1 概率電路的結構特性
為了確保概率電路C模擬了一個有效的分布并支持易處理性,我們需要在其上定義進一步的結構屬性,我們在下面詳細說明。
定義2(平滑性)。如果概率電路的所有求和節點都定義在具有相同作用域的子節點上,則稱該概率電路為平滑的。
定義3(可分解性)。如果概率電路的所有乘積節點都定義在具有不相交作用域的子節點上,則稱該概率電路為可分解的。
定義4(確定性)。如果對于概率電路的所有求和節點,對于任何給定的輸入,其子節點中最多只有一個節點的輸出是非零的,則稱該概率電路為確定性的。
直觀地說,平滑性意味著求和節點表示有效的混合分布。這反過來又意味著對于證據推斷的易處理性,因為可以通過自底向上地評估電路來計算數據密度,這可以在電路的大小上線性完成。此外,平滑且可分解的電路還支持邊緣和條件查詢的易處理計算。這是因為這些查詢涉及的積分可以分解到求和節點和乘積節點的子節點上。因此,對于一個平滑和可分解的PC,我們可以遞歸地將積分推至葉子節點。由于葉子分布簡單且易處理,積分可以通過解析方法計算。然后,評估邊緣或條件查詢就簡化為在電路上執行自底向上的遍歷,將葉節點的值設置為其對應的積分值,因此這也是電路大小的線性。然而,平滑性和可分解性并不足以實現易處理地計算MAP查詢。這是因為在分布的凸組合中的最大化器未必是各個分布的最大化器的凸組合。但是,我們可以在平滑、可分解且確定性的PC上進行易處理的MAP推斷。需要注意的是,確定性PC有時也稱為選擇性,因為求和節點可以被視為選擇其子節點之一。
3.2 參數學習
由于PC支持密度評估,我們可以采用最大似然方法來學習它們的參數。在確定性存在的情況下,根節點的輸出減少為簡單因子化分布的加權乘積,并且參數可以通過閉合形式估計[Rahman et al., 2014]。然而,在更一般的平滑和可分解電路的情況下,閉合形式的解決方案不可用,我們將不得不借助迭代優化方案來最大化數據似然度。
基于梯度的優化:由于PC被定義為計算圖,它們是可微的,并且根節點(代表數據密度)相對于電路中每個節點的偏導數可以輕松計算。因此,通過隨機初始化模型參數,然后可以使用這些梯度來迭代地更新參數以最大化似然度并學習數據分布。在實踐中,可以使用支持自動微分的軟件包來實現這些計算圖,并有效地反向傳播梯度。雖然可以使用完全批量梯度上升來優化這個目標,但其隨機版本,即對小批量進行采樣的方法更有效和更快,通常用于在生成和區分設置中學習PCs[Poon和Domingos,2011;Gens和Domingos,2012]。更復雜的基于梯度的優化器,如Adam,它融合了動量的概念,也被用于學習PCs[Peharz等人,2020b;Sidheekh等人,2023]。
期望最大化 另一種為PCs提出的優化方案是期望最大化(EM),它通常用于在存在缺失數據的情況下進行最大似然學習[Dempster等人,1977]。EM的關鍵是在以下兩個步驟之間迭代,直到收斂為止,從隨機配置初始化后:(1)E步驟,涉及計算給定觀察變量的情況下缺失變量的期望值;(2)M步驟,最大化給定完整期望分配的似然度。由于PCs本質上是分層混合模型,它們的求和節點可以被視為邊緣化一個未觀察到的離散潛在變量。[Peharz等人,2016]通過在計算圖中明確引入未觀察到的潛在變量創建增強電路,正式化了PCs的這種潛在變量解釋。由于我們不知道這些變量在手頭的數據點中的分配情況,因此它成為了一個帶有缺失數據的學習問題,并且可以使用期望最大化來解決。與梯度上升相比,觀察到EM在數據似然度方面的提升更大[Peharz等人,2016;Peharz等人,2020b;Peharz等人,2020a],尤其是在學習的早期階段。
3.3 結構學習
PC的計算圖結構G編碼了聯合分布的因子化,因此影響其表達能力。然而,對于每個數據分布,最優結構可能不同,并且很少能夠事先知道。
基于啟發式方法。從數據中學習圖結構首先是由[Dennis and Ventura, 2012]探索的。他們觀察到,與求和節點相關聯的潛在變量應該有助于解釋其范圍內變量之間的相互作用。因此,他們提出了通過聚類策略性地將求和節點定位在具有顯著相互依賴關系的變量組上。隨后,[Gens and Domingos, 2013]表明上述方法未利用上下文特定的獨立性,并且容易將高度相關的變量拆分為不同的簇,從而導致大量的似然損失。相反,他們提出了一種貪婪的迭代算法,稱為LearnSPN,可用于定義求和節點和乘積節點的范圍。具體而言,在乘積節點處,他們使用統計獨立性檢驗來識別相互獨立的變量子集。在求和節點處,他們使用基于EM的聚類將類似實例分組為每個子節點的支持。現在,求和節點邊的權重可以定義為其相應集群中數據點的分數。遞歸地使用,此算法導致從數據矩陣中提取列集合的產品節點和從求和節點提取行集合,直到達到單變量葉子。進一步發展,[Rooshenas and Lowd, 2014]提出通過在較高級別的聚類的潛在變量模型化的間接交互與通過在較低級別使用可計算馬爾可夫網絡模型化的觀察變量的直接交互來合并。類似地,[Adel et al., 2015]提出了一種基于SVD的結構學習算法,將LearnSPN使用的數據矩陣的行方向和列方向的分割合并為提取秩為一的子矩陣的單個操作。其他方法探索了整合信息瓶頸[Peharz et al., 2013]以及模擬決策樹學習的切集條件[Rahman et al., 2014]。然而,所有上述方法都基于啟發式方法,缺乏堅實的理論基礎。
貝葉斯方法。對于PC的結構學習,可能是最合理和最優雅的方法之一是采用貝葉斯視角。通過將參數化密度視為θ和G的函數,即Pθ,G(x) = P(x|θ, G),我們可以將貝葉斯結構得分(B)定義為G對整體似然的貢獻,即:B(G) = P(D|G) = ∫θ P(D|θ, G)P(θ|G)dθ = ∫θ P(θ|G) ∏ x∈D P(x|θ, G)dθ。直觀地,這等同于假設參數上的先驗分布P(θ|G),并通過邊際化參數計算出結構G對似然的貢獻。然后可以使用這樣的分數以貝葉斯方式優化結構[Friedman and Koller, 2003],通過使用搜索算法[Russell, 2010]或結構期望最大化[Friedman, 1998]。然而,計算上述分數并不容易,因為它涉及對參數的積分。最近,[Yang等人,2023]表明,對于確定性PCs,可以輕松準確地計算此分數。他們將結構得分與貪婪切集學習算法[Rahman等人,2014]以及結構EM結合使用,以學習最先進的PCs。他們還表明,當數據是離散的,并且假設在求和節點參數上的先驗分布是狄利克雷分布時,貝葉斯結構得分將簡化為著名的貝葉斯-狄利克雷(BD)得分[Heckerman等人,1995]。
3.4 通過隨機結構的深度計算機
與上述討論的從數據中學習概率電路結構以增強它們的方向相輔相成的是,存在一系列采用這樣一種觀點的方法:當您能夠過度參數化時,結構可能并不高度相關。[Peharz等人,2020b]表明,通過利用足夠大的隨機結構集合,可以達到與學習結構相當的性能。為了創建有效的隨機結構,他們將[Dennis and Ventura,2012; Peharz et al.,2013]中引入的區域圖的概念擴展為隨機區域圖。直觀地說,對于一組變量,隨機區域圖可以被視為一種根據節點遞歸和隨機劃分相關變量的有向無環圖。區域圖可以轉換為一個有效的張量化概率電路,稱為RAT-SPN [Peharz等人,2020b],通過用求和節點、乘積節點和葉分布的數組填充它們。與傳統的參數化不同,上述參數化的計算圖具有較低的稀疏性,并且很容易進行GPU級并行化,因此具有很高的可擴展性。在類似的思路下,[Di Mauro等人,2017; Mauro等人,2021]還探索了在確定性概率電路的特定情況下有效利用隨機結構。值得注意的是,[Peharz等人,2020a]通過引入一種新穎的實現設計,擴展了RAT-SPN框架。他們將矢量化的求和和乘積操作合并為單一的monolithic einsum操作。這使得可以通過堆疊einsum層來設計PC,類似于深度神經網絡,從而實現更加并行化的計算,導致培訓時間提高了兩個數量級。
概率電路與神經網絡相似,因為它們都是計算圖。上面討論的隨機參數化使得可以構建深度PC,使它們更接近深度神經模型。然而,重要的是要記住,它們在多個方面仍然與神經網絡不同。最重要的是,PC的計算圖轉換與數據相關的概率密度,而神經網絡(和DGMs)轉換數據本身。此外,與神經網絡上下文中的無約束參數相比,與PC相關的參數具有概率語義,因此具有更多結構。
3.5 擴展和修改
有幾次嘗試擴展PC的定義,以提高其表達能力和魯棒性。[Sharir and Shashua, 2018] 提出了引入商節點來表示PC中的條件分布。他們表明,由此產生的模型類別更加表達能力強,同時仍然能夠進行可計算的推斷。[Trapp et al., 2019] 將PC中的求和節點概括為具有無限組分的混合物。[Mau′a et al., 2017; Mau′a et al., 2018] 提出用區間替換PC中的標量求和權重,得到了能夠表示分布置信集的魯棒電路。其他方法嘗試通過引入更靈活的葉子分布來提高表達能力。[Molina et al., 2018] 提出了使用分段多項式葉子分布。類似地,[Trapp et al., 2020] 提出了在葉子節點集成高斯過程,然而,其增加的表達能力是以可計算性為代價的。圖1系統地分類了通過更好的學習算法和設計擴展來改進PC的各種方法。
4 在 DGM 和 PC 之間搭建橋梁
隨著上述所述的高效且可擴展的深度參數化用于學習PC,自然地可以假設通過構建更大的過參數化模型來提高它們的表達能力。然而,[Liu et al., 2023a] 最近證明了擴展PC的參數并不會導致相應的性能提升。PC仍然遠未達到DGM的表達能力。
因此,人們對在PC中融合深度生成模型的概念和歸納偏差越來越感興趣,以構建混合模型,可以在DGM的表達能力與PC的計算可計算性、魯棒性、穩定性和可解釋性之間取得平衡,接下來我們將概述這一點。
4.1 帶神經網絡的概率電路
深度學習之所以如此受歡迎的一個重要原因是其能夠有效地利用歸納偏差,例如對圖像數據進行平移不變性,這是通過使用卷積來實現的。[Butz et al., 2019]證明了PC中的求和節點本質上類似于卷積,而乘積節點則類似于深度神經模型中使用的池化操作。他們形式化了這類神經操作需要滿足的性質,以便產生有效的PC,從而構建了一類混合和深度但可計算的卷積PC。在類似的思路上,[Yu et al., 2022]提出了將自注意機制(使得基于transformer的模型受歡迎)與PC結合起來,而[Ventola et al., 2020]提出了使用殘差連接,從而開發了一種概率類似于ResNets [He et al., 2016]的模型。[Shih et al., 2021]提出了使用神經網絡來使PC對過擬合具有魯棒性。他們將PC的求和節點權重劃分為多個部分,為每個部分學習了一個較低維度的嵌入,并使用小型神經網絡將嵌入映射到PC的參數。這可以看作是一種軟權重共享機制,其中多個參數由單個神經網絡生成。由此產生的PC具有較少的自由度和更好的泛化能力。[Shao et al., 2022]考慮了用于結構化輸出預測任務的條件PC,這可以看作是對一組目標Y和特征X建模的條件分布Pθ(Y|X),并提出了將神經網絡作為門控函數進行整合。更具體地說,他們通過神經網絡計算了PC的混合權重,作為輸入特征X的函數。他們證明了由此產生的模型不僅在保持對目標變量Y的可計算推理能力的同時增加了表達能力,而且還可以有效地在DGMs上施加結構。
4.2 帶有 VAE 的概率電路
[Liu et al., 2023a]將PC在過度參數化范圍內的失敗歸因于隨著PC的擴展,潛在信息(與求和節點相關)的增加,從而使得觀察變量的邊際似然變得更加復雜,因此最大似然訓練變得更具挑戰性。為了解決這個問題,他們提出通過顯式地利用一個不太可計算但更具表達能力的深度生成模型來為PC學習提供額外的監督。由于VAEs是學習潛在表示的有效模型,[Liu et al., 2023a]利用了掩碼自編碼器 [He et al., 2022] 來學習求和節點的特征表示,并在此特征空間中使用K均值聚類來獲取與求和節點相關的離散潛在變量的分配。他們稱之為潛變量提取(LVD Latent Variable Distillation)的結果框架能夠與廣泛使用的DGMs達到競爭性的性能。進一步,[Liu et al., 2023b]研究了作為LVD教師模型的DGM的理論性質和設計原則。他們觀察到,在執行LVD時,學生PC的性能可以超過教師DGM的性能。他們還強調,DGM學習的連續潛在表示與PC所需的離散潛在變量分配之間的差異可能導致信息丟失。他們提出通過采用漸進增長算法來克服這個問題,該算法利用來自PC的反饋來執行動態聚類。
VAEs可以被解釋為具有無限數量組分的混合模型,其中組分連續地依賴于潛在編碼,因此是不可計算的。另一方面,PC是離散的分層混合模型。[Correia et al., 2023]觀察到,即使是一個龐大的離散混合模型,例如過度參數化的PC,也無法勝過一個相對中等規模的不可數混合模型,例如一個小的VAE,這表明連續混合模型更容易泛化或更容易學習,而不是PC。因此,他們建議通過對可計算的PC進行連續混合來將VAEs與PCs合并。他們的方法可以直觀地理解為用PC替換VAE的解碼器。盡管所得到的公式在實踐中是不可計算的,但作者證明了當考慮的潛在空間具有低維度時,可以使用數值積分技術對其進行任意精度的逼近。[Gala et al., 2023]通過允許連續潛在變量在PC中的根節點以及內部節點中定義積分單元,進一步推廣了這種方法。
4.3 具有歸一化流的概率電路
正規化流是一類最結構化的DGM,利用微分同胚神經變換將簡單的基礎分布映射到更復雜的分布中。它們的微分同胚結構使得可以利用變量變換公式精確計算概率密度,因此對于證據推斷來說是可行的模型。自然地,文獻中探索了通過利用流的變量變換原理來擴展PCs的方法。為了實現這一點,[Pevn′y et al., 2020]提出了在PC中任意添加一種新類型的節點——稱為變換節點。每個變換節點(T)都與一個可逆仿射變換相關聯,并且定義在單個子節點上。T的輸出被遞歸地定義為其子節點建模的分布的變換。
進一步研究,[Sidheekh et al., 2023]表明,上述用于將正規化流與PC集成的構造可能違反PC的分解性,因此使得諸如邊際和條件等復雜推斷查詢變得不可計算。他們形式化了變換節點需要滿足的保持可計算性的必要條件,稱為τ?分解性。直觀地說,τ?分解性要求當T定義在一個乘積節點P上時,它應該獨立地變換P的子節點的范圍。他們還表明,任意在電路中集成τ?分解性變換節點等價于在PC的葉分布上定義正規化流。他們證明了利用葉子上的可逆線性有理樣條變換,我們可以構建富有表現力但可計算的概率流電路。
4.4 表達力和可計算模型的影響
從近似到精確。PC提供的可計算性可以用來精確求解經常通過近似解決的經典問題。[Shih and Ermon, 2020]研究了在離散圖模型背景下的PC,并表明它們可以作為表達力強的變分家族,支持精確的ELBO計算以及穩定的梯度。[Khosravi et al., 2019]表明PC可以用于計算判別模型預測的期望值以及高階矩。
應用于更復雜的任務。[Choi et al., 2022]展示了通過利用PC變換可以精確解決邊緣MAP的復雜推理過程。[Ventola et al., 2023]展示了當在PC的上下文中引入蒙特卡羅Dropout時,可以精確且高效地用于不確定性量化,從而使PC對分布之外的數據具有魯棒性。[Selvam et al., 2023]利用PC的可計算性來推理部分數據以搜索歧視模式,并確保模型的公平性。
[Vergari et al., 2021]編制了一個關于可以通過PC可計算地計算的涉及概率分布的操作的綜合目錄,并概述了在每個操作背景下需要滿足的結構性質。他們的工作將我們迄今為止看到的常見推理查詢推廣到了包括對概率分布編碼為PC的求和、乘積、商、冪、對數和指數的計算。因此,通常需要近似的復雜信息理論量可以通過電路上的可計算和模塊化操作來表示。
5 開放問題和前景方向
我們已經涵蓋了各種算法和設計原則,使得建立具有表達力和可計算性的生成模型成為可能。然而,該領域存在著幾個開放問題,這使得它成為了進一步研究和在多個方向取得重大進展的肥沃領域。
優化超參數化PC的理論。試圖克服超參數化PC性能平臺的大多數工作都是基于啟發式方法的。對于這種現象的理論上的理解尚未形成。另一方面,在神經網絡的背景下,超參數化已經得到了很好的研究。例如,對于超參數化的神經網絡,雙峰現象已經得到了很好的研究,但在PC中尚未探索。因此,借鑒這樣的概念來理解PC損失地形的特征,并構建更高效的優化器,以利用PC的可計算性,為未來研究提供了一個有前途的方向。
潛在表示學習。學習語義上有意義且解耦的潛在表示是生成建模的一個基本目標。PC中的求和節點引入了概率上有意義的潛在變量。然而,利用它們學習有用的數據表示是非平凡且較少探索的。確實,[Vergari et al., 2018; Vergari et al., 2019]的工作已經奠定了這個方向的一些基礎,通過觀察節點激活來從PC中提取可解釋的表示。然而,一種可擴展且可微的方法來學習這種表示仍然缺乏。最近的工作[Liu et al., 2023a; Liu et al., 2023b]已經使得在PC中提取VAE中的信息成為可能。將這一框架擴展到支持PC的表示學習是一個有前途的未來方向。
對抗訓練。用于訓練PC的最大似然訓練雖然穩定,但已知其在生成樣本質量方面達不到最優。在深度生成模型的背景下,先前的工作已經探索了通過增加對抗損失來改善樣本生成的目標函數。盡管最近的研究[Peddi et al., 2022]已經研究了PC對抗攻擊的魯棒性,但利用對抗損失的研究相對較少。事實上,這里的一個關鍵挑戰是,PC中的采樣通常是不可微的。因此,與GAN不同,無法對生成的樣本的對抗鑒別器的輸出進行反向傳播。然而,最近的研究[Shao et al., 2022; Lang et al., 2022]已經探索了PC的可微分采樣策略。這使得對抗訓練成為提高PC表達能力的一種潛在方法。
融合對稱性。在現實世界應用中采用混合概率模型需要賦予它們捕捉特定領域歸納偏差的能力。雖然已經探索了諸如圖像[Butz et al., 2019]和時間序列[Yu et al., 2021]等領域的設計,但將它們擴展到捕捉涉及關系數據、集合、圖等領域所需的對稱性、不變性和等變性是一個活躍的研究領域。
多模態學習。隨著異構數據的日益豐富,構建能夠利用所有(或至少多種)可用數據模態進行有效和可靠決策的PC是一個重要且開放的研究問題。最近關于將流與電路集成的工作[Sidheekh et al., 2023]為在PC中建模靈活的葉分布奠定了基礎。因此,使概率多模態和可能是組合學習成為可能的一種方法是在PC中嵌入在不同模態上訓練的歸一化流作為葉分布。
在其他領域中的應用。富有表現力的概率模型可以用作各種學習范式中的深度生成模型的替代品。例如,在強化學習中,DGM的一種應用是將其用作世界模型[Ha and Schmidhuber, 2018],這使得智能體能夠幻想其環境的行為以采取更好的行動。在這樣的背景下使用PC可以進一步增強智能體對環境動態的概率推理能力。另一個例子是主動特征獲取,其中生成模型已被用于評估與獲取新特征相關的潛在信息增益[Li and Oliva, 2021]。當在此上下文中使用表現力PC時,它帶來的力量在于可以精確高效地計算許多感興趣的信息論量,以及通過邊緣化對相關特征子集進行推理。
6 結論??????????
我們對可計算的概率模型進行了廣泛的概述,重點放在概率電路上,并討論了各種旨在提高其表達能力的算法和設計擴展。我們還概述了最近的研究如何試圖彌合DGM的表達能力與PC的可計算性之間的差距,建立混合模型。需要注意的重要一點是,在學習概率生成模型時,結構是一個不可避免的因素。穩定訓練DGM,如GAN和VAE通常需要對其參數施加一種弱結構。歸一化流所施加的可逆結構使得精確密度評估和穩定的最大似然訓練成為可能。對PC施加更嚴格的結構類別有助于我們在日益復雜的查詢上獲得可計算性。因此,關鍵重點應該是構建能夠利用所需任務解決所需水平結構的生成模型。通過理解生成建模的設計原理,并將它們融合到建立混合模型中,我們獲得了在可計算性-表達性譜上進行插值的能力。這種靈活的概率模型所帶來的可能性幾乎是無限的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.