網易首頁 > 網易號 > 正文申請入駐

神經概率電路：通過邏輯推理實現組合式與可解釋的反事實預測

2025-05-27 09:10:10　來源: CreateAMind

上海舉報

分享至

Neural Probabilistic Circuits: Enabling Compositional and Interpretable Predictions through Logical Reasoning

神經概率電路：通過邏輯推理實現組合式與可解釋的預測

https://arxiv.org/html/2501.07021v1

摘要

端到端深度神經網絡在多個領域取得了顯著成功，但常常因其缺乏可解釋性而受到批評。盡管后驗解釋方法試圖解決這一問題，它們往往無法準確表示這些黑盒模型，導致解釋誤導或不完整。為克服這些挑戰，我們提出了一種本質上透明的模型架構，稱為“神經概率電路”（Neural Probabilistic Circuits, NPCs），它通過邏輯推理實現組合性和可解釋性的預測。具體來說，NPC 由兩個模塊組成：一個屬性識別模型，用于預測各種屬性的概率；以及一個建立在概率電路之上的任務預測器，該預測器通過對已識別屬性進行邏輯推理來做出類別預測。為了訓練 NPCs，我們引入了一個三階段訓練算法，包括屬性識別、電路構建和聯合優化。此外，我們在理論上證明了 NPC 的誤差可以被其各模塊誤差的線性組合所上界限制。為進一步展示 NPC 的可解釋性，我們提供了最可能解釋（Most Probable Explanations）和反事實解釋（Counterfactual Explanations）。在四個基準數據集上的實證結果表明，NPC 在可解釋性與性能之間取得了良好的平衡，其表現甚至可以與端到端黑盒模型相媲美，同時具備更強的可解釋性。

1 引言

端到端深度神經網絡（DNNs）[Krizhevsky 等人，2012；He 等人，2016；Vaswani 等人，2017；Devlin 等人，2019] 在多個領域中展現出卓越的表現 [Hinton 等人，2012；Sutskever 等人，2014；Long 等人，2015]。然而，許多模型是包含復雜運算符的黑盒模型，難以解釋和理解其決策過程。盡管已有大量工作 [Ribeiro 等人，2016；Lundberg 和 Lee，2017；Selvaraju 等人，2017] 嘗試以事后方式解釋模型的決策，Alvarez-Melis 和 Jaakkola [2018]、Laugel 等人 [2019]、Slack 等人 [2020]、Rudin [2019] 指出，這些解釋往往不可靠，因為解釋模型可能只是粗略地逼近原始模型。例如，解釋模型可能表現出與黑盒模型相似的性能，但卻依賴完全不同的特征。這種解釋模型與黑盒模型之間的差異可能導致誤導性解釋，例如將決策歸因于無關特征，或遺漏重要特征。在醫療分析 [Hou 等人，2024；Liu 等人，2023] 和法律司法 [Richmond 等人，2024；Deeks，2019] 等高風險應用中，這種誤導性解釋尤其令人擔憂。Rudin [2019] 認為，與其使用事后解釋去解釋黑盒模型，不如一開始就構建一個可解釋的模型，其中每個組件都具有明確的設計目的，從而便于對預測過程的理解。

概念瓶頸模型（Concept Bottleneck Models, CBMs）[Koh 等人，2020] 旨在通過引入高層、人類可理解的概念（如“紅色”、“圓形”）作為中間瓶頸來增強模型的可解釋性，將模型分解為兩個模塊：概念識別模型和任務預測器?；谏窠浘W絡的概念識別模型將輸入圖像映射到與各種概念相關的概率。利用這些概率，任務預測器（通常是線性模型）生成各類別的概率。由于最終預測（即概率最高的類別）可以通過這些概念進行解釋，因此模型的決策過程更容易被人理解。為了提升下游任務的性能，CEM [Zarlenga 等人，2022]、ProbCBM [Kim 等人，2023] 及其他方法 [Yeh 等人，2020；Kazhdan 等人，2020] 將概念識別模型的輸出從概念概率改為概念嵌入。雖然這種方法提升了任務性能，但顯著降低了可解釋性，因為概念嵌入中的維度缺乏語義含義。另一方面，為了進一步提高可解釋性，一些方法 [Barbiero 等人，2023；Rodríguez 等人，2024；Ciravegna 等人，2023] 提出了結合邏輯規則的任務預測器結構，使得任務預測能夠通過這些規則顯式解釋。然而，這些邏輯規則通常是從數據中學習得到的，而非由人類預定義，這限制了我們將先驗領域知識融入模型的能力。此外，目前尚無關于整體模型性能的理論保證，使得整體性能與概念識別模型或任務預測器之間的關系模糊不清。

為了解決這些問題，我們提出了一種新穎的模型架構——神經概率電路（Neural Probabilistic Circuits, NPCs），它通過邏輯推理實現組合性和可解釋性的預測。NPC 包括兩個模塊：屬性識別模型和任務預測器。不同于現有方法主要關注大量二元概念（如“紅色”、“黃色”），我們引入了一種更高層次的類別特征——屬性，用于描述概念的類型（如“顏色”）。這種方法減少了額外概念選擇或剪枝的需求，提高了模型效率 [Ciravegna 等人，2023；Barbiero 等人，2022；Zarlenga 等人，2023]，同時也實現了更好的概念識別性能。對于給定的輸入圖像，基于神經網絡的屬性識別模型會為各個屬性生成概率向量，每個向量表示相應屬性各取值的可能性。這些概率向量作為輸入提供給任務預測器，后者通過概率電路實現。概率電路[Poon 和 Domingos，2011；Zhao 等人，2016b，2015b；Choi 等人，2020] 是一種概率圖模型 [Koller 和 Friedman，2009]，旨在學習輸入變量（在我們的案例中為屬性變量和類別變量）的聯合分布。在學習過程中，概率電路在其結構和參數中嵌入了隱式的從數據中學得的邏輯規則或顯式的由人類預定義的邏輯規則。這些電路支持可追蹤的概率推理任務，如聯合推理、邊際推理和條件推理，從而揭示屬性與類別之間的關系。借助這些關系，NPC 能夠對屬性識別模型的輸出進行推理，推斷出最可能的類別。具體而言，某一類別的預測得分是每組屬性值的似然加權求和，權重為其對該類的相關性。通常情況下，最終預測對應得分最高的類別。

鑒于NPCs的組合性質，我們提出了一種三階段訓練算法。具體來說，整個訓練過程包括以下三個階段：
1）屬性識別：我們首先在多任務學習框架 [Caruana, 1997; Ruder, 2017] 中訓練屬性識別模型。
2）電路構建：接下來，我們采用兩種不同的方法來構建概率電路：
i）數據驅動方法：基于數據學習電路的結構并優化其參數，使得潛在的邏輯規則能夠嵌入到電路中。
ii）知識注入方法：通過人工設計電路的結構，并設定其參數，以確保由人類預定義的邏輯規則被顯式編碼進電路中。
3）聯合優化：最后，對兩個模塊進行端到端的聯合優化，以進一步提升整體模型在下游任務上的性能。

為了對整體模型的性能提供理論保障，我們展示了由于NPCs具有組合性以及使用了概率電路，因此它具備一種組合誤差界（compositional error bound）——即整體模型的誤差可以被其各個模塊誤差的線性組合所上界限制。

此外，我們還提供了多種類型的解釋，以幫助人類更容易理解NPC的預測結果：
1）最可能解釋（Most Probable Explanation, MPE）：找出對預測類別貢獻最大的那一組屬性值組合。
2）反事實解釋（Counterfactual Explanation, CE）：回答這樣一個問題：“如果某些屬性值的可能性被調整后，模型是否會做出正確的預測？”

在四個圖像分類數據集上的實證結果表明，NPC在下游任務的可解釋性與性能之間實現了令人印象深刻的平衡。特別是，NPC優于三種代表性基于概念的模型，并且其表現甚至可以與端到端深度神經網絡相媲美。此外，我們進行了廣泛的消融實驗，研究了使用屬性而非概念的優勢，以及屬性選擇、預測器設計方式和聯合優化對模型性能的影響。

我們的主要貢獻如下：

我們提出了神經概率電路（Neural Probabilistic Circuits, NPCs），這是一種新穎的模型架構，結合了基于神經網絡的屬性識別模型和基于概率電路的任務預測器，能夠通過邏輯推理實現組合性和可解釋性的預測。
我們開發了一個用于NPCs的三階段訓練算法，包括：
1）通過多任務學習進行屬性識別；
2）通過數據驅動和知識注入兩種方式構建電路；
3）端到端的聯合優化。
據我們所知，我們是首次為組合型瓶頸模型的性能提供理論保證的研究，證明了NPC的誤差可以被其各模塊誤差的線性組合所上界限制。
我們提供了多種類型的解釋，以促進人類對NPC預測結果的理解，包括最可能解釋和反事實解釋。
我們通過實驗驗證了NPC在圖像分類任務中表現出具有競爭力的性能，同時具備更強的可解釋性。

2 預備知識

3 神經概率電路（Neural Probabilistic Circuits）

在本節中，我們介紹神經概率電路（Neural Probabilistic Circuits, NPCs）。我們首先描述模型架構和推理過程，說明NPC如何通過邏輯推理實現組合性與可解釋性的預測（第3.1節）。接著，我們詳細闡述用于訓練NPC的三階段訓練算法。特別是，我們提出了兩種不同的構建概率電路的方法：一種是數據驅動方法，另一種是知識注入方法（第3.2節）。最后，我們進行了理論分析，建立了整體模型誤差與其各個模塊誤差之間的關系（第3.3節）。

3.1 模型架構與推理

圖1展示了NPC的整體結構，它由兩個模塊組成：屬性識別模型（attribute recognition model）和任務預測器（task predictor）。

屬性識別模型
是一個神經網絡，用于處理輸入圖像，識別其高層視覺屬性（如顏色、形狀等）。
任務預測器
是一個（歸一化的）概率電路，建模屬性與類別之間的聯合分布，并在其結構和參數中嵌入隱式的或顯式的邏輯規則。該電路支持高效的概率推理，包括聯合推理、邊緣推理和條件推理。

具體來說，給定一組特定的屬性賦值，電路可以推斷出某一類別的概率。通過結合這些條件依賴關系以及各種屬性的概率分布（即屬性識別模型的輸出），NPC能夠計算圖像屬于各個類別的概率。其中概率最高的類別被認定為最終預測類別。

備注。第一個假設本質上是假設這些屬性足以推斷出我們感興趣的類別標簽。第二個假設則認為輸入中包含了關于這些屬性的完整信息，使得它們在給定輸入下是條件獨立的。這些假設是溫和的，并且在實際中常常成立。

例如，在交通標志識別的背景下，如果所選屬性包括標志的形狀（如圓形）、顏色（如紅色）和符號（如斜杠），那么這些屬性共同提供了足夠的信息來推斷出類別標簽（如“禁止進入”），而無需依賴原始圖像中的其他細節。另一方面，原始圖像也完整地編碼了這些屬性（如形狀、顏色和符號）。一旦觀察到輸入圖像，這些屬性就可以被獨立地確定。

在假設1和假設2下，NPC輸出輸入 x 屬于類別 y 的概率如下：

公式（1）是在上述假設下推導得出的，其中兩個內部項分別由基于電路的任務預測器和屬性識別模型給出。隨后，預測的類別即為概率最大的類別，即：

總之，我們提出了一種用于圖像識別任務的新型模型架構。該架構在設計上具有可解釋性，這得益于屬性瓶頸（attribute bottleneck）的引入以及概率電路所具有的概率語義。這兩個模塊共同使得模型的預測可以通過不同屬性的可能性以及屬性與類別之間的條件依賴關系來進行解釋。

3.2 三階段訓練算法

在本節中，我們將提出一個用于神經概率電路（NPCs）的三階段訓練算法，具體包括以下三個階段：
1）通過多任務學習進行屬性識別（第3.2.1節），
2）通過數據驅動方法和知識注入方法構建概率電路（第3.2.2節），
3）進行聯合優化（第3.2.3節）。

3.2.1 屬性識別

我們的目標是訓練屬性識別模型 f(X;θ)，使得每個屬性都能被準確識別。為此，我們采用了一個多任務學習框架[Zhang 和 Yang, 2021]，其中每個任務對應于識別一個特定的屬性。

具體來說，我們為每個任務使用交叉熵損失函數，并根據相應屬性空間的大小為各個任務的損失分配權重。這些權重對任務損失進行了歸一化處理，防止某些任務在訓練過程中占據主導地位 [Kendall 等人, 2018；Grégoire 等人, 2024；Wang 和 Chen, 2020]。

屬性識別階段的整體訓練損失定義如下：

1）結構學習：
LearnSPN（Gens 和 Domingos, 2013）是一種從數據中學習概率電路結構的主流算法。該算法遞歸地識別獨立的變量組以創建積節點（product nodes），對數據進行聚類以生成和節點（sum nodes），并將單個變量作為葉節點。在我們的方法中，我們在數據集 Dˉ 上應用 LearnSPN 算法，從而獲得一個針對觀測數據定制的電路結構。

2）參數學習：
在結構已知的前提下，優化電路的權重（即從和節點出發的邊的權重）被形式化為一個最大似然估計（MLE）問題，對應的損失函數如下：

我們采用了廣泛使用的CCCP 算法（Zhao 等人，2016b），該算法通過迭代對參數 w 進行乘法權重更新來最小化損失函數 LMLE(w;Dˉ)。CCCP 算法能夠保證單調收斂?？傮w而言，在學習得到的結構和優化后的參數基礎上，該電路能夠捕捉觀測數據中潛藏的邏輯規則，從而有效地建模屬性與類別之間的聯合分布。

知識注入方法

將領域知識融入模型有助于確保其行為符合人類對相關領域的理解。在實踐中，領域知識可以表示為一組帶權重的邏輯規則。這些規則通常通過對已有樣本中的模式進行觀察得出，每條規則的權重反映了該規則在觀測數據中成立的頻率。

例如，在交通標志識別任務中，可能存在如下規則：

2）參數設定：
電路中的參數指的是連接積節點與和節點的邊的權重。第 l 條邊的權重被設為規則出現的頻率。

圖2展示了使用此方法構建的一個電路示例。通過這兩個步驟，人類預定義的邏輯規則被手動編碼進電路的結構和參數中。

命題1（Proposition 1）保證了電路根節點的輸出表示了屬性與類別上的經驗聯合概率。

3.2.3 聯合優化

得益于概率電路的可微性，NPCs 可以通過端到端的方式進行微調，從而進一步提升整體模型在下游任務上的性能。具體來說，損失函數定義如下：

為了優化該損失函數，我們簡單地采用隨機梯度下降算法（SGD）來更新參數 θ，而使用投影梯度下降算法（projected gradient descent）來更新參數 w，以確保電路權重的非負性。詳細的優化過程見附錄 A。

3.3 理論分析

在本節中，我們對神經概率電路（NPCs）進行誤差分析，以理解各個模塊的性能如何影響整體模型的表現。由于整體模型和屬性識別模型是判別模型，而概率電路是一個生成模型，我們定義如下的誤差：

定理2（組合誤差界）

在假設1和假設2成立的前提下，NPC的整體誤差被屬性識別模型誤差和基于電路的任務預測器誤差的線性組合所上界限制。特別地，所有屬性上的屬性識別模型誤差被各個屬性誤差之和所上界限制，即：

完整證明見附錄 B。

定理2 表明，降低任意單個屬性的誤差有助于減少屬性識別模型的整體誤差。更重要的是，NPC 的誤差界可以分解為各個模塊誤差的貢獻，這歸功于 NPC 的組合性以及概率電路的引入。因此，降低任何一個模塊的誤差都有助于提升 NPC 的整體性能。

4 模型解釋

如第3.1節所述，模型的預測可以通過屬性識別結果以及類別與屬性之間的條件依賴關系來進行解釋。為了進一步增強人類對模型預測的理解，我們提供了多種類型的解釋，用于回答以下問題：

1）哪一組屬性賦值對模型的預測貢獻最大？
2）在模型預測錯誤的情況下，調整屬性識別的結果是否可能導致正確的預測？

在不引起混淆的前提下，我們稍作符號上的簡化：用 θ 表示訓練好的屬性識別模型的參數，用 S,w 分別表示構建好的概率電路的結構和參數。

4.1 最可能解釋（Most Probable Explanations）

為了解答第一個問題，我們為NPCs定義了最可能解釋（Most Probable Explanations, MPEs），用于識別對預測結果貢獻最高的屬性賦值組合。

MPE（最可能解釋）推理對于概率電路來說通常具有挑戰性。雖然選擇性電路（selective circuits）可以有效地進行MPE推理 [Sánchez-Cauce 等人, 2021]，但這類電路在表達能力上相對受限。由于在我們的實驗設置中屬性數量較少，我們直接采用窮舉法（brute-force algorithm）來推斷MPE。開發更高效的MPE推理啟發式方法仍然是一個開放性問題，并非本文的重點，因此我們將其留作未來工作。

MPE為模型如何得出某一具體類別預測提供了具體的解釋。具體而言，模型之所以預測某一類別，主要是因為輸入圖像的屬性被識別為。這些解釋從屬性層面揭示了模型的預測邏輯，從而增強了模型的可解釋性以及人類對其預測的理解。

為了更深入地了解這些解釋如何反映模型的行為，我們定義了一個MPE的性質，稱為對齊性（alignment），并引入相應的度量標準來刻畫模型的行為表現。

較高的對齊率反映了模型具有較強的可靠性，因為這表明在預測過程中，真實屬性的賦值對預測結果貢獻最大。換句話說，模型在進行預測時，與人類的理解高度一致。

4.2 反事實解釋（Counterfactual Explanations）

為了解答第二個問題，我們為NPCs定義了反事實解釋（Counterfactual Explanations, CEs）[Wachter 等人，2017]，用于探索在屬性識別結果中哪些可接受的修改可以糾正任何預測錯誤的類別。

我們采用投影梯度上升算法（projected gradient ascent）來生成反事實解釋（CEs），具體過程詳見算法1。

反事實解釋（CEs）通過識別為糾正錯誤預測所需的屬性識別結果的修改，揭示了模型的內部運作機制。與最可能解釋（MPEs）類似，這些解釋從屬性層面提供了對模型決策過程的深入理解，從而提升了模型的可解釋性。

接下來，我們引入一個指標來評估反事實解釋在糾正模型預測方面的有效性。

定義4（修正率）：修正率定義為在所有最初預測錯誤的樣本中，被反事實解釋成功糾正的比例。

較高的修正率表明生成的反事實解釋能夠通過調整屬性識別結果，有效地糾正模型的預測錯誤。

5 實驗 5.1 實驗設置

數據集
我們在多個基準數據集上評估模型的性能：

1）MNIST-Addition：我們通過按照 [Manhaeve 等人, 2018] 中詳述的通用預處理步驟和流程，從原始 MNIST 數據集 [LeCun 等人, 1998] 衍生出該數據集。每個 MNIST-Addition 樣本由兩個從原始 MNIST 中隨機選取的圖像組成。圖像中的數字范圍為 0 到 9，代表兩個屬性，它們的和作為類別標簽?？偣采闪?35,000 個 MNIST-Addition 樣本。

2）GTSRB：GTSRB 數據集 [Stallkamp 等人, 2012] 包含 39,209 張德國交通標志圖像，類別標簽表示標志類型。此外，我們為每個樣本標注了四個屬性：“顏色”（color）、“形狀”（shape）、“符號”（symbol）和“文字”（text）。這些屬性的具體取值見附錄 D。

3）CelebA：CelebA 數據集 [Liu 等人, 2015] 包含 202,599 張名人面部圖像，并用 40 個二元概念進行標注。我們從中選擇 8 個最平衡的二元概念，并將它們分組為 5 個屬性：“嘴巴”（mouth）、“臉部”（face）、“化妝品”（cosmetic）、“頭發”（hair）和“外貌”（appearance）。參考 Zarlenga 等人 [2022] 的方法，我們將每種概念組合視為一個組。為了平衡數據集并增加其復雜性，我們根據每組所含圖像數量進行排序并戰略性地配對：最多的一組與最少的一組合并，第二多的與第二少的合并，依此類推。最終得到 127 個類別。

4）AwA2：AwA2 數據集 [Xian 等人, 2018] 包含 37,322 張 50 種動物的圖像，每張圖像標注有 85 個二元概念。我們排除了一些描述非視覺屬性（如“快速”、“家養”）或不顯著特征（如“咬牙”），以及表示背景信息（如“沙漠”、“森林”）的概念。最終保留 29 個概念，并將其歸類為 4 個屬性：“顏色”（color）、“表面”（surface）、“身體”（body）和“四肢”（limb）。這些屬性的具體取值見附錄 D。

對于所有數據集，我們將樣本按 8:1:1 的比例劃分為訓練集、驗證集和測試集。

基線模型
我們選擇 CBM [Koh 等人, 2020] 及其若干代表性變體作為基線模型。具體包括：

CEM
[Zarlenga 等人, 2022]：該方法使用高維概念嵌入向量作為瓶頸層，而非概念概率。
DCR
[Barbiero 等人, 2023]：該方法使用深度概念推理器作為任務預測器，而非簡單的線性層。
端到端 DNN
[He 等人, 2016]：作為一個額外的基線模型。

需要注意的是，CEM 和端到端 DNN 并不可解釋，因為它們的組件無法被人類直觀理解，盡管它們在下游任務中可能具有競爭力的表現。模型屬性比較總結于表1中。模型架構和訓練細節的詳細描述見附錄 C。

評估指標

考慮到 NPCs 的組合性質，我們為各個模塊及整體模型引入了不同的評估指標：

1）屬性識別模型：
我們采用兩個指標來評估屬性識別模型：

第一個是輸出概率向量與真實概率向量之間的平均總變差距離（mean total variation distance），定義如下：

5.2 NPCs 與基線模型的對比

我們在四個基準數據集上將 NPCs 與基線模型進行了比較，結果總結在表2中。具體來說：

我們將使用數據驅動方法構建電路的 NPC 稱為 “NPC(Data)”；
將使用知識注入方法構建電路的 NPC 稱為 “NPC(Knowledge)”。

表2中的結果顯示，NPCs 在所有基于概念的基線模型中表現最優。

NPC(Knowledge)
在 MNIST-Addition 和 GTSRB 數據集上表現最佳；
NPC(Data)
在 CelebA 和 AwA2 數據集上領先。

值得注意的是，即使與依賴高維概念嵌入、不可解釋的 CEM 模型相比，NPCs 也展現出更優性能，這突顯了 NPCs 在利用可解釋的概念概率進行下游分類任務時的有效性。

更令人印象深刻的是，NPCs 的表現甚至優于端到端 DNN，在 MNIST-Addition 和 GTSRB 數據集上的分類準確率超過了后者。盡管在 CelebA 和 AwA2 等更復雜的任務上，與端到端 DNN 之間仍存在小幅差距，但上述發現表明：雖然相比黑盒模型仍有提升空間，但 NPCs 成功在可解釋性與任務性能之間取得了令人信服的平衡。

總體而言，實驗結果強調了可解釋模型的巨大潛力，證明它們在下游任務中的表現可以與基線模型乃至端到端黑盒 DNN 相媲美。

5.3 消融實驗

在本節中，我們將從更多角度深入分析 NPCs 的特性。具體包括：

1）屬性（attributes）與概念（concepts）的整合優勢；
2）屬性選擇的影響；
3）不同任務預測器構建方式的效果；
4）聯合優化對整體性能的影響。

5.3.1 屬性 vs. 概念

不同于現有基于概念的模型通常使用單個二元概念（如“紅色”、“黃色”），NPCs 使用的是概念組，即屬性（如“顏色”）。在此，我們旨在探討使用屬性相較于單個概念的優勢。

為此，我們將 CBM [Koh et al., 2020] 中的概念識別模型替換為屬性識別模型，從而得到一個新模型，稱為屬性瓶頸模型（Attribute Bottleneck Model, ABM）。ABM 包括一個屬性識別模型和一個作為任務預測器的線性層。

我們采用 CBM 的訓練損失函數，并將其中的概念損失替換為式 (2) 中定義的屬性損失。CBM 與 ABM 的性能對比見表3。

表3的結果顯示：

在平均總變差距離（mean TV distance）方面，ABM 在 MNIST-Addition 和 GTSRB 數據集上優于 CBM；
在 CelebA 和 AwA2 上表現略有下降；
在平均概念準確率（mean concept accuracy）方面，ABM 在所有數據集上均一致優于 CBM。

這些結果強調了屬性識別模型的有效性，說明屬性能夠捕捉到更細致的信息。

我們推測，每個屬性內部的不同取值之間以及不同屬性之間可能存在內在關系。若將所有取值視為獨立的概念，則忽略了這些相互依賴關系，可能導致性能下降。

總體而言，這些結果表明：通過使用屬性，可以在預測中保留關系約束，從而提升模型性能。

5.3.2 屬性選擇的影響

在推理過程中，NPC 利用足夠的屬性來生成最終的預測結果。在此，我們旨在探討以下問題：

在推理過程中排除某一特定屬性會對 NPC 在下游任務中的表現產生怎樣的影響？
排除不同的屬性時，其對性能的影響是否會有所不同？

我們觀察到，當 NPC 在推理過程中缺少一個屬性時，分類準確率會下降。這是因為此時不再滿足“屬性足夠性”假設（即假設1），導致公式 (1) 中的等式被破壞。因此，上述公式無法正確表示 Prθ,w(Y=y∣X)。依賴該公式進行推理會對預測結果產生不利影響。

另一方面，我們發現排除不同的屬性對任務性能的影響也有所不同：

排除“顏色”（color）或“形狀”（shape）屬性只會導致準確率輕微下降；
而排除“符號”（symbol）或“文字”（text）屬性則會導致顯著的性能下降。

我們將這種差異歸因于這些屬性本身的性質不同。更具體地說：

“顏色”和“形狀”這類屬性通常不是決定性的，也就是說它們并不直接決定最終類別，其缺失可以通過其他屬性的信息進行一定程度的補償。例如，即使沒有“紅色”或“八邊形”的提示，只要“文字”屬性顯示為“stop”，仍然可以推斷出這是一個停車標志。因此，排除非決定性屬性對性能影響較小。
相比之下，“符號”和“文字”屬性在許多樣本中是決定性的，對于區分某些類別至關重要。例如，如果沒有“文字”屬性，就無法區分代表不同限速值的交通標志；同樣，如果沒有“符號”屬性，也就無法區分左彎與右彎標志。因此，排除決定性屬性會嚴重損害預測性能。

對于MNIST-Addition 數據集，圖3（右）展示了類似的結果。特別地，由于兩個屬性（即兩個數字）對于確定最終類別（即它們的和）都是必不可少的，因此任一屬性的缺失都會導致性能大幅下降。

總結：使用不充分的屬性會損害 NPC 在下游任務中的表現，而排除不同屬性所帶來的影響取決于屬性本身的性質。

5.3.3 任務預測器構建方法的影響
在第3.2.2節中，我們介紹了兩種構建概率電路的不同方法：數據驅動方法和知識注入方法。在這里，我們的目標是研究這些構建方法的影響。具體來說，我們希望解決以下問題：
哪種方法構建的電路能更好地捕捉數據分布？
哪種方法構建的電路作為任務預測器表現更有效？

我們首先比較兩種電路的平均似然（mean likelihood）。然后，我們考察由訓練良好的屬性識別模型與任一電路（數據驅動或知識注入）組成的整體模型的分類準確率。結果匯總在表4中。

在分類準確率方面，結合不同電路的模型在MNIST-Addition、GTSRB和CelebA數據集上表現出相似的性能。這種相似性表明，使用知識注入方法構建的兩層電路足以為較簡單的數據集提供準確的屬性與類別之間的關系信息。

相比之下，在更為復雜的AwA2數據集中，Model (Data)明顯優于Model (Knowledge)，這是由于 AwA2 中存在多值屬性，導致屬性值的組合數量龐大。因此，每種組合可能對應的聯合概率非常小。在這種情況下，即使平均似然（mean likelihood）存在微小差異，也可能顯著影響電路捕捉數據分布的能力。例如，哪怕平均似然略低，也可能意味著電路未能正確捕捉大量組合的聯合概率。

如表4所示，在 AwA2 數據集上，Circuit (Knowledge)的平均似然略低于Circuit (Data)，這表明在這種情況下，知識注入電路可能未能充分捕捉屬性與類別之間的細微關系，而數據驅動電路更適合表示數據的聯合分布，從而在下游任務中表現更優。

5.3.4 聯合優化的影響

在訓練NPCs（神經概率電路）時，我們采用了一個三階段的訓練算法：首先獨立地訓練屬性識別模型和任務預測器，然后對整個模型進行聯合優化。在此，我們的目標是研究第三階段（即聯合優化）如何影響NPCs的性能。為此，我們比較了在應用聯合優化之前和之后NPCs的性能。比較結果如圖4所示。

總體而言，聯合優化在各個數據集上均提升了模型性能。
具體來說，對于AwA2數據集，聯合優化顯著提升了NPC(Data)和NPC(Knowledge)的性能，體現了其有效性。
相比之下，在CelebA數據集上，應用聯合優化后性能基本保持不變，其中NPC(Data)有輕微提升，而NPC(Knowledge)則略有下降。
盡管如此，在GTSRB和MNIST-Addition數據集上，兩種NPC模型也都表現出小幅的性能提升。

總體來看，這些結果表明聯合優化在下游任務方面為NPCs帶來了額外的收益。
特別是，對于初始訓練后性能已經較好的數據集，聯合優化帶來了進一步但較為有限的提升；
而對于初始訓練后性能中等的數據集，聯合優化則起到了關鍵作用，顯著提升了整體性能。

5.4 模型解釋
在本節中，我們探討了兩種類型的解釋，并通過示例說明這些解釋如何幫助人類理解NPC（神經概率電路）的內部工作機制，并解釋模型的行為。

5.4.1 最可能解釋（Most Probable Explanations, MPE）
圖5展示了來自四個基準數據集的NPC(Data)的一些示例。具體而言，每個示例包括：一張圖像、類別和屬性的真實標簽、NPC(Data)預測的類別，以及最后對應的最可能解釋（MPE），該解釋揭示了對預測結果貢獻最大的屬性賦值。

在這些示例中，NPC(Data)提供了正確的類別預測，并且其MPE與真實屬性標簽一致。例如，GTSRB 數據集中一個示例的 MPE 為 {顏色：紅色；形狀：圓形；符號：文字；文字內容：30}，這與真實的屬性標簽完全匹配。

這種 MPE 與屬性標簽之間的一致性表明，模型采用了類似人類的推理方式，并做出了可靠的決策。關于NPC(Knowledge)的示例請參見附錄 F。

MPE 對齊率如圖6（左）所示。我們觀察到，NPC(Knowledge)在AwA2數據集上的對齊率相對較低，這表明在某些樣本中，真實屬性賦值并非對正確預測貢獻最大的因素。

這種不對齊可能是由于知識注入方法未能捕捉該數據集中類別與屬性之間相對更復雜的條件依賴關系，從而影響了模型的預測過程。另一方面，在其他場景中，MPE 的對齊率接近 100%，表明模型在做出正確預測時，主要依賴于與真實標簽相匹配的屬性賦值。

因此，可以認為該模型是可靠的，因為其預測過程與人類的決策過程高度一致。

5.4.2 反事實解釋（Counterfactual Explanations, CE）

圖7展示了來自四個基準數據集的NPC(Data)的一些示例。每個樣本包括：一張圖像、屬性和類別的預測結果、生成的反事實解釋（CE），以及最后由該CE修正后的類別預測。

在這些示例中，NPC(Data)錯誤地預測了類別，而反事實解釋通過最小調整屬性預測，有效地糾正了這些錯誤。例如：

在MNIST-Addition數據集中，將“第二個數字”屬性從“4”改為“9”，就將類別預測從“11”更正為“16”。
在GTSRB數據集中，通過調整“文字內容（Text）”屬性的預測，成功修正了類別預測。
在CelebA數據集中，反事實解釋主要通過提高“外貌（Appearance）”屬性中“有吸引力（Attractive）”的概率，從而得到正確的類別預測。
最后，在AwA2數據集中，反事實解釋通過提高“顏色（Color）”屬性中“棕色（Brown）”的概率，將類別預測從“馬（Horse）”更正為“鹿（Deer）”。

關于NPC(Knowledge)的示例詳見附錄F。

反事實解釋（CE）的修正率如圖6（右）所示。
對于像MNIST-Addition和GTSRB這樣的簡單數據集，生成的CEs表現出較高的修正率，表明它們在糾正預測方面的有效性。
然而，對于更復雜的數據集，如CelebA和AwA2，修正率則較低，這凸顯了在復雜數據集上生成有效CEs的局限性。
這一局限性突顯了未來研究的必要性——需要開發更先進的CE生成算法，即使面對復雜數據集，也能以高修正率有效地糾正分類錯誤。

6 局限性與討論

在本節中，我們從多個角度探討NPCs（神經概率電路）的局限性，并指出未來可能的改進方向。

模型架構與端到端深度神經網絡（DNNs）相比，NPCs 通過將模型分解為具有語義意義的模塊，提供了更優的可解釋性，使人類能夠綜合各模塊的輸出來理解最終決策。然而，屬性識別模型本身仍然是一個“黑箱”，其內部機制不透明，這使得很難確保它的輸出真正代表了各個屬性的概率。例如，該模型可能會學習到虛假的相關性，錯誤地將背景特征而非真實屬性映射到輸出。未來的研究可以關注于提高屬性識別模型內部的透明度，從而增強其可解釋性。概率電路結構在 NPCs 中，任務預測器是使用概率電路實現的，該電路要么通過LearnSPN [Gens and Domingos, 2013]學習得到，要么基于人工預定義規則手動構建。然而，由 LearnSPN 生成的電路可能包含過多的節點和邊，導致推理速度變慢?？梢蕴剿髌渌椒?[Vergari et al., 2015; Mauro et al., 2017] 來構建更加緊湊的電路，以提升推理效率。

另一方面，手工構建的電路采用僅包含兩層的簡單結構。雖然這種簡化有助于提升效率，但也會限制電路的表達能力，可能導致其在如 AwA2 這類復雜數據集上的性能下降。未來的研究可以聚焦于在電路表達能力與結構復雜度之間取得更好的平衡。

更具挑戰性場景下的誤差分析我們對 NPCs 的誤差分析基于假設1和假設2，這些假設在一般情況下是適用的。但在某些特定場景下，這些假設可能過于嚴格。例如，在醫學分析中，由于記錄保存或采集過程中數據獲取的限制，屬性往往是不完整的，關鍵信息可能缺失或被隱藏。此外，在圖像質量較差的情況下（如低光照環境下拍攝的圖像），模型可能難以可靠地從圖像中推斷出各種屬性值。在這種情況下，屬性之間的條件相互獨立性假設可能不再成立。

未來，我們計劃在這些更具挑戰性的條件下開展針對 NPCs 的誤差分析，研究各個模塊的性能如何影響整體模型的表現。

減少可解釋性與任務性能之間的權衡本文展示了通過整合屬性識別與概率電路，NPC 能夠在下游任務中生成可解釋的預測結果，同時實現優越的性能。展望未來，我們認為，通過引入更多細粒度、多樣化的、具有語義意義的屬性，并結合使用更復雜的邏輯規則對這些屬性進行推理的結構，我們可以設計出更具組合性的模型架構，從而進一步減少可解釋性與下游任務性能之間的權衡。

7 相關工作

在本節中，我們討論與本文提出的方法相關的若干研究領域。

一概念瓶頸模型及其變體（Concept Bottleneck Models and Variants）

概念瓶頸模型（CBMs）及其變體是一類將決策過程建立在高層、人類可理解概念之上的機器學習模型，具有更高的透明度。該模型最早由 Koh 等人 [2020] 提出，其結構將一個黑箱深度神經網絡分解為兩個模塊：

概念識別模型
：負責預測各種由人類指定的概念；
任務預測器
：基于這些預測出的概念進行分類任務。

后續研究主要集中在改進這兩個模塊。Zarlenga 等人 [2022]、Yeh 等人 [2020]、Kazhdan 等人 [2020] 通過將概念表示為高維嵌入而非簡單的概率值，擴展了概念識別模型的表達能力。此外，Mahinpei 等人 [2021]、Sawada 和 Nakamura [2022]、Sarkar 等人 [2022]、Marconato 等人 [2022] 在瓶頸層中引入了無監督神經元，以增強模型的學習能力。盡管這些擴展提升了下游任務的性能，但也犧牲了可解釋性，因為概念嵌入中的維度和無監督神經元缺乏明確的語義含義。相比之下，使用預測的概念概率可以提供更好的可解釋性。

另一方面，也有研究致力于提升任務預測器的可解釋性。不同于傳統的線性層，一些方法 [Barbiero et al., 2023; Ciravegna et al., 2023; Rodríguez et al., 2024] 設計了新的架構來嵌入邏輯規則，并通過推理實現分類。例如，Barbiero 等人 [2023] 提出了深度概念推理器（deep concept reasoner），而 Rodríguez 等人 [2024] 引入了軟決策樹作為任務預測器。這些方法利用觀測數據優化參數，從而提取數據中隱含的邏輯規則。相較之下，那些直接通過結構和參數編碼人工預定義邏輯規則的模型，則提供了顯式表達領域知識的方式。

二概率電路（Probabilistic Circuits）

概率電路[Sánchez-Cauce et al., 2022] 是一種有根的有向無環圖，用于表示一組變量的聯合分布。電路包含三種類型的節點：

葉節點
：對應輸入變量；
求和節點（sum nodes）
：計算子節點的加權和；
乘積節點（product nodes）
：計算子節點的乘積。

當滿足可分解性（decomposability）和平滑性（smoothness）屬性時，概率電路成為一種可高效推理的概率模型，可以在各種分布上進行高效的推斷 [Poon and Domingos, 2011]。具體而言，輸入變量的聯合概率、邊緣概率和條件概率最多只需兩次遍歷（從葉節點到根節點）即可計算，其計算復雜度與電路規模成線性關系。因此，概率電路結合了傳統概率圖模型的表達能力和現代深度學習框架的可擴展性。

概率電路的結構學習旨在設計在表達能力和計算效率之間取得平衡的結構。Xia 等人 [2023] 將現有的結構學習方法分為四類：

手工設計結構學習
：由人工為特定數據集手動設計結構 [Gens and Domingos, 2012; Poon and Domingos, 2011]；
基于數據的結構學習
：使用啟發式算法 [Adel et al., 2015; Dennis and Ventura, 2012; Gens and Domingos, 2013; Krakovna and Looks, 2016; Molina et al., 2018; Rahman and Gogate, 2016; Rooshenas and Lowd, 2014; Vergari et al., 2015] 或非啟發式算法 [Peharz et al., 2014; Lee et al., 2014; Trapp et al., 2016; Peharz et al., 2019] 從數據中學習結構；
隨機結構學習
：隨機生成結構作為靈活的起點 [Peharz et al., 2019; Rashwan et al., 2016; Trapp et al., 2019]；
集成結構學習
：通過組合多個結構提升對高維數據的泛化能力 [Ventola et al., 2020]。

在本文中，我們分別使用了第一類和第二類結構學習方法，以分別嵌入顯式的和隱式的邏輯規則。

概率電路的參數學習旨在為給定結構尋找最優參數，使電路能夠準確捕捉觀測數據中的潛在概率分布。參數學習大致可分為兩類：

生成式參數學習
[Poon and Domingos, 2011; Peharz, 2015; Rashwan et al., 2016; Zhao et al., 2016a,b]：最常見的范式，目標是最大化所有變量的聯合概率。該方法特別適用于密度估計、生成建模和概率推理等任務。
判別式參數學習
[Gens and Domingos, 2012; Adel et al., 2015; Rashwan et al., 2018]：專注于最大化給定其他變量下類別變量的條件概率，更適合分類和回歸任務。

在本文中，我們采用CCCP [Zhao et al., 2016b]，這是一種生成式參數學習方法，其優勢在于支持乘法參數更新，能夠單調增加對數似然，并帶來更快更穩定的收斂。

三概率圖模型的整合（Integration of Probabilistic Graphical Models）

概率圖模型（PGMs）是一種使用圖結構表示變量之間條件依賴關系并描述其聯合概率分布的框架。憑借其強大的表達能力，PGMs 可以從多個角度增強模型的決策過程。我們的工作展示了一種將 PGMs（即概率電路）整合進模型的方法，用以提升模型預測過程的透明性和可解釋性。

相比之下，Yang 等人 [2022]、Gürel 等人 [2021]、Zhang 等人 [2023]、Kang 等人 [2024] 的研究則側重于通過整合 PGMs 來增強深度分類模型的對抗魯棒性。

四神經符號學習（Neuro-Symbolic Learning）

神經符號學習將神經網絡與符號表示相結合，融合數據驅動學習與符號推理的優勢。將固有規則嵌入任務預測器的 CBM 變體是神經符號學習的一個典型應用。除了 CBM 外，這一范式還可以以多種形式實現。

一類研究聚焦于設計基于符號的目標函數。例如，Badreddine 等人 [2022] 提出了最大化神經網絡輸出滿足預定義符號規則的目標函數。同樣地，Xu 等人 [2018]、Ahmed 等人 [2023] 定義了最大化生成符合符號規則輸出概率的目標函數。這些目標函數也可以作為正則項與標準分類損失函數一起使用，通過優化參數促使神經網絡遵循特定規則。

另一類研究強調模型架構的設計。例如，Ahmed 等人 [2022] 提出了一種語義概率層（semantic probabilistic layer），這是一種專為結構化輸出預測設計的預測層，可無縫集成到神經網絡中，確保預測結果符合某些符號約束。

總體而言，這些研究通過目標函數設計或模型架構修改，確保學習到的模型遵循特定的符號規則。然而，雖然這些方法實現了規則合規性，但模型各組件的顯式語義往往仍不清晰，引發了關于其透明性和可解釋性的擔憂。

8 結論

在本文中，我們提出了神經概率電路（Neural Probabilistic Circuits, NPCs），這是一種將決策過程分解為屬性識別和邏輯推理的新架構，能夠實現組合式且可解釋的預測。

在四個圖像分類數據集上的實驗結果表明，NPC 在與四種基線模型的對比中表現出具有競爭力的性能。此外，我們進行了一系列消融實驗，并得出了以下發現：

與單獨的二元概念相比，使用屬性可以保留關系約束，從而提升模型性能
屬性不足會損害 NPC 在下游任務中的表現，而排除特定屬性的影響取決于其固有屬性
對于簡單的數據集，采用知識注入方法手工構建的電路已足以取得良好性能，而在復雜數據集上，數據驅動構建的電路更具優勢
聯合優化進一步提升了模型的整體性能

此外，我們展示了所提出的最可能解釋（MPE）和反事實解釋（CE）如何從屬性層面揭示模型的決策過程，從而增強人類對模型的理解。

最后，我們從多個角度討論了 NPCs 的局限性及未來可能的研究方向，為后續改進提供了思路。

我們的研究展示了通過將語義明確的屬性與概率電路相結合，NPCs 在提升模型可解釋性與性能方面的潛力，為未來基于邏輯推理的可解釋機器學習發展提供了可行路徑與深刻洞見。

原文鏈接：https://arxiv.org/html/2501.07021v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.