Neurosymbolic Diffusion Models
神經符號擴散模型
https://arxiv.org/abs/2505.13138
摘要
神經符號(NeSy)預測器將神經感知與符號推理相結合,以解決視覺推理等任務。然而,標準的NeSy預測器假設它們提取的符號之間具有條件獨立性,從而限制了其建模符號間交互和不確定性的能力——這通常導致預測過于自信,并在分布外泛化上表現不佳。為了克服獨立性假設的局限性,我們引入了神經符號擴散模型(NESYDMS),這是一種新的NeSy預測器類別,使用離散擴散來建模符號之間的依賴關系。我們的方法在擴散過程的每一步中重復使用NeSy預測器中的獨立性假設,從而在實現可擴展學習的同時捕捉符號間的依賴性和不確定性量化。在合成和現實世界的基準測試中——包括高維視覺路徑規劃和基于規則的自動駕駛任務——NESYDMS在NeSy預測器中實現了最先進的準確率,并展現出良好的校準性能。
1 引言
神經符號(NeSy)方法旨在通過在神經網絡中加入符號推理來開發可靠且可解釋的人工智能系統 [25, 26, 73]。特別是,概率神經符號預測器 [50, 53, 54, 76] 學習神經網絡,從原始輸入中提取高層符號,也稱為“概念”(concepts)。這些概念是用于可解釋符號程序中的隱變量,用以進行推理并預測輸出標簽。然而,近期的研究指出,NeSy預測器的可靠性并不總是有保障,尤其是在某些常見的架構選擇下。
更具體地說,在許多現實世界場景中,NeSy預測器會“靜默失敗”:它們可能在獲得高輸出標簽準確率的同時學到了錯誤的概念 [22, 27]。當數據和程序共同允許存在多個無法區分的概念分配時,就會出現這個問題 [53]。我們該如何設計能夠處理這種模糊性的NeSy預測器呢?Marconato等人 [52] 認為,NeSy預測器應該對那些與數據一致的概念表達不確定性。這樣,不確定性可以引導用戶干預、建立信任,或在模型不確定時觸發新數據的采集 [52]。
然而,大多數現有的NeSy預測器無法正確建模這種不確定性,因為它們依賴于假設概念之間(條件)獨立的神經網絡 [10, 76, 82]。雖然這一假設使得概率推理變得高效 [6, 69, 76, 82],但也使這些NeSy預測器無法意識到概念的模糊性,從而難以可靠地進行分布外泛化 [75]。因此,設計具有表達力強、可擴展且可靠的NeSy預測器仍是一個開放問題。
為了填補這一空白,我們設計了神經符號擴散模型(NESYDMS)。NESYDMS 是首個結合NeSy預測器中的概念與符號程序的擴散模型類。理論上,離散擴散模型 [9, 65] 特別適合NeSy預測器,因為其去噪過程的每一步都涉及預測一個完全分解的離散分布。我們利用這種局部獨立性假設,既受益于傳統NeSy預測器的理念與工具,又在全局層面將概念建模為相互依賴的實體。實際上,為NeSy預測器設計擴散過程極具挑戰性,因為它需要處理符號程序并邊緣化所有可能的概念,而這項任務在一般情況下是難以處理的。我們展示了如何通過設計一種新穎的連續時間損失函數來有效解決這兩個方面的問題,該損失函數整合了符號程序,并且訓練規模良好。
貢獻:在第2節討論了NeSy預測器和(掩碼)擴散模型的背景之后,我們在第3節中(c1)介紹了NESYDMS,這是一種可擴展的NeSy預測器類,通過形式化掩碼擴散過程 [65] 來建模概念之間的依賴關系。然后在第3.2節中(c2),我們推導出NESYDMS的一個原理性損失函數,并提出了一種高效的梯度估計器用于訓練。為了推導該損失函數,我們證明了掩碼擴散模型的連續時間損失可以推廣到非因子化的分布。最后,在第4節中(c3),我們實證表明NESYDMS不僅在RSBench視覺推理問題套件 [11] 的任務中表現出色且具備良好的校準性能,同時還在復雜的視覺路徑規劃任務 [61] 上超越了當前最先進的方法。
2 背景 2.1 神經符號預測器
上述公式也被稱為計算一個條件加權模型計數(Weighted Model Count, WMC),它是多個概率神經符號方法的核心 [6, 41, 50, 76, 82]。
示例 2.1 [62]:考慮圖1中的視覺路徑規劃任務,其目標是從視覺地圖 x 的左上角預測到右下角的最小代價路徑 y。y被編碼為一個二值矩陣,其中構成路徑的單元格被標記為1。一個神經網絡提取出表示每個網格單元離散代價的概念 c,然后使用像 Dijkstra 這樣的搜索算法 φ(c) 來根據代價 c 找到最短路徑 y。
推理捷徑(Reasoning shortcuts)
最近的研究證明,NeSy 預測器容易受到推理捷徑(Reasoning Shortcuts, RSs)的影響,即模型 pθ(y∣x)能夠在給定輸入 x 的情況下正確預測輸出標簽 y,但對輸入到概念 c 的映射卻是錯誤的。由于我們在訓練數據中無法察覺這種 RS,它可能在未見過的數據上嚴重損害模型性能 [51]。緩解 RS 是具有挑戰性的,并且可能代價高昂 [53]。然而,如果模型能夠適當地表達所有與輸入-輸出映射一致的概念上的不確定性,就可以使其意識到自己的 RS,從而提高可靠性和泛化能力 [52]。例如,我們可以在主動學習設置中部署 NeSy 預測器,在不確定的概念上請求額外標注。
示例 2.2:考慮一個包含兩個 MNIST 數字的輸入 x,這兩個數字要么是 0,要么是 1。隱藏的概念 c 是這兩個數字,而程序 φ(c) 在兩個數字不同時返回 1,否則返回 0。如果一個神經網絡概念提取器 pθ(c∣x) 將 MNIST 中的 0 映射成 1,將 1 映射成 0,它也能完美擬合輸入-輸出映射。
在示例 2.2 中,該配置在沒有學習真實概念的情況下最大化了公式(1)。僅憑輸入-輸出對,我們無法區分這種 RS 和正確的輸入-概念映射。相反,如果給定真實概念 c?=(0,1),一個能識別 RS 的模型應當對兩種可能 (0,1) 和 (1,0) 都分配一定的置信度。
獨立性假設及其局限性
NeSy 預測器利用這一假設通過 WMC 求解器和知識編譯技術 [15, 18, 60],或通過開發高效的近似算法 [69, 76],來進行高效的概率推理。
然而,最近的研究表明,這樣的模型無法在最大化公式(1)的同時表達不同概念之間的相關不確定性 [75]。為了說明這一點,再看示例 2.2,其中真實概念為 。對于獨立模型來說,公式(1)的最大化者只能是確定性地返回 (0,1) 或 (1,0) [75]。然而,并不存在一個最大化者可以同時在這兩種情況上分配概率質量,這意味著獨立模型無法識別 RS。
為了克服這一限制,我們需要設計一種能夠表達概念之間依賴關系的 NeSy 預測器,這也是我們接下來要解決的問題。
2.2 哪一類表達能力強的模型適用于NeSy?
先前關于不依賴獨立性假設的NeSy預測器的研究探索了混合模型及其推廣形式——概率電路 [6, 16]。例如,BEARS [52] 就是用于識別推理捷徑(RS-aware)的模型。然而,這種方法仍然需要:
- 通過知識編譯將程序編譯成二值電路
- 確保概率電路與該二值電路兼容[79]。
因此,對于作用在高維空間上的程序來說,使用這些方法進行擴展可能是具有挑戰性的 [4, 76]。
另一種常見的表達能力強的模型是自回歸模型。然而,在基于公式(1)的NeSy預測器中使用這類模型在計算上是困難的,因為對概念的邊緣化與自回歸條件建模并不滿足交換律 [3, 5]。
雖然擴散模型也存在類似的問題,但它們在每一步去噪過程中局部地假設條件獨立性。這種局部的獨立性假設足以編碼全局的依賴關系。
因此,我們采用掩碼擴散模型(masked diffusion models)[65],這類模型通過迭代“去掩碼”一個離散樣本來實現表達能力。我們在第3節中將進一步討論如何擴展其局部獨立性假設,以實現NeSy預測器的設計。
掩碼擴散模型(Masked diffusion models)
擴散模型通過定義一個前向過程,并讓神經網絡去學習建模其反向過程,從而對概念 c 上的聯合分布進行富有表達力的建模。由于我們的概念是符號化的,因此我們需要一種適用于離散數據的擴散過程 [9]。
我們選擇使用掩碼擴散模型(Masked Diffusion Models, MDMs)[65, 68],這是一種在語言建模 [58, 85] 和推理任務 [84] 中已展現出良好效果的離散擴散模型。MDMs 允許我們使用程序 φ 推導出一個原理性的損失函數(見第3.2節),并開發可擴展的近似方法(見第3.4節)。
我們首先以最基礎的形式來回顧 MDMs,即用于對概念建模無條件分布 pθ(c) 的情形。
3 神經符號擴散模型(Neurosymbolic Diffusion Models)
為了克服困擾NeSy預測器的獨立性假設所帶來的限制,我們的神經符號擴散模型(NESYDMS)利用MDMs來學習在概念和標簽上的富有表達力的分布,同時在局部保留這一假設,從而實現可擴展性。
為了構建NESYDMS,我們對MDMs進行了如下擴展:
- 以輸入 x 為條件
- 作用于概念 c 和輸出 y 上,并將概念視為隱變量;
- 通過程序 φ 提供可微反饋
我們首先在第3.1節定義該模型,然后在第3.2節推導出一個原理性的損失函數。接著在第3.3和3.4節討論如何優化該損失函數,并在第3.5節結束時討論推理過程。最后,圖1展示了NESYDMS損失計算的總體流程。
3.1 模型設定
3.2 損失函數
接下來,我們為 NESYDMS 推導一個NELBO(Negative Evidence Lower Bound,負證據下界)。
直觀上,我們首先在 T 個離散步驟上定義 NESYDM 的反向過程,然后考慮當 T 趨于無窮大時的數據對數似然,從而得到一個連續時間過程的 NELBO。
這個 NELBO 將作為我們用于訓練 NESYDMS 的損失函數的基礎。
3.3 變分后驗
3.4 損失優化與可擴展性
接下來,我們描述如何使用梯度下降法來優化 NESYDM 的 NELBO 。我們設計了一種梯度估計算法,通過近似難以處理的計算,使其能夠擴展到大規模推理問題。
3.5 采樣與推理
接下來,我們描述如何從訓練好的 NESYDMS 中進行采樣,以在給定輸入 x 的情況下對輸出 y 進行預測。
4 實驗
我們旨在回答以下兩個研究問題:
- (RQ1):“NESYDMS 能否擴展到高維推理任務?”
- (RQ2):“與基于獨立性假設的模型相比,NESYDMS 的表達能力是否提升了對推理捷徑(RS)的識別能力?”
由于目前尚無可擴展的 RS-aware NeSy 方法,我們為這兩個研究問題分別選擇了不同的基線方法。
我們在相同的實驗設置下進行比較,使用相同的數據集和神經網絡架構以確保公平性。
為了近似變分熵(見第3.4節),我們在實驗中使用了無條件熵,因為條件熵是難以處理的。在 RSBench 實驗中,我們嘗試了兩種方式。
在所有實驗中,我們都采用線性噪聲調度函數 αt=1?t。
對于所有實驗,我們都使用了10 個不同的隨機種子進行重復運行。在所有表格中,我們將表現最好的方法用粗體標出。具體來說,根據非配對單邊 Mann-Whitney U 檢驗(顯著性水平為 0.05),我們對所有與最高得分方法沒有統計差異的方法都加粗顯示。
更多實驗細節請參見附錄 G。
代碼可在 https://github.com/HEmile/neurosymbolic-diffusion 獲取。
4.1 RQ1:NESYDM 的可擴展性
為了評估 NESYDM 的可擴展性,我們考慮了兩個具有高組合復雜度的 NeSy 基準任務:
多位 MNIST 加法(Multidigit MNIST Addition)
視覺路徑規劃(Visual Path Planning)
我們將其與當前使用獨立性假設且不具 RS-aware的近似 NeSy 方法進行對比,包括 A-NeSI [77]、Scallop [41] 和 EXAL [81]。
多位 MNIST 加法
我們還將結果與 I-MLE 進行比較,后者是將代價預測為單一連續變量的最先進方法 [59]。
如表2所示,在具有挑戰性的 30×30 問題上,NESYDM 顯著優于所有基線方法,包括 I-MLE。該問題具有 5900的組合空間,被認為是 NeSy 和神經網絡模型中極具挑戰的任務 [62]。
在 12×12 的問題上,我們無法拒絕“NESYDM 優于 A-NeSI + RLOO”的零假設,但它的方差要小得多,突出了我們方法的可靠性。
4.2 RQ2:NESYDM 的 RS-awareness(推理捷徑識別能力)
為了評估 NESYDM 對推理捷徑(RS)的識別能力,我們使用了RSBench 數據集[53],該數據集包含一些僅憑數據本身無法消除歧義的推理任務。
我們考慮了兩個合成問題和一個現實世界任務:
- MNIST Half
和MNIST Even-Odd(MNIST E-O)是 MNIST 加法任務的變體,構造方式確保概念無法被明確區分。它們包含分布外(OOD)測試集,用于診斷模型是否過于自信。
- BDD-OIA(BDD)
是一個自動駕駛任務 [83],其中模型根據行車記錄儀圖像預測汽車可以采取的動作。NeSy 預測器從圖像中提取高層概念,并使用規則來預測允許的操作。
我們將 NESYDM 與基于獨立性假設的 NeSy 預測器進行比較,包括Semantic Loss[82] 和DeepProbLog[50]2。此外,我們還與BEARS進行比較,它是基于獨立性假設的 NeSy 預測器的一種 RS-aware 集成方法 [52]。
在表3中,我們發現 NESYDM 在所有數據集中都很好地平衡了準確性和 RS-awareness。
在 MNIST 相關任務中,NESYDM 的概念準確率顯著優于其他競爭方法,無論是在同分布還是分布外數據上。
此外,特別是當使用條件熵時,NESYDM 的概念校準性能明顯優于基于獨立性假設的基線方法以及 RS-aware 的基線方法。
我們在附錄 H 中報告了更多關于這些數據集的結果,并發現不同的多數投票策略可能有助于提升 OOD 性能。
在 BDD-OIA 任務中,我們發現 NESYDM 在輸出預測性能方面優于 BEARS,同時相比 DeepProbLog,在校準性能和概念性能方面都有顯著提升。
此外,我們注意到,與基線方法不同的是,如第4.1節所述,NESYDM 具有更強的可擴展性。
5 更多相關工作神經符號預測器(NeSy Predictors)
神經符號預測器的研究領域主要分為兩類方法:使用模糊邏輯的方法 [10, 17, 28, 74] 和使用概率邏輯的方法 [6, 41, 50, 76, 82]。
- 模糊邏輯方法
隱含地假設概念之間具有某種獨立性;
而概率邏輯方法則可以建模概念之間的依賴關系。
一些突破獨立性假設的早期方法通過混合多個獨立分布來實現,例如 SPL [6] 和專為 RS-awareness 設計的 BEARS [52]。
類似地,像 DeepProbLog 和 Scallop 這樣的神經符號概率邏輯編程框架 [41, 50] 可以引入輔助變量來增強表達能力。然而,這些方法依賴于精確推理或Top-k 推理,難以擴展到如視覺路徑規劃這類高維推理任務。
此外,它們的表達能力也受限于混合成分的數量。
相反,專注于通過近似推理來擴展神經符號預測器的方法通常都假設概念之間相互獨立 [69, 76, 81],因此缺乏對推理捷徑(RS)的識別能力。
神經符號生成模型(NeSy Generative Models)一個密切相關的話題是,在涉及程序和約束的前提下,從富有表達力的模型(如大語言模型 LLMs 和擴散模型)中進行生成。
對于大語言模型(LLMs),已有研究通過編碼約束的神經符號損失函數 [2, 3, 13] 或使用受約束的解碼方式(例如使用序貫蒙特卡洛方法 [40, 44, 88],或將 LLM 與概率電路近似結合 [5, 86, 87])來進行約束生成。
然而,這些方法通常采用啟發式手段引導 LLM 向滿足約束的方向生成,例如使用偽似然函數形式 [2, 3],或訓練一個近似 LLM 的 HMM 替代模型 [86, 87]。
相比之下,我們為 NESYDM 提出了一個原理性的 NELBO 框架,并利用了擴散模型所提供的局部結構來實現這一點。
此外,還有一些方法嘗試在 GANs [24, 71, 72]、VAEs [55]、深度 HMMs [70] 和連續擴散模型 [31, 66] 上進行帶約束的生成。我們將 NESYDM 擴展到這種生成場景的工作留待未來研究。
6 結論
在本文中,我們提出了NESYDMS,這是首個將掩碼擴散模型作為神經網絡提取器整合進神經符號預測器的方法。
我們展示了如何通過在局部去掩碼分布上使用高效的概率推理技術,同時最小化一個全局的 NELBO(該 NELBO 是數據對數似然的下界),從而實現 NESYDMS 的可擴展訓練。
實驗證明,NESYDMS 成為了目前少數能夠在保持 RS-awareness(推理捷徑識別能力)的同時擴展到高維推理任務的 NeSy 預測器之一。
這一特性對于部署在現實世界安全關鍵型應用中的 NeSy 預測器來說至關重要,因為它們需要具備良好的校準性能,并能夠穩健地進行泛化。
局限性與未來工作
如果我們可以獲得一個高效的電路(例如符號程序的可處理表示 [60]),那么 NESYDM 的 NELBO 可以進一步擴展,以整合額外的精確推理模塊。
否則,正如第3.4節所討論的那樣,我們的基于采樣的方法依賴于將輸出 y 分解為多個獨立維度的能力,以確保 RLOO 中的搜索被分解為多個獨立子問題。這兩方面的限制意味著 NESYDMS 的可擴展性受限于:
要么任務具有高效的電路表示;
要么輸出空間是可分解的。
如何結合這兩個方面,或者如何自動地(并近似地)將其他設定轉化為其中之一,是一個有趣且具有挑戰性的未來研究方向。
另外兩個值得改進的方向包括:
我們當前用于最大化變分熵的方法;
從變分分布采樣帶來的間接梯度的影響。
最后,我們認為探索 NESYDMS 如何擴展到除掩碼擴散模型 [9] 以外的其他離散擴散模型,也是一個有趣的研究方向。
NESYDMS 甚至可以通過利用近年來關于連續約束下生成的研究成果 [20, 38, 72],被進一步擴展為一種混合擴散模型,該模型同時包含符號化的離散概念和連續隱變量。
https://arxiv.org/abs/2505.13138
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.