Π-NeSy: A Possibilistic Neuro-Symbolic Approach
基于可能性的神經符號系統:Π-NeSy 方法
https://arxiv.org/pdf/2504.07055
摘要
本文介紹了一種神經符號方法,該方法將由神經網絡執行的低層感知任務與由可能性規則系統執行的高層推理任務相結合。
我們的目標是針對每一個輸入實例,推導出它屬于某個目標(元)概念的可能性程度。該(元)概念通過一個可能性規則系統與若干中間概念相關聯。每個中間概念在輸入實例上的概率由神經網絡進行推理。
低層感知任務與高層推理任務之間的聯系在于:將神經網絡輸出(通過 softmax 激活建模為概率分布)轉化為可能性分布。引入中間概念有助于解釋目的:借助規則系統,可以基于識別出的中間概念,對輸入實例是否屬于該(元)概念進行分類和解釋。
從技術角度看,我們的貢獻在于設計了高效的方法來定義與可能性規則系統相關的矩陣關系及其對應的方程組。這些矩陣和方程是用于從可能性規則系統中進行推理、并根據訓練數據樣本學習規則參數的關鍵數據結構。此外,借助近年來關于模糊關系方程不一致性處理的研究成果,我們提出了一種可根據多個訓練數據樣本學習規則參數的方法。
在 MNIST 加法問題和 MNIST 數獨謎題問題上的實驗表明,與當前最先進的神經符號方法相比,我們的方法具有更高的有效性。
關鍵詞:神經符號方法,可能性理論,推理,學習
1. 引言
人工智能(AI)研究中的一個核心挑戰是將神經方法與符號方法相結合。基于神經網絡的方法在低層感知和大規模數據集上的學習表現出色,并對噪聲和數據模糊性具有魯棒性。然而,神經方法在泛化能力方面可能遇到困難,且缺乏可解釋性,這阻礙了對其決策過程的理解。
另一方面,符號方法利用領域知識對數據進行推理,通過顯式的規則表示提供了透明性,從而有助于更好地理解決策過程,進而提升可信度與可解釋性。但符號方法通常難以捕捉復雜的低層模式,在處理噪聲或模糊數據時效率不高。
這些挑戰催生了神經符號計算(Neuro-Symbolic Computing, NeSy)的發展,該方向倡導尋找神經方法與符號方法之間的交匯點(Baaj 等, 2024;d’Avila Garcez 等, 2019;Hitzler 與 Sarker, 2021;Marra 等, 2024)。除了尋求協同效應與互補性之外,當前也亟需開發能夠讓神經與符號方法相互協作的框架。特別是,發展神經符號方法中兩個高度期望的能力變得尤為重要:
- 聯合推理(joint inference):能夠基于知識片段和涉及復雜低層特征的示例生成結構化預測;
- 聯合學習(joint learning):能夠共同學習并調整神經網絡模型與符號模型的參數。
另一個重要的神經符號方法組成部分是所采用的不確定性理論(Uncertainty Theory)。由于數據與知識片段通常都帶有不確定性,從它們中進行推理與學習需要使用適合不確定性質的理論。在此視角下,概率論目前占據主導地位,因此人們常常將神經符號方法等同于“神經+邏輯+概率”的組合(Raedt 等, 2019)。然而,人們早已認識到,概率論(尤其是在貝葉斯框架下,即只考慮單一概率分布的情況下)并不適用于所有不確定場景,尤其是那些不確定性并非源于隨機性,而是源于部分無知的情形(Shafer, 1976;Denoeux 等, 2020)。
因此,Dubois 與 Prade 強調了可能性理論(Possibility Theory)作為另一種有價值的不確定性理論的重要性,認為它同樣可以作為構建神經符號方法的基礎(Dubois 與 Prade, 2024)。事實上,可能性理論是一種用于處理認知不確定性(epistemic uncertainty,即由于信息缺失或有限所導致的不確定性)的定性框架,在面對這類不確定性滲透的數據與知識時,它成為整合邏輯與神經網絡的一個有吸引力的選擇。
從某種意義上說,可能性理論處于邏輯與概率框架之間。基本上,在可能性理論中,不確定性由兩個對偶測度——可能性(possibility)與必然性(necessity)來建模,從而區分“可能但完全不確定”的情況與“某種程度上確定”的情況。這兩個測度具有簡單的集合論解釋,構成了最簡單但非平凡的上下界概率系統(Dubois 與 Prade, 2024)。
簡而言之,可能性測度為一個事件賦予其組成元素中最高的合理性程度,而其對偶的必然性測度則給出該事件的確定性的下限,表明其補集有多不可能發生。在 Dubois 與 Prade(2024)中指出,借助近年來提出的用于可能性規則系統的推理與學習工具(Baaj, 2022b;Baaj 等, 2021a),我們可以結合可能性推理能力和基于神經網絡的學習能力,前提是可以將神經網絡輸出解釋為可能性分布。
這正是本文所遵循的研究路線。我們提出了一種基于可能性理論的神經符號方法,稱為Π-NeSy,包括以下兩個主要部分:
一個由神經網絡執行的低層感知任務(如圖1所示),其設計目的是根據輸入數據確定中間概念出現的概率(通常通過 softmax 轉換實現)。例如,如果神經網絡被訓練用于識別圖像是否代表數字“0”或“1”,那么它會從每張輸入圖像中生成兩個帶有相應概率的中間概念。對于第一張輸入圖像(圖像1),這兩個中間概念是“圖像1是0”和“圖像1是1”;對于第二張輸入圖像(圖像2),則是“圖像2是0”和“圖像2是1”。對于每張圖像,其兩個中間概念的概率構成一個概率分布。
一個由可能性規則系統執行的高層推理任務(如圖2所示),其設計目的是通過對中間概念的可能性分布進行推理,來確定某個(元)概念出現的可能性程度。
這兩個任務之間的聯系在于:通過使用概率-可能性轉換方法(Delgado & Moral, 1987;Dubois & Prade, 1982, 1983),將神經網絡輸出所建模的概率分布轉化為可能性分布。一旦完成轉化,這些可能性分布即作為可能性規則系統的輸入。延續前述關于兩張圖像中數字識別的例子(此處 k = 2),可能性規則系統的作用可以是判斷這兩張圖像是否代表相同的數字。
Π-NeSy 要求具備明確的背景知識以執行高層推理任務。該背景知識由一個可能性規則系統建模,即一組有限的可能性規則。每條可能性規則的形式為“如果 p,則 q”,其中 p 是規則的前提,q 是規則的結論。規則前提 p 是若干形如 “a(x) ∈ P” 的命題的合取式,其中 a 是作用于某項 x 上的屬性,P 是該屬性域 Da 的一個子集。命題 “a(x) ∈ P” 的否定形式為 “a(x) ∈ P”,其中 P 是 P 在 Da 中的補集,因此該命題可視為一個文字(literal)。結論 q 同樣是一個命題。
每條規則都關聯著兩個參數 r 和 s。這兩個規則參數用于描述規則所帶有的不確定性信息如下:“如果 p,則 q” 這一規則在 1 ? r 的程度上是確定成立的;而其逆規則“如果 ?p,則 ?q” 則在 1 ? s 的程度上是確定成立的(Dubois & Prade, 2020;Farreny & Prade, 1986)。參數 r 和 s 的取值范圍為 [0, 1]。
特別地,當 r = 0 時,規則 “如果 p,則 q” 是完全確定的:在這種情況下,已知前提 p 成立時,結論 q 的必然性達到最大值 1(等價地,已知 p 成立時,?q 的可能性等于最小值 0,表示當 p 確定成立時,?q 不可能發生)。
Π-NeSy 的聯合推理
我們的神經符號方法 Π-NeSy 的結構支持聯合推理,其基礎在于神經網絡與可能性規則系統之間的明確連接。具體而言,當神經網絡處理一個輸入數據項時,它會在一組中間概念上產生一個概率分布。這組中間概念構成了可能性規則系統中某個輸入屬性的取值域,其中每個中間概念是該域中的一個取值。因此,這些中間概念集合使我們能夠將神經網絡的輸出與規則系統的輸入聯系起來。
要在 Π-NeSy 中執行聯合推理,需要有一組有限的輸入數據項,每條數據都關聯著一組中間概念。聯合推理過程如下:
每個輸入數據項由神經網絡進行處理,神經網絡在一組中間概念上生成一個概率分布;
這些概率分布隨后被轉化為可能性分布;
所得的可能性分布作為可能性規則系統的輸入,用于進一步推理。
使用 (Baaj 等, 2021a) 中提出的矩陣關系對可能性規則系統進行推理,從而生成一個關于可能(元)概念的可能性輸出分布。
Π-NeSy 中的聯合學習依賴于一個訓練數據集,其中每個示例由輸入數據項組成,每個數據項關聯著若干中間概念,并對應一個目標(元)概念。數據輸入項所對應的中間概念集合以及所有可能的(元)概念集合均從訓練數據集中確定。
聯合學習分為兩個步驟:
- 神經學習
:僅基于用于識別中間概念的數據項,學習神經網絡的參數;
- 可能性學習
:基于訓練數據集中的示例,使用 (Baaj, 2022b) 中提出的方程系統來學習可能性規則參數的取值。
這兩種類型的學習(神經學習與可能性學習)是按順序連接進行的:
首先,基于數據集中的“(輸入數據項,目標中間概念)”配對執行神經學習;
接著,對用于神經學習的每一個數據項,從神經網絡中執行推理,得到該數據項所關聯的中間概念集合上的輸出概率分布;
下一步,將這些概率分布轉化為可能性分布,從而為示例中的每個數據項生成一個關于中間概念的可能性分布。
隨后,基于這些可能性分布進行可能性學習。用于可能性學習的每一條訓練數據樣本都來源于初始訓練數據集的一個示例,并由以下兩部分構成:
一組該訓練數據樣本的輸入可能性分布,即來自該示例中各個數據項所獲得的可能性分布;
一個針對(元)概念集合的目標輸出可能性分布,其中該示例所對應的目標(元)概念的可能性取值為1,而其他(元)概念的可能性取值為0。
1. 推理的計算復雜度
在概率性神經符號方法中,推理具有較高的計算復雜度(Maene 等, 2024)。例如,DeepProbLog(Manhaeve 等, 2018)依賴于加權模型計數(Weighted Model Counting, WMC;Chavira & Darwiche, 2008),其推理過程屬于 #P 難問題。因此,這類方法通常采用近似推理技術(Maene 等, 2024)。
相比之下,從可能性規則系統中進行推理可歸約為一個min-max 矩陣乘法(其中 min 表示乘法操作,max 表示加法操作)的過程,詳見第3.2節。這一運算在計算復雜度上與標準矩陣乘法相當(Duan & Pettie, 2009)。此外,構建用于推理的矩陣關系(Baaj 等, 2021a)的復雜度關于規則數量呈多項式時間增長(見命題2)。
2. 對不確定性領域知識的處理能力
可能性框架適合通過可能性規則來處理不確定的領域知識(見第2.3.1節)。從規則 “如果 p 則 q” 進行推理,就是根據前提 p 及其否定 ?p 的可能性度,以及規則參數 s 和 r,推導出結論 q 和 ?q 的可能性度。
在可能性框架中,q 和 ?q 的可能性度的計算依賴于一個max-min 公式(見公式(2)),它類似于全概率定理(見公式(3))。其中,規則參數 s 和 r 表示前提 p(或其否定)與結論 q(或其否定)之間的條件可能性分布,即:
3. 學習機制
第4節介紹的可能性學習方法聚焦于學習定義在多類分類問題上的可能性規則參數值。由于可能性框架依賴于min和max函數的組合,傳統的基于梯度下降的學習方法因這兩個函數不可微而無法直接應用。
為此,第4節提出的方法基于 (Baaj, 2022b) 的研究,表明可以通過求解由訓練樣本構造的min-max 方程組來確定規則參數的取值。min-max 方程組類似于線性方程組,只不過分別使用 min 和 max 替代了加法和乘法操作。
在 (Baaj, 2022b) 所提出的 min-max 方程組中,未知向量的各分量對應的就是規則參數。
(Baaj, 2022b) 表明,min-max 方程組的任何解都給出了與所考慮的訓練數據樣本相兼容的規則參數值。因此,如果使用 min-max 方程組的一個解來設定規則參數,并隨后使用該樣本的輸入可能性分布進行基于規則系統的推理,則可以合理地推導出該樣本的目標輸出可能性分布。
當 min-max 方程組不一致(即無解)時——這可能發生在用于構建方程組的數據中包含噪聲或異常值的情況下——我們可以利用 (Baaj, 2024) 中提出的工具來獲得近似解。這些近似解定義如下:它是某個最接近的一致方程組的解。一個一致的方程組被稱為“接近”給定的不一致方程組,當且僅當它的右側項與不一致方程組右側項之間的距離(基于 L-無窮范數)最小。
總結而言,我們基于 (Baaj, 2022b, 2024) 的學習方法具有以下優勢:
利用 (Baaj, 2024),我們可以評估一個訓練數據樣本相對于一組規則的可靠性程度。該可靠性度量基于檢查在 (Baaj, 2022b) 中定義的 min-max 方程組是否一致,從而判斷需要對數據做出多大的擾動(如有的話)才能得到一個一致的方程組。(Baaj, 2024) 還指出了如何對數據進行最小修改以獲得一致的方程組,從而獲得近似解。
在神經符號方法中,當神經模型與可能性規則系統相連時,學習過程可以按順序進行:即首先學習神經模型的參數,然后學習可能性規則系統的規則參數。但也可以實現聯合學習:用于可能性學習的訓練數據輸入可以直接從神經模型的推理結果中獲得,而這些推理是基于用于訓練神經模型的數據得出的。當可能性規則及其參數已預先定義時,還可以檢驗這些規則參數是否與基于訓練數據的可能性學習所得參數一致。
反向傳播:可以使用可能性規則系統執行反向傳播過程(見第5.5.1節)。這一能力有助于進一步優化和改進所使用的神經模型。
可解釋性:可能性規則系統具備內在的解釋能力(Baaj 等, 2021b)(也見 Baaj, 2024),這對于開發能夠通過中間概念對其推理結果進行解釋的神經符號方法非常有用(見第5.5.2節)。
本文的主要貢獻在于改進了與可能性規則系統相關、并在 Π-NeSy 中使用的兩個關鍵數據結構的計算方法:用于推理的矩陣關系(Baaj 等, 2021a)和用于學習的方程系統(Baaj, 2022b)。矩陣關系和方程系統的生成基于對可能性規則集合中輸出屬性 b(x) 的域所進行的顯式劃分,該域被視為領域知識的一部分(見公式(9) 和 Baaj 等, 2021a)。這一劃分是根據規則的結論構建的。那些得出 b(x)∈? 的規則可以被安全地舍棄,不會影響方法的有效性。
接下來,我們首先提出了一種更精細的方法,用于生成僅包含非空子集的劃分。相比 (Baaj 等, 2021a) 中提出的方法,這種改進后的方法更適合實際應用——后者在生成劃分前需要先生成超過 2n 個子集(其中 n 是規則數量),然后再將劃分簡化為僅保留非空子集。而通過這種新方法生成的劃分,使我們可以逐行直接構造控制矩陣關系和方程系統的矩陣,其中每一行恰好對應劃分中的一個子集。因此,矩陣關系和方程系統的構建復雜度得以降低,使得 Π-NeSy 的這兩個核心組件可以在實踐中得到有效應用。
隨后,我們使用 (Baaj, 2022b) 中提出的 min-max 方程系統來解決可能性學習問題。當方程系統是一致的(即存在解)時,我們可計算出其明確解;而當方程系統不一致時——這可能發生在從帶有噪聲的數據樣本(描述當前實例的可能性度值不準確)或異常值(描述該實例屬于目標(元)概念的可能性度值不準確)構建的情況下——我們可以利用 (Baaj, 2024) 中關于處理不一致 min-max 方程系統的最新研究成果。
我們的目標是評估用于構建方程系統的訓練數據樣本的質量,并獲得一個新的、一致的方程系統。這個新的方程系統“接近”原來的不一致系統,意味著新系統的一致解可以作為原不一致系統的近似解。一致性可以通過對該樣本相關的輸出可能性分布進行最小調整來恢復,從而反映出該樣本屬于每個(元)概念的程度。此外,借助 (Baaj, 2024),我們還展示了如何從多個訓練數據樣本中進行學習,即從多組訓練數據集中進行學習。由此我們引入了一種實用的學習方法,稱為可能性級聯學習(possibilistic cascade learning),詳見方法1。
本文的另一項貢獻是實驗結果的呈現。我們在一些知名的神經符號數據集上進行了實驗以評估我們的神經符號方法 Π-NeSy,包括 MNIST 加法問題(Manhaeve 等, 2018)和 MNIST 數獨謎題問題(Augustine 等, 2022)。針對這兩個問題,實驗結果表明,Π-NeSy 在推理與學習時間方面表現合理,在分類準確率方面也優于近期的神經符號方法。
論文其余部分的結構如下:
- 第2節回顧了構建 Π-NeSy 所需的背景知識。我們解釋了如何從神經網絡中獲得概率分布形式的輸出,回顧了可能性理論的基本內容,并介紹了用于可能性規則系統的推理機制以及兩種概率-可能性轉換方法。
- 第3節描述了我們提出的歸納方法,用于根據規則的結論,對可能性規則系統的輸出屬性域進行劃分。
- 第4節提出了一個實用的可能性學習方法(方法1)。
- 第5節報告了在知名神經符號數據集上使用 Π-NeSy 進行的實驗結果。我們將所得經驗結果與采用相同實驗協議的最先進方法的結果進行了對比分析。
最后,在結論部分對實驗結果進行了討論,并展望了未來的研究方向。
2. 背景知識
在本節中,我們簡要回顧神經網絡的工作原理,以及它們如何通過 softmax 激活函數輸出一個概率分布。隨后我們介紹可能性理論的基本定義,描述在處理可能性規則系統時所使用的推理機制,并給出兩種概率-可能性轉換方法。
2.1 人工神經網絡
接下來的段落將介紹理解本文工作所需的一些與人工神經網絡(Neural Networks, NNs)和深度學習相關的基本概念。更詳細的背景知識可參見例如 (Goodfellow 等, 2016)。
神經網絡是一種計算模型,它通過由神經元(節點)組成的多個互連層來學習復雜的輸入輸出映射關系。盡管存在多種類型的神經元,其中一些神經元會對其輸入進行加權求和,加上偏置項,然后將結果傳遞給非線性激活函數(如 ReLU)。通過連續的多層結構,可以識別數據中的復雜模式。
神經網絡的訓練過程涉及最小化一個損失函數(loss function),該函數用于衡量預測輸出與真實輸出之間的差異(在監督學習中)。這一過程通常通過優化算法實現,例如梯度下降法,其中模型參數(權重和偏置)會根據損失函數相對于這些參數的梯度進行迭代調整。
在分類任務中,神經網絡的最后一層通常使用softmax 函數。Softmax 函數將網絡的原始輸出得分(實數)轉化為概率值:它對每個輸出得分取指數,然后對所有指數結果進行歸一化,使得它們之和為 1。對于每個類別 i,其對應的概率由以下公式給出:
其中 zi 是類別 i 的輸出得分。這確保了 softmax 函數的輸出可以被解釋為各個類別上的概率分布,每個值表示模型為相應類別分配的概率。
2.2 可能性理論
可能性理論(Possibility Theory)是一種不確定性理論,它為表示不完整和/或模糊的信息提供了可計算的方法。該理論最初由 Zadeh 提出(Zadeh, 1978),并由 Dubois 與 Prade 進行了系統的發展(Dubois & Prade, 2024)。可能性理論通過兩個對偶測度——可能性(possibility)與必然性(necessity)來建模不確定性,能夠有效地區分“可能但完全不確定”的情況與“在某種程度上確定”的情況。
接下來,我們將簡要介紹可能性理論的基礎知識,重點放在定義可能性規則系統以及概率-可能性轉換方法(將在后續小節中介紹)所需的若干核心概念。
設 U 是一個集合。任何子集 A?U 都被稱為一個事件(event)。特別地,對于每個元素 u∈U,單元素集合 {u} 被稱為一個基本事件(elementary event)。
可能性條件化(Possibilistic Conditioning)在可能性理論的定性框架和定量框架中均有定義。有關詳細綜述,請參見 (Dubois & Prade, 2024)。在本文中,我們采用的是定性框架。
2.3 基于規則系統的可能性處理方式
接下來,我們先簡要回顧可能性規則(possibilistic rules)與可能性規則系統(possibilistic rule-based systems),然后聚焦于一種特定結構——級聯結構(cascade),即一個可能性規則系統使用兩組鏈式連接的可能性規則的情況。
2.3.1 對不確定規則的可能性處理方法
基于規則系統的可能性處理方法最早在20世紀80年代被提出(Farreny 和 Prade,1986,1989),并在近期的研究中再次受到關注(Dubois 和 Prade,2020)。在此框架下,對于規則“如果 p 則 q”和“如果 非 p 則 非 q”的不確定性,采用基于最大-最小合成的矩陣計算方法進行處理:
對不確定規則的可能性處理基于 max?min 矩陣計算,這種方法與可能性邏輯(Dubois 和 Prade,2020)密切相關,而后者又與經典邏輯高度兼容(Dubois 和 Prade,2004)。
通過簡單的例子,我們將說明不確定性權重是如何參與從可能性規則中進行推理的:
2.3.2 可能性規則系統
如前所述,一個可能性規則系統由 n 個 if-then 形式(如果-那么)的可能性規則 R?, R?, …, R? 組成(Dubois 和 Prade,2020)。每條規則 Ri 的形式為 “如果 pi 則 qi”,并關聯一個不確定性傳播矩陣,該矩陣包含兩個規則參數 si 和 ri:
2.3.2 可能性規則系統
如例1所示,可能性規則系統的概念得以說明。在該特定示例中,每條規則的前提與結論之間存在等價關系,因此可以將規則參數設為零,即 si = ri = 0。
在我們的神經符號方法 Π-NeSy 的背景下,為了進行聯合推理,神經模型通過以下方式與可能性規則系統連接:將每個輸入屬性 a?? 的域 D??? 設定為一組中間概念,而將輸出屬性 b 的域設定為(元)概念的集合。
2.3.3 級聯規則
在級聯的情況下,一個可能性規則系統依賴于第一組 n 條 if-then 形式(如果-那么)的可能性規則 R?, R?, …, R? 和第二組 m 條 if-then 形式可能性規則 R′?, R′?, …, R′?,其中規則 Ri 的結論和規則 R′? 的前提使用相同的屬性 b,從而使得這兩組規則能夠被串聯起來。
實際上,每條規則 R′? 的形式為 “如果 p′? 則 q′?”,其中 p′? 是命題“b(x) ∈ Q′?”,Q′? 是 Db 的一個子集。結論 q′? 的形式為“c(x) ∈ Q′′?”,其中 Q′′? 是屬性 c 的域 Dc 的一個子集。
與規則 Ri 類似,規則 R′? 所對應的可能性度是通過相同方式計算的:由于 p′? 是一個命題,我們通過屬性 b 的歸一化可能性分布來計算 λ′? = π(p′?) 和 ρ′? = π(?p′?)。同樣地,R′? 具有一個不確定性傳播矩陣,并帶有其對應的參數 s′? 和 r′?。
2.4 概率-可能性變換
在下文中,我們將介紹文獻中兩種主要的概率-可能性變換方法。第一種方法最初在(Dubois 和 Prade,1983)中提出,并在(Dubois 和 Prade,2020)中被命名為“反信度函數法”(antipignistic method)。第二種方法遵循最小特異性原則(minimum specificity principle),最早在(Delgado 和 Moral,1987;Dubois 和 Prade,1982)中提出。
將定義在集合 X 上的概率分布 p(及其對應的概率測度 P)轉換為定義在 X 上的可能性分布 π(及其對應的可能性測度 Π 和必要性測度 N),其目標是為任意子集 A ? X 找到一個包含 P(A) 的區間框架 [N(A), Π(A)](Dubois, 2006;Dubois 等,1993):即可能性測度 Π 要大于或等于概率測度 P。
將概率分布 p 轉換為可能性分布 π 的過程應保留原分布的形狀:對于任意 u, u′ ∈ X,有
p(u) > p(u′) ?? π(u) > π(u′)。我們還希望得到一個盡可能具體(specific)的可能性分布(給定兩個可能性分布 π 和 π′,若 π ≤ π′,即對所有 u ∈ X,都有 π(u) ≤ π′(u),則稱 π 至少與 π′ 一樣具體(Dubois 等,2004))。最后一個條件的提出是為了盡可能多地保留信息,即 π 比 π′ 包含更多信息。
下面介紹的這兩種變換方法在我們的神經符號方法 Π-NeSy 中得到了應用:神經網絡輸出的概率分布被轉換為歸一化可能性分布,以便將我們的低層次感知任務與高層次推理任務連接起來。
2.4.1 反信度函數法(Antipignistic method)
反信度函數法由(Dubois 和 Prade,1983)提出并進行了動機說明,近期在(Dubois 和 Prade,2020)中再次被提及。
如果 p 是定義在集合 X 上的一個概率分布,令 P 表示由 p 定義的 X 上的概率測度,即
P(A) = ∑?∈A p?,其中 p? = P({x})。
反信度函數法將一個歸一化可能性分布 π 與 p 相關聯,該可能性分布滿足對所有子集 A ? X:
Dubois 和 Prade 指出,反信度函數法為“確定性”這一概念的感知提供了直觀基礎(Dubois 和 Prade,2020)。然而,通過該方法生成的可能性分布,其具體性(specificity)不如在下一小節中介紹的概率-可能性變換方法所得到的可能性分布。
在神經符號方法中,若神經模型通過反信度函數變換與一個可能性規則系統相連,則從可能性分布到概率分布的逆映射是有價值的,因為它使得實現反向傳播機制成為可能,參見第 5.5.1 小節:可以將可能性規則系統的預期輸入可能性分布轉換為神經網絡的預期輸出概率分布。因此,借助來自可能性規則系統的反饋信息,可以提升所使用的神經模型的預測性能。
2.4.2 遵循最小特異性原則的方法
第二種著名地將概率分布轉換為可能性分布的方法基于一種完全不同的原理,最早在(Delgado 和 Moral,1987;Dubois 和 Prade,1982)中提出。由此得到的可能性分布是最具體的一個可能性分布 π?,其對應的可能性測度支配著概率測度。
從定義在集合 {1, 2, ..., n} 上的一個概率分布 p 出發,對于所有 i ∈ {1, 2, ..., n},我們設定:
這種變換 p?π? 的動機是為了盡可能保留更多信息(Dubois 和 Prade,2020)。
遵循最小特異性原則的方法的主要缺點是該變換不可逆,即對于該方法而言,不存在從可能性分布到概率分布的逆映射。
在神經符號方法中,如果神經模型是基于這種概率-可能性變換與一個可能性規則系統相連,則這種不可逆性會阻礙信息從符號規則系統向神經模型的反向傳播。
在實際應用中,選擇將概率分布轉換為可能性分布的方法主要取決于對所獲得的可能性分布的具體性(specificity)要求。對于某些應用而言,反信度函數法在概率測度與可能性測度之間建立的一一對應關系可能是有用的。
3 構建矩陣關系及與可能性規則系統相關聯的方程系統的實用步驟
為了有效利用一個可能性規則系統(見第2.3.2小節),需要生成以下兩個關鍵組成部分:
矩陣關系(Baaj 等,2021a),參見公式(22),該關系通過 min-max 矩陣乘法用于從當前的可能性規則系統中進行推理;
方程系統(Baaj,2022b),參見公式(33),該系統用于根據訓練數據樣本學習該可能性規則系統的規則參數。
控制矩陣關系與方程系統的核心工具是對輸出屬性 b 的域 Db 的一個明確劃分(partition),該劃分是根據規則結論構建的(Baaj 等,2021a)。如第 3.2 小節(resp. 第 3.3 小節)開頭所述,在 (Baaj et al, 2021a) 的矩陣關系(resp. (Baaj, 2022b) 的方程系統)中,其第二成員的每一個分量(以及其矩陣的每一行)都直接對應于這個劃分中的一個子集。
這一劃分
可以被簡化為僅包含其非空子集(因為空集的可能性度為零),并且它最多包含 個非空子集,參見(Baaj 等,2021a)。
遺憾的是,上述歸納定義(公式9)無法用于構造適合實際應用的劃分,因為它在每次迭代中都需要生成 2i 個子集,其中 i 從 1 到 n 變化(n 是規則的數量)。
在本節中,為了應對這一關鍵性的計算問題,我們提出了一種高效的歸納程序,用于構造僅包含非空子集的劃分(即公式(9)的簡化版本),參見引理2和命題1。該方法相對于規則數量具有多項式時間復雜度,參見命題2。
利用該方法,可以高效地生成用于推理的矩陣關系以及用于學習的方程系統,它們的每一行直接對應于劃分中的非空子集,分別參見第3.2小節和第3.3小節。因此,借助該方法,矩陣關系和方程系統可以在實際中被有效使用(該方法具有足夠好的可擴展性)。
3.1 一種用于構造僅包含非空子集的劃分的實用方法
3.2 構建矩陣關系的實用步驟
為了從可能性規則系統中進行推理,我們也借助了(Baaj 等,2021a)中提出的方法,該文獻中介紹了一種用于構建以下關系所涉及矩陣的方法:
在級聯的情況下(見第2.3.3小節),可以建立與每組可能性規則相關聯的兩個矩陣關系之間的輸入-輸出關系,參見(Baaj 等,2021a)。
3.3 構建簡化方程系統(Σ?)的一種實用方法
使用可能性規則系統時面臨的一個挑戰是:如何為特定應用場景確定各可能性規則的參數 si,ri 的取值。為了解決這一問題,(Baaj, 2022b) 提出了一種學習方法,該方法基于對從訓練數據樣本構建的 min-max 方程系統進行求解。
構建該方程系統的方法與用于構建矩陣關系 (見公式22)的方法密切相關。下一節將介紹這種學習方法背后的動機,并引入一種擴展了 (Baaj, 2022b) 工作的可能性學習方法。這種新方法可用于處理數據集,即多個訓練數據樣本的集合。
在本小節中,我們首先回顧 (Baaj, 2022b) 中提出的方程系統的構建方法,該方法基于劃分。(Baaj, 2022b) 中的 min?max 方程系統如下:
從實際應用的角度來看,從一個訓練數據樣本出發構建簡化后的方程系統(Σ?),使我們能夠利用 (Baaj, 2022b) 中提出的學習方法。
此前,(Baaj, 2022b) 表明,使用 Sanchez 的結果(Sanchez, 1976)對基于訓練數據樣本構建的非簡化方程系統(Σ?)進行求解,可以得到與該訓練數據樣本相兼容的可能性規則系統的規則參數解。
在下一節中,我們將更詳細地介紹這一方法,但所基于的是簡化后的方程系統(Σ?),參見第4.1小節;同時,該簡化方程系統也與簡化后的矩陣關系相關聯,參見公式(50)。
3.3.2 從訓練數據樣本構建方程系統(Σ?):
4 根據訓練數據學習可能性規則系統的規則參數
在本節中,我們關注的是可能性學習(possibilistic learning),它是 Π-NeSy 中高層次推理任務的一部分。目標是確定如何根據一組訓練數據樣本來學習可能性規則系統中規則參數的取值。每個訓練數據樣本由從輸入可能性分布中推導出的規則前提的可能性度,以及一個目標輸出可能性分布給出。
在 Π-NeSy 的框架下,為了進行聯合學習(joint learning),訓練數據樣本中的輸入可能性分布來源于神經網絡生成的輸出概率分布經過概率-可能性變換(probability-possibility transformation)后的結果。
在人工智能領域,模型參數通常是通過使用梯度下降方法最小化損失函數的方式從訓練數據中學習得到的。然而,在我們的案例中,這種方法受到阻礙,因為所使用的誤差函數不可微——這是由于可能性框架基于 min 和 max 函數的組合所致。
(Baaj, 2022b) 表明,這一學習問題可以通過求解一個基于訓練數據樣本構建的min-max 方程系統(Σ?),見公式(33),來加以解決。通過使用 Sanchez 的結果(Sanchez, 1976)對 min-max 方程系統(Σ?)進行求解,(Baaj, 2022b) 展示了該系統的解可用于為規則參數賦值,并且這些參數值在某種意義上與訓練數據樣本相兼容(參見公式(50))。
關于學習過程,(Baaj, 2024) 中的結果也非常有用,因為它涉及對不一致的 min-max 方程系統的處理。事實上,當處理方程系統(Σ?)時可能會出現不一致性,例如當用于構建(Σ?)的數據包含噪聲或異常值時。具體而言,(Baaj, 2024) 研究了以下研究問題:如何通過盡可能小地擾動不一致系統的第二成員(即常數項),找到一個與原不一致系統盡可能接近的一致系統;以及如何獲得原不一致系統的近似解(即某個最接近的一致系統的解)?
在本節中,我們首先研究如何求解簡化后的方程系統(Σ?),見公式(36),因為 (Baaj, 2022b) 的結果是針對未簡化到劃分中非空子集的方程系統(第4.1小節)。當(Σ?)是一致的時,該系統有兩個解被計算出來,其中一個是它的最小解(lowest solution)(參見引理10和命題5)。本節其余部分重點介紹一種基于 (Baaj, 2022b) 和 (Baaj, 2024) 工作的可能性學習方法,該方法足夠高效,可在實際中應用。以下將概述該方法所涉及的步驟。
假設我們希望根據一組訓練數據樣本來學習一組可能性規則的規則參數值。該方法首先逐個處理每個訓練數據樣本。對于給定的訓練數據樣本,考慮其對應的 min-max 方程系統(Σ?),見公式(36)。然后利用 (Baaj, 2024) 來評估該訓練數據樣本相對于規則集合的質量(見第4.2小節)。事實上,通過使用從訓練數據樣本構建的 min-max 方程系統(Σ?),我們可以判斷該訓練數據樣本是否高質量,還是包含噪聲或異常值。
評估過程包括測量該 min-max 方程系統(Σ?)與其最近的一致方程系統之間的切比雪夫距離(Chebyshev distance,基于 L∞ 范數),如果(Σ?)本身是一致的,則此距離為零(見第4.3小節)。對于不一致的方程系統(Σ?),我們利用 (Baaj, 2024) 的結果對該訓練數據樣本進行最小修改,以獲得一個一致的方程系統(見第4.4小節定義9)。完成這一過程后,每個訓練數據樣本都對應一個一致的方程系統。
由于這些一致的方程系統共享同一個未知向量(其分量即為規則參數),我們可以構造一個堆疊后的方程系統,記作(Σ),它將所有這些方程系統整合在一起(見第4.5小節公式(61))。接著,我們使用 (Baaj, 2024) 來計算該堆疊后方程系統的近似解(即其最近的一致方程系統的解)。所獲得的近似解代表了整個訓練數據集,并可用于為規則集合中的各條規則分配參數值。
最后,我們介紹了一種名為“可能性級聯學習”(Possibilistic cascade learning)的方法(見方法1),它可以將第4.5小節中提出的學習方法擴展至級聯結構(cascade)(見第2.3.3小節),即當一個可能性規則系統使用兩組串聯的可能性規則時的情形。我們還解釋了如何確定超參數的取值(容差閾值,見定義8),以便將方法1應用于非常大的訓練數據集。
方法1 是我們神經符號方法 Π-NeSy 的關鍵組成部分。它既用于聯合學習(結合神經學習與可能性學習),也用于學習級聯結構中規則參數的取值。
該方法引入了兩個新的特性,使其區別于當前的神經符號方法:
- 評估訓練數據樣本相對于規則集合的質量
- 對低質量的訓練數據進行最小修改,以精確逼近規則參數的取值
4.1 根據訓練數據樣本學習規則參數
(Baaj, 2022b) 提出的學習方法旨在根據一個訓練數據樣本,為可能性規則系統中的一組可能性規則的規則參數賦值。該方法基于非簡化方程系統(Σ?),參見公式(33),并使用了由 (Sanchez, 1976) 引入的用于求解 min?max 方程系統的方法。
在下文中,我們將研究簡化后的方程系統(Σ?),參見公式(36)的求解過程。我們展示當該系統是一致的情況下,如何計算它的兩個特定解。
4.2 評估用于構建方程系統(Σ?)的數據質量
簡化后的方程系統,參見公式(36),
可能由于以下多種原因而不一致:
該方程系統可能是基于一個受到噪聲干擾或為異常值的訓練數據樣本構建的;
可能性規則庫未被良好定義,這可能導致無法獲得預期結果。
這種情況可能發生在規則前提和結論中的命題設計不佳時。例如,若結論“b(x) ∈ Q”中集合 Q 的定義不正確——具體來說,如果它包含了與前提不一致的元素,則會導致可能性規則系統輸出不一致;此外,前提一致但結論沖突也可能造成類似的不一致性。
假設規則庫是良好定義的,那么我們可以利用關于處理不一致 min?max 方程系統的最新研究成果(Baaj, 2024),來衡量訓練數據質量低劣的程度。據我們所知,這一特性在神經符號方法中是全新的,因此我們現在解釋如何借助它來評估數據質量。
與第二成員 Y˙n 相關聯的切比雪夫距離(Chebyshev distance)
當從一個訓練數據樣本構建出簡化后的方程系統(Σ?)時,如果數據質量較差,該系統可能是不一致的。這種數據質量差的程度可以通過研究方程系統(Σ?)的不一致性來衡量,依據的是 (Baaj, 2024) 中的研究成果。
(Baaj, 2024) 研究了這樣一個問題:尋找與給定的不一致 min?max 方程系統盡可能接近的一致 min?max 方程系統,且所有這些一致系統使用相同的矩陣:即原不一致系統的矩陣。
在此基礎上,當一個一致系統的第二成員(常數項)與原不一致系統的第二成員之間的距離(以 L∞ 范數衡量)最小時,我們就稱該一致系統是最接近原不一致系統的。
如后所述,(Baaj, 2024) 的成果可用于高效計算這個最小距離,從而提供一種手段,用以衡量用于構建方程系統(Σ?)的訓練數據樣本的質量低劣程度。
如何將 (Baaj, 2024) 中的方法應用于方程系統(Σ?)
如果(Σ?)是不一致的,我們的目標是尋找一個形式為的最接近的一致方程系統,其中使用的矩陣與(Σ?)相同,X 是未知向量,而 d 是盡可能接近(Σ?)的第二成員 Y˙n 的新第二成員。
這個最小距離被稱為與(Σ?)的第二成員
相關聯的切比雪夫距離,其定義如下(參見 Baaj, 2024):
對于使用訓練數據樣本構建的方程系統(Σ?),切比雪夫距離 ?是衡量該數據樣本可靠性的一個指標。
假設可能性規則系統是良好定義的,那么用于構建方程系統(Σ?)的訓練數據樣本越可靠,方程系統(Σ?)的切比雪夫距離 ? 就越小。
因此,我們可以基于一個容差閾值來評估訓練數據樣本的質量,方式如下:
如果從訓練數據樣本構建的方程系統(Σ?)是一致的,或者更一般地,如果其切比雪夫距離嚴格小于預設的閾值,則認為該訓練數據樣本是可靠的。
形式化表示如下:
類似地,我們也可以計算與方程系統(Ω)相關聯的切比雪夫距離,參見公式(79),該系統涉及第5.5.1小節中介紹的反向傳播機制,并據此評估用于構建(Ω)的數據質量。
4.3 處理方程系統(Σ?)的不一致性
在本小節中,我們展示當方程系統(Σ?)不一致時應如何處理,即當其切比雪夫距離 ?(參見公式(52))嚴格大于零時的情形。
基于 (Baaj, 2024),我們將展示如何對用于構建不一致方程系統(Σ?)的數據進行最小程度的更新,以獲得與原系統盡可能接近的一致方程系統,并說明如何獲得該不一致系統(Σ?)的近似解——這些解是那些最接近原系統的一致系統的解。
4.4 在多類分類問題的訓練數據樣本中的應用
(Baaj, 2024) 中的結果可應用于多類分類問題中,用于處理從訓練數據樣本構建的方程系統(Σ?)的不一致性。
該訓練數據樣本由輸入可能性分布和一個目標輸出可能性分布組成,其中只有目標(元)概念的可能性度為 1,而所有其他概念的可能性度均為 0。
在下文中,我們將展示如何利用 (Baaj, 2024) 中提出的方法對訓練數據樣本進行輕微修改,以恢復方程系統的一致性。此外,我們還將說明:將切比雪夫距離 ?(參見公式(52))的容差閾值 τ 設為嚴格小于 0.5,適用于處理多類分類問題,因為它可以幫助我們判斷訓練數據樣本是否可靠。
構造一個與不一致方程系統(Σ?)接近的一致方程系統
判斷一個訓練數據樣本是否可靠
對于多類別分類問題,方程組(Σ?)中的第二個成員 ?? 描述了一個目標輸出可能性分布,在這個分布中只有一個(元)概念(即目標)是完全可能的(即可能性度為1),而所有其他概念都是不可能的(每個的可能性度為0)。換句話說,第二個成員 ?? 是一個向量,其中有一個分量等于1,其余所有分量都等于0。已知與方程組(Σ?)相關的規則庫是良好定義的,由于最低切比雪夫逼近 ??? 滿足 ‖? ? ??‖∞ = ?,其中 ? 是(Σ?)的切比雪夫距離(見公式(52)),因此可以得出以下結論:如果 ? < 0.5,則最低切比雪夫逼近 ??? 中具有最大值的那個分量是唯一的,并且它的索引正好是 ?? 中被設為1的那個分量的索引。
這證明了使用0.5作為閾值的合理性:如果 ? < τ < 0.5,則可以認為該訓練數據樣本在某種程度上是可靠的,因為 ??? 中最高的可能性度對應的就是預期的目標(元)概念。當 ? ≥ 0.5 時,訓練數據樣本可能包含異常值,因為 ??? 中最高可能性度對應的可能不是預期的目標(元)概念(因此在此意義上該訓練樣本不可靠),但仍然可以通過使用 ?? 的最低切比雪夫逼近 ??? 來獲得一個一致的方程組(見公式(56))。
進一步判斷訓練數據樣本是否可靠的方法還可以檢查:在最低切比雪夫逼近 ??? 中,具有最高度值的那個分量是否唯一,并且是否正是我們預期的那個目標(元)概念所對應的分量。
4.5 利用多個訓練數據學習規則參數
(Baaj,2024)展示了如何從一個訓練數據集(即一組訓練數據樣本)中確定規則參數值的問題。該方法如下:
對于數據集中每個樣本,構建其對應的方程組(Σ),見公式(36),
然后將所有這些方程組合并成一個統一的方程組,記作(Σ),
借助求解最小-最大方程組的方法以及處理不一致最小-最大方程組的技術,獲得(近似)解,從而得到與所有訓練數據樣本相兼容的規則參數值。
基于同樣的思路,我們現在提出一種從訓練數據集中學習規則參數值的方法。
選擇可靠的訓練數據樣本
為了解決在非常大的數據集上學習規則參數值的問題,我們的方法聚焦于訓練數據的一個子集。目標是選擇那些相對于某個容差閾值 τ 而言是“可靠”的訓練數據樣本(定義8)。τ 的值可以通過驗證數據集來確定,見第4.7小節。
這一選擇過程的動機在于:數據集可能非常龐大,而基于可能性的規則系統又可能包含大量規則,這在使用筆記本電腦進行規則參數學習時可能導致內存和計算資源上的問題。當然,在處理常規大小的數據集和/或擁有足夠強大計算能力的情況下,這一選擇過程并非強制性的(我們已通過實驗驗證了這一點)。一種簡單的、測試是否不進行選擇過程的方式是將容差閾值 τ 設為嚴格大于1的值(定義8中使用的是嚴格不等式),這樣就會選擇所有的訓練數據樣本。
具體的選擇過程如下:我們假設容差閾值 τ 的值已經設定,并且已經從整個訓練數據集中提取出了一組被認為是相對于 τ 可靠的 N 個訓練數據樣本。因此,對于每一個被選中的訓練數據樣本,基于它所構建的簡化方程組(Σ)具有一個切比雪夫距離 ?(見公式(52)),并且該距離嚴格小于 τ。
根據所選訓練數據樣本進行學習
接下來的目標是根據這 N 個選定的、可靠的訓練數據樣本來學習規則參數的值。
根據定義9,基于這些被選中的可靠訓練數據樣本,構建了 N 個一致的簡化方程組。對于 i = 1, 2, ..., N,每個方程組表示為:
導致方程組(Σ)不一致的原因有很多。例如,某些訓練數據樣本之間可能存在沖突,特別是在幾乎相同的實例卻關聯著顯著不同的輸出可能性分布時。然而,在我們的實驗中(第5節),我們觀察到:通過為每一個可靠的訓練數據樣本使用定義9構建相應的相容方程組,并將這些相容的方程組合并成一個統一的方程組(Σ),最終得到的方程組(Σ)在切比雪夫距離 ? 的值來看,是相容的或幾乎是相容的。
4.6 根據訓練數據學習級聯結構的規則參數
在以下內容中,提出了一種根據訓練數據來學習規則參數值的方法,適用于“級聯”(cascade)結構的情形(見第2.3.3小節),即一種使用兩組鏈式可能性規則的基于規則的可能性系統。該學習方法遵循規則集的正向推理鏈。
因此,首先使用第4.5小節中介紹的方法,根據訓練數據學習級聯結構中第一組規則的規則參數值。然后,從第一組規則進行推理,以獲得每個用于學習的訓練數據樣本的輸出可能性分布。最后,再次使用第4.5小節中的方法,學習與第一組規則相連的第二組規則的參數值。每個訓練數據樣本將使用由第一組規則推理得到的一個輸出可能性分布作為輸入數據。
所提出的方法可以利用兩個超參數 τ? 和 τ?,它們是容差閾值(定義8),分別與每組可能性規則相關聯,用于限制用于學習的訓練數據的規模(選擇過程見第4.5小節)。在下一小節中,我們將解釋如何基于驗證數據集上獲得的準確率指標來確定 τ? 和 τ? 的值。我們假設每個訓練數據樣本都包含如下信息:與第一組規則的輸入屬性相關聯的輸入可能性分布、與第一組規則的輸出屬性相關聯的目標輸出可能性分布,以及與第二組規則的輸出屬性相關聯的另一個目標輸出可能性分布。
方法1(可能性級聯學習)
首先,學習第一組可能性規則的規則參數。
輸入可能性分布,這些分布與第一組規則的輸入屬性相關聯,
目標輸出可能性分布,它與第一組規則的輸出屬性相關聯。
對于每個訓練數據樣本,考慮以下可能性分布:
對于每個訓練數據樣本,使用輸入可能性分布來計算第一組規則中各條規則前提的可能性度。
對于每個訓練數據樣本,基于第一組規則的前提可能性度及其目標輸出可能性分布,構建其對應的方程組(Σ),見公式(36)。我們檢查該訓練數據樣本相對于 τ? 是否是可靠的,見定義8。如果是,則使用定義9構造其對應的相容方程組。
所有通過定義9構造的相容方程組被合并為一個統一的方程組(Σ),見公式(61)。
通過求解方程組(Σ)并考慮其最低近似解(見公式(62)),學習第一組規則的規則參數值。由此獲得第一組可能性規則的規則參數值。
2.將第一組規則的參數值設定好。
3.利用這些規則參數,構建第一組規則的矩陣關系,見第3.2小節。
4. 對于每個訓練數據樣本,使用所構建的矩陣關系,并結合與該訓練數據樣本相關聯的第一組規則的輸入可能性分布,執行一次推理步驟。由此,對每個訓練數據樣本,獲得其與第一組規則相關的推理輸出可能性分布。
5.接下來是學習第二組可能性規則的規則參數。
對于每個訓練數據樣本,考慮與其第二組規則的輸出屬性相關的目標輸出可能性分布。
對于每個訓練數據樣本,計算第二組規則中各條規則前提的可能性度。這里依賴的是通過第一組規則的矩陣關系對該訓練數據樣本進行推理后所得出的輸出可能性分布。
對于每個訓練數據樣本,構建方程組(Σ),見公式(36),該方程組與第二組規則相關,構建時使用了第二組規則前提的可能性度以及與第二組規則的輸出屬性相關的目標輸出可能性分布。我們檢查該訓練數據樣本是否相對于 τ? 是可靠的,見定義8。如果是,則使用定義9構造其對應的相容方程組。
所有通過定義9構造的相容方程組再次被合并為一個統一的方程組(Σ),見公式(61)。
通過求解方程組(Σ)來計算第二組規則的規則參數值。我們考慮其最低近似解,見公式(62)。這樣,就獲得了第二組可能性規則的規則參數值。
6.將第二組規則的參數值設定好。
7.利用這些規則參數,構建與第二組規則相關的矩陣關系,見第3.2小節。
在應用方法1之后,基于訓練數據,確定了基于可能性規則系統中兩組規則的規則參數值。與這兩組規則相關的矩陣關系所對應的兩個矩陣也已經被構建完成。給定與第一組規則的輸入屬性相關聯的輸入可能性分布,就可以利用這些矩陣從基于可能性的規則系統中進行推理。
該方法是針對由兩組鏈式連接的可能性規則組成的級聯系統給出的。顯然,該方法可以很容易地擴展到包含更多組可能性規則的級聯系統。
為了能夠在實際中使用非常大的數據集進行級聯學習(方法1),仍需解決如何設置容差閾值 τ? 和 τ? 的問題。這個問題將在下一小節中進行討論。
值得注意的是,我們所介紹的學習方法旨在基于由輸入和輸出可能性分布組成的訓練數據來學習規則參數的值。如果規則參數已經被設定,而目標是根據由輸出可能性分布組成的訓練數據樣本來推斷目標輸入可能性分布,則可以利用第5.5.1小節中介紹的反向傳播機制。
4.7 使用驗證數據集確定容差閾值的取值
為了將我們的學習范式應用于非常大的數據集,可以利用閾值(定義8)來選擇可靠的訓練數據樣本。事實上,方法1在學習級聯結構中規則參數值時使用了兩個閾值 τ? 和 τ?。
下面我們展示如何通過一個基于驗證數據集的迭代過程來確定這兩個閾值的值。設 ? 是一個大于0的實數。我們將候選閾值的正數值集合 T 定義如下:
其中,l 是一個參數,表示候選值的總數;h ≥ 1 是另一個用于控制集合 T 中接近零的值數量的參數:h 的值越大,集合 T 中靠近零的值就越多。顯然,我們有 1 + ? ∈ T 。
定義集合 T 的目的是為了指出許多不同的較小閾值取值,從而找到一個被認為是高度可靠(定義8)的訓練數據的大子集。我們提醒一下,在使用某個訓練數據樣本構建的方程組(Σ)中,其對應的切比雪夫距離越小,則該訓練數據樣本在構建此方程組時被認為越可靠(見第4.2小節)。如果設定的閾值太小,那么進行級聯學習(方法1)可能是不可能的(因為沒有訓練數據樣本會被認為是足夠可靠的)。但是,總能在集合 T 中找到使級聯學習成為可能的閾值取值。
實際上,對于一個閾值取值 t? ,可能會出現以下兩種情況:
所有由訓練數據樣本構造出的方程組的切比雪夫距離 ? 都大于或等于 t? (這意味著 i < l )。在這種情況下,沒有任何訓練數據樣本被認為是相對于 t? 可靠的,因此無法使用 t? 進行學習。
一些由訓練數據樣本構造出的方程組的切比雪夫距離 ? 嚴格小于 t? 。這些訓練數據樣本就被認為是相對于 t? 可靠的,從而可以使用它們來進行學習。
最壞的情況是:每一個由訓練數據樣本構造出的方程組的切比雪夫距離 ? 都等于1。在這種情況下,最高閾值能夠確保選擇所有的訓練數據樣本,從而使得學習成為可能。
對于一個級聯系統來說,閾值 τ? 和 τ? 的取值是通過從集合 T 中迭代測試不同取值得到的:
初始時,將 τ? 和 τ? 設為最小可能值 t? ∈ T 。在每一輪迭代中,通過從有序集合 T 中選擇下一個值來更新 τ? 和/或 τ? 的取值,以確保所測試的閾值逐步遞增。
對于每一組被測試的閾值對,我們首先檢查是否可以用這些閾值應用方法1。如果是的話,就在驗證數據集上評估使用這些固定閾值構建的模型的準確率 A(τ?, τ?) 。
當連續若干次評估后準確率未提升至少一個最小提升值(稱為“停滯參數”)時,該迭代過程停止。當滿足這一條件時,將閾值設置為那些能夠獲得驗證數據集上(穩定)準確率的最低已測試值。
在我們的實驗中,使用的度量指標是分類準確率,但也可以使用其他用于評估模型預測性能的指標來替代,例如:精確率(precision)、召回率(recall)、F分數(F-score)、AUC等。
這種迭代方法的設計目的是避免包含不可靠的訓練數據樣本,并考慮計算資源的限制:目標是在盡可能少地測試閾值取值的前提下獲得良好的準確率;而在處理大數據集時,我們也希望避免合并出過大的方程組系統(見公式(61))。
當然,該方法也很容易擴展到具有兩個以上可能性規則集的級聯系統。此外,如果多個規則集執行的是相同任務,則可以為它們使用一個共同的閾值。
5 實驗
我們對以下神經符號挑戰進行了評估:
- MNIST Addition-k 問題(Manhaeve 等人,2018)
:其中 k∈{1,2,4,15,100} 。目標是計算兩個由 k 位數字組成的數的和,每個數字在一張 MNIST 圖像上表示。例如,如果 k=2 ,給定兩組圖像 3 、 8 和 4 、 1 ,任務是形成數字 38 和 41,然后將它們相加以預測其和,即 79。
隨著 k 的增加,問題的復雜度也隨之增長,因為模型必須從 MNIST 圖像中準確識別出更多的數字。因此,當 k 越來越大時,在兩個數中的至少一個數字識別錯誤的概率也會升高。所以,處理更大的 k 值會顯著增加整個任務的復雜性。
- MNIST 數獨謎題問題(Augustine 等人,2022)
:其中考慮了 4x4 或 9x9 大小的數獨謎題。每個 4x4 數獨謎題由 16 張 MNIST 圖像構成,而每個 9x9 數獨謎題則使用了 81 張 MNIST 圖像。在 4x4 數獨謎題中,圖像表示的是 0 到 3 之間的數字;而在 9x9 數獨謎題中,數字范圍是 0 到 8。目標是驗證謎題的正確性,確保每一行、每一列以及每一個子網格中沒有重復的數字。
例如,給定圖3中所示的視覺數獨謎題 4x4,模型應當預測出數獨謎題(a)是有效的,而數獨謎題(b)是無效的。
MNIST 數獨謎題問題的復雜性也隨著謎題維度的增加而提高:要驗證一個 9x9 數獨的正確性,需要更精確地識別更多數字,并滿足比 4x4 數獨更多的約束條件。
我們的方法 Π-NeSy
在 Π-NeSy 中,針對每個問題,低層次的感知任務是識別圖像中的手寫數字。該任務由一個神經網絡完成,它會產生圖像上所表示數字的概率分布。Π-NeSy 的神經網絡結構如表1所示,包括四個卷積層和三個全連接層。為了將神經網絡的輸出轉化為概率分布,在輸出得分上應用了 softmax 激活函數。
在實驗中,我們使用了以下配置的 Π-NeSy 神經網絡:采用 Adadelta 優化器(Zeiler,2012),其超參數設置為:學習率為 1.0,并通過一個衰減因子 0.7 進行調整,共訓練 20 輪(epochs)。對于 MNIST Addition-k 問題(其中 k ∈ {1, 2, 4, 15, 100})和 MNIST Sudoku 9x9 問題,使用的批量大小(batch size)為 64;而對于 MNIST Sudoku 4x4 問題,使用的批量大小為 32。
使用 MNIST 訓練數據集(共60,000個樣本)對模型進行10次訓練(每次從隨機初始化的權重開始),并在 MNIST 測試數據集(共10,000個樣本)上評估每個模型,最終獲得了平均測試準確率為99.52 ± 0.06%。
在 Π-NeSy 中,高層次的推理任務由一個基于可能性的規則系統執行,該系統根據從神經網絡輸出的概率分布經過“概率-可能性變換”得到的可能性分布來進行推理。
根據所使用的概率-可能性變換方式不同(見第2節),我們考慮了兩種版本的 Π-NeSy:
- Π-NeSy-1基于反似然函數方法(antipignistic method),
- Π-NeSy-2使用遵循最小特異性原理(minimum specificity principle)的變換方法。
為了找到用于在 Π-NeSy 的基于可能性的規則系統中進行級聯學習(方法1)的閾值,我們根據公式 (76) 得到了一個可能的閾值取值集合 T ,其設置為:l = 30 、h = 5 、? = 0.001 。
涉及該集合的閾值搜索過程(見第4.7小節)配置如下:最小提升值設為0.01,停滯參數設為1。
Π-NeSy 的代碼已根據 Apache 2.0 許可證公開分享。1 該軟件依賴于一個使用 Pybind11(Jakob 等,2017)創建的 Python 庫,該庫通過與 C++ 程序接口,借助 Apple Metal、OpenCL 或 CUDA 實現 GPU 加速,或使用多線程 CPU 來執行可能性學習和推理計算。在本文所報告的 Π-NeSy 實驗中,選擇了 Apple Metal。
實驗是在配備集成 GPU(8 核)的 MacBook Air M2(16GB 內存)上,在 macOS Sequoia 15.2 系統下進行的。實驗中未設置超時機制。
5.1 MNIST Addition-k 問題
我們遵循 (Manhaeve 等,2021;Pryor 等,2023) 中描述的方法生成 MNIST Addition-k 數據集,并采用了與本文相同的實驗設置。
一些用于解決 MNIST Addition-k 問題的神經符號方法明確表示了所有可能的和,例如 Logic Tensor Networks(Badreddine 等,2022)或 NeuPSL(Pryor 等,2023),這導致其推理復雜度隨著數字位數 k 呈指數增長。相比之下,像 DeepSoftLog(Maene 和 De Raedt,2024)、A-NeSI(van Krieken 等,2024)以及 Π-NeSy 這樣的最新方法提供了一種可隨 k 線性擴展的替代方案。在這三種神經符號方法中,和的每一位數字以及可能存在的進位都是以迭代方式計算的。
5.2.1 用于 MNIST Addition-k 問題的可能性規則系統
下面我們介紹一個基于可能性的規則系統,專門設計用于解決 MNIST Addition-k 問題。該系統使用了一組屬性,這些屬性反映了我們數據集中每個訓練樣本的結構化數據。
5.2.3結果
上述過程對10次運行獨立執行一次,并通過對結果取平均得到最終的性能指標(準確率)。
為了便于比較,我們在表2中還列出了以下方法在相同數據集生成方式和評估協議下的實驗結果(這些結果最近被報道于 (Maene and De Raedt, 2024; van Krieken et al, 2024)):
Logic Tensor Networks(LTN)(Badreddine 等人,2022),
NeuPSL(Pryor 等人,2023),
DeepProbLog(Manhaeve 等人,2021),
NeurASP(Yang 等人,2020),
DeepStochLog(Winters 等人,2022),
Embed2Sym(Aspis 等人,2022),
A-NeSI(van Krieken 等人,2024),
DeepSoftLog(Maene 和 De Raedt,2024)。
從實驗結果可以看出,我們的 Π-NeSy 方法在 MNIST Addition-k 問題上優于其他神經符號方法(特別是當 k = 15 和 k = 100 時)。概率-可能性變換方式的選擇對整體性能影響較小,除了在 k = 15 和 k = 100的情況下,基于最小特異性原則的方法(Π-NeSy-2)略優于基于反似然函數的方法(Π-NeSy-1)。
從實驗結果來看,使用所指定的配置(如本節開頭所述),Π-NeSy 在 MNIST Addition-k 問題上的推理和學習時間是合理的,見表3。
在附錄 B.1 中,我們對表2中展示的實驗結果進行了詳細分析。在這部分分析中,我們展示了在使用 Π-NeSy-1 和 Π-NeSy-2 對 MNIST Addition-k 問題(其中 k ∈ {1, 2, 4, 15, 100} )進行可能性學習時,兩種方法在這些問題上所使用的閾值始終接近于零,并且取值相同。我們還表明,可能性學習總是為規則參數生成接近于零的取值,并且只有少量的訓練數據被認為是可靠的。
5.2.4 其他結果
消融研究(Ablation Study)
我們使用 Π-NeSy 進行了一項消融研究。我們在相同的設置下執行了 MNIST Addition-k 問題(其中 k ∈ {1, 2, 4, 15, 100} ),但不進行可能性學習:
我們不使用閾值來選擇訓練數據樣本(在實際操作中,將每個閾值設為嚴格大于1的值等價于不使用閾值),
并手動將基于可能性的規則系統中的所有規則參數設為零(因為在 MNIST Addition- k 問題中,假設這些規則是確定性的)。
由于我們采用了與表2實驗中相同的固定隨機種子,并且使用了 PyTorch 的確定性操作,因此我們得到了與表2中相同的實驗結果。順便指出,可能性學習本身并不需要使用隨機數。
我們還研究了在低數據量設置下的 MNIST Addition-k 問題。
在每次實驗中,我們從 MNIST 訓練數據集中隨機無放回地選取 2,500 張圖像(而非標準的 50,000 張),從中生成訓練數據集 A????? 中的樣本對,數量為。驗證數據集和測試數據集則仍按照標準方式生成。
表4展示了基于10次獨立運行所獲得的平均準確率結果。有趣的是,我們的方法 Π-NeSy 在低數據量設置下依然表現出相當強的魯棒性。不過,隨著 k 的增加,任務復雜性也更加明顯:當 k = 15 時,我們觀察到了非常高的波動性;而當 k = 100 時,Π-NeSy 已無法處理該問題。正如預期,結果比正常情況下的表現要差。
在低數據量設置下,我們在比較浮點數時遇到了一些困難,這與方法1中使用的閾值有關。為了解決這個問題,我們修改了用于生成候選閾值集合 T (見公式(76))的參數,將 h = 2 (在其他實驗中使用 h = 5 ),從而生成更高值的候選閾值。
在附錄 C.1 小節中,我們對我們在這類實驗中所采用的可能性學習方法的特性與性能進行了深入分析。
使用 DeepSoftLog 的卷積神經網絡
我們還嘗試使用DeepSoftLog 的卷積神經網絡(CNN)(Maene 和 De Raedt,2024)來解決 MNIST Addition-k 問題:
使用其 CNN 進行 MNIST 圖像上的數字識別,
并使用我們基于可能性的規則系統(見第5.2.1小節)執行高層次推理任務。
該網絡采用了 LeNet 架構(見表5),使用 AdamW 優化器進行優化,并應用了余弦退火學習率調度策略以及交叉熵損失函數。
我們在整個 MNIST 訓練數據集(60,000 個樣本)上訓練了10 個獨立的 CNN 實例,并在以下兩個數據集上評估了它們的性能:
標準的 MNIST 測試數據集(10,000 個樣本)2,
一個由10,000 個樣本組成的驗證數據集,該數據集是從 MNIST 訓練數據集中隨機選取的,并增加了小幅度的擾動(如輕微旋轉、平移和縮放),以模擬自然變化。
CNN 的超參數是根據在驗證數據集上獲得的結果手動設定的(見表6)。對于這10個實例,平均驗證準確率為99.82 ± 0.05%,平均測試準確率為99.20 ± 0.11%。
在解決 MNIST Addition-k 問題時,我們選擇了驗證準確率最高的那個 CNN 實例。該實例在驗證數據集上的準確率為99.89%,在測試數據集上的準確率為99.35%。3
在這些設置下,Π-NeSy-1 和 Π-NeSy-2在所有 MNIST Addition-k 問題上的表現都優于DeepSoftLog。
在最具挑戰性的情形下(即 k = 100 ),Π-NeSy-1 略優于 Π-NeSy-2:對于后者,我們得到了兩次測試準確率...
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.