超越常規(guī)概率模型
Squared families: Searching beyond regular probability models
https://arxiv.org/pdf/2503.21128?
摘要
我們引入了平方族(squared families),這是一類通過(guò)對(duì)某個(gè)統(tǒng)計(jì)量的線性變換進(jìn)行平方后得到的概率密度函數(shù)族。平方族具有奇異性,但這種奇異性可以被容易地處理,使得它們成為正則模型。在處理掉奇異性之后,平方族具有許多良好的性質(zhì)。
其Fisher信息矩陣是來(lái)自Bregman生成函數(shù)所誘導(dǎo)的Hessian度量的一個(gè)共形變換。這個(gè)Bregman生成函數(shù)即為歸一化常數(shù),并且它在這個(gè)分布族上定義了一個(gè)統(tǒng)計(jì)散度(statistical divergence)。該歸一化常數(shù)具有一個(gè)有用的參數(shù)-積分分解形式,這意味著在整個(gè)平方族中,所有歸一化常數(shù)只需要計(jì)算一個(gè)與參數(shù)無(wú)關(guān)的積分即可,這一點(diǎn)不同于指數(shù)族。
此外,平方族的核函數(shù)(kernel)是唯一需要計(jì)算的積分,它可以用于Fisher信息、統(tǒng)計(jì)散度和歸一化常數(shù)的表達(dá)。
接著,我們描述了平方族在更廣泛的g族(g-families)中的特殊地位。g族是通過(guò)將一個(gè)足夠光滑的函數(shù)g作用于統(tǒng)計(jì)量的線性變換所構(gòu)造出的分布族。在去除特定的奇異性之后,只有正齊次族(positively homogeneous families)和指數(shù)族的Fisher信息矩陣是Hessian度量的共形變換,其中生成函數(shù)僅通過(guò)歸一化常數(shù)依賴于參數(shù)。
偶數(shù)次單項(xiàng)式族(even-order monomial families)是唯一既無(wú)窮可微又滿足正齊次性的分布族,它們也像指數(shù)族一樣具有自然的參數(shù)-積分分解形式。
最后,我們?cè)谀P驮O(shè)定正確和錯(cuò)誤的情況下研究了平方族中的參數(shù)估計(jì)和密度估計(jì)問(wèn)題。我們利用一種通用逼近性質(zhì)(universal approximation property),證明平方族可以以漸近速率學(xué)習(xí)充分良好行為的目標(biāo)密度,其中 N 是數(shù)據(jù)點(diǎn)數(shù)量,n 是參數(shù)數(shù)量,C 是一個(gè)與數(shù)據(jù)無(wú)關(guān)的常數(shù)。
關(guān)鍵詞 :密度估計(jì),信息幾何,指數(shù)族,通用逼近
1 引言 1.1 概率分布族及其應(yīng)用
具有可計(jì)算性、靈活性和可學(xué)習(xí)性的概率密度函數(shù)族在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中有著廣泛的應(yīng)用。一個(gè)極端但常見(jiàn)的應(yīng)用是(條件)密度估計(jì),其中我們嘗試通過(guò)從該分布族中選擇一個(gè)元素來(lái)近似目標(biāo)密度 q,使得這個(gè)元素在某種意義上與從 q 中采樣的數(shù)據(jù)最匹配(Barron 和 Sheu, 1991;Deisenroth 等, 2020;McLachlan 等, 2019)。另一個(gè)極端是參數(shù)估計(jì),其中已知目標(biāo)密度 q屬于該分布族,我們的任務(wù)是找出 q 的可識(shí)別參數(shù)(Lehmann 和 Casella, 2006)。在這兩個(gè)極端之間,還存在一系列豐富的問(wèn)題,例如密度比估計(jì)(Sugiyama 等, 2012)、散度估計(jì)、聚類(Banerjee 等, 2005)、廣義線性建模(包括回歸和分類)(McCullagh 和 Nelder, 1989)、參數(shù)雙樣本檢驗(yàn)(Lehmann 和 Romano, 2022),以及更一般地,在任何圖模型中的推理與估計(jì)(Wainwright 和 Jordan, 2008)。所有這些問(wèn)題的核心都是那些具有良好計(jì)算、幾何和統(tǒng)計(jì)性質(zhì)的概率密度參數(shù)族。
指數(shù)族
前一段所引用的許多研究探討了(混合)指數(shù)族的特殊情況。指數(shù)族之所以在這些應(yīng)用中無(wú)處不在,主要是因?yàn)樗鼈兙邆淞己玫膸缀巍⒔y(tǒng)計(jì)和某些情況下的計(jì)算性質(zhì)。
幾何性質(zhì):
每一個(gè)指數(shù)族都構(gòu)成了一個(gè)由其自然參數(shù)索引的流形(Amari, 2016)。在這個(gè)流形上,由嚴(yán)格凸的對(duì)數(shù)歸一化常數(shù)生成的 Bregman 散度等于概率分布之間的逆 KL 散度。通過(guò)對(duì) Bregman 生成函數(shù)的凸共軛可以得到對(duì)偶參數(shù)(期望參數(shù))和對(duì)應(yīng)的散度。黎曼度量是嚴(yán)格正定的 Fisher 信息矩陣。
統(tǒng)計(jì)性質(zhì):
Fisher 信息恰好是指數(shù)族中參數(shù)估計(jì)的精度,并達(dá)到了 Cramer-Rao 下界的等式(在一定正則條件下是唯一的)(Wijsman, 1973;Joshi, 1976)。更一般地,在指數(shù)族之外,F(xiàn)isher 信息描述了圍繞真實(shí)值的最大似然估計(jì)在漸近意義下高斯分布的精度。Fisher 信息在指數(shù)族中具有特別優(yōu)美的形式,它既是 Bregman 生成函數(shù)的 Hessian 矩陣,也是模型下充分統(tǒng)計(jì)量的協(xié)方差矩陣(Wainwright 和 Jordan, 2008)。
計(jì)算性質(zhì):
指數(shù)族也是唯一一類在獨(dú)立同分布樣本數(shù)量增加時(shí),其充分統(tǒng)計(jì)量的維度保持有界的分布族(前提是分布域不依賴于參數(shù)),這被稱為 Pitman-Koopman-Darmois 定理。這意味著參數(shù)可以通過(guò)僅使用一個(gè)有限維的統(tǒng)計(jì)量進(jìn)行更新,而無(wú)需存儲(chǔ)完整的觀測(cè)數(shù)據(jù)集。這在圖模型中很有幫助,尤其適用于貝葉斯設(shè)置,其中有時(shí)只需更新有限維的充分統(tǒng)計(jì)量即可完成貝葉斯更新(Wainwright 和 Jordan, 2008)。然而,指數(shù)族似然的共軛先驗(yàn)必須仔細(xì)選擇,常常迫使人們使用某種概念上不合適的具體先驗(yàn)。此外,即使在非貝葉斯設(shè)定下,除了特殊命名的分布(如高斯分布、拉普拉斯分布、泊松分布、伽馬分布、二項(xiàng)分布、瑞利分布等(Nielsen 和 Garcia, 2009))外,一般情況下要計(jì)算或逼近歸一化常數(shù)仍然需要處理復(fù)雜的指數(shù)積分。
在現(xiàn)代機(jī)器學(xué)習(xí)架構(gòu)中,保持具有可計(jì)算歸一化常數(shù)的靈活模型(Wilson 等, 2016;Papamakarios 等, 2021)、近似或繞過(guò)歸一化常數(shù)的計(jì)算(LeCun 等, 2006;Graves, 2011;Knoblauch 等, 2022)仍然是一個(gè)活躍的研究方向,廣泛應(yīng)用于參數(shù)估計(jì)、推理和預(yù)測(cè)中。
1.2 貢獻(xiàn)
在第 3 節(jié)中,我們聚焦于平方族 ,并描述它們所具有的良好性質(zhì)。設(shè) (X,F,μ) 是一個(gè)測(cè)度空間,其中 X 是一個(gè)集合,F(xiàn) 是一個(gè) σ-代數(shù),μ 是一個(gè)參考 σ-有限測(cè)度,并考慮關(guān)于 μ 的概率密度函數(shù),其形式為:
其中 g 是某個(gè)足夠光滑的非負(fù)函數(shù)。我們證明,在具有特定奇異性的情況下,這類 g-族可以被刻畫(huà)為正齊次族 (positively homogeneous families),偶數(shù)次單項(xiàng)式族和平方族都屬于此類。我們推導(dǎo)了它們的 Fisher 信息矩陣,并展示了一種去除奇異性的簡(jiǎn)單方法,還展示了在偶數(shù)次單項(xiàng)式族這一特例下歸一化常數(shù)的一種可計(jì)算分解形式。
在去除了奇異性之后,只有指數(shù)族和正齊次族的 Fisher 信息矩陣是來(lái)自某個(gè) Bregman 生成函數(shù)的 Hessian 度量的一個(gè)共形變換,而該生成函數(shù)僅通過(guò)歸一化常數(shù)依賴于參數(shù)。這是一個(gè)非常便于計(jì)算的性質(zhì),因?yàn)樗试S在 Fisher 信息、歸一化常數(shù)和統(tǒng)計(jì)散度之間重用相同的積分結(jié)果。除了指數(shù)族之外,偶數(shù)次單項(xiàng)式族還額外具備歸一化常數(shù)的可計(jì)算分解形式。各類 g-族之間的比較總結(jié)見(jiàn)表 1。
在第 5 節(jié)中,我們研究了平方族中的最大似然估計(jì)問(wèn)題。在模型設(shè)定正確的情況下,標(biāo)準(zhǔn)的漸近正態(tài)性結(jié)果適用,其估計(jì)精度由 Fisher 信息決定,而 Fisher 信息本質(zhì)上簡(jiǎn)化為平方族核。在模型設(shè)定錯(cuò)誤的情況下,當(dāng)估計(jì)一個(gè)任意但具有良好性質(zhì)的目標(biāo)密度時(shí),我們證明通過(guò)最大似然估計(jì)得到的平方族擬合與目標(biāo)密度之間的 KL 散度接近于該平方族中與目標(biāo)密度(在 KL 散度意義下)最接近的那個(gè)密度之間的 KL 散度。特別地,這兩個(gè) KL 散度之間的差值依概率收斂到零的速度為 ,其中 N 是數(shù)據(jù)點(diǎn)數(shù)量。最終,目標(biāo)密度與平方族中最優(yōu)密度之間的 KL 散度被限制為,這里利用了神經(jīng)網(wǎng)絡(luò)的通用逼近結(jié)果,其中 n 是參數(shù)數(shù)量。
所有證明均給出在附錄中。
相關(guān)工作
盡管文獻(xiàn)中已存在一些類似于平方族的模型,據(jù)我們所知(參見(jiàn)第 3 節(jié)),尤其在計(jì)算性質(zhì)和相對(duì)于其他模型類別的表示能力方面,尚無(wú)先前工作分析過(guò)此類模型的幾何性質(zhì)及其下游的統(tǒng)計(jì)估計(jì)性質(zhì),也未將其納入現(xiàn)有的通用逼近結(jié)果框架中。我們?cè)谖闹袑?duì)相關(guān)結(jié)構(gòu)進(jìn)行了討論。
2 背景
記號(hào)說(shuō)明
我們假設(shè)所有分布 P 和 Q 都關(guān)于一個(gè)共同的基測(cè)度 μ 存在概率密度函數(shù) p 和 q。對(duì)于參數(shù)空間、分布空間和函數(shù)空間中的雙參數(shù)散度(如 d(a:b)),我們一律使用冒號(hào) :
作為參數(shù)分隔符,即使這些散度可能是對(duì)稱的。表 2 中給出了記號(hào)慣例和重要重復(fù)使用的符號(hào)的總結(jié)。
我們并不試圖對(duì) Fisher 信息、指數(shù)族、統(tǒng)計(jì)散度、參數(shù)空間散度或函數(shù)空間散度提供一個(gè)完整的背景介紹。相反,我們假設(shè)讀者已具備一定的相關(guān)基礎(chǔ),并僅列出我們所需的重要的量和性質(zhì),在有需要的地方指引讀者參考相關(guān)文獻(xiàn)以獲取進(jìn)一步的背景知識(shí)。
2.1 費(fèi)舍爾信息
我們假設(shè)在本文中,費(fèi)舍爾信息矩陣是有限的且不等于零。
2.2 參數(shù)、統(tǒng)計(jì)與函數(shù)散度
Fisher 信息度量與 f-散度
每一個(gè) f-散度都會(huì)在兩個(gè)無(wú)窮小位移的分布之間的統(tǒng)計(jì)散度中誘導(dǎo)出 Fisher 信息,表現(xiàn)為一個(gè)正定形式(例如,參見(jiàn) Amari, 2016, §3.5)。Fisher 信息通過(guò) Cramer-Rao 下界描述了任何估計(jì)量的方差的下限,并且它對(duì)于描述估計(jì)方法的極限也非常有用。例如,在較弱的正則條件下,一個(gè)設(shè)定正確的統(tǒng)計(jì)模型的最大似然估計(jì)在漸近情況下會(huì)趨近于一個(gè)高斯分布,其均值等于真實(shí)參數(shù),方差等于 Fisher 信息的逆除以樣本數(shù)量。更一般地,誤設(shè)模型的最大似然估計(jì)也可以使用一個(gè)類似于 Fisher 信息的量來(lái)進(jìn)行分析(White, 1982)。
Hessian 度量
根據(jù)泰勒定理的均值形式,由函數(shù) ? 生成的 Bregman 散度可以表示為沿連接該散度兩個(gè)參數(shù)點(diǎn)連線上的 ?的 Hessian 矩陣的積分。因此,Bregman 生成函數(shù) ? 的 Hessian 矩陣 給出了參數(shù)流形上的一個(gè)度量,我們稱之為 Hessian 度量 。
f-散度不等式
我們分析中使用的三種 f-散度的例子是 Kullback-Leibler (KL) 散度、平方 Hellinger (SH) 距離和全變差 (TV) 距離。KL 散度定義為:
這是一類在使用機(jī)器學(xué)習(xí)模型(例如具有隨機(jī)隱藏層的神經(jīng)網(wǎng)絡(luò))對(duì)目標(biāo)函數(shù)進(jìn)行近似時(shí),用于量化近似效果的有用散度。例如,這種散度可以用于量化隨機(jī)傅里葉特征模型的近似效果(Rahimi 和 Recht, 2008)。概率密度上的平方 Hellinger(SH)距離與平方根密度上的
距離相關(guān),并且其形式為:
3 平方族
在本節(jié)中,我們引入平方族 并討論它們的一些良好性質(zhì)。這些性質(zhì)是以“正向”的方式展示的:從平方族的定義出發(fā),逐步推導(dǎo)出它們的各類性質(zhì)。
隨后在第 4 節(jié)中,我們將以“反向”的方式使用這些性質(zhì):從一些理想性質(zhì)出發(fā),通過(guò)特征刻畫(huà)來(lái)導(dǎo)出平方族的結(jié)構(gòu)。
3.3 統(tǒng)計(jì)散度與 Bregman 散度
在建立了 Fisher 信息矩陣與歸一化常數(shù)之間的聯(lián)系之后,并且歸一化常數(shù)可以通過(guò)參數(shù)-積分分解形式進(jìn)行近似的情況下,我們現(xiàn)在將注意力轉(zhuǎn)向也與歸一化常數(shù)相關(guān)的統(tǒng)計(jì)散度。為了實(shí)現(xiàn)這一目標(biāo),我們引入了兩個(gè)參數(shù)空間:一個(gè)是半空間(half space),另一個(gè)是橢球的邊界(boundary of an ellipsoid)。
因此,它仍然滿足一個(gè)參數(shù)-積分分解形式。當(dāng) m=n 時(shí),對(duì)參數(shù)空間進(jìn)行限制的合適推廣是通過(guò) Cholesky 分解或類似的矩陣分解方式來(lái)實(shí)現(xiàn)的。
平方高斯過(guò)程
在泊松點(diǎn)過(guò)程強(qiáng)度估計(jì)的背景下,也有若干研究使用高斯過(guò)程的平方范數(shù)來(lái)建模強(qiáng)度函數(shù)(McCullagh 和 M?ller, 2006;Lloyd 等, 2015;Walder 和 Bishop, 2017;Kim 等, 2022;Sellier 和 Dellaportas, 2023)。
使用平方高斯過(guò)程建模強(qiáng)度函數(shù),將原本計(jì)算歸一化常數(shù)的計(jì)算或分析難題轉(zhuǎn)化為計(jì)算積分強(qiáng)度函數(shù)的難題。其頻率學(xué)派對(duì)應(yīng)的方法是使用 RKHS 中某元素的平方(Flaxman 等, 2017),這類似于用于密度建模的平方核方法,其中 M 被限制為秩 1 矩陣;積分可以通過(guò)“等效核”(equivalent kernel)的概念來(lái)進(jìn)行近似(Rasmussen 和 Williams, 2006, §7.1)。
概率電路
類似的平方概率模型也出現(xiàn)在概率電路 (probabilistic circuits)文獻(xiàn)中(Choi 等),其中也指出,通過(guò)對(duì)函數(shù)進(jìn)行平方操作,可以在概率電路中實(shí)現(xiàn)可追蹤的歸一化和組合操作,這類電路被稱為平方電路(squared circuits),并已有若干關(guān)于其表示能力的研究成果,表明它們可以用其他概率電路的組合來(lái)表示(Loconte 等, 2024a, 2023b, 2024b;Wang 和 Broeck, 2024),并已被應(yīng)用于將知識(shí)圖譜嵌入模型轉(zhuǎn)化為生成模型(Loconte 等, 2023a)。
邊緣分布與條件分布
我們還可以計(jì)算平方族密度的邊緣分布和條件分布,這一性質(zhì)推廣了 SNEFY 模型的一個(gè)特性(Tsuchida 等, 2023, 定理 1 和定理 2)。
4 g-族
我們考慮一類更廣泛的模型族,其中平方族 是其特例。引入這類更一般模型的目的,是為了在該類中確立平方族和偶數(shù)階單項(xiàng)式族為唯一滿足某些特定性質(zhì)的分布族。
在這一更廣泛的模型族背景下,我們將平方族的良好性質(zhì)進(jìn)行推廣,并將其歸納為兩個(gè)理想特性(desiderata)。我們證明第一個(gè)理想特性僅被正交奇異的 g-族 和指數(shù)族 所滿足。此外,我們通過(guò)觀察發(fā)現(xiàn),該更一般的模型族等價(jià)于正齊次族 (positively homogeneous families),而偶數(shù)階族是其中的一個(gè)特例。
我們進(jìn)一步表明,第二個(gè)理想特性被偶數(shù)階單項(xiàng)式族 所滿足,但不被其他正齊次族或指數(shù)族所滿足。因此,在某種意義上,平方族是一類具有良好性質(zhì)的分布族中的優(yōu)秀代表。
4.1 概率模型族的兩個(gè)理想性質(zhì)
歸一化常數(shù)、Hessian 度量、Fisher 信息與散度之間的關(guān)聯(lián)
如果歸一化常數(shù)及其梯度和 Hessian 矩陣可以直接以閉合形式用于刻畫(huà)概率分布流形的幾何結(jié)構(gòu),而無(wú)需計(jì)算額外的積分,那將是十分便利的。這意味著只需計(jì)算一個(gè)統(tǒng)一的積分,就可以同時(shí)實(shí)現(xiàn)對(duì)分布族的正確歸一化以及對(duì)估計(jì)過(guò)程極限的理解。
在這里,我們給出該性質(zhì)成立的一個(gè)判據(jù)。
一個(gè) Hessian 度量 是通過(guò)對(duì)參數(shù) θ 的凸 Bregman 生成函數(shù) ? 取其 Hessian 矩陣構(gòu)造得到的,它在參數(shù)空間 Θ上定義了一個(gè)黎曼度量。另一方面,Fisher 信息矩陣 則是概率分布流形上的自然黎曼度量。
我們希望這個(gè)凸生成函數(shù)僅通過(guò)歸一化常數(shù) z(θ) 來(lái)依賴于參數(shù) θ,并且由此產(chǎn)生的度量等于 Fisher 信息矩陣 G(θ) 的一個(gè)共形變換 (conformal transformation)。換句話說(shuō),我們要求滿足以下條件:
4.2 通過(guò)線性模型的非負(fù)變換構(gòu)造的 g-族
鑒于第 4.1 節(jié)中提出的兩個(gè)理想性質(zhì)(desiderata),以及我們?cè)诘?3 節(jié)中已經(jīng)證明平方族 同時(shí)滿足這兩個(gè)性質(zhì),一個(gè)自然的問(wèn)題是:還有哪些其他分布族也同時(shí)滿足這兩個(gè)理想性質(zhì)?
結(jié)果表明,偶數(shù)階單項(xiàng)式族 (其中平方族是一個(gè)重要的特例)也同時(shí)滿足這兩個(gè)理想性質(zhì)。而指數(shù)族 并不顯然滿足 Desideratum 2。
更一般地,只有正齊次族 (positively homogeneous families)和指數(shù)族 滿足 Desideratum 1。
4.2.1 正則性條件
在本節(jié)中,我們將使用一些關(guān)于函數(shù) g、統(tǒng)計(jì)量 ψ 和測(cè)度 μ 的溫和正則性條件,具體見(jiàn)假設(shè) 5 和 假設(shè) 6 。其中一些正則性條件在未來(lái)的工作中可能可以被進(jìn)一步放寬。我們首先陳述對(duì)函數(shù) g 的正則性要求。
第一個(gè)條件是保守而較強(qiáng)的,它避免了需要根據(jù) ψ 的取值范圍和參數(shù)集 Θ 來(lái)定義某些復(fù)雜的支撐集(support)。
第二個(gè)條件是為了應(yīng)用概率論中的標(biāo)準(zhǔn)工具所必須的嚴(yán)格要求。
第三個(gè)條件使得我們可以應(yīng)用圍繞 Fisher 信息以及估計(jì)量漸近正態(tài)性的一系列經(jīng)典工具,盡管使用更高級(jí)的“局部漸近正態(tài)性”(local asymptotic normality)概念可能可以放寬該條件(例如參見(jiàn) Le Cam 和 Yang, 2000)。
最后一個(gè)條件不失一般性,它對(duì)函數(shù) g 的尺度進(jìn)行了固定,因?yàn)閷⑷我?g 乘以一個(gè)常數(shù)后仍將得到相同的概率密度。
下面我們陳述對(duì)統(tǒng)計(jì)量 ψ 的正則性要求。
第一個(gè)條件排除了那些始終指向同一方向的特征 ψ,即那些其有效信息僅體現(xiàn)在自身范數(shù)上的特征。
第二個(gè)條件本質(zhì)上要求對(duì)于某個(gè) x∈X,預(yù)測(cè)值 θ?ψ(x) 可以取負(fù)值。
最后一個(gè)條件類似于神經(jīng)網(wǎng)絡(luò)中的偏置(bias)。這一偏置有助于確保模型具有足夠的表達(dá)能力,以捕捉所有感興趣的函數(shù)。
4.3 正交奇異性與 Fisher 信息
對(duì)于形如 (9) 的 g-族,如附錄 B.1 所示,F(xiàn)isher 信息矩陣(見(jiàn)公式 (2))總是可以分解為一個(gè)半正定(PSD)矩陣與一個(gè)秩為 1 的半正定矩陣之差,
即使第一項(xiàng)是嚴(yán)格正定的,第二項(xiàng)有時(shí)也可能足夠大,使得最終得到的 G(θ) 具有零特征值(更一般地,第一項(xiàng)也不一定是嚴(yán)格正定的)。
如果對(duì)于所有 θ∈Θ 和 x∈X,g-族 {p(?∣θ)}θ∈Θ 滿足以下條件:
由于 Fisher 信息矩陣是得分函數(shù)(score)的外積的期望,(12) 式意味著 θ 是 Fisher 信息矩陣的一個(gè)特征向量,其對(duì)應(yīng)的特征值為 0。
4.3.1 正交奇異的 g-族與正齊次族的關(guān)系
我們將正交奇異的 g-族給出了另一種刻畫(huà)方式:它等價(jià)于正齊次族 (positively homogeneous families)。
通過(guò)對(duì)定理12的證明,我們可以看到,在偏差重新參數(shù)化(bias reparameterisation)下,正齊次族(positively homogeneous families)與q-指數(shù)族(q-exponential families)之間有非常緊密的聯(lián)系(Naudts, 2004;Amari 和 Ohara, 2011;Naudts, 2011),因此有必要澄清它們之間的差異。
對(duì)于推廣指數(shù)族的歸一化條件,有兩種顯而易見(jiàn)的方式:
(1)通過(guò)定義函數(shù) g g的積分為歸一化常數(shù),這正是我們?cè)?g-族(g-families)中所采用的方法;
(2)通過(guò)隱式地定義一個(gè)廣義對(duì)數(shù)歸一化函數(shù) A A,使得的積分為1,這種方式在 q-指數(shù)族以及其他變形指數(shù)族(deformed exponential families)中被采用(Naudts, 2011)。
然而,這種隱式定義可能會(huì)導(dǎo)致對(duì)數(shù)歸一化函數(shù)的額外不可解性——也就是說(shuō),它不再一定表現(xiàn)為一個(gè)顯式的(即便可能仍然難以解析)積分表達(dá)式。
離散型的 q-指數(shù)族具有與 Fisher 信息共形等價(jià)的參數(shù)度量(Amari 和 Ohara, 2011,第4定理),但它們的共形變換是通過(guò)所謂的伴隨分布(escort distribution)定義的,而不是僅僅依賴于歸一化常數(shù)中的參數(shù)。
最后我們指出,如果不進(jìn)行維度擴(kuò)展,正齊次族始終是奇異的(singular),而 q-指數(shù)族則可能不是奇異的。事實(shí)上,正是這種受控的奇異性使我們能夠超越傳統(tǒng)指數(shù)族,去尋找那些滿足“愿望1”(Desideratum 1)的 g-族,同時(shí)仍然允許對(duì)估計(jì)過(guò)程進(jìn)行分析與估計(jì)。
4.4 歸一化常數(shù)
定理 12 表明,在滿足 Desideratum 1 的所有 g-族中,指數(shù)族 和經(jīng)過(guò)維度擴(kuò)展的正齊次族 是特殊的,因?yàn)樗鼈兪俏ㄒ粷M足該性質(zhì)的兩類模型。
當(dāng)我們進(jìn)一步考慮 Desideratum 2 時(shí),就可以將指數(shù)族以及許多正齊次族也排除在外。
對(duì)于指數(shù)族 而言,Desideratum 2 所要求的形式并不顯然成立,因?yàn)橹笖?shù)函數(shù)可以表示為無(wú)限單項(xiàng)式級(jí)數(shù)展開(kāi)形式。我們目前尚未發(fā)現(xiàn)任何滿足 Desideratum 2 中所描述的積分-參數(shù)分解形式的、具有實(shí)際意義的指數(shù)族。
同樣地,一般的正齊次族 也不具備明顯的參數(shù)-積分分解結(jié)構(gòu)。
5 參數(shù)估計(jì)與密度估計(jì)
利用我們推導(dǎo)出的平方族的幾何結(jié)構(gòu),我們可以分析統(tǒng)計(jì)估計(jì)方法的誤差。在本文中,我們考察 arguably(可以說(shuō))最普遍的估計(jì)方法——最大似然估計(jì) (maximum likelihood estimation, MLE)。我們將分別在三種難度遞增的情境下進(jìn)行分析:
模型設(shè)定正確的情形(well-specified model),
模型設(shè)定錯(cuò)誤的情形(misspecified model),
以及一種更具挑戰(zhàn)性的情形:我們使用一個(gè)通用逼近器(universal approximator)來(lái)估計(jì)任意的目標(biāo)密度。
給定數(shù)據(jù) xi,我們總可以通過(guò)人為地將來(lái)自分布 q 的數(shù)據(jù) xi 與來(lái)自獨(dú)立標(biāo)準(zhǔn)高斯分布的數(shù)據(jù) ai 進(jìn)行維度擴(kuò)展 (dimension augmentation),從而構(gòu)造出這樣一個(gè)優(yōu)化目標(biāo)。值得注意的是,這種維度擴(kuò)展具有類似正則化的效果:(14) 式中的第二項(xiàng)起到了正則項(xiàng)的作用,它鼓勵(lì)歸一化常數(shù)接近于 1,并在其中引入了隨機(jī)擾動(dòng)。
眾所周知,最大似然估計(jì)(MLE)滿足漸近正態(tài)性 (asymptotic normality),即:
5.2 模型誤設(shè)下的最大似然估計(jì)
當(dāng)數(shù)據(jù)所來(lái)自的密度函數(shù) q 并不屬于我們從中選取最優(yōu)估計(jì)的概率分布族時(shí),這種估計(jì)方法被稱為擬最大似然估計(jì) (Quasi-maximum likelihood estimation),以區(qū)別于標(biāo)準(zhǔn)的最大似然估計(jì) 。
5.3 通用逼近
在模型誤設(shè)的情況下,鑒于某些特征提取器所具有的通用逼近性質(zhì) (universal approximating property),我們可以預(yù)期:當(dāng)參數(shù)數(shù)量 n 足夠大時(shí),能夠得到一個(gè)較小的投影 KL 散度
正如我們接下來(lái)所要討論的,這一預(yù)期確實(shí)成立。為此,我們首先定義“通用逼近器”的概念。
最早揭示滿足假設(shè) 9 的網(wǎng)絡(luò)結(jié)構(gòu)的工作之一是 Barron (1993) 的研究,該工作探討了具有隨機(jī)隱藏參數(shù)的 Sigmoid 函數(shù)的線性組合。然而,當(dāng)時(shí)對(duì)于可逼近的函數(shù)集合 F 與隱藏參數(shù)隨機(jī)分布之間的關(guān)系尚不明確。
最近,Gonon 等人(2023)的研究表明,使用均勻分布的隨機(jī)參數(shù) 以及更廣泛的激活函數(shù)(包括 ReLU),可以逼近非常廣泛的函數(shù)類 F。
另一個(gè)經(jīng)典的例子是淺層隨機(jī)神經(jīng)網(wǎng)絡(luò)(Rahimi 和 Recht, 2008,由引理 1 所隱含),為了具體起見(jiàn),我們也將其包含在下文中。
6 結(jié)論
在本文中,我們研究了平方族 (squared families),它作為偶數(shù)階單項(xiàng)式族 (even-order monomial families)的一種獨(dú)特特例出現(xiàn);而偶數(shù)階單項(xiàng)式族本身又是正齊次族 (positively homogeneous families)和更一般的 g-族的特例。
正齊次族的特征在于其奇異性 (Lemma 7),但這種奇異性可以通過(guò)一種簡(jiǎn)單的方式——維度擴(kuò)展(dimension augmentation)來(lái)處理(Lemma 10)。一旦處理了奇異性,我們便可以證明:指數(shù)族與正齊次單項(xiàng)式族是唯一一類滿足如下性質(zhì)的 g-族:其 Fisher 信息矩陣與某個(gè)僅依賴于歸一化常數(shù)的 Bregman 散度所生成的 Hessian 度量共形等價(jià)(Theorem 12)。
這一計(jì)算幾何性質(zhì)意味著,對(duì)于指數(shù)族和正齊次族來(lái)說(shuō),只需計(jì)算歸一化常數(shù)中的一個(gè)積分,即可得到整個(gè) Fisher 信息矩陣。此外,在偶數(shù)階族中還存在一個(gè)強(qiáng)大的計(jì)算性質(zhì)——參數(shù)-積分分解形式 (parameter-integral factorisation),這大大簡(jiǎn)化了歸一化常數(shù)的計(jì)算。
近年來(lái),平方族模型的實(shí)例出現(xiàn)在機(jī)器學(xué)習(xí)的一些看似不相關(guān)的子領(lǐng)域中,包括:
核方法與高斯過(guò)程(Marteau-Ferey 等, 2020;Rudi 和 Ciliberto, 2021;Marteau-Ferey 等, 2022),
神經(jīng)網(wǎng)絡(luò)(Tsuchida 等, 2023, 2024),
概率電路(Sladek, 2023;Loconte 等, 2023b),
這些模型展現(xiàn)出令人印象深刻的表示能力、估計(jì)能力和邊緣化性質(zhì)。盡管如此,令人驚訝的是,此前尚未有人從標(biāo)準(zhǔn)且有力的信息幾何和統(tǒng)計(jì)框架出發(fā)對(duì)平方族進(jìn)行過(guò)系統(tǒng)分析。也許阻礙這種分析的最大障礙在于平方模型具有奇異性,因此可能看起來(lái)難以進(jìn)行解析分析。
在本文中,我們展示了通過(guò)簡(jiǎn)單的維度擴(kuò)展技術(shù),就可以將奇異的平方族轉(zhuǎn)化為非奇異的正則族。對(duì)于平方族而言,我們也找到了一個(gè)與歸一化常數(shù)相關(guān)聯(lián)的統(tǒng)計(jì)散度。
在平方族的框架下,我們研究了模型設(shè)定正確與錯(cuò)誤情況下的統(tǒng)計(jì)估計(jì)問(wèn)題,并探討了利用通用逼近性質(zhì)進(jìn)行密度估計(jì)的表現(xiàn)。
我們認(rèn)為,平方族為使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行密度建模提供了一種強(qiáng)有力的新路徑。不同于具有神經(jīng)網(wǎng)絡(luò)統(tǒng)計(jì)量的指數(shù)族或基于能量的模型(這兩類模型通常具有難以處理的歸一化常數(shù)),平方族具備強(qiáng)大的參數(shù)-積分分解結(jié)構(gòu),以及歸一化常數(shù)、散度和 Fisher 信息之間的閉合形式聯(lián)系,為使用深度學(xué)習(xí)進(jìn)行密度估計(jì)提供了新的發(fā)展方向。
原文鏈接:https://arxiv.org/pdf/2503.21128?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.