99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

超越常規(guī)概率模型

0
分享至

超越常規(guī)概率模型

Squared families: Searching beyond regular probability models

https://arxiv.org/pdf/2503.21128?



摘要

我們引入了平方族(squared families),這是一類通過(guò)對(duì)某個(gè)統(tǒng)計(jì)量的線性變換進(jìn)行平方后得到的概率密度函數(shù)族。平方族具有奇異性,但這種奇異性可以被容易地處理,使得它們成為正則模型。在處理掉奇異性之后,平方族具有許多良好的性質(zhì)。

其Fisher信息矩陣是來(lái)自Bregman生成函數(shù)所誘導(dǎo)的Hessian度量的一個(gè)共形變換。這個(gè)Bregman生成函數(shù)即為歸一化常數(shù),并且它在這個(gè)分布族上定義了一個(gè)統(tǒng)計(jì)散度(statistical divergence)。該歸一化常數(shù)具有一個(gè)有用的參數(shù)-積分分解形式,這意味著在整個(gè)平方族中,所有歸一化常數(shù)只需要計(jì)算一個(gè)與參數(shù)無(wú)關(guān)的積分即可,這一點(diǎn)不同于指數(shù)族。

此外,平方族的核函數(shù)(kernel)是唯一需要計(jì)算的積分,它可以用于Fisher信息、統(tǒng)計(jì)散度和歸一化常數(shù)的表達(dá)。

接著,我們描述了平方族在更廣泛的g族(g-families)中的特殊地位。g族是通過(guò)將一個(gè)足夠光滑的函數(shù)g作用于統(tǒng)計(jì)量的線性變換所構(gòu)造出的分布族。在去除特定的奇異性之后,只有正齊次族(positively homogeneous families)和指數(shù)族的Fisher信息矩陣是Hessian度量的共形變換,其中生成函數(shù)僅通過(guò)歸一化常數(shù)依賴于參數(shù)。

偶數(shù)次單項(xiàng)式族(even-order monomial families)是唯一既無(wú)窮可微又滿足正齊次性的分布族,它們也像指數(shù)族一樣具有自然的參數(shù)-積分分解形式。

最后,我們?cè)谀P驮O(shè)定正確和錯(cuò)誤的情況下研究了平方族中的參數(shù)估計(jì)和密度估計(jì)問(wèn)題。我們利用一種通用逼近性質(zhì)(universal approximation property),證明平方族可以以漸近速率學(xué)習(xí)充分良好行為的目標(biāo)密度,其中 N 是數(shù)據(jù)點(diǎn)數(shù)量,n 是參數(shù)數(shù)量,C 是一個(gè)與數(shù)據(jù)無(wú)關(guān)的常數(shù)。

關(guān)鍵詞 :密度估計(jì),信息幾何,指數(shù)族,通用逼近

1 引言 1.1 概率分布族及其應(yīng)用

具有可計(jì)算性、靈活性和可學(xué)習(xí)性的概率密度函數(shù)族在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中有著廣泛的應(yīng)用。一個(gè)極端但常見(jiàn)的應(yīng)用是(條件)密度估計(jì),其中我們嘗試通過(guò)從該分布族中選擇一個(gè)元素來(lái)近似目標(biāo)密度 q,使得這個(gè)元素在某種意義上與從 q 中采樣的數(shù)據(jù)最匹配(Barron 和 Sheu, 1991;Deisenroth 等, 2020;McLachlan 等, 2019)。另一個(gè)極端是參數(shù)估計(jì),其中已知目標(biāo)密度 q屬于該分布族,我們的任務(wù)是找出 q 的可識(shí)別參數(shù)(Lehmann 和 Casella, 2006)。在這兩個(gè)極端之間,還存在一系列豐富的問(wèn)題,例如密度比估計(jì)(Sugiyama 等, 2012)、散度估計(jì)、聚類(Banerjee 等, 2005)、廣義線性建模(包括回歸和分類)(McCullagh 和 Nelder, 1989)、參數(shù)雙樣本檢驗(yàn)(Lehmann 和 Romano, 2022),以及更一般地,在任何圖模型中的推理與估計(jì)(Wainwright 和 Jordan, 2008)。所有這些問(wèn)題的核心都是那些具有良好計(jì)算、幾何和統(tǒng)計(jì)性質(zhì)的概率密度參數(shù)族。

指數(shù)族

前一段所引用的許多研究探討了(混合)指數(shù)族的特殊情況。指數(shù)族之所以在這些應(yīng)用中無(wú)處不在,主要是因?yàn)樗鼈兙邆淞己玫膸缀巍⒔y(tǒng)計(jì)和某些情況下的計(jì)算性質(zhì)。

幾何性質(zhì):

每一個(gè)指數(shù)族都構(gòu)成了一個(gè)由其自然參數(shù)索引的流形(Amari, 2016)。在這個(gè)流形上,由嚴(yán)格凸的對(duì)數(shù)歸一化常數(shù)生成的 Bregman 散度等于概率分布之間的逆 KL 散度。通過(guò)對(duì) Bregman 生成函數(shù)的凸共軛可以得到對(duì)偶參數(shù)(期望參數(shù))和對(duì)應(yīng)的散度。黎曼度量是嚴(yán)格正定的 Fisher 信息矩陣。

統(tǒng)計(jì)性質(zhì):

Fisher 信息恰好是指數(shù)族中參數(shù)估計(jì)的精度,并達(dá)到了 Cramer-Rao 下界的等式(在一定正則條件下是唯一的)(Wijsman, 1973;Joshi, 1976)。更一般地,在指數(shù)族之外,F(xiàn)isher 信息描述了圍繞真實(shí)值的最大似然估計(jì)在漸近意義下高斯分布的精度。Fisher 信息在指數(shù)族中具有特別優(yōu)美的形式,它既是 Bregman 生成函數(shù)的 Hessian 矩陣,也是模型下充分統(tǒng)計(jì)量的協(xié)方差矩陣(Wainwright 和 Jordan, 2008)。

計(jì)算性質(zhì):

指數(shù)族也是唯一一類在獨(dú)立同分布樣本數(shù)量增加時(shí),其充分統(tǒng)計(jì)量的維度保持有界的分布族(前提是分布域不依賴于參數(shù)),這被稱為 Pitman-Koopman-Darmois 定理。這意味著參數(shù)可以通過(guò)僅使用一個(gè)有限維的統(tǒng)計(jì)量進(jìn)行更新,而無(wú)需存儲(chǔ)完整的觀測(cè)數(shù)據(jù)集。這在圖模型中很有幫助,尤其適用于貝葉斯設(shè)置,其中有時(shí)只需更新有限維的充分統(tǒng)計(jì)量即可完成貝葉斯更新(Wainwright 和 Jordan, 2008)。然而,指數(shù)族似然的共軛先驗(yàn)必須仔細(xì)選擇,常常迫使人們使用某種概念上不合適的具體先驗(yàn)。此外,即使在非貝葉斯設(shè)定下,除了特殊命名的分布(如高斯分布、拉普拉斯分布、泊松分布、伽馬分布、二項(xiàng)分布、瑞利分布等(Nielsen 和 Garcia, 2009))外,一般情況下要計(jì)算或逼近歸一化常數(shù)仍然需要處理復(fù)雜的指數(shù)積分。

在現(xiàn)代機(jī)器學(xué)習(xí)架構(gòu)中,保持具有可計(jì)算歸一化常數(shù)的靈活模型(Wilson 等, 2016;Papamakarios 等, 2021)、近似或繞過(guò)歸一化常數(shù)的計(jì)算(LeCun 等, 2006;Graves, 2011;Knoblauch 等, 2022)仍然是一個(gè)活躍的研究方向,廣泛應(yīng)用于參數(shù)估計(jì)、推理和預(yù)測(cè)中。

1.2 貢獻(xiàn)

在第 3 節(jié)中,我們聚焦于平方族 ,并描述它們所具有的良好性質(zhì)。設(shè) (X,F,μ) 是一個(gè)測(cè)度空間,其中 X 是一個(gè)集合,F(xiàn) 是一個(gè) σ-代數(shù),μ 是一個(gè)參考 σ-有限測(cè)度,并考慮關(guān)于 μ 的概率密度函數(shù),其形式為:



其中 g 是某個(gè)足夠光滑的非負(fù)函數(shù)。我們證明,在具有特定奇異性的情況下,這類 g-族可以被刻畫(huà)為正齊次族 (positively homogeneous families),偶數(shù)次單項(xiàng)式族和平方族都屬于此類。我們推導(dǎo)了它們的 Fisher 信息矩陣,并展示了一種去除奇異性的簡(jiǎn)單方法,還展示了在偶數(shù)次單項(xiàng)式族這一特例下歸一化常數(shù)的一種可計(jì)算分解形式。

在去除了奇異性之后,只有指數(shù)族和正齊次族的 Fisher 信息矩陣是來(lái)自某個(gè) Bregman 生成函數(shù)的 Hessian 度量的一個(gè)共形變換,而該生成函數(shù)僅通過(guò)歸一化常數(shù)依賴于參數(shù)。這是一個(gè)非常便于計(jì)算的性質(zhì),因?yàn)樗试S在 Fisher 信息、歸一化常數(shù)和統(tǒng)計(jì)散度之間重用相同的積分結(jié)果。除了指數(shù)族之外,偶數(shù)次單項(xiàng)式族還額外具備歸一化常數(shù)的可計(jì)算分解形式。各類 g-族之間的比較總結(jié)見(jiàn)表 1。


在第 5 節(jié)中,我們研究了平方族中的最大似然估計(jì)問(wèn)題。在模型設(shè)定正確的情況下,標(biāo)準(zhǔn)的漸近正態(tài)性結(jié)果適用,其估計(jì)精度由 Fisher 信息決定,而 Fisher 信息本質(zhì)上簡(jiǎn)化為平方族核。在模型設(shè)定錯(cuò)誤的情況下,當(dāng)估計(jì)一個(gè)任意但具有良好性質(zhì)的目標(biāo)密度時(shí),我們證明通過(guò)最大似然估計(jì)得到的平方族擬合與目標(biāo)密度之間的 KL 散度接近于該平方族中與目標(biāo)密度(在 KL 散度意義下)最接近的那個(gè)密度之間的 KL 散度。特別地,這兩個(gè) KL 散度之間的差值依概率收斂到零的速度為 ,其中 N 是數(shù)據(jù)點(diǎn)數(shù)量。最終,目標(biāo)密度與平方族中最優(yōu)密度之間的 KL 散度被限制為,這里利用了神經(jīng)網(wǎng)絡(luò)的通用逼近結(jié)果,其中 n 是參數(shù)數(shù)量。

所有證明均給出在附錄中。

相關(guān)工作
盡管文獻(xiàn)中已存在一些類似于平方族的模型,據(jù)我們所知(參見(jiàn)第 3 節(jié)),尤其在計(jì)算性質(zhì)和相對(duì)于其他模型類別的表示能力方面,尚無(wú)先前工作分析過(guò)此類模型的幾何性質(zhì)及其下游的統(tǒng)計(jì)估計(jì)性質(zhì),也未將其納入現(xiàn)有的通用逼近結(jié)果框架中。我們?cè)谖闹袑?duì)相關(guān)結(jié)構(gòu)進(jìn)行了討論。

2 背景

記號(hào)說(shuō)明
我們假設(shè)所有分布 P 和 Q 都關(guān)于一個(gè)共同的基測(cè)度 μ 存在概率密度函數(shù) p 和 q。對(duì)于參數(shù)空間、分布空間和函數(shù)空間中的雙參數(shù)散度(如 d(a:b)),我們一律使用冒號(hào) : 作為參數(shù)分隔符,即使這些散度可能是對(duì)稱的。表 2 中給出了記號(hào)慣例和重要重復(fù)使用的符號(hào)的總結(jié)。


我們并不試圖對(duì) Fisher 信息、指數(shù)族、統(tǒng)計(jì)散度、參數(shù)空間散度或函數(shù)空間散度提供一個(gè)完整的背景介紹。相反,我們假設(shè)讀者已具備一定的相關(guān)基礎(chǔ),并僅列出我們所需的重要的量和性質(zhì),在有需要的地方指引讀者參考相關(guān)文獻(xiàn)以獲取進(jìn)一步的背景知識(shí)。

2.1 費(fèi)舍爾信息


我們假設(shè)在本文中,費(fèi)舍爾信息矩陣是有限的且不等于零。

2.2 參數(shù)、統(tǒng)計(jì)與函數(shù)散度


Fisher 信息度量與 f-散度
每一個(gè) f-散度都會(huì)在兩個(gè)無(wú)窮小位移的分布之間的統(tǒng)計(jì)散度中誘導(dǎo)出 Fisher 信息,表現(xiàn)為一個(gè)正定形式(例如,參見(jiàn) Amari, 2016, §3.5)。Fisher 信息通過(guò) Cramer-Rao 下界描述了任何估計(jì)量的方差的下限,并且它對(duì)于描述估計(jì)方法的極限也非常有用。例如,在較弱的正則條件下,一個(gè)設(shè)定正確的統(tǒng)計(jì)模型的最大似然估計(jì)在漸近情況下會(huì)趨近于一個(gè)高斯分布,其均值等于真實(shí)參數(shù),方差等于 Fisher 信息的逆除以樣本數(shù)量。更一般地,誤設(shè)模型的最大似然估計(jì)也可以使用一個(gè)類似于 Fisher 信息的量來(lái)進(jìn)行分析(White, 1982)。

Hessian 度量
根據(jù)泰勒定理的均值形式,由函數(shù) ? 生成的 Bregman 散度可以表示為沿連接該散度兩個(gè)參數(shù)點(diǎn)連線上的 ?的 Hessian 矩陣的積分。因此,Bregman 生成函數(shù) ? 的 Hessian 矩陣 給出了參數(shù)流形上的一個(gè)度量,我們稱之為 Hessian 度量

f-散度不等式
我們分析中使用的三種 f-散度的例子是 Kullback-Leibler (KL) 散度、平方 Hellinger (SH) 距離和全變差 (TV) 距離。KL 散度定義為:


這是一類在使用機(jī)器學(xué)習(xí)模型(例如具有隨機(jī)隱藏層的神經(jīng)網(wǎng)絡(luò))對(duì)目標(biāo)函數(shù)進(jìn)行近似時(shí),用于量化近似效果的有用散度。例如,這種散度可以用于量化隨機(jī)傅里葉特征模型的近似效果(Rahimi 和 Recht, 2008)。概率密度上的平方 Hellinger(SH)距離與平方根密度上的
距離相關(guān),并且其形式為:



3 平方族

在本節(jié)中,我們引入平方族 并討論它們的一些良好性質(zhì)。這些性質(zhì)是以“正向”的方式展示的:從平方族的定義出發(fā),逐步推導(dǎo)出它們的各類性質(zhì)。

隨后在第 4 節(jié)中,我們將以“反向”的方式使用這些性質(zhì):從一些理想性質(zhì)出發(fā),通過(guò)特征刻畫(huà)來(lái)導(dǎo)出平方族的結(jié)構(gòu)。







3.3 統(tǒng)計(jì)散度與 Bregman 散度

在建立了 Fisher 信息矩陣與歸一化常數(shù)之間的聯(lián)系之后,并且歸一化常數(shù)可以通過(guò)參數(shù)-積分分解形式進(jìn)行近似的情況下,我們現(xiàn)在將注意力轉(zhuǎn)向也與歸一化常數(shù)相關(guān)的統(tǒng)計(jì)散度。為了實(shí)現(xiàn)這一目標(biāo),我們引入了兩個(gè)參數(shù)空間:一個(gè)是半空間(half space),另一個(gè)是橢球的邊界(boundary of an ellipsoid)。








因此,它仍然滿足一個(gè)參數(shù)-積分分解形式。當(dāng) m=n 時(shí),對(duì)參數(shù)空間進(jìn)行限制的合適推廣是通過(guò) Cholesky 分解或類似的矩陣分解方式來(lái)實(shí)現(xiàn)的。




平方高斯過(guò)程

在泊松點(diǎn)過(guò)程強(qiáng)度估計(jì)的背景下,也有若干研究使用高斯過(guò)程的平方范數(shù)來(lái)建模強(qiáng)度函數(shù)(McCullagh 和 M?ller, 2006;Lloyd 等, 2015;Walder 和 Bishop, 2017;Kim 等, 2022;Sellier 和 Dellaportas, 2023)。

使用平方高斯過(guò)程建模強(qiáng)度函數(shù),將原本計(jì)算歸一化常數(shù)的計(jì)算或分析難題轉(zhuǎn)化為計(jì)算積分強(qiáng)度函數(shù)的難題。其頻率學(xué)派對(duì)應(yīng)的方法是使用 RKHS 中某元素的平方(Flaxman 等, 2017),這類似于用于密度建模的平方核方法,其中 M 被限制為秩 1 矩陣;積分可以通過(guò)“等效核”(equivalent kernel)的概念來(lái)進(jìn)行近似(Rasmussen 和 Williams, 2006, §7.1)。

概率電路

類似的平方概率模型也出現(xiàn)在概率電路 (probabilistic circuits)文獻(xiàn)中(Choi 等),其中也指出,通過(guò)對(duì)函數(shù)進(jìn)行平方操作,可以在概率電路中實(shí)現(xiàn)可追蹤的歸一化和組合操作,這類電路被稱為平方電路(squared circuits),并已有若干關(guān)于其表示能力的研究成果,表明它們可以用其他概率電路的組合來(lái)表示(Loconte 等, 2024a, 2023b, 2024b;Wang 和 Broeck, 2024),并已被應(yīng)用于將知識(shí)圖譜嵌入模型轉(zhuǎn)化為生成模型(Loconte 等, 2023a)。

邊緣分布與條件分布

我們還可以計(jì)算平方族密度的邊緣分布和條件分布,這一性質(zhì)推廣了 SNEFY 模型的一個(gè)特性(Tsuchida 等, 2023, 定理 1 和定理 2)。



4 g-族

我們考慮一類更廣泛的模型族,其中平方族 是其特例。引入這類更一般模型的目的,是為了在該類中確立平方族和偶數(shù)階單項(xiàng)式族為唯一滿足某些特定性質(zhì)的分布族。

在這一更廣泛的模型族背景下,我們將平方族的良好性質(zhì)進(jìn)行推廣,并將其歸納為兩個(gè)理想特性(desiderata)。我們證明第一個(gè)理想特性僅被正交奇異的 g-族 指數(shù)族 所滿足。此外,我們通過(guò)觀察發(fā)現(xiàn),該更一般的模型族等價(jià)于正齊次族 (positively homogeneous families),而偶數(shù)階族是其中的一個(gè)特例。

我們進(jìn)一步表明,第二個(gè)理想特性被偶數(shù)階單項(xiàng)式族 所滿足,但不被其他正齊次族或指數(shù)族所滿足。因此,在某種意義上,平方族是一類具有良好性質(zhì)的分布族中的優(yōu)秀代表。



4.1 概率模型族的兩個(gè)理想性質(zhì)

歸一化常數(shù)、Hessian 度量、Fisher 信息與散度之間的關(guān)聯(lián)

如果歸一化常數(shù)及其梯度和 Hessian 矩陣可以直接以閉合形式用于刻畫(huà)概率分布流形的幾何結(jié)構(gòu),而無(wú)需計(jì)算額外的積分,那將是十分便利的。這意味著只需計(jì)算一個(gè)統(tǒng)一的積分,就可以同時(shí)實(shí)現(xiàn)對(duì)分布族的正確歸一化以及對(duì)估計(jì)過(guò)程極限的理解。

在這里,我們給出該性質(zhì)成立的一個(gè)判據(jù)。

一個(gè) Hessian 度量 是通過(guò)對(duì)參數(shù) θ 的凸 Bregman 生成函數(shù) ? 取其 Hessian 矩陣構(gòu)造得到的,它在參數(shù)空間 Θ上定義了一個(gè)黎曼度量。另一方面,Fisher 信息矩陣 則是概率分布流形上的自然黎曼度量。

我們希望這個(gè)凸生成函數(shù)僅通過(guò)歸一化常數(shù) z(θ) 來(lái)依賴于參數(shù) θ,并且由此產(chǎn)生的度量等于 Fisher 信息矩陣 G(θ) 的一個(gè)共形變換 (conformal transformation)。換句話說(shuō),我們要求滿足以下條件:





4.2 通過(guò)線性模型的非負(fù)變換構(gòu)造的 g-族

鑒于第 4.1 節(jié)中提出的兩個(gè)理想性質(zhì)(desiderata),以及我們?cè)诘?3 節(jié)中已經(jīng)證明平方族 同時(shí)滿足這兩個(gè)性質(zhì),一個(gè)自然的問(wèn)題是:還有哪些其他分布族也同時(shí)滿足這兩個(gè)理想性質(zhì)?

結(jié)果表明,偶數(shù)階單項(xiàng)式族 (其中平方族是一個(gè)重要的特例)也同時(shí)滿足這兩個(gè)理想性質(zhì)。而指數(shù)族 并不顯然滿足 Desideratum 2。

更一般地,只有正齊次族 (positively homogeneous families)和指數(shù)族 滿足 Desideratum 1。

4.2.1 正則性條件

在本節(jié)中,我們將使用一些關(guān)于函數(shù) g、統(tǒng)計(jì)量 ψ 和測(cè)度 μ 的溫和正則性條件,具體見(jiàn)假設(shè) 5 假設(shè) 6 。其中一些正則性條件在未來(lái)的工作中可能可以被進(jìn)一步放寬。我們首先陳述對(duì)函數(shù) g 的正則性要求。


第一個(gè)條件是保守而較強(qiáng)的,它避免了需要根據(jù) ψ 的取值范圍和參數(shù)集 Θ 來(lái)定義某些復(fù)雜的支撐集(support)。
第二個(gè)條件是為了應(yīng)用概率論中的標(biāo)準(zhǔn)工具所必須的嚴(yán)格要求。
第三個(gè)條件使得我們可以應(yīng)用圍繞 Fisher 信息以及估計(jì)量漸近正態(tài)性的一系列經(jīng)典工具,盡管使用更高級(jí)的“局部漸近正態(tài)性”(local asymptotic normality)概念可能可以放寬該條件(例如參見(jiàn) Le Cam 和 Yang, 2000)。
最后一個(gè)條件不失一般性,它對(duì)函數(shù) g 的尺度進(jìn)行了固定,因?yàn)閷⑷我?g 乘以一個(gè)常數(shù)后仍將得到相同的概率密度。

下面我們陳述對(duì)統(tǒng)計(jì)量 ψ 的正則性要求。


第一個(gè)條件排除了那些始終指向同一方向的特征 ψ,即那些其有效信息僅體現(xiàn)在自身范數(shù)上的特征。
第二個(gè)條件本質(zhì)上要求對(duì)于某個(gè) x∈X,預(yù)測(cè)值 θ?ψ(x) 可以取負(fù)值。
最后一個(gè)條件類似于神經(jīng)網(wǎng)絡(luò)中的偏置(bias)。這一偏置有助于確保模型具有足夠的表達(dá)能力,以捕捉所有感興趣的函數(shù)。

4.3 正交奇異性與 Fisher 信息

對(duì)于形如 (9) 的 g-族,如附錄 B.1 所示,F(xiàn)isher 信息矩陣(見(jiàn)公式 (2))總是可以分解為一個(gè)半正定(PSD)矩陣與一個(gè)秩為 1 的半正定矩陣之差,


即使第一項(xiàng)是嚴(yán)格正定的,第二項(xiàng)有時(shí)也可能足夠大,使得最終得到的 G(θ) 具有零特征值(更一般地,第一項(xiàng)也不一定是嚴(yán)格正定的)。

如果對(duì)于所有 θ∈Θ 和 x∈X,g-族 {p(?∣θ)}θ∈Θ 滿足以下條件:

由于 Fisher 信息矩陣是得分函數(shù)(score)的外積的期望,(12) 式意味著 θ 是 Fisher 信息矩陣的一個(gè)特征向量,其對(duì)應(yīng)的特征值為 0。


4.3.1 正交奇異的 g-族與正齊次族的關(guān)系

我們將正交奇異的 g-族給出了另一種刻畫(huà)方式:它等價(jià)于正齊次族 (positively homogeneous families)。



通過(guò)對(duì)定理12的證明,我們可以看到,在偏差重新參數(shù)化(bias reparameterisation)下,正齊次族(positively homogeneous families)q-指數(shù)族(q-exponential families)之間有非常緊密的聯(lián)系(Naudts, 2004;Amari 和 Ohara, 2011;Naudts, 2011),因此有必要澄清它們之間的差異。

對(duì)于推廣指數(shù)族的歸一化條件,有兩種顯而易見(jiàn)的方式:
(1)通過(guò)定義函數(shù) g g的積分為歸一化常數(shù),這正是我們?cè)?g-族(g-families)中所采用的方法;
(2)通過(guò)隱式地定義一個(gè)廣義對(duì)數(shù)歸一化函數(shù) A A,使得的積分為1,這種方式在 q-指數(shù)族以及其他變形指數(shù)族(deformed exponential families)中被采用(Naudts, 2011)。

然而,這種隱式定義可能會(huì)導(dǎo)致對(duì)數(shù)歸一化函數(shù)的額外不可解性——也就是說(shuō),它不再一定表現(xiàn)為一個(gè)顯式的(即便可能仍然難以解析)積分表達(dá)式。

離散型的 q-指數(shù)族具有與 Fisher 信息共形等價(jià)的參數(shù)度量(Amari 和 Ohara, 2011,第4定理),但它們的共形變換是通過(guò)所謂的伴隨分布(escort distribution)定義的,而不是僅僅依賴于歸一化常數(shù)中的參數(shù)。

最后我們指出,如果不進(jìn)行維度擴(kuò)展,正齊次族始終是奇異的(singular),而 q-指數(shù)族則可能不是奇異的。事實(shí)上,正是這種受控的奇異性使我們能夠超越傳統(tǒng)指數(shù)族,去尋找那些滿足“愿望1”(Desideratum 1)的 g-族,同時(shí)仍然允許對(duì)估計(jì)過(guò)程進(jìn)行分析與估計(jì)。

4.4 歸一化常數(shù)

定理 12 表明,在滿足 Desideratum 1 的所有 g-族中,指數(shù)族 經(jīng)過(guò)維度擴(kuò)展的正齊次族 是特殊的,因?yàn)樗鼈兪俏ㄒ粷M足該性質(zhì)的兩類模型。

當(dāng)我們進(jìn)一步考慮 Desideratum 2 時(shí),就可以將指數(shù)族以及許多正齊次族也排除在外。


對(duì)于指數(shù)族 而言,Desideratum 2 所要求的形式并不顯然成立,因?yàn)橹笖?shù)函數(shù)可以表示為無(wú)限單項(xiàng)式級(jí)數(shù)展開(kāi)形式。我們目前尚未發(fā)現(xiàn)任何滿足 Desideratum 2 中所描述的積分-參數(shù)分解形式的、具有實(shí)際意義的指數(shù)族。

同樣地,一般的正齊次族 也不具備明顯的參數(shù)-積分分解結(jié)構(gòu)。

5 參數(shù)估計(jì)與密度估計(jì)

利用我們推導(dǎo)出的平方族的幾何結(jié)構(gòu),我們可以分析統(tǒng)計(jì)估計(jì)方法的誤差。在本文中,我們考察 arguably(可以說(shuō))最普遍的估計(jì)方法——最大似然估計(jì) (maximum likelihood estimation, MLE)。我們將分別在三種難度遞增的情境下進(jìn)行分析:

  • 模型設(shè)定正確的情形(well-specified model),

  • 模型設(shè)定錯(cuò)誤的情形(misspecified model),

  • 以及一種更具挑戰(zhàn)性的情形:我們使用一個(gè)通用逼近器(universal approximator)來(lái)估計(jì)任意的目標(biāo)密度。

5.1 最大似然估計(jì)


給定數(shù)據(jù) xi,我們總可以通過(guò)人為地將來(lái)自分布 q 的數(shù)據(jù) xi 與來(lái)自獨(dú)立標(biāo)準(zhǔn)高斯分布的數(shù)據(jù) ai 進(jìn)行維度擴(kuò)展 (dimension augmentation),從而構(gòu)造出這樣一個(gè)優(yōu)化目標(biāo)。值得注意的是,這種維度擴(kuò)展具有類似正則化的效果:(14) 式中的第二項(xiàng)起到了正則項(xiàng)的作用,它鼓勵(lì)歸一化常數(shù)接近于 1,并在其中引入了隨機(jī)擾動(dòng)。

眾所周知,最大似然估計(jì)(MLE)滿足漸近正態(tài)性 (asymptotic normality),即:


5.2 模型誤設(shè)下的最大似然估計(jì)

當(dāng)數(shù)據(jù)所來(lái)自的密度函數(shù) q 并不屬于我們從中選取最優(yōu)估計(jì)的概率分布族時(shí),這種估計(jì)方法被稱為擬最大似然估計(jì) (Quasi-maximum likelihood estimation),以區(qū)別于標(biāo)準(zhǔn)的最大似然估計(jì)




5.3 通用逼近

在模型誤設(shè)的情況下,鑒于某些特征提取器所具有的通用逼近性質(zhì) (universal approximating property),我們可以預(yù)期:當(dāng)參數(shù)數(shù)量 n 足夠大時(shí),能夠得到一個(gè)較小的投影 KL 散度

正如我們接下來(lái)所要討論的,這一預(yù)期確實(shí)成立。為此,我們首先定義“通用逼近器”的概念。


最早揭示滿足假設(shè) 9 的網(wǎng)絡(luò)結(jié)構(gòu)的工作之一是 Barron (1993) 的研究,該工作探討了具有隨機(jī)隱藏參數(shù)的 Sigmoid 函數(shù)的線性組合。然而,當(dāng)時(shí)對(duì)于可逼近的函數(shù)集合 F 與隱藏參數(shù)隨機(jī)分布之間的關(guān)系尚不明確。

最近,Gonon 等人(2023)的研究表明,使用均勻分布的隨機(jī)參數(shù) 以及更廣泛的激活函數(shù)(包括 ReLU),可以逼近非常廣泛的函數(shù)類 F。

另一個(gè)經(jīng)典的例子是淺層隨機(jī)神經(jīng)網(wǎng)絡(luò)(Rahimi 和 Recht, 2008,由引理 1 所隱含),為了具體起見(jiàn),我們也將其包含在下文中。



6 結(jié)論

在本文中,我們研究了平方族 (squared families),它作為偶數(shù)階單項(xiàng)式族 (even-order monomial families)的一種獨(dú)特特例出現(xiàn);而偶數(shù)階單項(xiàng)式族本身又是正齊次族 (positively homogeneous families)和更一般的 g-族的特例。

正齊次族的特征在于其奇異性 (Lemma 7),但這種奇異性可以通過(guò)一種簡(jiǎn)單的方式——維度擴(kuò)展(dimension augmentation)來(lái)處理(Lemma 10)。一旦處理了奇異性,我們便可以證明:指數(shù)族與正齊次單項(xiàng)式族是唯一一類滿足如下性質(zhì)的 g-族:其 Fisher 信息矩陣與某個(gè)僅依賴于歸一化常數(shù)的 Bregman 散度所生成的 Hessian 度量共形等價(jià)(Theorem 12)。

這一計(jì)算幾何性質(zhì)意味著,對(duì)于指數(shù)族和正齊次族來(lái)說(shuō),只需計(jì)算歸一化常數(shù)中的一個(gè)積分,即可得到整個(gè) Fisher 信息矩陣。此外,在偶數(shù)階族中還存在一個(gè)強(qiáng)大的計(jì)算性質(zhì)——參數(shù)-積分分解形式 (parameter-integral factorisation),這大大簡(jiǎn)化了歸一化常數(shù)的計(jì)算。

近年來(lái),平方族模型的實(shí)例出現(xiàn)在機(jī)器學(xué)習(xí)的一些看似不相關(guān)的子領(lǐng)域中,包括:

  • 核方法與高斯過(guò)程(Marteau-Ferey 等, 2020;Rudi 和 Ciliberto, 2021;Marteau-Ferey 等, 2022),

  • 神經(jīng)網(wǎng)絡(luò)(Tsuchida 等, 2023, 2024),

  • 概率電路(Sladek, 2023;Loconte 等, 2023b),

這些模型展現(xiàn)出令人印象深刻的表示能力、估計(jì)能力和邊緣化性質(zhì)。盡管如此,令人驚訝的是,此前尚未有人從標(biāo)準(zhǔn)且有力的信息幾何和統(tǒng)計(jì)框架出發(fā)對(duì)平方族進(jìn)行過(guò)系統(tǒng)分析。也許阻礙這種分析的最大障礙在于平方模型具有奇異性,因此可能看起來(lái)難以進(jìn)行解析分析。

在本文中,我們展示了通過(guò)簡(jiǎn)單的維度擴(kuò)展技術(shù),就可以將奇異的平方族轉(zhuǎn)化為非奇異的正則族。對(duì)于平方族而言,我們也找到了一個(gè)與歸一化常數(shù)相關(guān)聯(lián)的統(tǒng)計(jì)散度。

在平方族的框架下,我們研究了模型設(shè)定正確與錯(cuò)誤情況下的統(tǒng)計(jì)估計(jì)問(wèn)題,并探討了利用通用逼近性質(zhì)進(jìn)行密度估計(jì)的表現(xiàn)。

我們認(rèn)為,平方族為使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行密度建模提供了一種強(qiáng)有力的新路徑。不同于具有神經(jīng)網(wǎng)絡(luò)統(tǒng)計(jì)量的指數(shù)族或基于能量的模型(這兩類模型通常具有難以處理的歸一化常數(shù)),平方族具備強(qiáng)大的參數(shù)-積分分解結(jié)構(gòu),以及歸一化常數(shù)、散度和 Fisher 信息之間的閉合形式聯(lián)系,為使用深度學(xué)習(xí)進(jìn)行密度估計(jì)提供了新的發(fā)展方向。
















原文鏈接:https://arxiv.org/pdf/2503.21128?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
看完報(bào)道,差點(diǎn)以為是伊朗贏了,美國(guó)投降了

看完報(bào)道,差點(diǎn)以為是伊朗贏了,美國(guó)投降了

走讀新生
2025-06-24 11:05:42
科技助力,中國(guó)有望從能源最大進(jìn)口國(guó)成為世界主要能源出口國(guó)。

科技助力,中國(guó)有望從能源最大進(jìn)口國(guó)成為世界主要能源出口國(guó)。

興史興談
2025-06-25 09:50:49
63歲阿湯哥戀情實(shí)錘后,女兒蘇瑞近照曝光,即將進(jìn)軍好萊塢

63歲阿湯哥戀情實(shí)錘后,女兒蘇瑞近照曝光,即將進(jìn)軍好萊塢

瘋狂影視圈
2025-06-24 23:38:47
以色列防長(zhǎng)稱恢復(fù)猛烈空襲德黑蘭

以色列防長(zhǎng)稱恢復(fù)猛烈空襲德黑蘭

魯中晨報(bào)
2025-06-24 16:27:02
新華社快訊:伊朗議會(huì)通過(guò)暫停與國(guó)際原子能機(jī)構(gòu)合作的法案

新華社快訊:伊朗議會(huì)通過(guò)暫停與國(guó)際原子能機(jī)構(gòu)合作的法案

新華社
2025-06-25 14:55:04
黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

素素娛樂(lè)
2025-06-25 10:18:47
雷霆奪冠游行:杰威致敬科比 卡皇掛湖人戒指 SGA抱獎(jiǎng)杯下車狂歡

雷霆奪冠游行:杰威致敬科比 卡皇掛湖人戒指 SGA抱獎(jiǎng)杯下車狂歡

顏小白的籃球夢(mèng)
2025-06-25 09:09:52
中國(guó)股市:未來(lái)即將有望乘風(fēng)破浪的10匹黑馬,值得收藏研究!!

中國(guó)股市:未來(lái)即將有望乘風(fēng)破浪的10匹黑馬,值得收藏研究!!

人生宥常
2025-06-25 10:00:10
互動(dòng)被挖,王楚欽戀情曝光?奧運(yùn),孫穎莎喊話想贏,誰(shuí)注意他舉動(dòng)

互動(dòng)被挖,王楚欽戀情曝光?奧運(yùn),孫穎莎喊話想贏,誰(shuí)注意他舉動(dòng)

樂(lè)聊球
2025-06-25 12:29:54
金正恩的喋血上位:母親幫他扳倒異母大哥,他自己一招搞垮親二哥

金正恩的喋血上位:母親幫他扳倒異母大哥,他自己一招搞垮親二哥

阿胡
2024-01-05 13:57:28
“朱雀玄武敕令”公布第三次高考分?jǐn)?shù)為246分:現(xiàn)在叫周景明,保底可以去兩所職業(yè)學(xué)院,內(nèi)心很平靜

“朱雀玄武敕令”公布第三次高考分?jǐn)?shù)為246分:現(xiàn)在叫周景明,保底可以去兩所職業(yè)學(xué)院,內(nèi)心很平靜

極目新聞
2025-06-25 00:12:47
掘金總裁:會(huì)與約基奇談3年2.12億續(xù)約 特定條件下會(huì)考慮交易他

掘金總裁:會(huì)與約基奇談3年2.12億續(xù)約 特定條件下會(huì)考慮交易他

顏小白的籃球夢(mèng)
2025-06-25 05:29:50
今年!慢特病無(wú)需申請(qǐng),醫(yī)保能報(bào)銷95%,門檻費(fèi)取消了

今年!慢特病無(wú)需申請(qǐng),醫(yī)保能報(bào)銷95%,門檻費(fèi)取消了

小劉嘮嗑醫(yī)保
2025-06-25 11:20:55
19歲騎手摔死后續(xù):家境被扒太凄慘,高中輟學(xué)養(yǎng)家,父母癱病在床

19歲騎手摔死后續(xù):家境被扒太凄慘,高中輟學(xué)養(yǎng)家,父母癱病在床

體制內(nèi)老陳
2025-06-22 14:22:47
王思聰資產(chǎn)被何猷君收購(gòu)!汪小菲也沒(méi)有想到,自己當(dāng)年的話應(yīng)驗(yàn)了

王思聰資產(chǎn)被何猷君收購(gòu)!汪小菲也沒(méi)有想到,自己當(dāng)年的話應(yīng)驗(yàn)了

振華觀史
2025-06-25 09:03:08
鄭爽在美國(guó)參加飯局!一直看身邊大佬,發(fā)福染黃發(fā)全程聊天哈哈笑

鄭爽在美國(guó)參加飯局!一直看身邊大佬,發(fā)福染黃發(fā)全程聊天哈哈笑

扒星人
2025-06-25 11:22:09
2-1!溫網(wǎng)首位贏球中國(guó)球員:苦戰(zhàn)三盤險(xiǎn)翻車 鄭欽文沖2885萬(wàn)獎(jiǎng)金

2-1!溫網(wǎng)首位贏球中國(guó)球員:苦戰(zhàn)三盤險(xiǎn)翻車 鄭欽文沖2885萬(wàn)獎(jiǎng)金

侃球熊弟
2025-06-24 21:41:58
女子腰腹部藏匿未申報(bào)港幣114.2萬(wàn)元出境被海關(guān)查獲

女子腰腹部藏匿未申報(bào)港幣114.2萬(wàn)元出境被海關(guān)查獲

環(huán)球網(wǎng)資訊
2025-06-24 14:51:02
344比79:川普因打擊伊朗而被提起彈劾,彈劾案被擱置

344比79:川普因打擊伊朗而被提起彈劾,彈劾案被擱置

寰宇大觀察
2025-06-25 10:17:34
海南17歲高一漂亮女生已找到,曝最后朋友圈,或早有征兆...

海南17歲高一漂亮女生已找到,曝最后朋友圈,或早有征兆...

小人物看盡人間百態(tài)
2025-06-24 16:22:16
2025-06-25 15:39:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
639文章數(shù) 11關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運(yùn)往全國(guó)

頭條要聞

特朗普稱中國(guó)可以繼續(xù)從伊朗購(gòu)買石油 外交部回應(yīng)

頭條要聞

特朗普稱中國(guó)可以繼續(xù)從伊朗購(gòu)買石油 外交部回應(yīng)

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂(lè)要聞

林志穎15歲兒子眉眼間神似易烊千璽!

財(cái)經(jīng)要聞

3000億的泡泡瑪特,漲不動(dòng)了?

汽車要聞

樂(lè)高樂(lè)園x比亞迪官配曝光!兒童駕駛學(xué)校來(lái)了

態(tài)度原創(chuàng)

游戲
健康
時(shí)尚
親子
數(shù)碼

CEO確認(rèn)PS6游戲機(jī)開(kāi)發(fā)工作已啟動(dòng)、外媒預(yù)測(cè)將實(shí)現(xiàn)4K 120FPS光追

呼吸科專家破解呼吸道九大謠言!

挑對(duì)耳環(huán)=開(kāi)掛!這15款巨in巨高級(jí),太顯臉小了!

親子要聞

為什么說(shuō)孩子抽動(dòng)一半的原因是心理問(wèn)題

數(shù)碼要聞

閃迪創(chuàng)作者系列磁吸手機(jī)移動(dòng)固態(tài)硬盤評(píng)測(cè):便攜存儲(chǔ)的創(chuàng)意之選

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 长兴县| 突泉县| 五常市| 壶关县| 汽车| 神池县| 桂林市| 泊头市| 大城县| 万载县| 肇庆市| 屯门区| 疏附县| 关岭| 阜城县| 民和| 南华县| 富蕴县| 大宁县| 阜城县| 甘肃省| 宁陕县| 措美县| 贡觉县| 鄯善县| 南木林县| 拜城县| 阳春市| 洛阳市| 兖州市| 陆川县| 开封县| 萝北县| 隆化县| 库车县| 临武县| 延津县| 大庆市| 雅江县| 永丰县| 双峰县|