摘要
生成擴散模型在機器學習和生成模型的多個領域中取得了驚人的表現。盡管這些模型的基本概念源自非平衡物理、變分推斷和隨機微積分,但本文表明其中許多特性可以用平衡態統計力學的工具來理解。在這一表述框架下,我們發現生成擴散模型經歷了二階相變,這一現象對應于自發對稱破缺。由于這些相變源于生成動力學中的自洽條件,因此它們屬于同一種平均場普適類(mean-field universality class)。我們認為相變引起的臨界不穩定性(critical instability) 是生成擴散模型生成能力的核心特征,其可以由一組平均場臨界指數描述。最后,我們表明生成過程的動力學方程可以被解釋為隨機絕熱變換(stochastic adiabatic transformation),該變換在保持系統處于熱平衡的同時最小化自由能。
研究領域:生成擴散模型,機器學習,統計熱力學,對稱性破缺,相變,隨機絕熱變換,自由能
Luca Ambrogioni丨作者
管紹華
| 譯者
論文題目:The Statistical Thermodynamics of Generative Diffusion Models: Phase Transitions, Symmetry Breaking, and Critical Instability 論文地址:https://www.mdpi.com/1099-4300/27/3/291
1. 引言
生成模型是機器學習的一個子領域,專注于自動生成結構化數據,如圖像、視頻和書面語言 [1]。生成擴散模型 [2]是一類深度生成模型(也被稱為基于得分的模型),在圖像 [3,4]、聲音 [5–7] 和視頻生成 [8,9] 方面展現了出色的性能。擴散模型最初通過與非平衡統計物理的類比而引入,其基本思想是將生成過程形式化為一個前向隨機過程的概率反轉,該過程逐漸將目標分布Φ(y)轉化為簡單的基礎分布,如高斯白噪聲 [2,10]。最近的幾項研究表明,生成擴散模型的許多動力學特性可以通過自發對稱破缺 [11–13] 和相變 [13,14] 等概念來理解。這些理論和實驗結果表明生成擴散與平衡態現象之間存在深刻的聯系。
在本文中,我們在平衡態統計物理的語境下提出了生成擴散模型的概念性重新表述。首先定義作用于無噪聲狀態上的一系列玻爾茲曼分布,這些無噪聲狀態在擴散過程中被詮釋為(不可觀測的)微觀態。在這個圖景中,玻爾茲曼權重由給定噪聲狀態下無噪聲數據的條件分布提供。進而,我們得到了一個自洽的狀態方程,其對應于生成動力學的固定點方程。此外,研究結果表明生成擴散模型經歷了平均場型的二階相變,這與生成自發對稱性破缺現象相對應,后者最早在[11]中討論,并在[13-15]中進一步研究。最后,我們表明該平均場理論可視為多節點耦合復制體系的熱力學極限。基于這一結果我們推導出生成擴散方程的一個變體,即與大量密集連接復制微觀狀態系統( a large densely-connected system of replicated microstates)耦合的‘粒子’的布朗運動,這為超越平均場理論的擴散模型提供了一種可能的推廣方案。
2. 本文貢獻及相關工作
本文的主要新穎理論貢獻在于對生成擴散模型中平均場臨界相變的刻畫及其超越平均場理論的擴展,這些內容在第9節中給出。盡管本文包含新的研究結果,我們也希望從教學角度為物理學家提供關于生成擴散研究的自洽介紹。因此,我們報告了其他文獻中已有的公式和結果,包括用于分析記憶現象(memorization phenomena)的分析方案 [13,16],以及現代 Hopfield 網絡(modern Hopfield networks)的等價性結果 [17]。盡管采用了相同的隨機能量方法(random energy methods),但第11節提供的記憶分析與 [13,16] 的結果略有不同,這是由于其不使用信噪比分析,并且不限于“典型”點。此外,文中一些公式也可以在關于隨機局部化的最新研究 [18,19] 中找到,該研究被證明為生成擴散過程提供了一種優雅的推廣 [20–22]。特別地,方程 (14) 中的玻爾茲曼分布等價于 [18] 中的傾斜分布。
3. 生成擴散模型的基本概念
擴散模型的目標是從一個潛在的非常復雜的目標分布Φ(y)中采樣,我們將其建模為一個(前向)隨機過程的初始邊界條件,該過程通過加入白噪聲來去除結構。為了簡化推導,我們假設前向過程是一個布朗運動。在應用類的文獻中更常使用其他前向過程,例如保方差過程(variance-preserving process),其中有非平穩的奧恩斯坦-烏倫貝克過程(non-stationary Ornstein–Uhlenbeck process)[4],然而這些模型之間的大多數定性熱力學性質是共通的。布朗運動可以通過朗之萬方程定義:
其中dt是一個無限小的增量,σ是隨機輸入的瞬時標準差,w(t) 是標準高斯白噪聲過程。這樣的布朗運動在給定初始條件 x0時,xt在時間 t 的概率表示為:
因此,方程 (1) 所定義的邊際概率(以Φ(y)作為初始邊界條件)可以被解析地表示如下:
其中期望是相對于目標分布Φ(y)計算的。然后,可以通過“反轉”方程 (1) 來獲得生成模型,其反向方程為:
可以證明,如果初始化時使用適當縮放的白噪聲,則該方程將提供與方程 (3) 相同的邊際分布 [23]。函數?log pt(x)在文獻中被稱為得分。若得分函數對所有x和t值均已知,則可通過數值方法積分方程(4)實現從Φ(y)的采樣。
訓練擴散模型作為去噪自編碼器
雖然目標分布的得分通常無法解析得到,但可以訓練一個深度網絡來從大量訓練樣本中近似它 [10]。我們將這樣的網絡稱為向量值函數f(x(t), t)。深度網絡由大量的權重和偏差參數化;然而鑒于本研究不關注具體參數化細節,我們將給出功能損失函數的表達式:
其中 Ψ(t) 是一個支撐在(0, tend)上的累積分布,且 x(t) 在給定 y 的條件下,依據正向朗之萬方程的傳播子進行采樣。值得注意的是僅僅是累積到時間 t 的總噪聲,這意味著網絡學會了預測擾亂輸入數據的噪聲。得分函數?log pt(x)可以通過優化后的網絡f* = arg min L[f]由如下公式獲得 [23]:
換句話說,得分與給定噪聲污染狀態下的噪聲的最佳估計成比例。因此,在訓練神經網絡以最小化方程 (5) 后,可以通過以下步驟生成合成樣本:從邊界噪聲中采樣x(tend),使用方程 (6) 計算得分,并使用數值方法反向積分方程 (4) 來生成合成樣本。圖 1 展示了一個在自然圖像上訓練的網絡的生成動力學示例。
圖1. 來自 MNIST 數據集的數字的生成過程
4. 居里–韋斯磁性模型的預備知識
在本節中,我們回顧著名的居里–韋斯(Curie–Weiss)磁性模型 [24],它與生成擴散的統計物理學密切相關。考慮一個由N個耦合的二元自旋sJ∈{-1,1} 組成的系統,其哈密頓量由以下公式給出:
其中,Ω是自旋耦合的集合,J是耦合強度,h是一個相對于si的外部磁場。該模型的熱力學行為可以通過計算配分函數進行研究:
其中,求和遍歷所有可能的自旋構型。在大多數耦合結構下,配分函數中的求和無法輕易的得到封閉形式的解析表達。但可以通過重新排列哈密頓量,得到一個可處理的近似:
其中, m 是平均磁化強度,定義為:
其中, d 為具有給定自旋的鄰居數。盡管這只是對原始能量函數的簡單重寫,但我們可以利用這一形式,通過假設在溫度T下,m等于自旋的熱平均值m(T) = T來獲得可處理的近似。在此假設下,可以通過對單個自旋的兩個可能狀態求和來計算其配分函數:
為了找到正確的 m 值,需要求解一個自洽的平均場方程:
該方程有一個或兩個穩定解,取決于T和h的取值。當h = 0時,系統在臨界溫度 Tc = Jd 處發生臨界相變 ,在此溫度以下,單一穩定解 m(T, h) = 0 “分裂” 為兩個穩定解,對應于正磁化或負磁化。這導致所謂的自發對稱破缺,即系統的統計性質會自發地“選擇”兩個對稱解中的一個,從而導致對原始翻轉對稱性 (flip symmetry)的破壞。
5. 作為平衡態系統的擴散模型
現在可以用統計物理的語言重新表述生成擴散模型,在統計力學中任何模型的起點都是定義相關的微觀態。通常情況下,統計物理中的微觀態被認為是不可觀測的量。在擴散模型中,考慮到可以觀察到被噪聲污染的數據 x*(t),最顯而易見的不可觀測量是無噪聲的初始狀態 x*(0) = y*。接下來,需要在微觀態的集合上定義一個哈密頓量。可以通過考慮給定噪聲狀態xt的條件概率 p(y|x, t) 來構造它。這一概率可以由貝葉斯定理給出:
在此基礎上,可以將其重寫為玻爾茲曼分布的形式:
其中,哈密頓量定義為:
而配分函數則為:
該系統的統計性質決定了得分函數,可表示為玻爾茲曼平均值:
其中,
直觀的看,該方程表明得分向量將系統引導至后驗平均 t, x。研究此模型的熱力學性質可以幫助理解生成動力學的多個重要性質。例如,在“凝聚”相變(condensation phase transition)發生后,得分函數將僅依賴于少量數據點。方程 (14) 所定義的熱力學系統沒有真正的溫度參數,但σ2t起到了類似于經典統計力學中溫度的作用。此外,在方程 (15) 所提供的哈密頓量中,動態變量 x 類似于磁性系統中的外場項(external field term),它可以使微觀狀態的分布偏向于與其方向‘對齊’的模式。可以將 x 視為一個‘較慢’的熱力學變量,以絕熱方式與微觀狀態的統計性質相互作用。
5.1. 例 1:雙δ函數
生成動力學的大部分復雜性來自目標分布 ?(y)。然而,一些簡單的玩具模型可以提供一般性的見解,并且通常可以推廣到更復雜的目標分布。一個簡單但具有啟發性的例子是目標分布為:
即 y 取 ?1 或 1 的概率均為 1/2。在此二元約束下,對應的擴散哈密頓量為:
而配分函數則簡化為兩種狀態的求和:
其中β(t) = (tσ2)-1。除了eβ/2/2因子之外,該表達式與居里–韋斯模型的配分函數(方程 11)完全相同,只是外場 h 被噪聲態 x 替代。磁化強度可由自由能對 x 的導數給出:
這與居里–韋斯模型中的表達式相同。利用這一結果,得分函數可寫為:
圖 2 中展示了該得分函數所決定的向量場可視化圖像。可以看到初始穩定固定點x* = 0在β(tc) = 1處失穩,并分叉為兩條固定點路徑。這種分叉可以稱為自發對稱破缺(spontaneous symmetry-breaking)相變。
圖2. 簡單擴散模型(雙δ函數)中相變的可視化。(a) 序參數軌跡及(正則化的)自由能梯度;虛線表示臨界值σt =√t σ0。 (b) 正向過程;虛線表示臨界時間。顏色表示每個粒子的起始位置。
5.2. 例 2:離散數據集
在實際應用中,生成擴散模型是在一個有限但較大的數據集上訓練的,即:D = {y1, …, yN}。從該數據集中采樣對應于目標分布:
如果所有數據點歸一化,則配分函數表示為:
這一配分函數在模型的隨機能量分析(random-energy analysis)中起著重要作用,可用于研究有限樣本的熱力學性質。
5.3. 示例 3:超球面流形(Hyper-Spherical Manifold)
由于數據集總是有限的,實際上每個訓練后的生成擴散模型都對應于前一小節中描述的離散模型。然而,精確擬合數據集會導致模型只能復現記憶中的訓練數據。因此,我們希望訓練后的網絡能夠泛化并對樣本進行插值,從而近似恢復采樣數據的真實分布。在許多情況下,該分布會覆蓋嵌入于環境空間(ambient space)中的一個低維流形。一個簡單的數據流形玩具模型是 [11] 中提出的超球面模型:
其中,S(d - 1)表示以零為中心的 d - 1 維超球面,其體積為 V(d - 1)。雙δ模型是該模型在環境維度等于 1 時的一個特例。如后續章節所示,該數據分布在無限維極限(即熱力學極限)下是可解的,因為它收斂到一個歸一化高斯變量的分布,從而消除了哈密頓量中的二次項。
5.4. 示例 4:擴散伊辛模型(Diffused Ising Model)
盡管本論文中介紹的大多數公式與統計物理中的公式非常相似,但在解釋上仍存在一些微妙的差異,這可能會讓讀者產生困惑。為了解釋這些問題,我們討論了擴散伊辛模型,它可以在這兩類觀點之間架起一座橋梁。考慮一個擴散模型,其目標分布支在d維向量 y 上,且 y 的元素取值于集合{-1,1}。該目標分布的對數概率定義如下:
其中, W 是對稱耦合矩陣(symmetric coupling matrix), T 是溫度參數, c 是一個常數。除了常數項之外,該式實際上是沒有外場項的伊辛模型的對數概率。根據方程 (15),忽略常數項,可以得到擴散模型的哈密頓量:
該式與耦合到位置相關外場(location-dependent external field)的伊辛模型的哈密頓量幾乎相同。然而,β(t) = (tσ2)-1(我們將其解釋為“逆溫度”)并未出現在耦合項的分母中,這導致了該模型的行為與經典伊辛模型存在根本性差異。實際上,tσ2僅僅調節了對外場項的響應度(susceptibility),并不會根本性地改變模型的相變行為,而相變仍然由伊辛溫度參數 T 決定。相反,擴散模型的有趣相變行為是由方程 (32) 的自洽關系決定的,該方程描述了生成隨機動力學的固定點分叉。
從統計物理的角度來看,方程 (32) 可以被理解為平均磁化強度與外場耦合情況下的平均場近似結果。然而在擴散模型中,這種平均場方法并不代表單個格點之間的直接耦合,正如方程 (28) 所示,相互作用項實際上在哈密頓量中是統計耦合的。它可以被看作是整個系統的無限多個拷貝之間的一種理想化的平均場相互作用。一般而言,溫度 T 的值會影響擴散模型的性質,使其從低溫相過渡到高溫相。擴散動力學對該相變的依賴性在 [12] 中進行了相關研究。
6. 自由能、磁化與序參量
在β(t) = (tσ2)-1作為逆溫度參數,可以定義亥姆霍茲自由能如下:
在給定 x 的條件下,模式 y 的期望值可以表示為自由能對 x 的梯度:
這一公式表明擴散模型與統計物理中的磁性系統之間存在類比關系。噪聲狀態 x 可被解釋為外磁場,它誘導出磁化狀態 t, x。在這種類比下當擴散模型的分布偏向于一部分微觀狀態時,該模型被認為是磁化的。在物理學中,外場變量 x 通常被認為是由實驗者控制的。而在生成式擴散模型中, x 是一個動態變量,在逆向動力中由漂移項吸引至 t, x:
換句話說,如果忽略擴散項的影響,系統狀態將被驅動到自洽點,即x = t, x。因此,研究以下自洽方程是很有趣的:
該方程定義了自洽解 m(t),即系統狀態與期望值相等的點。在這個方程中,我們引入一個擾動項 h ,用于研究系統對外界擾動的響應。當 h = 0 時,該方程可以等價地寫成逆向漂移的固定點方程(fixed-point equation of the reversed drift):
當t→∞時,該方程僅允許一個平凡解:m = 0 ,其中 <·>0 表示相對于目標分布Φ(y)的期望值。
在磁性系統的類比下,可以將 m(h, t) 解釋為序參量(order parameter),并將該方程視為熱力學狀態方程。這一類比表明 m(h, t) 可以被解釋為系統的自發磁化。從這個角度來看,生成過程可以被理解為一種自洽的自發對稱性破缺,其中系統趨向于對齊至多個可能目標點中的某一個。熟悉統計物理的讀者會注意到,方程 (32) 形式上與平均場近似中的自洽條件相同,在平均場理論中,一個位置上的外場項被認為是由所有其他位置的磁化決定的。然而,在擴散模型的情況下,這種自洽耦合并不是一種近似,而是動力學的自然結果。因此,這種形式上的類比意味著生成擴散模型的熱力學行為在數學上與平均場模型的熱力學行為相同。
磁化率矩陣 (The Susceptibility Matrix)
磁化率矩陣描述了不同磁化分量對外磁場分量的敏感程度。同樣在擴散模型中,我們可以定義一個磁化率矩陣:
它描述了系統的期望值對噪聲狀態 x(t) 變化的敏感性。磁化率矩陣在解釋生成去噪過程的動力學方面非常有用,因為它揭示了狀態 x(t) 各個分量的隨機波動如何傳播到其他分量。例如,在圖像生成中圖像底部的‘綠色’隨機波動可以傳播到其余部分,進而生成一幅森林的圖像。
磁化率矩陣可以用玻爾茲曼分布下微觀狀態的連通關聯矩陣(connected correlation matrix,即協方差矩陣)重新表達為:
我們還可以將得分函數的雅可比矩陣表示為:
7. 相變與對稱性破缺
自發對稱破缺發生在有序參量的平凡解在某個臨界時間tc分支為多個解時。這對應于正則化自由能(regularized free energy) 中多模態性(multimodality)的出現,正如圖 3 中四δ模型模型所示。在熱力學系統中,這種對稱性破缺對應于二級相變,在該相變點附近,多個狀態變量的發散性可以用來檢測相變的發生。擴散模型是否存在相變,取決于目標分布Φ(y) 的性質。最簡單的例子是雙δ模型,其對應的生成擴散過程見圖 2b。臨界點可以通過自洽方程得到:
圖 2a 展示了該方程的解及正則化自由能的梯度,其中可以看到解的分支行為及臨界點附近的奇異行為。方程 (37) 與伊辛模型的平均場自洽方程完全相同,因此可以認為這種簡單的生成擴散模型的臨界標度行為(critical scaling)與伊辛模型屬于同一普適類。例如,在σ2 tc = 1 附近對方程 (37) 進行泰勒展開,可以得到:
其中,Τ=σ2 (t - tc),當 t < tc 時,該關系成立。
生成與臨界不穩定性
如文獻 [11] 所示,自發對稱性破缺在擴散模型的生成動力學中起著核心作用。例如,在雙δ模型中,當 t>> tc時,動力學會收斂到唯一的固定點m(0, t) 。然而,在t = tc附近,序參量會分裂成三個分支: 一個不穩定分支對應于目標分布的均值,兩個穩定分支分別對應于目標分布的兩個峰值點。需要注意的是,方程 (34) 定義的磁化率在臨界點處發散,這意味著系統對噪聲中的隨機波動變得極為敏感。這種不穩定性由臨界指數δ和γ決定,滿足以下關系:
在一般情況下,不同坐標和矩陣分量的臨界指數可能不同。這些發散行為導致了一種稱為臨界生成不穩定性(critical generative instability)的現象。我們推測生成樣本的多樣性在很大程度上依賴于對這一臨界區域的適當采樣。
8. 生成過程作為絕熱自由能下降過程
到目前為止,我們已經用玻爾茲曼分布描述了擴散模型在時間 t 的熱力學狀態。系統的動力學可以視為一種隨機自由能最小化,其演化方程為:
其中,是自由能與一個額外的自由勢能項的和:
其中勢能項定義為:。這一動力學可以看作是一種絕熱近似,即假設系統沿著擴散軌跡始終維持在熱平衡狀態,從而得到慢變量 x 的演化規律。對稱破缺現在可以通過正則化自由能形狀的變化來檢測,正則化自由能從具有單一全局最小值的凸形狀轉變為更復雜的形狀,可能具有多個亞穩態點(見圖 3)。將擴散模型的動力學重新表述為自由能梯度下降的形式,使我們能夠將生成擴散模型視為一種基于能量的機器學習模型 [25],正如 [17,26] 所討論的那樣。 主要的區別在于,(自由)能量并不是直接學習得到的,而是隱含在學習到的得分函數中。這一觀點表明,擴散模型可能與理論神經科學中的自由能原理存在潛在的聯系,該原理用于刻畫生物神經系統的隨機動力學 [27]。
圖3. 針對不同時間變量取值的“四δ”二維擴散模型的負自由能。目標點位于 (1,0)、(0,1)、(-1,0) 和 (0,-1)。
9. 超越平均場理論:多位點“生成浴”模型
前幾節的結果表明,生成擴散模型可以看作是一個包含K 個“位點”(sites)的副本微觀狀態模型的平均場極限。這些位點通過長程相互作用進行耦合。我們用 yj 表示第 j 個位點的微觀狀態,并定義如下的多位點哈密頓量(multi-site Hamiltonian):
在這個模型中,不同位點的無噪聲數據yj之間存在相互吸引的耦合。當溫度降低(即時間 t 變大)時,系統會經歷自發對稱性破缺,最終所有位點的微觀狀態yj會對齊形成同一個模式,使得可觀測的平均狀態變為:
在熱力學極限K→0時,該模型收斂于前幾節討論的自洽平均場模型。這意味著,我們可以將生成擴散模型隱含的自洽條件理解為一個理想的多位點耦合的結果。這一概念為探索非平均場的生成擴散模型提供了可能性,比如引入短程相互作用或隨機相互作用的無序系統。然而,目前尚不清楚這些推廣是否具有實際應用價值。
9.1. 多位點模型與擴散模型不動點結構之間的聯系
在熱力學極限K→∞下,由方程 (43) 所描述的多位點哈密頓量所決定的統計行為會導致平均場自發對稱性破缺,從而刻畫傳統生成擴散模型的動力學特性。考慮配分函數:
包含多位點耦合項的部分可以用磁化來表示:
其中
利用這一表達式,可以將配分函數重寫為:
可以使用δ函數的傅里葉表示 ,它可以解耦每個位點的積分得到表達式:
其中
可以利用鞍點法在K→∞下求解剩余積分,得到以下兩個條件:
結合這兩個方程得到自洽方程:
這與方程 (32) 中的不動點方程相同。
9.2. 生成浴(Generative Bath)中的布朗動力學
在熱力學極限下,方程 (44) 定義的哈密頓量描述了一個平衡態系統,該系統與生成擴散模型不動點方程所具有的自洽臨界性相同。在本節中,我們從第一性原理推導出一種類似于方程 (4) 中生成方程的隨機生成動力學。其基本思想是考慮一個布朗粒子 x(t) 耦合到多位點微觀狀態。我們定義隨機力如下:
其中, H 是與 x 耦合的位點數量。與方程 (14) 中的分布不同,假設 x 不會對平衡系統本身施加任何影響;相反,該平衡系統僅由于其內部位點之間的耦合而經歷自發對稱破缺。換句話說,在該框架下狀態 x(t) 僅由平衡系統中的統計漲落被動地控制。如果假設方程 (54) 中的力在每個無窮小時間間隔內施加,并且其作用時間尺度遠小于 x(t) 的運動時間尺度,則布朗動力學遵循(反向)朗之萬方程:
其中B(x, t) = C1/2(x)是純態協方差矩陣(pure state covariance matrix) C(x) 的矩陣平方根,其定義如下:
1/t 標度的引入是為了確保反向擴散在有限時間 t = 0 結束,這相當于時間變量的對數坐標變換。玻爾茲曼期望是相對于方程 (44) 中給出的多位點系綜在外場趨于零并與 x 對齊的極限下計算的。這樣做是為了從玻爾茲曼平均中隔離出適當的‘純態’,因為在自發對稱破缺后,只有分布的一個分支會影響粒子。事實上,在對稱破缺相變后,玻爾茲曼分布會分裂成兩個或更多模式,對應于破缺對稱的可能狀態(見 [28])。
9.3. 再探討雙δ模型
在 雙δ模型中,忽略常數項后,生成浴的哈密頓量為
其中。這實際上就是具有均勻耦合權重的全連接伊辛模型的哈密頓量。因此,在熱力學極限 (K→∞) 下,該模型歸約為我們此前討論過的平均場居里–韋斯模型。
在這種情況下,純態磁化由自洽方程的穩定解mt構成,該自洽方程為,當σ2 > 1 時,解恒等于零;在低溫區域中,則存在兩個分支,且不能用封閉形式表示。布朗生成動力學的瞬時方差由給出,其在高溫相中等于,而在低溫相中則為。需要注意的是,由于臨界相變的存在,當σ2 = 1時,方差會發散;同時當t→0時,由于系統完全對齊于其兩個可能的純態之一,方差則趨于零。
10. 聯想記憶與霍普菲爾德網絡
現在回到生成擴散的標準平均場形式,并討論它與聯想記憶網絡的關系。聯想記憶網絡是一種基于能量的學習系統,可以將模式(即記憶)存儲為一個參數化能量函數的亞穩態 [29–31]。關于聯想記憶網絡的熱力學性質已有大量文獻 [32–34]。最初的聯想記憶網絡,也稱為霍普菲爾德網絡,由能量函數定義,并對狀態向量的二值輸入施加約束。在霍普菲爾德網絡中,有限數量的訓練模式yj被編碼到權重矩陣中,通常當模式的數量與維度數量數量級相當時,能夠提供正確的極小值。聯想記憶網絡可以通過使用指數型能量函數達到更高的容量 [31,35,36]。例如,[37] 引入了以下函數:
該函數被證明能夠提供指數級的容量擴展,并且與大型語言模型使用的 Transformer 架構有關 [37]。通過方程 (58),可以看到該能量函數等價于在混合δ分布上訓練的擴散模型的正則化亥姆霍茲自由能[17]:
該自由能在零溫極限下提供與方程 (58) 相同的固定點結構。需要注意的是,盡管擴散模型的動力學在一般情況下不能當做優化器,但當Φ(y)是δ函數的和時,自由能恰好被優化,從而使得模型的動力學與β→∞時方程 (58) 的優化結果一致。基于這種聯系,本文中大部分結果可以重新表述為聯想記憶網絡。然而,生成擴散模型更為一般,因為它們可以針對任意的連續和奇異分布混合進行建模。正如我們在下一節中展示的,現代霍普菲爾德哈密頓量在研究有限樣本效應(如數據記憶化) [16] 中起著至關重要的作用。
11. 基于采樣數據集的擴散模型的
隨機能量熱力學
如前幾節所述,可以使用目標密度Φ(y)定義哈密頓量函數,并由此構造一個平衡熱力學系統,以刻畫相應生成擴散動力學的統計性質。從機器學習的角度來看,這對應于一個在無限大數據集上完美訓練的去噪網絡。因此,這種分析忽略了一些在有限數據集上訓練模型時出現的重要性質,特別是精確模型無法描述記憶(過擬合)現象,即模型無法泛化到訓練集之外的數據。
可以使用無序系統的統計物理來分析這一問題,其中淬火配分函數依賴于 N 個隨機采樣的訓練點:
其中yj~Φ(y)。在這里,核心思路是通過研究配分函數及其他熱力學量如何隨隨機采樣而波動,用于理解擴散模型的有限樣本性質。這類似于玻璃物理學,其中熱力學性質隨機依賴于材料的(無序)結構。通過定義,可以將這個淬火配分函數重寫為一個隨機能量模型:
其中能量水平Ej(x)的分布依賴于部場x。該模型的熱力學性質對于簡單能量分布情況是已知的,并且可以使用副本方法[28] 在更復雜的情況下進行研究。
記憶化作為“凝聚現象” (Memorization as ‘Condensation’)
擴散模型的隨機能量分析對研究記憶現象非常有用,在這種現象中,擴散軌跡會收斂到單個采樣數據點上,而不是擴展到基礎的目標分布中。在機器學習術語中,這種現象被稱為過擬合。顯然,一個在有限數據集上完美訓練的模型會在t→0時完全記憶數據,而沒有任何泛化。然而,這些過擬合的模型仍然可以在有限的 t 值下表現出泛化能力,這是由于噪聲水平可能太高導致無法區分單獨的訓練數據點。最近的研究發現,在熱力學極限下,泛化和記憶通過無序的對稱性破缺進行區分 [13,16]。這是一種所謂的凝聚現象,其中概率從分布在指數數量的配置上轉變為集中在一個隨機的小型(次指數級)集合上。在凝聚過程中,分數由相對較少的非零玻爾茲曼權重決定,這些權重最終引導動力學趨向于某個訓練數據點。
在我們的理論框架中,可以通過研究方程 (61) 中提供的隨機配分函數來找到這個“臨界時間”tcond,并在熱力學極限下進行分析。這可以通過評估“參與比率” (participation ratio)。
其中1/YN(x, t)提供了具有非零概率的構型數量的粗略計數。在隨機能量模型理論中,參與比率可以用于檢測凝聚相變,在這種情況下,當 \\beta_c\n"},"displayMode":"inline","viewType":"inline"}}">β> \\beta_c\n"},"displayMode":"inline","viewType":"inline"}}"> \\\\beta_c\\n\"},\"displayMode\":\"inline\",\"viewType\":\"inline\"}}"},"namespaceURI":"http://www.w3.org/1999/xhtml"}]" data-mpa-action-id="madng55g1nau">βc時,其值會以非解析方式恰好等于零。
考慮一個簡單的情況,從分布Φ(y)中采樣N = 2M 個數據點,該分布在一個具有半徑的d-維超球面上是均勻的,其中ν是調節數據標準差的參數。忽略無關常數的位移后,隨機能量變為
對于高維d,x · yj的分布近似為一個均值為零的高斯分布,方差為;由于Φ(y)是球對稱的,它不依賴于x的方向。因此,可以將其近似重寫為標準的隨機能量模型:
其中且。請注意,這種公式在熱力學極限下并不完全準確,因為它忽略了分布中的非高斯性殘余效應。在現代霍普菲爾德網絡的背景下,關于這一點的更嚴格分析可以在 [16] 中找到。對于標準的隨機能量模型,臨界凝聚溫度為(見 [28]),這導致臨界時間為
這個公式首次在 [16] 中的聯想記憶模型中出現。可以證明,在 M→∞的極限下,期望的參與比率為
\\beta_c\n\\end{cases} \\tag{66}\n"},"displayMode":"inline","viewType":"inline"}}">
這使我們能夠估計得分中具有非忽略權重的數據點數量為n(x)≈ 1 / Y(x, t)。需要注意的是,tc并不預測在單個數據點上的崩潰,因為那將需要Y(x, t) ≈1,這發生在更早的時間;然而,tc確定了分數函數?log p(x)發生臨界躍遷的時刻,該躍遷標志著記憶階段的開始。在這一階段,系統經歷進一步的對稱破缺相變,使得具有非零權重的數據點之間的對稱性被打破。這些相變的臨界行為類似于雙δ模型。
12. 訓練的擴散模型中相變的實驗證據
在生成擴散模型中是否存在一個或多個相變在理論上很難證明,尤其是對于復雜數據分布。然而,對稱性破缺可以通過訓練神經網絡的實驗結果進行推斷。例如[11] 中顯示訓練圖像的生成性能在逆向動態初始化并趨向臨界點之前基本保持不變,前提是系統使用一個高斯分布進行初始化,且均值向量和協方差矩陣選擇得當。這與我們的理論分析一致,因為在第一次相變之前,邊際分布只有一個全局模式,并且可以通過正態分布很好地逼近。[14] 中進一步通過實驗和理論研究了這種形式的對稱性破缺效應,發現在自然圖像上訓練的生成擴散模型經歷了一系列相變,對應于層次化的類別分離。這導致在擴散過程的早期階段出現低級視覺特征,而在后期階段則出現更高級的語義特征。 [13] 中的進一步研究提供了一系列臨界時間的解析公式,并在多個圖像數據集上驗證了實驗預測。具體而言,研究發現不同類別(例如狗和貓的圖像)中對應對稱破缺的時間點可以通過數據協方差矩陣的特征向量來預測。綜合來看,這些結果強烈表明在大多數現實數據分布下,生成擴散模型會經歷對稱破缺相變。
在集智俱樂部的AI+science讀書會上,美國亞利桑那州立大學復雜系統博士章彥博將擴散模型與演化類比,提出擴散模型也是演化算法!如果你感興趣,歡迎掃碼觀看
13. 結論
在本文中,我們提出了通過平衡態統計力學來表述生成擴散模型的方法。這使我們能夠研究這些生成模型在二階相變中的臨界行為,以及在有限數據集上模型的無序熱力學。我們的分析建立了生成模型與統計物理學之間的深刻聯系,這可能使物理學家能夠使用計算物理和理論物理的工具來研究這些機器學習模型。
參考文獻
Bond-Taylor, S.; Leach, A.; Long, Y.;Willcocks, C.G. Deep generative modelling: A comparative review of vaes, gans, normalizing flows, energy-based and autoregressive models. IEEE Trans. Pattern Anal. Mach. Intell. 2021, 44, 7327–7347.
Sohl-Dickstein, J.;Weiss, E.; Maheswaranathan, N.; Ganguli, S. Deep unsupervised learning using nonequilibrium thermodynamics. In Proceedings of the International Conference on Machine Learning, Lille, France, 6–11 July 2015.
Ho, J.; Jain, A.; Abbeel, P. Denoising diffusion probabilistic models. Adv. Neural Inf. Process. Syst. 2020, 33, 6840–6851.
Song, Y.; Sohl-Dickstein, J.; Kingma, D.P.; Kumar, A.; Ermon, S.; Poole, B. Score-Based Generative Modeling through Stochastic Differential Equations. In Proceedings of the International Conference on Learning Representations, Vienna, Austria, 4 May 2021.
Chen, N.; Zhang, Y.; Zen, H.; Weiss, R.J.; Norouzi, M.; Chan, W. WaveGrad: Estimating gradients for waveform generation. arXiv 2020, arXiv:2009.00713.
Kong, Z.; Ping, W.; Huang, J.; Zhao, K.; Catanzaro, B. Diffwave: A versatile diffusion model for audio synthesis. arXiv 2020, arXiv:2009.09761.
Liu, H.; Chen, Z.; Yuan, Y.; Mei, X.; Liu, X.; Mandic, D.; Wang, W.; Plumbley, M.D. Audioldm: Text-to-audio generation with latent diffusion models. arXiv 2023, arXiv:2301.12503.
Ho, J.; Salimans, T.; Gritsenko, A.; Chan,W.; Norouzi, M.; Fleet, D.J. Video diffusion models. arXiv 2022, arXiv:2204.03458.
Singer, U.; Polyak, A.; Hayes, T.; Yin, X.; An, J.; Zhang, S.; Hu, Q.; Yang, H.; Ashual, O.; Gafni, O.; et al. Make-a-video: Text-to-video generation without text-video data. arXiv 2022, arXiv:2209.14792.
Song, J.; Meng, C.; Ermon, S. Denoising diffusion implicit models. In Proceedings of the International Conference on Learning Representations, Vienna, Austria, 4 May 2021.
Raya, G.; Ambrogioni, L. Spontaneous symmetry breaking in generative diffusion models. Neural Inf. Process. Syst. 2023, 36, 66377–66389.
Biroli, G.; Mézard, M. Generative diffusion in very large dimensions. arXiv 2023, arXiv:2306.03518.
Biroli, G.; Bonnaire, T.; de Bortoli, V.; Mézard, M. Dynamical Regimes of Diffusion Models. arXiv 2024, arXiv:2402.18491.
Sclocchi, A.; Favero, A.; Wyart, M. A Phase Transition in Diffusion Models Reveals the Hierarchical Nature of Data. arXiv 2024, arXiv:2402.16991.
Li, M.; Chen, S. Critical windows: Non-asymptotic theory for feature emergence in diffusion models. arXiv 2024, arXiv:2403.01633.
Lucibello, C.; Mézard, M. Exponential Capacity of Dense Associative Memories. Phys. Rev. Lett. 2024, 132, 077301.
Ambrogioni, L. In search of dispersed memories: Generative diffusion models are associative memory networks. arXiv 2023, arXiv:2309.17290.
El A., A.; Montanari, A.; Sellke, M. Sampling from the Sherrington-Kirkpatrick Gibbs measure via algorithmic stochastic localization. In Proceedings of the 2022 IEEE 63rd Annual Symposium on Foundations of Computer Science (FOCS), Denver, CO, USA, 31 October–3 November 2022; IEEE: New York, NY, USA, 2022; pp. 323–334.
Huang, B.; Montanari, A.; Pham, H.T. Sampling from spherical spin glasses in total variation via algorithmic stochastic localization. arXiv 2024, arXiv:2404.15651.
Montanari, A. Sampling, diffusions, and stochastic localization. arXiv 2023, arXiv:2305.10690.
Benton, J.; De Bortoli, V.; Doucet, A.; Deligiannidis, G. Nearly d-linear convergence bounds for diffusion models via stochastic localization. In Proceedings of the Twelfth International Conference on Learning Representations, Vienna, Austria, 7–11 May 2024.
Alaoui, A.E.; Montanari, A.; Sellke, M. Sampling from Mean-Field Gibbs Measures via Diffusion Processes. arXiv 2023, arXiv:2310.08912.
Anderson, B.D. Reverse-time diffusion equation models. Stoch. Process. Their Appl. 1982, 12, 313–326.
Kochma′ nski, M.; Paszkiewicz, T.;Wolski, S. Curie–Weiss magnet—A simple model of phase transition. Eur. J. Phys. 2013, 34, 1555.
LeCun, Y.; Chopra, S.; Hadsell, R.; Ranzato, M.; Huang, F. A tutorial on energy-based learning. Predict. Struct. Data 2006, 1, 1–59.
Hoover, B.; Strobelt, H.; Krotov, D.; Hoffman, J.; Kira, Z.; Chau, H. Memory in Plain Sight: A Survey of the Uncanny Resemblances between Diffusion Models and Associative Memories. arXiv 2023, arXiv:2309.16750.
Friston, K. The free-energy principle: A unified brain theory? Nat. Rev. Neurosci. 2010, 11, 127–138.
Mézard, M.; Parisi, G.; Virasoro, M.A. Spin Glass Theory and Beyond: An Introduction to the Replica Method and Its Applications; World Scientific Publishing Company: Singapore, 1987; Volume 9.
Hopfield, J.J. Neural networks and physical systems with emergent collective computational abilities. Proc. Natl. Acad. Sci. USA 1982, 79, 2554–2558.
Abu-Mostafa, Y.; Jacques, J.S. Information capacity of the Hopfield model. IEEE Trans. Inf. Theory 1985, 31, 461–464.
Krotov, D. A new frontier for Hopfield networks. Nat. Rev. Phys. 2023, 5, 366–367.
Strandburg, K.J.; Peshkin, M.A.; Boyd, D.F.; Chambers, C.; O’Keefe, B. Phase transitions in dilute, locally connected neural networks. Phys. Rev. A 1992, 45, 6135.
Volk, D. On the phase transition of Hopfield networks—Another Monte Carlo study. Int. J. Mod. Phys. C 1998, 9, 693–700.
Marullo, C.; Agliari, E. Boltzmann machines as generalized Hopfield networks: A review of recent results and outlooks. Entropy 2020, 23, 34.
Krotov, D.; Hopfield, J.J. Dense associative memory for pattern recognition. In Proceedings of the 30th International Conference on Neural Information Processing Systems, Barcelona, Spain, 5–10 December 2016.
Demircigil, M.; Heusel, J.; L?we, M.; Upgang, S.; Vermet, F. On a model of associative memory with huge storage capacity. J. Stat. Phys. 2017, 168, 288–299.
Ramsauer, H.; Sch?fl, B.; Lehner, J.; Seidl, P.; Widrich, M.; Adler, T.; Gruber, L.; Holzleitner, M.; Pavlovi′c, M.; Sandve, G.K.; et al. Hopfield networks is all you need. In Proceedings of the International Conference on Learning Representations, Vienna, Austria, 4 May 2021.
(參考文獻可上下滑動查看)
非平衡統計物理讀書會啟動!
2024年諾貝爾物理學獎授予人工神經網絡,這是一場統計物理引發的機器學習革命。統計物理學不僅能解釋熱學現象,還能幫助我們理解從微觀粒子到宏觀宇宙的各個層級如何聯系起來,復雜現象如何涌現。它通過研究大量粒子的集體行為,成功地將微觀世界的隨機性與宏觀世界的確定性聯系起來,為我們理解自然界提供了強大的工具,也為機器學習和人工智能領域的發展提供了重要推動力。
為了深入探索統計物理前沿進展,集智俱樂部聯合西湖大學理學院及交叉科學中心講席教授湯雷翰、紐約州立大學石溪分校化學和物理學系教授汪勁、德累斯頓系統生物學中心博士后研究員梁師翎、香港浸會大學物理系助理教授唐乾元,以及多位國內外知名學者共同發起。讀書會旨在探討統計物理學的最新理論突破,統計物理在復雜系統和生命科學中的應用,以及與機器學習等前沿領域的交叉研究。讀書會從12月12日開始,每周四晚20:00-22:00進行,持續時間預計12周。我們誠摯邀請各位朋友參與討論交流,一起探索愛因斯坦眼中的普適理論!
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.