Paths and Ambient Spaces in Neural Loss Landscapes
神經網絡損失景觀中的路徑與環境空間
https://arxiv.org/pdf/2503.03382?
摘要
理解神經網絡損失曲面的結構,特別是低損失通道(low-loss tunnels)的出現,對于推進神經網絡的理論與實踐至關重要。
本文中,我們提出了一種新穎的方法,將損失通道直接嵌入神經網絡的損失景觀中。探索這些損失通道的性質為我們提供了關于其長度和結構的新見解,并澄清了一些常見的誤解。隨后,我們將該方法應用于貝葉斯神經網絡,在其中通過識別子空間推斷中的問題并提出一種更自然的先驗分布,改進了采樣過程的引導效果。
1 引言與相關工作
研究神經網絡高維損失景觀中低維連通的低損失結構(low-loss tunnels)是推動對神經網絡更好理解的重要研究方向。
該領域的大量文獻集中在優化后的網絡之間的連通性 上。這種性質被稱為“模式連通性”(mode connectivity),不僅為神經網絡假設空間的損失景觀提供了寶貴的見解,還可以用于:
指導優化過程(Ainsworth et al., 2023);
改進貝葉斯神經網絡中的子空間推斷方法(Izmailov et al., 2020; Dold et al., 2024);
防御對抗攻擊(Zhao et al., 2020);
提升模型平均效果(Wortsman et al., 2022);
指導模型微調(Lubana et al., 2023)。
因此,人們研究了多種形式的模式連通性。
其中最常被研究的現象是線性模式連通性 (linear mode connectivity)(Frankle et al., 2020; Entezari et al., 2022)。
其他連通性假設還包括:
- 分層線性連通性 (Adilova et al., 2024; Wortsman et al., 2022);
- 二次曲線連通性 (Lubana et al., 2023);
- 星形連接 (Sonthalia et al., 2024; Lin et al., 2024);
- 測地線模式連通性 (geodesic mode connectivity)(Tan et al., 2023);
- 參數化曲線 (parametrized curves)(Garipov et al., 2018);
- 流形結構 (manifolds)(Benton et al., 2021);
以及更一般的 最小能量路徑 (general minimum energy paths)(Draxler et al., 2018)。
尤其是后者指出:只要路徑構造得足夠靈活,模式之間就不存在所謂的“損失障礙”(loss barrier)。
目前的研究還表明:如果網絡具有共享的不變性(shared invariances),則模型之間會產生連通性;而缺乏(線性)連通性則意味著模型機制存在差異(參見 Lubana et al., 2023)。
除了描述訓練好的網絡特性外,也有一些研究嘗試通過考慮神經網絡的性質來改進并更好地理解模式連通性。
其中一種常見的方法是考慮參數空間的對稱性 (Tatro et al., 2020; Entezari et al., 2022; Zhao et al., 2023)。
此外,研究人員還發現網絡的初始化方式 和架構類型 也會影響損失山谷的形成方式(Benzing et al., 2022)。
子空間的直接優化
一個與模態連通性(mode connectivity)緊密相關且頗具前景的方法,是將某個拓撲空間嵌入到神經網絡的損失景觀(loss landscape)中,并對這個空間進行直接優化。與前述文獻不同的是,這種方法改變了網絡訓練的目標,即尋找網絡參數空間中的一個區域,在該區域內包含相關的模型假設(model hypotheses)。Fort 和 Jastrzebski(2019)使用了一個代表高維相交楔形結構的玩具模型(toy model),成功地將這兩個目標聯系起來,并再現了一些真實神經網絡損失景觀的特性。
Garipov 等人(2018)以及 Gotmare 等人(2018)則提出了另一種方法:在實際網絡的損失景觀中,直接優化兩個固定模態之間的路徑。
未來方向
雖然將更復雜的流形(manifold)嵌入損失景觀是先前方法的一種自然擴展,但這也會使其中的模型假設更難研究和理解。相比之下,損失隧道(loss tunnels)或路徑具有易于理解的良好性質,而且使用路徑并不會限制函數空間中生成假設的表現力(Draxler 等,2018)。盡管損失隧道比復雜的流形嵌入更簡單,但其理論特性以及訓練機制尚未被完全理解。
1.1. 我們的貢獻
本文通過以下幾方面的貢獻,拓寬了人們對損失路徑(loss paths)和損失隧道(loss tunnels)的理解:
我們提出了一種靈活的方法,可以直接將損失隧道嵌入到神經網絡的損失景觀中。我們的方法可以使用任意數量的控制點進行訓練,同時可以模塊化地應用于各種類型的神經網絡。相比之下,現有的方法在應用上更具侵入性,例如需要更改常見網絡層的標準實現方式。
我們提供了關于損失路徑和損失隧道本質的新見解,特別是它們的長度、優化過程、優勢以及其他重要性質。
借助這些見解及其具體實現,我們展示了如何推進貝葉斯神經網絡中的子空間推理(subspace inference),這是一個能從損失隧道中顯著受益的應用方向。為此,我們還提出了一種匹配且更直觀的先驗分布(prior),使得采樣過程能夠得到更好的引導。
2 損失路徑與損失隧道
2.1 符號與目標
在本研究中,我們考慮神經網絡 fθ:X→Y,它將特征 x∈X?Rp 映射到輸出空間 Y?Rm。該網絡由權重參數 θ∈Θ?RD 所參數化,其中 D 通常非常大,并且網絡是通過最小化某個損失函數來進行訓練的。在本文中,我們通常將損失函數視為參數上的連續函數:?:Θ→L?R。
目標 我們的目標是在高維的損失曲面 Θ 中構建一個低維、連通的低損失結構 Φ?RK,其中通常有 K?D。正如第1節所討論的,本文將重點研究路徑(paths)和損失隧道(tunnels)。為了對這些結構進行形式化定義,我們給出以下定義。
2.2 Path Optimization
2.2 路徑優化
在優化式(1)時,實際上對應于對曲線進行優化,使其具有恒定的“速度” ∥bΛ′(t)∥ 。而另一種更不受限制的方法則是在空間 Θ 中均勻地對其期望進行優化(Garipov 等,2018)。
重要性采樣:盡管先前的方法(Garipov 等,2018;Izmailov 等,2020;Dold 等,2024)主要關注通過如式(1)中對 t 取期望的方式來實現路徑優化,但要更深入理解損失路徑的本質,也需要研究與式(2)優化之間的差異。為此,我們開發了一種重要性采樣(importance sampling)方法,使得可以對式(2)進行優化。詳細內容將在下一節中給出。后續的實驗結果表明,兩種目標函數(即式(1)和式(2))的優化結果之間幾乎沒有差別。因此,在接下來的內容中,我們將專注于優化式(1)所表示的目標函數。
2.3 實際實現
在實際應用中,我們建議以一種適用于任何網絡架構的方式實現參數化曲線,從而實現損失路徑。
路徑參數化 一種靈活且近期被推廣的方法是使用貝塞爾曲線(Bézier curve)(例如,參見 Garipov 等,2018),我們將其定義如下:
2.4 路徑特性與動力學
對于簡單問題和精確的優化過程,最優解應是一條長度 S=0 的退化曲線(collapsed curve),位于損失函數地形(loss landscape)的全局最小值處。然而,由于損失地形的復雜性以及隨機優化過程的存在,我們不能期望損失函數 ?(b(t)) 沿著路徑保持恒定。
在使用 SGD 對權重 θ 上的簡單損失函數 ?(θ) 進行優化時,最近的研究表明(Azizian 等,2024),訪問某個具有局部最小損失的區域 i 的長期概率 pi 遵從玻爾茲曼分布:
其中能量項 Ei 與損失 ?(θi) 相關,溫度 T 與 SGD 的學習率相關。玻爾茲曼統計描述的是這樣一個系統:能量項(損失最小化)與熵貢獻(由噪聲帶來的探索)之間達到平衡,從而形成一個平穩分布。
盡管算法 1 的動態行為相比于標準深度學習優化更為復雜,但我們仍然預期路徑尋找過程會帶來兩種相互競爭的效應:一種是能量項,尋求公式(1)中損失泛函 L(Λ) 的最小值;另一種是熵項,傾向于選擇典型構型,而排斥非典型的構型,例如完全筆直、拉長或退化的路徑。
能量最小化與熵最大化之間的這種平衡防止了路徑退化為單一的點,并鼓勵路徑在多個低損失配置之間進行多樣化的探索。
簡化的熵模型
為了研究熵貢獻的影響,我們考慮這樣一種情況:路徑位于一個無限大的、損失恒定的區域中,因此 ?(?) 的梯度為零。乍一看,這似乎是一個過于強烈的假設。然而,在長時間極限下且訓練過程中沒有人為干預的情況下,如果損失地形由被低損失區域包圍的極小值構成,那么這一假設是合理的。
2.5 隧道嵌入與描述
在找到一條低損失路徑之后,我們現在將其擴展為一個隧道 (tunnel),如定義 2 所述。這樣做具有多種優勢,包括可以更好地進行不確定性量化(詳見第 3 節)。
體積提升(Volume Lifting)
原則上,有多種方式可以將路徑提升到更高維空間中。例如,Izmailov 等人(2020)和 Dold 等人(2024)假設曲線所經過的每一個方向都揭示了有價值的信息。這些方向由子空間 Φ=span(Λ) 編碼。通過這種方式定義 Φ,我們舍棄了路徑 b 的具體信息,而是專注于包含 b 的超平面。為了進行推理或研究模型假設,我們不再沿著路徑 T 移動,而是定義一個投影矩陣 ,它將 Φ 映射到參數空間 Θ:即對于該超平面上的任意一點 φ∈Φ(不依賴于路徑 T),將其映射回一個神經網絡權重 θ∈Θ。
隧道提升(Tunnel Lifting)
我們建議使用隧道提升 而非體積提升,因為在 span(Λ) 所張成的空間中,只有很小一部分區域具有較低的損失值。相反地,我們根據定義 2 構造一個隧道,使得在將其提升到高維空間時保留原始路徑的時間信息。
2.6 隧道對稱性
從正交方向張成一個隧道的想法,也從置換不變性 (permutation invariance)的角度來看是可取的。更具體地說,我們可以避免置換對稱性 (permutation symmetries),這種對稱性已知會在神經網絡損失地形中大幅增加低損失區域的數量,并阻礙模態連通性(mode connectivity)(Pittorino 等人,2022)。雖然控制點本身在概率上幾乎必然(P-almost surely)沒有置換對稱性,但路徑仍可能包含置換變換,從而導致模型函數多樣性 fθ的降低。
換句話說,如果優化后的路徑 b 沒有置換對稱性,那么所構建的隧道在其鄰域內也不會包含任何置換對稱性。形式化的陳述和證明見附錄 B。
為了確保 Λ 中的模型在每一層都不存在置換對稱性,一種方法是在每一層中對偏置(biases)進行排序(Pourzanjani 等人,2017)。在我們的實驗中,我們觀察到即使沒有這種顯式的約束,路徑上的函數多樣性通常也能得到保證,并且路徑優化 b 也不容易陷入置換不變性的問題(參見附錄 D.5)。我們在進一步實驗中發現,無論是否對偏置進行排序,子空間方法的表現幾乎完全相同,這表明路徑本身(無需顯式調整)已經由無置換對稱性的解構成(參見附錄 D.5)。
3 推進子空間推理
在按照算法 1 對路徑 b 進行優化之后,從該曲線中采樣得到的模型很可能會表現出良好的性能,因為這些模型定義了 K+1 個已優化模型 θk 的線性組合。相比之下,所構建的隧道 還允許我們向曲線的正交方向移動,從而更好地探索 θk 中的變異性。
子空間推理(Subspace Inference)
最早將子空間構造與不確定性量化思想結合起來的是 Izmailov 等人(2020)。他們在 Garipov 等人(2018)工作的基礎上,提出使用一條參數化曲線上的三個模型來張成一個平面(即進行體積提升),并在該子空間中運行基于 MCMC 的推理方法。受這一思路的啟發,我們研究了此前提出的隧道 在引導 MCMC 采樣器穿越損失地形中的作用,并探討了如何選擇有意義的先驗分布。
隧道先驗(Tunnel Priors)
在貝葉斯深度學習中,最常見的先驗假設是各向同性的標準正態分布先驗。雖然 Izmailov 等人(2020)認為,只要先驗“足夠擴散”(sufficiently diffuse),其具體形式對性能影響不大,但在前述的隧道結構 中這一觀點并不成立。
更具體地說,盡管在子空間 Φ 上使用 可能在一個非結構化的子空間中產生合理的結果,但如果該子空間是按照前面所述的隧道方式構造的,那么這種先驗忽略了 Φ 中嵌入的結構信息。理想情況下,我們希望在隧道中心路徑附近的區域具有較高的先驗概率,并且隨著遠離中心路徑,概率密度逐漸降低(見圖 4)
4 數值實驗
我們現在通過實證方法研究損失路徑和隧道,并驗證之前的理論發現。為了研究其基本性質,我們生成了合成數據以確保一個可控的實驗環境。性能結果則是在常見的基準數據集上獲得的。更多實驗結果和細節請參見附錄 D 和 E。
4.1 損失地形中的標度行為(Scaling Behavior)
接下來,我們研究在路徑的復雜動力學過程中(參見第 2.4 節),是否存在某些階段保持擴散過程的純熵特性,或者能量項是否會占據主導地位。為此,我們使用之前模型假設所暗示的標度律作為診斷工具。
實驗結果:
4.2 體積提升 vs. 隧道提升采樣
為了研究我們方法的影響,我們在模擬數據上進行了隧道提升(并采用隧道先驗)(參見附錄 D.1.1),并評估了采樣過程在測試數據上的表現以及所獲得樣本的質量。我們將該方法與傳統的體積提升 方法進行比較,使用的評價指標包括:對數后驗預測密度(LPPD)、均方根誤差(RMSE)、平均有效樣本量(ESS)以及平均 Gelman-Rubin 指標。
實驗結果:圖 6 展示了兩種提升方法之間的性能對比。雖然在預測性能方面兩個空間之間差異不大,但我們觀察到在子空間維度增大時,隧道方法在性能上有明顯的提升趨勢,尤其是在 LPPD 指標上,在 RMSE 上的提升則相對較小。
隨著 K 的增加,獲得泛化能力更強模型的可能性也隨之提高,因為多次重復實驗中最差的表現也在改善。此外,隧道方法在平均 ESS 和 R^ 值方面表現出明顯更優的結果,而在使用體積提升方法時,有效樣本數量出現了明顯下降。
這支持了我們的假設:即我們提出的隧道構造改善了問題的條件(conditioning),使其更適合采樣和推理。
4.3 隧道平滑性
接下來,我們研究隧道在不同維度以及不同激活函數下的演變情況。
后者(激活函數)被發現對子空間的平滑性有顯著影響,可能進而影響采樣的效率。
為此,我們在游艇數據集(yacht dataset)上可視化了所構建隧道的前四個維度,并疊加顯示了未歸一化的對數后驗值。
實驗結果(見圖 7)表明,相比于使用 ELU 激活函數的網絡,ReLU 網絡所對應的隧道更加粗糙(coarser),這很可能是由于 ReLU 函數不具備連續可導性的緣故。
相比之下,ELU 激活函數展現出更平滑的過渡特性,盡管圖 7 中觀察到的多模態結構仍可能妨礙采樣效率。
4.4 回歸基準實驗
為了分析基于采樣的隧道推理方法的性能,我們擴展了 Sommer 等人(2024)中的基準設置:在一個同方差回歸(homoscedastic regression)任務中,使用具有三層隱藏層、每層 16 個神經元、ReLU 激活函數的貝葉斯神經網絡,并基于 MCMC 方法對 UCI 基準數據集 airfoil、bikesharing、concrete、energy 和 yacht 進行評估。
我們將基于 NUTS 的 MCMC 方法作為“金標準”,并將其與 Izmailov 等人(2020)提出的模態連通性方法(ModeCon),以及我們提出的隧道方法(Tunnel-K)進行比較。此外,我們還使用了拉普拉斯近似(LA;Daxberger 等人,2021)和非貝葉斯深度集成(DE;Lakshminarayanan 等人,2017)作為基線方法。為了估計性能指標的標準差,我們采用了五種不同的數據劃分方式。
實驗結果:
根據表 1 中的結果,我們的方法在對數后驗預測密度(LPPD)方面始終優于 DE 和 LA。此外,除了在 yacht 數據集上之外,我們的方法在 LPPD 上也優于 ModeCon。更重要的是,在大多數情況下,隨著我們隧道維度 K 的增加,性能得到了進一步提升。這表明損失曲面存在額外的復雜性,只有通過更高維的子空間才能捕捉到。在均方根誤差(RMSE)方面也呈現出類似的趨勢:我們方法的表現優于 LA、DE 和 ModeCon,盡管優勢幅度相對較小。
4.5 MNIST 實驗
為了證明我們的方法也適用于其他網絡結構,我們在 MNIST 數據集上使用基于隧道先驗的方法進行實驗,以研究更復雜的模型結構是否能從“更大”的隧道中受益。
我們考察了子空間維度 K∈{2,5,10,20},并報告了除標準測試集準確率(ACC)之外的對數后驗預測密度(LPPD)值。通過改變如第 2.2 節所討論的路徑優化方式,我們也比較了優化公式(1)與公式(2)之間的差異。作為基線方法,我們使用了拉普拉斯近似(LA)。
實驗結果:圖 8 展示了實驗結果,可以看出隨著子空間維度的增加,LPPD 值也隨之提高。然而,維度的增加并不一定有助于提升預測準確率(ACC),因為當隧道擴展遠離表現良好的集成成員路徑時,性能可能下降,這一點已被實驗結果證實。此外,用于近似損失路徑積分的不同采樣過程(用不同顏色表示)之間幾乎沒有明顯差異。與 LA 基線相比,子空間推理在 LPPD 指標上表現出顯著更優的性能,但在準確率方面并未超越 LA。進一步分析表明,在優化 LPPD 和準確率之間存在一種權衡關系,例如可以通過溫度參數進行調節(參見附錄 E.3)。這一現象再次突顯了隧道的一個自然屬性:它能夠捕捉參數空間中路徑周圍的不確定性,但也因此偏離了高性能模型所組成的路徑。
5 結論
在本工作中,我們對神經網絡損失地形中的損失路徑 (loss paths)和損失隧道 (loss tunnels)進行了形式化定義與分析。通過結合多種理論與實證視角,我們為這些損失地形提供了新的見解,并討論了在采用此類方法時相關的各種性質。實驗結果表明,基于采樣的推理方法可以從路徑與隧道的構建中受益,從而提升性能。
局限性與未來工作:
我們的研究主要集中在沿著一條預先定義并優化的路徑所構建的損失隧道上。一個潛在的有趣研究方向是將隧道直接嵌入到神經網絡的損失地形中,例如通過先驗地定義隧道的性質,這將允許對這類隧道進行直接優化,是一個值得探索的未來方向。
原文鏈接: https://arxiv.org/pdf/2503.03382?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.