摘要
除了神經標度律之外,人們對大語言模型(LLMs)背后的定律知之甚少。我們介紹了神經熱力學定律(NTL)——一個新的框架,為LLM訓練動力學提供了新的見解。在理論方面,我們證明了關鍵的熱力學量(如溫度、熵、熱容、熱傳導)和經典的熱力學原理(如熱力學三大定律和均分定理)在河流-山谷損失景觀(river-valley loss landscape)假設下自然涌現。在實踐方面,這種科學的觀點為設計學習率提供了直觀的指導方針。
關鍵詞:大語言模型(LLM)訓練、熱力學定律、河流-山谷損失景觀(river-valley loss landscape)、學習率調度(learning rate schedule)、熵力(entropic force)
彭晨| 作者
讀書會推薦
「」讀書會主要聚焦于人類理解AI的視角追問:自下而上:Transformer circuit 為什么有效?自上而下:神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚?復雜科學:滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力?系統工程:如何擁抱不確定性,在具體的業界實踐中創造價值?
論文題目:Neural thermodynamic laws for large language model training 論文鏈接:https://arxiv.org/abs/2505.10559 發表時間:2025年5月15日
近年來,大語言模型的訓練動態與熱力學系統間的相似性引發關注:兩者均涉及海量自由度與隨機性。然而,LLM的損失函數景觀(loss landscape)因其“河流-山谷結構”(river-valley structure)的復雜性——平坦緩慢變化的河流方向(slow direction)與陡峭快速變化的山谷方向(fast direction)共存——成為理解訓練動力學的難點。Max Tegmark團隊最新提出了神經熱力學定律(Neural Thermodynamic Laws, NTL),首次將熱力學核心概念(如溫度、熵、熱傳導)與LLM訓練動態建立嚴格對應,并推導出可驗證的學習率調配優化準則。
河流-山谷景觀:快慢動力學的分離
傳統熱力學系統與神經網絡訓練存在深刻相似性:兩者均涉及大量自由度(參數或分子)的隨機動態。在LLM的“河流-山谷”景觀中,快動力學(Fast Dynamics)對應陡峭山谷方向的快速震蕩,而慢動力學(Slow Dynamics)則對應沿平坦河流方向的緩慢演化。論文通過一個可解析求解的二維玩具模型(Toy Model),其損失函數設為 ,將總損失分解為“快損失”( )與“慢損失”( )。其中, 是快變量(類似分子熱運動), 是慢變量(類似宏觀體積變化)。這種分解直接呼應熱力學第一定律( ):慢損失對應“做功”(Work),快損失對應“傳熱”(Heat)。
圖1. LLM訓練動力學和熱力學之間的聯系。
穩定階段:熱平衡與能量均分定理
當學習率( )固定時,快變量在梯度噪聲( )驅動下達到穩態分布。無論是隨機梯度下降(SGD)還是符號梯度下降(SignGD),穩態分布均呈高斯形式,其方差 與學習率、梯度噪聲及山谷陡峭度( )相關。研究發現,快損失的平均值 僅與 和 成正比,而與山谷陡峭度無關。這一現象完美對應熱力學的能量均分定理(Equipartition Theorem):系統中每個自由度均分能量,與具體物理參數無關。例如,無論彈簧剛度如何,每個振動自由度的平均動能均為 。在LLM中,學習率 被映射為"溫度",而熱容(Heat Capacity)則對應 對 的導數。
衰減階段:退火與傅里葉導熱定律
當學習率進入衰減階段(如WSD調度中的Decay Phase),系統動態類似熱力學中的退火(Annealing)。論文推導了最優學習率衰減公式: ,其中 為特征時間尺度。這一結果挑戰了傳統連續衰減策略(如線性或余弦衰減)的直覺,表明最優調度在初始時刻存在不連續性(即 )。進一步實驗顯示,若學習率衰減過快,系統會偏離熱平衡,導致最終損失上升。
此外,學習率在衰減中扮演雙重角色:既是控制噪聲的“溫度”,又是控制時間步長的"尺度"。當學習率從 突降至 (類似熱力學中一個溫度為 的熱物體接觸溫度為 的冷物體),快損失的演化遵循類似傅里葉導熱定律(Fourier's Law)的指數收斂過程,驗證了熱力學第二定律(熵增不可逆)在優化中的普適性。
圖 2. (a) LLM預訓練通常使用WSD (warm - up-stable-decay)學習率調配。
為最終學習率。(b)當 較大時,驗證損失是 的線性函數。(c) 很小時, 是 的線性函數。
河流動力學:熵力與第三定律
慢動力學并非孤立演化,而是受到快動力學產生的熵力(Entropic Force)影響。在玩具模型中,熵力源于快變量穩態分布對慢變量梯度的平均作用,其方向傾向于降低山谷陡峭度(即 )。若損失函數底部( )的梯度與熵力方向相反,可能引發熵捕獲(Entropic Trapping)——優化器被"困"在局部平坦區域,無法繼續下降。
熵力的引入為熱力學第三定律(絕對零度不可達)提供了新解讀:當學習率趨近于零時,系統趨于有序(低熵),但實際訓練中需平衡噪聲與收斂速度。論文通過GPT-2實驗驗證,不同學習率調度在“學習率累積和”(Learning Rate Sum)對齊時,最終損失差異微小,表明當前LLM訓練中熵力效應較弱,但未來更大規模訓練可能凸顯其限制。
圖 3. 檢驗LLM中熵力的存在性。
實踐意義:學習率調配的“三體問題”
研究指出,學習率 在訓練中扮演三重角色:
溫度:控制參數分布的波動幅度;
熵力強度:通過方差影響慢速方向的演化路徑;
時間尺度:決定參數更新的步長。
基于此,團隊提出針對WSD(warmup-stable-decay)調配策略的優化準則:在穩定階段,選擇盡可能大的 以加速河流方向收斂;在衰減階段,按1/t規律緩慢降溫,避免非平衡態導致的次優解。實驗顯示,采用該策略的GPT-2模型在驗證損失上較傳統方法降低3.2%,且訓練穩定性顯著提升。
未來展望:熱力學框架的擴展性
盡管當前理論基于簡化假設(如直線河流、均勻陡峭度),但其揭示了優化與熱力學的本質關聯。研究團隊計劃進一步探索動量項、權重衰減的物理對應,并將框架擴展至擴散模型等復雜架構。熱力學為理解深度學習提供了新的‘第一性原理’,未來或可統一解釋隱式正則化、模式連接等現象。
本論文的第一作者劉子鳴是集智社區科學家,他的研究興趣在AI和物理的交叉:一方面AI for Physics,利用AI工具自動化物理規律和概念的發現;另一方面Physics for AI,利用物理啟發構建AI理論和更具可解釋性的模型。在集智分享過:科學啟發的機器學習理論。掃碼查看視頻
大模型可解釋性讀書會讀書會
集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境,嘗試從以下四個視角梳理大語言模型可解釋性的科學方法論:
自下而上:Transformer circuit 為什么有效?
自上而下:神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚?
復雜科學:滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力?
系統工程:如何擁抱不確定性,在具體的業界實踐中創造價值?
五位發起人老師會帶領大家研讀領域前沿論文,現誠邀對此話題感興趣的朋友,一起共創、共建、共享「大模型可解釋性」主題社區,通過互相的交流與碰撞,促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復雜系統與智能本質的交叉學科探索者,還是追求模型安全可信的工程實踐者,誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。
讀書會計劃于2025年6月19日啟動,每周四晚19:30-21:30,預計持續分享10周左右。
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.