網易首頁 > 網易號 > 正文申請入駐

神經熱力學定律：大模型訓練學習率調配與熱力學定律的深層聯系

2025-06-05 22:32:36　來源: 集智俱樂部

北京舉報

分享至

摘要

除了神經標度律之外，人們對大語言模型（LLMs）背后的定律知之甚少。我們介紹了神經熱力學定律(NTL)——一個新的框架，為LLM訓練動力學提供了新的見解。在理論方面，我們證明了關鍵的熱力學量（如溫度、熵、熱容、熱傳導）和經典的熱力學原理（如熱力學三大定律和均分定理）在河流-山谷損失景觀（river-valley loss landscape）假設下自然涌現。在實踐方面，這種科學的觀點為設計學習率提供了直觀的指導方針。

關鍵詞：大語言模型（LLM）訓練、熱力學定律、河流-山谷損失景觀（river-valley loss landscape）、學習率調度（learning rate schedule）、熵力（entropic force）

彭晨| 作者

讀書會推薦

「」讀書會主要聚焦于人類理解AI的視角追問：自下而上：Transformer circuit 為什么有效？自上而下：神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚？復雜科學：滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力？系統工程：如何擁抱不確定性，在具體的業界實踐中創造價值？

論文題目：Neural thermodynamic laws for large language model training 論文鏈接：https://arxiv.org/abs/2505.10559 發表時間：2025年5月15日

近年來，大語言模型的訓練動態與熱力學系統間的相似性引發關注：兩者均涉及海量自由度與隨機性。然而，LLM的損失函數景觀（loss landscape）因其“河流-山谷結構”（river-valley structure）的復雜性——平坦緩慢變化的河流方向（slow direction）與陡峭快速變化的山谷方向（fast direction）共存——成為理解訓練動力學的難點。Max Tegmark團隊最新提出了神經熱力學定律（Neural Thermodynamic Laws, NTL），首次將熱力學核心概念（如溫度、熵、熱傳導）與LLM訓練動態建立嚴格對應，并推導出可驗證的學習率調配優化準則。

河流-山谷景觀：快慢動力學的分離

傳統熱力學系統與神經網絡訓練存在深刻相似性：兩者均涉及大量自由度（參數或分子）的隨機動態。在LLM的“河流-山谷”景觀中，快動力學（Fast Dynamics）對應陡峭山谷方向的快速震蕩，而慢動力學（Slow Dynamics）則對應沿平坦河流方向的緩慢演化。論文通過一個可解析求解的二維玩具模型（Toy Model），其損失函數設為，將總損失分解為“快損失”（）與“慢損失”（）。其中，是快變量（類似分子熱運動），是慢變量（類似宏觀體積變化）。這種分解直接呼應熱力學第一定律（）：慢損失對應“做功”（Work），快損失對應“傳熱”（Heat）。

圖1. LLM訓練動力學和熱力學之間的聯系。

穩定階段：熱平衡與能量均分定理

當學習率（）固定時，快變量在梯度噪聲（）驅動下達到穩態分布。無論是隨機梯度下降（SGD）還是符號梯度下降（SignGD），穩態分布均呈高斯形式，其方差與學習率、梯度噪聲及山谷陡峭度（）相關。研究發現，快損失的平均值僅與和成正比，而與山谷陡峭度無關。這一現象完美對應熱力學的能量均分定理（Equipartition Theorem）：系統中每個自由度均分能量，與具體物理參數無關。例如，無論彈簧剛度如何，每個振動自由度的平均動能均為。在LLM中，學習率被映射為"溫度"，而熱容（Heat Capacity）則對應對的導數。

衰減階段：退火與傅里葉導熱定律

當學習率進入衰減階段（如WSD調度中的Decay Phase），系統動態類似熱力學中的退火（Annealing）。論文推導了最優學習率衰減公式：，其中為特征時間尺度。這一結果挑戰了傳統連續衰減策略（如線性或余弦衰減）的直覺，表明最優調度在初始時刻存在不連續性（即）。進一步實驗顯示，若學習率衰減過快，系統會偏離熱平衡，導致最終損失上升。

此外，學習率在衰減中扮演雙重角色：既是控制噪聲的“溫度”，又是控制時間步長的"尺度"。當學習率從突降至（類似熱力學中一個溫度為的熱物體接觸溫度為的冷物體），快損失的演化遵循類似傅里葉導熱定律（Fourier's Law）的指數收斂過程，驗證了熱力學第二定律（熵增不可逆）在優化中的普適性。

圖 2. (a) LLM預訓練通常使用WSD （warm - up-stable-decay）學習率調配。

為最終學習率。(b)當較大時，驗證損失是的線性函數。(c) 很小時，是的線性函數。

河流動力學：熵力與第三定律

慢動力學并非孤立演化，而是受到快動力學產生的熵力（Entropic Force）影響。在玩具模型中，熵力源于快變量穩態分布對慢變量梯度的平均作用，其方向傾向于降低山谷陡峭度（即）。若損失函數底部（）的梯度與熵力方向相反，可能引發熵捕獲（Entropic Trapping）——優化器被"困"在局部平坦區域，無法繼續下降。

熵力的引入為熱力學第三定律（絕對零度不可達）提供了新解讀：當學習率趨近于零時，系統趨于有序（低熵），但實際訓練中需平衡噪聲與收斂速度。論文通過GPT-2實驗驗證，不同學習率調度在“學習率累積和”（Learning Rate Sum）對齊時，最終損失差異微小，表明當前LLM訓練中熵力效應較弱，但未來更大規模訓練可能凸顯其限制。

圖 3. 檢驗LLM中熵力的存在性。

實踐意義：學習率調配的“三體問題”

研究指出，學習率在訓練中扮演三重角色：

溫度：控制參數分布的波動幅度；
熵力強度：通過方差影響慢速方向的演化路徑；
時間尺度：決定參數更新的步長。

基于此，團隊提出針對WSD（warmup-stable-decay）調配策略的優化準則：在穩定階段，選擇盡可能大的以加速河流方向收斂；在衰減階段，按1/t規律緩慢降溫，避免非平衡態導致的次優解。實驗顯示，采用該策略的GPT-2模型在驗證損失上較傳統方法降低3.2%，且訓練穩定性顯著提升。

未來展望：熱力學框架的擴展性

盡管當前理論基于簡化假設（如直線河流、均勻陡峭度），但其揭示了優化與熱力學的本質關聯。研究團隊計劃進一步探索動量項、權重衰減的物理對應，并將框架擴展至擴散模型等復雜架構。熱力學為理解深度學習提供了新的‘第一性原理’，未來或可統一解釋隱式正則化、模式連接等現象。

本論文的第一作者劉子鳴是集智社區科學家，他的研究興趣在AI和物理的交叉：一方面AI for Physics，利用AI工具自動化物理規律和概念的發現；另一方面Physics for AI，利用物理啟發構建AI理論和更具可解釋性的模型。在集智分享過：科學啟發的機器學習理論。掃碼查看視頻

大模型可解釋性讀書會讀書會

集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境，嘗試從以下四個視角梳理大語言模型可解釋性的科學方法論：

自下而上：Transformer circuit 為什么有效？

自上而下：神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚？

復雜科學：滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力？

系統工程：如何擁抱不確定性，在具體的業界實踐中創造價值？

五位發起人老師會帶領大家研讀領域前沿論文，現誠邀對此話題感興趣的朋友，一起共創、共建、共享「大模型可解釋性」主題社區，通過互相的交流與碰撞，促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者，探索復雜系統與智能本質的交叉學科探索者，還是追求模型安全可信的工程實踐者，誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。

讀書會計劃于2025年6月19日啟動，每周四晚19:30-21:30，預計持續分享10周左右。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.