摘要
當兩個 AI 模型在同一科學任務上訓練時,它們學到的是相同的理論,還是兩種不同的理論?縱觀科學史,我們見證了理論在實驗驗證或證偽驅(qū)動下的興衰:在實驗數(shù)據(jù)匱乏時,可能會并存多種理論,但隨著更多實驗數(shù)據(jù)的出現(xiàn),可存續(xù)的理論空間將愈發(fā)受限。近日,集智社區(qū)科學家,來自MIT Max Tegmark團隊的劉子鳴等研究者發(fā)現(xiàn),同樣的故事也發(fā)生在 AI 科學家身上:隨著訓練數(shù)據(jù)中系統(tǒng)數(shù)量的不斷增加,AI 科學家所學理論趨于收斂,盡管有時它們會形成對應不同理論的不同群體。為了機械化地揭示 AI 科學家所學理論并量化它們的一致性,我們提出了 MASS——作為 AI 科學家的哈密頓-拉格朗日(Hamiltonian-Lagrangian)神經(jīng)網(wǎng)絡,在物理學的標準問題上進行訓練,并匯總多個隨機種子下的訓練結果,以模擬不同配置的 AI 科學家。我們的主要發(fā)現(xiàn)包括:當在經(jīng)典力學教科書問題上訓練時,AI 科學家偏好完整的哈密頓(Hamiltonian)或拉格朗日(Lagrangian)描述;當擴展到非標準物理問題時,拉格朗日描述具有良好的泛化性,這表明拉格朗日動力學在豐富的理論空間中仍然是唯一準確的描述。我們還觀察到訓練動態(tài)和最終學習權重對隨機種子高度依賴,正是這種“種子依賴”控制了相關理論的興衰。除了可解釋性之外,MASS 還統(tǒng)一并超越了拉格朗日神經(jīng)網(wǎng)絡和哈密頓神經(jīng)網(wǎng)絡,為動力系統(tǒng)學習提供了全新的工具。
關鍵詞:AI科學家(MASS);理論收斂(Theory Convergence);哈密頓描述(Hamiltonian);拉格朗日描述(Lagrangian);可解釋性(Interpretability);多物理系統(tǒng)訓練(Multi-physics Training)
彭晨丨作者
論文題目:Do Two AI Scientists Agree? 論文鏈接:https://arxiv.org/abs/2504.02822 發(fā)表時間:2025年4月3日
探究AI科學家的理論演化
自人類歷史以來,從阿基米德的浮力原理到牛頓的經(jīng)典力學,再到愛因斯坦的相對論,科學家們不斷在實驗數(shù)據(jù)的推動下修正與完善理論框架。如今,隨著深度學習與大語言模型(LLMs)的崛起,計算機不僅能輔助分析,還逐漸具備從原始數(shù)據(jù)中發(fā)現(xiàn)物理規(guī)律的能力。論文由此提出一個核心問題:當不同的AI模型(“AI科學家”)在同一科學任務上獨立訓練時,它們究竟會收斂到同一套理論,還是各自演化出不同的“學說”?研究者選取經(jīng)典與合成的一維物理系統(tǒng),構建可同時學習哈密頓與拉格朗日理論的MASS框架,開展一系列受控實驗,力圖揭示AI科學家在理論空間中的“生存與競爭”法則。
圖1. 人工智能科學家的進化。不同的人工智能科學家從同一物理系統(tǒng)的數(shù)據(jù)中學習,即使是在簡單的鐘擺實驗中,也會得出不同的結果。不能支撐當前實驗數(shù)據(jù)的理論被標記為錯誤的。幸存的人工智能科學家面臨著更復雜的系統(tǒng),比如雙擺。人工智能科學家修改他們的理論來模擬新的數(shù)據(jù)。最終,剩下的人工智能科學家會學到什么?
MASS:架構設計與核心理念
過去的工作多聚焦符號回歸或遺傳編程(symbolic regression, genetic programming)方法,以較強先驗假設束縛搜索空間,或直接在模型架構中硬編碼哈密頓(Hamiltonian Neural Network)或拉格朗日(Lagrangian Neural Network)動力學方程。與之不同,MASS在最小物理先驗下解放理論表達自由度,通過學習一階與二階導數(shù)及其組合項,讓網(wǎng)絡自主篩選出最有效的理論成分。此種策略不僅能揭示多個等價理論的共存態(tài),也為探索未知系統(tǒng)提供了更寬廣的理論空間。
MASS的核心在于首先將多個物理系統(tǒng)(如簡諧振子、單擺、開普勒問題等)的軌跡數(shù)據(jù)同時輸入網(wǎng)絡,通過共享的自動微分層計算出對坐標與速度的各階導數(shù),形成數(shù)百種“原子級”候選函數(shù)項(如 等)。然后,MASS 在多階段增量訓練中依次加入不同系統(tǒng)的數(shù)據(jù),通過線性讀出層為每個候選項學習權重,并借助稀疏正則化剔除大部分無關項,只保留那些能在所有系統(tǒng)上同時解釋觀測的關鍵成分。這樣,隨著新系統(tǒng)的不斷加入,僅有最通用、最簡潔的理論表達(完整的哈密頓或拉格朗日形式)得以幸存;而對不同隨機初始化的模型進行對比,又可以量化“AI 科學家”之間對同一任務的理論一致性與多樣性。
圖 2. MASS架構。
實驗與結果:多維度實驗剖析
方法:多系統(tǒng)統(tǒng)一理論求解
在具體實現(xiàn)中,研究團隊選取包括簡諧振子、單擺、開普勒問題及相對論振子等四個經(jīng)典系統(tǒng),以及兩個人工合成勢能(α、β系統(tǒng)),構成共七個一維問題。在每一階段,MASS接收新系統(tǒng)數(shù)據(jù),累積訓練誤差并更新模型權重,以模擬AI科學家在不斷獲取新觀測時的理論修正過程。訓練策略采用AdamW優(yōu)化器,結合余弦學習率調(diào)度與正則化手段,確保導數(shù)矩陣的數(shù)值穩(wěn)定性與模型的可解釋性。
多系統(tǒng)實驗結果
單系統(tǒng)實驗:當MASS僅接觸簡諧振子時,模型迅速收斂到低均方誤差,并在最終線性層中篩選出數(shù)十個顯著權重項。盡管理論項遠多于傳統(tǒng)的簡單表達,但通過分析激活相關性可發(fā)現(xiàn)這些項高度聚類,實質(zhì)上對應同一哈密頓或拉格朗日描述的不同代數(shù)等價形式。
圖 3. 單個簡諧振子上質(zhì)量的訓練結果。(a) MASS(種子0)訓練到在每一步批次大小為512的10000步中MSE損失。顯著權值的數(shù)量,計算為最后一層占總范數(shù)前99%的權值的數(shù)量,隨著損失而減少。(b)單個振蕩器的重建運動準確地捕獲了運動的頻率和幅度。
多系統(tǒng)挑戰(zhàn):隨著單擺、引力勢和相對論勢等系統(tǒng)依次加入訓練,存活下來的顯著項數(shù)量明顯減少,表明只有更簡潔的理論能在多重物理約束下通行無阻。同時,不同隨機種子初始化的MASS網(wǎng)絡在某些階段會“淘汰”原有理論,轉(zhuǎn)而學習更通用的表達,從而體現(xiàn)了“優(yōu)勝劣汰”的訓練動力學。
圖 4. MASS在更復雜的系統(tǒng)上訓練。虛線表示訓練的不同階段。從簡諧振子開始,系統(tǒng)分別在第10000步、第20000步、第30000步應用于單擺、引力勢和相對論諧振子。損失累加在MASS在訓練的每一步所接觸的所有系統(tǒng)上。
拉格朗日vs哈密頓形式:在添加更復雜或合成勢能后,MASS從最初偏好哈密頓形式(Hamiltonian,T+V)逐漸轉(zhuǎn)向拉格朗日形式(Lagrangian,T?V),并在線性擬合中表現(xiàn)出與手工推導的拉格朗日激活項極高的相關性(R2>0.9)。這一現(xiàn)象不僅印證了拉格朗日描述在廣義坐標系下的普適性,也提示AI模型在多系統(tǒng)通用場景下的理論偏好。
圖 5. MASS從學習哈密頓理論切換到學習拉格朗日理論。(a)知道c1和c2是相反符號(拉格朗日符號)和相同符號(哈密頓符號)的MASS科學家的比例。(b)激活值與拉格朗日勢與哈密頓勢的線性擬合的R2分數(shù)。誤差條表示R2評分的標準差。
高維擴展:研究進一步將MASS應用于雙擺(double pendulum)等二維混沌系統(tǒng),并使用四階龍格-庫塔積分復現(xiàn)軌跡。盡管未顯式強加能量守恒約束,MASS依然以不足1%的能量漂移成功捕捉到了雙擺動力學,彰顯其在高維復雜系統(tǒng)中的可擴展?jié)摿Α?/p>
AI科學家究竟是否達成一致?
橫向比較數(shù)十個不同隨機種子下的MASS實例,通過主成分分析發(fā)現(xiàn),它們在相同系統(tǒng)上的第一主成分激活高度相關,絕大多數(shù)模型最終都選取了同一基礎理論。
綜合各類實驗結果,可以得出結論:不同配置的AI模型在面對相同數(shù)據(jù)時,會在大部分條件下學習出高度一致的物理理論。雖然在訓練過程中會出現(xiàn)階段性分歧,但隨著系統(tǒng)復雜度與數(shù)據(jù)量的增加,“正確”理論得以在“物競天擇”中勝出,印證了模型在理論空間中向最通用、最簡潔描述的收斂趨勢。
未來展望
論文最后提出數(shù)項可行的后續(xù)研究方向,包括允許模型學習坐標變換以打破廣義坐標限制,將“哈密頓性度量”納入損失函數(shù)以引導不同理論偏好,以及探索更高維度、多體相互作用等更具挑戰(zhàn)性的物理體系。
MASS架構不僅為我們揭示了AI科學家們在理論學習上的“群像”,也證明了拉格朗日描述在豐富物理空間中的至關地位。未來,隨著計算能力與數(shù)據(jù)規(guī)模的持續(xù)攀升,AI或?qū)⒄嬲蔀椴贿d于人類的科學發(fā)現(xiàn)者,引領我們踏上新的認知高峰。
講座推薦
本文作者劉子鳴和其導師Max Tegmark都在集智做過精彩報告,這里推薦劉子鳴關于AI驅(qū)動的物理規(guī)律發(fā)現(xiàn)的相關講座,你也可以在集智斑圖平臺檢索更多相關內(nèi)容。
大模型可解釋性讀書會
集智俱樂部聯(lián)合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發(fā)起。本讀書會旨在突破大模型“黑箱”困境,嘗試從以下四個視角梳理大語言模型可解釋性的科學方法論:
自下而上:Transformer circuit 為什么有效?
自上而下:神經(jīng)網(wǎng)絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚?
復雜科學:滲流相變、涌現(xiàn)、自組織等復雜科學理論如何理解大模型的推理與學習能力?
系統(tǒng)工程:如何擁抱不確定性,在具體的業(yè)界實踐中創(chuàng)造價值?
五位發(fā)起人老師會帶領大家研讀領域前沿論文,現(xiàn)誠邀對此話題感興趣的朋友,一起共創(chuàng)、共建、共享「大模型可解釋性」主題社區(qū),通過互相的交流與碰撞,促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復雜系統(tǒng)與智能本質(zhì)的交叉學科探索者,還是追求模型安全可信的工程實踐者,誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。
讀書會計劃于2025年6月19日啟動,每周四晚19:30-21:30,預計持續(xù)分享10周左右。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
8.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.