網易首頁 > 網易號 > 正文申請入駐

字節Seed新作：模型合并如何改變大模型預訓練范式

2025-06-06 18:22:41　來源: 機器之心Pro

天津舉報

分享至

字節跳動 Seed 團隊近期在 arXiv 上發表的論文得到了 ViT 作者，前 Google Brain 最近跳去 OpenAI 的 Lucas Beyer 的親自解讀，Lucas 直言：「這是一篇簡潔的論文，不知怎的讓我回憶起美好的在 Google Brain 的舊時光。(This is a neat paper that somehow made me reminisce good old Brain times. )」

Seed 團隊在這篇論文提出的預訓練模型平均（PMA）技術，通過合并訓練過程中的檢查點（Checkpoint），不僅實現了模型性能的顯著提升，還能精準預測學習率衰減階段的性能表現。這一成果被視為大模型訓練領域的重要突破，甚至可能改變未來大模型開發的范式。

論文標題：Model Merging in Pre-training of Large Language Models
論文地址：https://arxiv.org/pdf/2505.12082

模型合并：從「后訓練」到「預訓練」的跨越

后訓練合并：任務能力的「拼圖游戲」

模型合并并非全新概念，此前主要應用于后訓練階段，即通過合并多個領域微調模型的權重，構建一個多任務能力更強的統一模型。例如，DARE 方法將 WizardLM（通用對話模型）與 WizardMath（數學推理模型）合并后，在 GSM8K 數學推理基準上的得分從 2.2 躍升至 66.3，展現了任務能力融合的強大潛力。

相比之下，預訓練階段的模型合并研究仍較為匱乏。此類預訓練合并通常涉及合并單一訓練軌跡中的檢查點，如 LAWA 中通過模型合并加速 LLM 訓練的探索。然而，隨著模型規模和數據量的急劇增長，社區研究者難以評估模型合并對大規模模型的影響，主要原因在于難以獲取大規模預訓練過程中的中間檢查點。盡管 DeepSeek 和 LLaMA 均表明其在模型開發中使用了模型合并技術，但這些技術的詳細信息尚未公開披露。

預訓練合并：訓練效率的「時光機」

字節跳動的研究將模型合并引入預訓練階段，提出了Pre-trained Model Averaging（PMA）框架。簡單來說，PMA 就是在預訓練過程中，定期將不同訓練階段的模型權重進行平均，生成一個「合并模型」。這是因為：預訓練后期的模型權重往往在參數空間中探索了不同的局部最優解，通過平均化可以抵消單個模型的偏差，逼近更優的全局解。例如，在穩定訓練階段（Constant LR Phase）合并 10 個檢查點后，Seed-MoE-10B/100B 模型在 HumanEval 代碼生成任務上的得分從 54.3 提升至 61.6，漲幅超過 13%。

PMA 技術的三大核心發現

合并時機：穩定期合并效果最佳

研究團隊通過實驗發現，在學習率穩定階段（Warmup-Stable-Decay 中的 Stable Phase）進行模型合并效果最佳。此時模型處于「高效學習期」，權重更新尚未進入衰減階段，不同檢查點之間的參數差異既能保證多樣性，又不會因過度震蕩導致合并后性能下降。

有趣的是，即使在學習率余弦衰減階段（Cosine Decay Phase）的早期進行合并，PMA 模型的性能也能媲美甚至超越自然衰減到末期的模型。例如，Seed-MoE-15B/150B 模型在衰減初期合并后，其性能與訓練至末期的模型相差無幾。

合并策略：簡單平均（SMA）勝過復雜加權

在合并策略的對比實驗中，研究團隊測試了三種主流方法：

簡單移動平均（SMA）：所有模型權重等比例平均
指數移動平均（EMA）：近期模型權重占比更高
加權移動平均（WMA）：按訓練步數線性加權

實驗結果表明，在訓練初期，EMA 和 WMA 因更關注近期權重而表現略好，但隨著訓練推進，三者性能差異逐漸消失。考慮到 SMA 的計算簡單性和穩定性，團隊最終選擇其作為默認策略。這一發現打破了「復雜加權必然更優」的固有認知，為工程落地提供了便利。

超參數規律：模型規模決定合并間隔

合并間隔（V）與模型規模正相關：小模型（如 1.3B 參數的 MoE）適合較小的合并間隔（8B tokens），而大模型（如 100B 參數的 MoE）則可采用更大的間隔（80B tokens）。這與大模型通常使用更大批次訓練的特性一致。

合并數量（N）越多越好：當訓練完成時，合并 15 個檢查點的模型性能比合并 3 個的高近 1 個百分點。但需平衡計算成本，團隊建議實際應用中取 N=10 作為折中方案。

PMA 的「隱藏技能」：訓練穩定性與初始化優化

PMA-init：讓訓練「起死回生」

在大模型訓練中，「損失激增」（Loss Spike）是令人頭疼的問題——硬件故障、參數震蕩等因素可能導致訓練崩潰，不得不從頭再來。PMA 為此提供了一種「急救方案」：當損失激增發生時，合并故障前的 N 個檢查點作為初始化權重（PMA-init），可使訓練恢復穩定。

實驗中，團隊故意用過高的學習率（6e-3）訓練一個 330M 參數的 MoE 模型，導致其損失劇烈震蕩。此時采用 PMA-init 合并 3 個故障前檢查點，訓練曲線迅速恢復平滑，避免了從頭訓練的巨大浪費。

下游階段的「熱身優勢」

在持續訓練（CT）和監督微調（SFT）階段，使用 PMA 合并后的模型作為初始化權重（PMA-init），能顯著改善訓練動態。例如，在 CT 階段，PMA-init 模型的 GradNorm 曲線更加平穩，早期訓練中的 MMLU 得分比基線模型高 1-2 個百分點。盡管最終性能與基線持平，但其「熱身優勢」可加速下游任務的收斂，尤其適合數據敏感型場景。

數學原理：為什么合并能「化平凡為神奇」？

可視化實驗也印證了這一點：在 Seed-MoE-1.3B/13B 模型的某層參數空間中，單個檢查點的權重分布在 MMLU 得分等高線的不同位置，而合并后的權重位置往往更靠近高分區。

挑戰與未來方向

未解決的問題

學習率的影響：當前實驗默認使用縮放定律（Scaling Law）推薦的最優學習率，未深入探索高學習率下 PMA 的表現。理論上，高學習率可能增加參數探索的多樣性，進一步提升合并效果，但受限于算力成本，尚未量化分析。
強化學習階段的應用：論文主要聚焦預訓練，而 RLHF（強化學習從人類反饋中學習）作為大模型訓練的關鍵環節，其檢查點合并的潛力尚未挖掘。這將是未來研究的重要方向。

行業啟示

對于大模型開發者而言，PMA 帶來的不僅是成本節省，更是一種「模擬退火」的思維革命——通過合并穩定期的檢查點，可快速預測衰減階段的性能，避免盲目延長訓練周期。對于中小型企業，這意味著用更少的資源實現 comparable 性能，甚至可能顛覆「大公司壟斷算力」的格局。

結語：開啟高效訓練的新時代

從「暴力堆算力」到「智能優化訓練流程」，大模型的發展正從粗放式增長轉向精細化運營。字節跳動的這項研究，以模型合并為切入點，揭示了預訓練過程中被忽視的「檢查點價值」，為學術界和工業界提供了一條低成本、高效能的新路徑。

正如論文結語所言：「PMA 不僅是一種技術，更是一個監視器——它讓預訓練過程變得可預測、可優化。」隨著更多類似研究的涌現，我們有理由相信，大模型訓練將逐步擺脫「燒錢游戲」的標簽，走向更可持續、更普惠的未來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.