99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

字節Seed新作:模型合并如何改變大模型預訓練范式

0
分享至



字節跳動 Seed 團隊近期在 arXiv 上發表的論文得到了 ViT 作者,前 Google Brain 最近跳去 OpenAI 的 Lucas Beyer 的親自解讀,Lucas 直言:「這是一篇簡潔的論文,不知怎的讓我回憶起美好的在 Google Brain 的舊時光。(This is a neat paper that somehow made me reminisce good old Brain times. )」



Seed 團隊在這篇論文提出的預訓練模型平均(PMA)技術,通過合并訓練過程中的檢查點(Checkpoint),不僅實現了模型性能的顯著提升,還能精準預測學習率衰減階段的性能表現。這一成果被視為大模型訓練領域的重要突破,甚至可能改變未來大模型開發的范式。





  • 論文標題:Model Merging in Pre-training of Large Language Models
  • 論文地址:https://arxiv.org/pdf/2505.12082

模型合并:從「后訓練」到「預訓練」的跨越

后訓練合并:任務能力的「拼圖游戲」

模型合并并非全新概念,此前主要應用于后訓練階段,即通過合并多個領域微調模型的權重,構建一個多任務能力更強的統一模型。例如,DARE 方法將 WizardLM(通用對話模型)與 WizardMath(數學推理模型)合并后,在 GSM8K 數學推理基準上的得分從 2.2 躍升至 66.3,展現了任務能力融合的強大潛力。

相比之下,預訓練階段的模型合并研究仍較為匱乏。此類預訓練合并通常涉及合并單一訓練軌跡中的檢查點,如 LAWA 中通過模型合并加速 LLM 訓練的探索。然而,隨著模型規模和數據量的急劇增長,社區研究者難以評估模型合并對大規模模型的影響,主要原因在于難以獲取大規模預訓練過程中的中間檢查點。盡管 DeepSeek 和 LLaMA 均表明其在模型開發中使用了模型合并技術,但這些技術的詳細信息尚未公開披露。

預訓練合并:訓練效率的「時光機」

字節跳動的研究將模型合并引入預訓練階段,提出了Pre-trained Model Averaging(PMA)框架。簡單來說,PMA 就是在預訓練過程中,定期將不同訓練階段的模型權重進行平均,生成一個「合并模型」。這是因為:預訓練后期的模型權重往往在參數空間中探索了不同的局部最優解,通過平均化可以抵消單個模型的偏差,逼近更優的全局解。例如,在穩定訓練階段(Constant LR Phase)合并 10 個檢查點后,Seed-MoE-10B/100B 模型在 HumanEval 代碼生成任務上的得分從 54.3 提升至 61.6,漲幅超過 13%。

PMA 技術的三大核心發現

合并時機:穩定期合并效果最佳

研究團隊通過實驗發現,在學習率穩定階段(Warmup-Stable-Decay 中的 Stable Phase)進行模型合并效果最佳。此時模型處于「高效學習期」,權重更新尚未進入衰減階段,不同檢查點之間的參數差異既能保證多樣性,又不會因過度震蕩導致合并后性能下降。



有趣的是,即使在學習率余弦衰減階段(Cosine Decay Phase)的早期進行合并,PMA 模型的性能也能媲美甚至超越自然衰減到末期的模型。例如,Seed-MoE-15B/150B 模型在衰減初期合并后,其性能與訓練至末期的模型相差無幾。



合并策略:簡單平均(SMA)勝過復雜加權

在合并策略的對比實驗中,研究團隊測試了三種主流方法:

  • 簡單移動平均(SMA):所有模型權重等比例平均
  • 指數移動平均(EMA):近期模型權重占比更高
  • 加權移動平均(WMA):按訓練步數線性加權



實驗結果表明,在訓練初期,EMA 和 WMA 因更關注近期權重而表現略好,但隨著訓練推進,三者性能差異逐漸消失。考慮到 SMA 的計算簡單性和穩定性,團隊最終選擇其作為默認策略。這一發現打破了「復雜加權必然更優」的固有認知,為工程落地提供了便利。

超參數規律:模型規模決定合并間隔

合并間隔(V)與模型規模正相關:小模型(如 1.3B 參數的 MoE)適合較小的合并間隔(8B tokens),而大模型(如 100B 參數的 MoE)則可采用更大的間隔(80B tokens)。這與大模型通常使用更大批次訓練的特性一致。

合并數量(N)越多越好:當訓練完成時,合并 15 個檢查點的模型性能比合并 3 個的高近 1 個百分點。但需平衡計算成本,團隊建議實際應用中取 N=10 作為折中方案。



PMA 的「隱藏技能」:訓練穩定性與初始化優化

PMA-init:讓訓練「起死回生」

在大模型訓練中,「損失激增」(Loss Spike)是令人頭疼的問題——硬件故障、參數震蕩等因素可能導致訓練崩潰,不得不從頭再來。PMA 為此提供了一種「急救方案」:當損失激增發生時,合并故障前的 N 個檢查點作為初始化權重(PMA-init),可使訓練恢復穩定。

實驗中,團隊故意用過高的學習率(6e-3)訓練一個 330M 參數的 MoE 模型,導致其損失劇烈震蕩。此時采用 PMA-init 合并 3 個故障前檢查點,訓練曲線迅速恢復平滑,避免了從頭訓練的巨大浪費。



下游階段的「熱身優勢」

在持續訓練(CT)和監督微調(SFT)階段,使用 PMA 合并后的模型作為初始化權重(PMA-init),能顯著改善訓練動態。例如,在 CT 階段,PMA-init 模型的 GradNorm 曲線更加平穩,早期訓練中的 MMLU 得分比基線模型高 1-2 個百分點。盡管最終性能與基線持平,但其「熱身優勢」可加速下游任務的收斂,尤其適合數據敏感型場景。





數學原理:為什么合并能「化平凡為神奇」?



可視化實驗也印證了這一點:在 Seed-MoE-1.3B/13B 模型的某層參數空間中,單個檢查點的權重分布在 MMLU 得分等高線的不同位置,而合并后的權重位置往往更靠近高分區。



挑戰與未來方向

未解決的問題

  • 學習率的影響:當前實驗默認使用縮放定律(Scaling Law)推薦的最優學習率,未深入探索高學習率下 PMA 的表現。理論上,高學習率可能增加參數探索的多樣性,進一步提升合并效果,但受限于算力成本,尚未量化分析。
  • 強化學習階段的應用:論文主要聚焦預訓練,而 RLHF(強化學習從人類反饋中學習)作為大模型訓練的關鍵環節,其檢查點合并的潛力尚未挖掘。這將是未來研究的重要方向。

行業啟示

對于大模型開發者而言,PMA 帶來的不僅是成本節省,更是一種「模擬退火」的思維革命——通過合并穩定期的檢查點,可快速預測衰減階段的性能,避免盲目延長訓練周期。對于中小型企業,這意味著用更少的資源實現 comparable 性能,甚至可能顛覆「大公司壟斷算力」的格局。

結語:開啟高效訓練的新時代

從「暴力堆算力」到「智能優化訓練流程」,大模型的發展正從粗放式增長轉向精細化運營。字節跳動的這項研究,以模型合并為切入點,揭示了預訓練過程中被忽視的「檢查點價值」,為學術界和工業界提供了一條低成本、高效能的新路徑。

正如論文結語所言:「PMA 不僅是一種技術,更是一個監視器——它讓預訓練過程變得可預測、可優化。」隨著更多類似研究的涌現,我們有理由相信,大模型訓練將逐步擺脫「燒錢游戲」的標簽,走向更可持續、更普惠的未來。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
知名女星發文感謝大英博物館,要是文物放在中國,早就被摧毀了

知名女星發文感謝大英博物館,要是文物放在中國,早就被摧毀了

博覽歷史
2025-06-08 18:37:20
中國的高考作文,毫無邏輯和真實,只會在牢籠里抒情

中國的高考作文,毫無邏輯和真實,只會在牢籠里抒情

風向觀察
2025-06-09 17:19:17
曝韋東奕恐離開北大,6年無成果非升即走?業內曝其真實職位反轉

曝韋東奕恐離開北大,6年無成果非升即走?業內曝其真實職位反轉

古希臘掌管松餅的神
2025-06-09 15:09:36
俄烏戰爭導致兩國黑幫決裂,烏克蘭黑幫選擇“精忠報國”

俄烏戰爭導致兩國黑幫決裂,烏克蘭黑幫選擇“精忠報國”

史政先鋒
2025-06-09 21:16:30
特朗普受邀訪華,不到24小時,法國致電中方,主動送出兩大承諾

特朗普受邀訪華,不到24小時,法國致電中方,主動送出兩大承諾

獵火照狼山
2025-06-08 19:55:52
特朗普受邀訪華僅1天,中國暫停千萬桶原油采購,美政府隨即報復

特朗普受邀訪華僅1天,中國暫停千萬桶原油采購,美政府隨即報復

觀星賞月
2025-06-09 14:15:06
43歲的蔣欣醫美了?和以前相比判若兩人,一臉苦相

43歲的蔣欣醫美了?和以前相比判若兩人,一臉苦相

楊哥歷史
2025-06-09 09:23:18
北電杜英哲強奸上百名學生后續!律師曝新進展,多數都是未成年人

北電杜英哲強奸上百名學生后續!律師曝新進展,多數都是未成年人

我娛有約
2025-06-09 21:56:23
北大數院同學透露韋神的另一面,稱他私下心智很正常情商也高!

北大數院同學透露韋神的另一面,稱他私下心智很正常情商也高!

史書無明
2025-06-08 17:26:55
中方正式確認,三個月后舉行大閱兵,兩國收到請帖,日本被點名

中方正式確認,三個月后舉行大閱兵,兩國收到請帖,日本被點名

蘇浩
2025-06-09 14:50:22
廣東一公職人員出軌女下屬,不雅照流出:女下屬顏值爆表

廣東一公職人員出軌女下屬,不雅照流出:女下屬顏值爆表

農村情感故事
2025-06-09 17:43:44
特殊信號!菲總統強調菲中“持久友誼”

特殊信號!菲總統強調菲中“持久友誼”

環球時報國際
2025-06-09 19:39:14
毛新宇夫人出席活動,48歲劉濱戴珍珠耳環好端莊,任扇子學會會長

毛新宇夫人出席活動,48歲劉濱戴珍珠耳環好端莊,任扇子學會會長

古希臘掌管松餅的神
2025-06-09 16:50:25
成吉思汗死因曝光!被西夏王妃咬斷器官?康熙:比較可信

成吉思汗死因曝光!被西夏王妃咬斷器官?康熙:比較可信

談史論天地
2025-06-09 14:45:07
最高可判死刑!邯鄲麥田插鋼筋后續,警方通報:全面排查,零容忍

最高可判死刑!邯鄲麥田插鋼筋后續,警方通報:全面排查,零容忍

蕭鑟科普解說
2025-06-08 19:04:39
乒超聯賽第一階段:樊振東3-1戰勝林高遠,今日四戰全勝

乒超聯賽第一階段:樊振東3-1戰勝林高遠,今日四戰全勝

懂球帝
2025-06-09 21:19:12
韋神“出關”才三天,風向卻變了,同學實名喊北大書記,對他好點

韋神“出關”才三天,風向卻變了,同學實名喊北大書記,對他好點

深析古今
2025-06-08 16:25:03
女基金經理已在泡泡瑪特上賺翻了 ,在重倉泡泡瑪特比重較高的基金經理中,女性占比近半

女基金經理已在泡泡瑪特上賺翻了 ,在重倉泡泡瑪特比重較高的基金經理中,女性占比近半

每日經濟新聞
2025-06-09 16:46:38
婚檢結果保密,致男方患HIV,醫生被停職!婚檢坑的全是醫生?

婚檢結果保密,致男方患HIV,醫生被停職!婚檢坑的全是醫生?

醫眼觀察
2025-06-09 16:11:57
2米26的NBA球星文班亞馬剃發修行10天?少林寺最新回應

2米26的NBA球星文班亞馬剃發修行10天?少林寺最新回應

新京報
2025-06-09 21:55:13
2025-06-09 23:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10607文章數 142336關注度
往期回顧 全部

科技要聞

今年618平臺集體想通了,主打一個簡單粗暴

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰斗

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰斗

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

家居
游戲
手機
教育
軍事航空

家居要聞

簡約輕奢 現代實用私宅

科樂美官宣發布會:《合金裝備3RE》《寂靜嶺f》亮相

手機要聞

余承東曬華為Pura80 Pro系列新機 展示其視頻拍攝能力

教育要聞

走進上海一年花費30萬的私立學校

軍事要聞

烏方稱俄發動沖突以來最大空襲

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 桓仁| 阆中市| 赫章县| 石城县| 高陵县| 图们市| 三河市| 诸城市| 穆棱市| 大冶市| 五家渠市| 辽宁省| 庆安县| 怀远县| 全南县| 法库县| 西青区| 广平县| 抚顺县| 克拉玛依市| 永清县| 宁陕县| 罗平县| 东兴市| 盐亭县| 阳谷县| 绍兴县| 浦江县| 巧家县| 绍兴市| 保山市| 罗源县| 鸡泽县| 镇平县| 界首市| 镇雄县| 乌兰察布市| 宿迁市| 北川| 林芝县| 临沭县|