博士宿舍激情腦暴，革新了Scaling Law？Qwen和浙大聯(lián)手推出新定律，直接干掉95.5%推理內(nèi)存！

2025-05-21 18:27:01　來源: AI前線

北京舉報

分享至

整理 | 華衛(wèi)

近日，阿里巴巴的研究團隊與浙江大學合作提出了一種新的 Scaling Law：并行計算縮放定律（Parallel Scaling Law，簡稱 ParScale），即在訓練和推理期間增加模型的并行計算，可以在不增加模型參數(shù)的情況下提升大模型的能力，且推理效率更高。

與實現(xiàn)相同性能提升的參數(shù)縮放相比，ParScale 帶來的內(nèi)存增加量是前者的4.5%（1/22），延遲增加量是前者的16.7% （1/6）。它還可以通過在少量 token 上進行后訓練，將現(xiàn)成的預訓練模型轉(zhuǎn)換為并行縮放模型，進一步降低訓練成本。

“我們發(fā)現(xiàn)的新縮放定律有可能促進更強大的模型在低資源場景中的部署，并為計算在機器學習中的作用提供了另一種視角。”研究人員表示，ParScale 通過重用現(xiàn)有參數(shù)來擴展并行計算，可以應用于任何模型結構、優(yōu)化過程、數(shù)據(jù)或任務。

目前，這一研究進展已在 GitHub 上開源代碼，在 HuggingFace 的 Space 上就可以直接體驗，相關論文《Parallel Scaling Law for Language Models》也在 arXiv 上發(fā)表。

開源地址：

https://github.com/QwenLM/ParScale?tab=readme-ov-file

體驗鏈接：

https://huggingface.co/ParScale

ParScale 怎么實現(xiàn)？

提升大語言模型（LLM）的智能水平，通常有兩條主流的 Scaling Law 路線。一是擴展參數(shù)，用更多模型參數(shù)來更細致地學習，這種方法非常吃顯存；二是擴展推理思考的時間，增大思維鏈長度，這種方法非常吃時間且依賴于訓練數(shù)據(jù)、訓練策略（RL），只適用于部分場景。

主流 LLM Scaling 策略的比較

不同于這兩種傳統(tǒng) Scaling 方法，ParScale 是通過在訓練和推理階段引入多個并行流（parallel streams），將一個輸入轉(zhuǎn)換成多個輸入，然后對它們進行前向傳播，最后將結果合并為一個輸出。

該成果論文的第一作者 Mouxiang Chen 在知乎平臺公開介紹，他們的核心想法就是：在參數(shù)量不變的情況下，同時拉大訓練和推理并行計算量。

據(jù)悉，Mouxiang Chen 目前在浙江大學讀博士，拓展并行計算量的思路始于他在宿舍時和舍友學習 diffusion 模型的一次經(jīng)歷，他們對于 diffusion model 必用的一個 trick 百思不得其解：Classifier-Free Guidance（CFG）。

CFG 在推理階段拿到輸入 x 時，首先做一次正常的 forward 得到 f(x)；然后再對 x 進行主動的劣化（比如去除條件）變?yōu)?x'，再進行一次 forward 得到 f(x')。最終的輸出 g(x) 是 f(x) 和 f(x') 的一個加權組合，它的效果比 f(x) 更好，更能遵循輸入的條件。這個現(xiàn)象事實上有點反直覺：f(x) 和訓練階段是對齊的，而 g(x) 明顯和訓練階段的目標存在 gap。按照常識，只有訓練目標和推理目標形式相同，推理才能發(fā)揮最大效果。另外，f(x) 的參數(shù)量和 g(x) 也是相同的，輸入的有效信息量也相同，為什么 f(x) 反而學不到 g(x) 的能力？這說明背后或許存在更深層次的原因。

受到這一啟發(fā)，Mouxiang Chen 做出一個大膽的猜想：Classifier-Free Guidance（CFG）在推理階段生效的原因，本質(zhì)上是用了雙倍的并行計算量，它拉大了模型本身的 capacity。

具體到 ParScale 上，其實現(xiàn)包括以下三步：

輸入多樣化變換：使用"前綴微調(diào)"（Prefix Tuning）技術，給每個輸入添加 P 個不同的可學習前綴，使模型能從多個視角理解和處理同一任務；
并行處理：將這些輸入送入模型的不同路徑中并行處理；
動態(tài)聚合輸出：采用動態(tài)加權平均方法，使用可學習的權重對各路徑輸出進行加權融合，利用 MLP 將來自多個流的輸出轉(zhuǎn)換為聚合權重，得到最終結果。

通俗來講，ParScale 的基本思想，不是讓模型對同一個問題反復回答，而是讓模型“多角度”進行回答，再通過動態(tài)加權融合回答，得出更聰明的答案。

至于 P 有沒有上限，仍然是懸而未決的問題，研究人員已將其留作未來工作。“即使有上限，它也和模型的參數(shù)有關。模型越大，直覺上提升 P 的收益應該也會越大。”Mouxiang Chen 表示。

在數(shù)學、編程等強推理任務中更強

在預訓練完成后進入后訓練階段時，研究人員采用了一種新的兩階段后訓練策略，來控制因并行流數(shù)量 P 增加而導致的訓練成本上升：

第一階段使用 1T token 進行傳統(tǒng)訓練，采用固定學習率；
第二階段引入 ParScale 方法，在僅 20B token 的數(shù)據(jù)上進行微調(diào)，使用學習率退火策略。

簡單來說，該策略將資源密集型的訓練任務集中在第一階段，而在第二階段只需少量數(shù)據(jù)即可完成對并行擴展機制的有效適配，不僅大幅降低了總體訓練成本，同時還保留了 ParScale 的性能增益。

為證明了該策略的有效性，研究人員在多個下游基準測試中驗證了模型應用 ParScale 后的性能，包括常識、數(shù)學和編碼方面。

結果顯示，隨著并行流值數(shù)量 P 越多，模型在大多數(shù)基準測試的效果越好，且在數(shù)學、編程等需要強推理能力的任務中尤為顯著。當 P 增加到 8 時，在完全相同的訓練數(shù)據(jù)下，模型在編碼任務中提升了 4.3%，數(shù)學任務中提升了 7.3%，常識任務中提升了 2.6%；在 GSM8K 上提高了 10%，相當于原本 34% 的提升。

研究人員還在已經(jīng)訓了 18T token 的模型 Qwen-2.5 上應用了 ParScale，并在兩種設置下進行了驗證：一是持續(xù)預訓練（CPT），二是參數(shù)高效微調(diào)（PEFT）。結果顯示，即便在這樣一個已經(jīng)經(jīng)過全面訓練的模型上， ParScale 仍能帶來顯著的性能提升。這也表明動態(tài)并行縮放的可行性 —— 可以使用相同的模型權重，在不同的場合下使用不同數(shù)量的并行流，從而快速地動態(tài)調(diào)整模型能力以及推理開銷。這是目前的主流方法比較難做到的。

適用于手機、汽車和機器人等邊緣設備

許多網(wǎng)友都對這項成果表示贊賞，稱其“讓人眼前一亮”。還有人評價，“好思路，就像一層窗戶紙突然被捅開。”

“隨著人工智能的日益普及，我們認為未來的 LLM 將逐步從集中式服務器部署轉(zhuǎn)向邊緣部署，而 ParScale 可能成為適用于這些場景的一項有前景的技術。”研究人員表示。

據(jù)了解，研究人員在分析不同 batch 的推理成本發(fā)現(xiàn)，ParScale 非常適合智能手機、智能汽車和機器人等資源匱乏的邊緣設備，這些設備的查詢通常很少，batch 也很小。鑒于這些環(huán)境中的內(nèi)存資源有限， ParScale 可以有效地利用小 batch 的內(nèi)存和延遲優(yōu)勢。與實現(xiàn)相同性能提升的參數(shù)擴展相比，并行擴展只會帶來前者 1/22 的內(nèi)存增加和 1/6 的延遲增加。

目前，研究人員對 ParScale 的相關研究仍然在進行中。未來，他們計劃進一步在更多的模型架構比如 MoE）以及更大的數(shù)據(jù)上進行嘗試。“ParScale 是一種計算密集型（但更高效）策略，與參數(shù)密集型的稀疏 MoE 架構形成互補。鑒于 MoE 架構對延遲友好，而 ParScale 對內(nèi)存友好，兩者結合能否生成更高效、高性能的模型值得研究。”

https://arxiv.org/pdf/2505.10475

https://www.zhihu.com/question/1907422978985169131?utm_psn=1908460136185459759

聲明：本文為 AI 前線翻譯整理，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

AICon 2025 強勢來襲，5 月上海站、6 月北京站，雙城聯(lián)動，全覽 AI 技術前沿和行業(yè)落地。大會聚焦技術與應用深度融合，匯聚 AI Agent、多模態(tài)、場景應用、大模型架構創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設計和出海策略等話題。即刻掃碼購票，一同探索 AI 應用邊界！！

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.