整理 | 華衛(wèi)
近日,阿里巴巴的研究團隊與浙江大學合作提出了一種新的 Scaling Law:并行計算縮放定律(Parallel Scaling Law,簡稱 ParScale),即在訓練和推理期間增加模型的并行計算,可以在不增加模型參數(shù)的情況下提升大模型的能力,且推理效率更高。
與實現(xiàn)相同性能提升的參數(shù)縮放相比,ParScale 帶來的內(nèi)存增加量是前者的4.5%(1/22) ,延遲增加量是前者的16.7% (1/6)。它還可以通過在少量 token 上進行后訓練,將現(xiàn)成的預訓練模型轉(zhuǎn)換為并行縮放模型,進一步降低訓練成本。
“我們發(fā)現(xiàn)的新縮放定律有可能促進更強大的模型在低資源場景中的部署,并為計算在機器學習中的作用提供了另一種視角。”研究人員表示,ParScale 通過重用現(xiàn)有參數(shù)來擴展并行計算,可以應用于任何模型結構、優(yōu)化過程、數(shù)據(jù)或任務。
目前,這一研究進展已在 GitHub 上開源代碼,在 HuggingFace 的 Space 上就可以直接體驗,相關論文《Parallel Scaling Law for Language Models》也在 arXiv 上發(fā)表。
開源地址:
https://github.com/QwenLM/ParScale?tab=readme-ov-file
體驗鏈接:
https://huggingface.co/ParScale
ParScale 怎么實現(xiàn)?
提升大語言模型(LLM)的智能水平,通常有兩條主流的 Scaling Law 路線。一是擴展參數(shù),用更多模型參數(shù)來更細致地學習,這種方法非常吃顯存;二是擴展推理思考的時間,增大思維鏈長度,這種方法非常吃時間且依賴于訓練數(shù)據(jù)、訓練策略(RL),只適用于部分場景。
主流 LLM Scaling 策略的比較
不同于這兩種傳統(tǒng) Scaling 方法,ParScale 是通過在訓練和推理階段引入多個并行流(parallel streams) ,將一個輸入轉(zhuǎn)換成多個輸入,然后對它們進行前向傳播,最后將結果合并為一個輸出。
該成果論文的第一作者 Mouxiang Chen 在知乎平臺公開介紹,他們的核心想法就是:在參數(shù)量不變的情況下,同時拉大訓練和推理并行計算量。
據(jù)悉,Mouxiang Chen 目前在浙江大學讀博士,拓展并行計算量的思路始于他在宿舍時和舍友學習 diffusion 模型的一次經(jīng)歷,他們對于 diffusion model 必用的一個 trick 百思不得其解:Classifier-Free Guidance(CFG)。
CFG 在推理階段拿到輸入 x 時,首先做一次正常的 forward 得到 f(x);然后再對 x 進行主動的劣化(比如去除條件)變?yōu)?x',再進行一次 forward 得到 f(x')。最終的輸出 g(x) 是 f(x) 和 f(x') 的一個加權組合,它的效果比 f(x) 更好,更能遵循輸入的條件。這個現(xiàn)象事實上有點反直覺:f(x) 和訓練階段是對齊的,而 g(x) 明顯和訓練階段的目標存在 gap。按照常識,只有訓練目標和推理目標形式相同,推理才能發(fā)揮最大效果。另外,f(x) 的參數(shù)量和 g(x) 也是相同的,輸入的有效信息量也相同,為什么 f(x) 反而學不到 g(x) 的能力?這說明背后或許存在更深層次的原因。
受到這一啟發(fā),Mouxiang Chen 做出一個大膽的猜想:Classifier-Free Guidance(CFG)在推理階段生效的原因,本質(zhì)上是用了雙倍的并行計算量,它拉大了模型本身的 capacity。
具體到 ParScale 上,其實現(xiàn)包括以下三步:
輸入多樣化變換 :使用"前綴微調(diào)"(Prefix Tuning)技術,給每個輸入添加 P 個不同的可學習前綴,使模型能從多個視角理解和處理同一任務;
并行處理 :將這些輸入送入模型的不同路徑中并行處理;
動態(tài)聚合輸出 :采用動態(tài)加權平均方法,使用可學習的權重對各路徑輸出進行加權融合,利用 MLP 將來自多個流的輸出轉(zhuǎn)換為聚合權重,得到最終結果。
通俗來講,ParScale 的基本思想,不是讓模型對同一個問題反復回答,而是讓模型“多角度”進行回答,再通過動態(tài)加權融合回答,得出更聰明的答案。
至于 P 有沒有上限,仍然是懸而未決的問題,研究人員已將其留作未來工作。“即使有上限,它也和模型的參數(shù)有關。模型越大,直覺上提升 P 的收益應該也會越大。”Mouxiang Chen 表示。
在數(shù)學、編程等強推理任務中更強
在預訓練完成后進入后訓練階段時,研究人員采用了一種新的兩階段后訓練策略,來控制因并行流數(shù)量 P 增加而導致的訓練成本上升:
第一階段使用 1T token 進行傳統(tǒng)訓練,采用固定學習率;
第二階段引入 ParScale 方法,在僅 20B token 的數(shù)據(jù)上進行微調(diào),使用學習率退火策略。
簡單來說,該策略將資源密集型的訓練任務集中在第一階段,而在第二階段只需少量數(shù)據(jù)即可完成對并行擴展機制的有效適配,不僅大幅降低了總體訓練成本,同時還保留了 ParScale 的性能增益。
為證明了該策略的有效性,研究人員在多個下游基準測試中驗證了模型應用 ParScale 后的性能,包括常識、數(shù)學和編碼方面。
結果顯示,隨著并行流值數(shù)量 P 越多,模型在大多數(shù)基準測試的效果越好,且在數(shù)學、編程等需要強推理能力的任務中尤為顯著。當 P 增加到 8 時,在完全相同的訓練數(shù)據(jù)下,模型在編碼任務中提升了 4.3%,數(shù)學任務中提升了 7.3%,常識任務中提升了 2.6%;在 GSM8K 上提高了 10%,相當于原本 34% 的提升。
研究人員還在已經(jīng)訓了 18T token 的模型 Qwen-2.5 上應用了 ParScale,并在兩種設置下進行了驗證:一是持續(xù)預訓練(CPT),二是參數(shù)高效微調(diào)(PEFT)。結果顯示,即便在這樣一個已經(jīng)經(jīng)過全面訓練的模型上, ParScale 仍能帶來顯著的性能提升。這也表明動態(tài)并行縮放的可行性 —— 可以使用相同的模型權重,在不同的場合下使用不同數(shù)量的并行流,從而快速地動態(tài)調(diào)整模型能力以及推理開銷。這是目前的主流方法比較難做到的。
適用于手機、汽車和機器人等邊緣設備
許多網(wǎng)友都對這項成果表示贊賞,稱其“讓人眼前一亮”。還有人評價,“好思路,就像一層窗戶紙突然被捅開。”
“隨著人工智能的日益普及,我們認為未來的 LLM 將逐步從集中式服務器部署轉(zhuǎn)向邊緣部署,而 ParScale 可能成為適用于這些場景的一項有前景的技術。”研究人員表示。
據(jù)了解,研究人員在分析不同 batch 的推理成本發(fā)現(xiàn),ParScale 非常適合智能手機、智能汽車和機器人等資源匱乏的邊緣設備,這些設備的查詢通常很少,batch 也很小。鑒于這些環(huán)境中的內(nèi)存資源有限, ParScale 可以有效地利用小 batch 的內(nèi)存和延遲優(yōu)勢。與實現(xiàn)相同性能提升的參數(shù)擴展相比,并行擴展只會帶來前者 1/22 的內(nèi)存增加和 1/6 的延遲增加。
目前,研究人員對 ParScale 的相關研究仍然在進行中。未來,他們計劃進一步在更多的模型架構比如 MoE)以及更大的數(shù)據(jù)上進行嘗試。“ParScale 是一種計算密集型(但更高效)策略,與參數(shù)密集型的稀疏 MoE 架構形成互補。鑒于 MoE 架構對延遲友好,而 ParScale 對內(nèi)存友好,兩者結合能否生成更高效、高性能的模型值得研究。”
https://arxiv.org/pdf/2505.10475
https://www.zhihu.com/question/1907422978985169131?utm_psn=1908460136185459759
聲明:本文為 AI 前線翻譯整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯(lián)動,全覽 AI 技術前沿和行業(yè)落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態(tài)、場景應用、大模型架構創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!!
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.