網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里通義發(fā)布并行計(jì)算新策略：1.6B等效4.4B，內(nèi)存消耗驟降95%

2025-05-28 15:18:10　來源: 量子位

香港舉報(bào)

分享至

聞樂發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

既能提升模型能力，又不顯著增加內(nèi)存和時(shí)間成本，LLM第三種Scaling Law被提出了。

對(duì)于1.6B模型，能實(shí)現(xiàn)性能接近4.4B模型，內(nèi)存占用僅為后者的1/22，延遲增加量為1/6。

并且可直接應(yīng)用于現(xiàn)有模型（如Qwen-2.5），無需從頭訓(xùn)練。

這就是阿里通義團(tuán)隊(duì)提出的PARSCALE。

目前LLMs的優(yōu)化主要有兩種思路：參數(shù)擴(kuò)展（如GPT-4）和推理時(shí)間擴(kuò)展（如DeepSeek-R1），但會(huì)增加內(nèi)存和時(shí)間成本。

阿里通義團(tuán)隊(duì)提出的新范式受CFG（無分類器引導(dǎo)）雙路徑推理機(jī)制的啟發(fā)。

他們將CFG的并行思想從 “生成階段的推理優(yōu)化” 擴(kuò)展為 “訓(xùn)練和推理全流程的「計(jì)算縮放」”。

讓我們來扒一扒技術(shù)細(xì)節(jié)。

將CFG的并行思想擴(kuò)展到計(jì)算縮放

PARSCALE對(duì)于CFG雙路徑的靈感遷移

CFG 通過同時(shí)運(yùn)行有條件生成（輸入提示詞）和無條件生成（不輸入提示詞）兩條路徑，再通過加權(quán)平均融合結(jié)果，提升生成質(zhì)量（如文本相關(guān)性、圖像細(xì)節(jié)精準(zhǔn)度）。

其核心在于利用并行計(jì)算（兩次前向傳播）增強(qiáng)模型決策的多樣性和準(zhǔn)確性，而無需增加模型參數(shù)。

研究人員觀察到CFG的有效性可能源于計(jì)算量的增加（兩次前向傳播），而非單純的條件引導(dǎo)。

由此提出假設(shè)：并行計(jì)算的規(guī)模（如路徑數(shù)量）可能是提升模型能力的關(guān)鍵因素，而非僅依賴參數(shù)規(guī)模或推理時(shí)間的串行擴(kuò)展（如生成更多token）。

CFG用2條并行路徑提升性能，PARSCALE則將路徑數(shù)量擴(kuò)展為P條（如P=8），并通過可學(xué)習(xí)的輸入變換和動(dòng)態(tài)聚合，使并行計(jì)算成為一種可擴(kuò)展的 “計(jì)算縮放” 范式。下圖展示了PARSCALE方法。

PARSCALE改進(jìn)的并行計(jì)算框架

1、輸入層：可學(xué)習(xí)的多路徑輸入變換

核心改進(jìn)是將CFG的固定雙路徑擴(kuò)展為P條可學(xué)習(xí)的并行路徑，每條路徑通過可訓(xùn)練的前綴嵌入生成差異化輸入。

前綴嵌入生成：為每個(gè)并行路徑引入可訓(xùn)練的前綴向量（維度與輸入嵌入一致），拼接在原始輸入前，形成路徑專屬輸入。
KV緩存區(qū)分：在Transformer的注意力層中，不同路徑的鍵（K）和值（V）緩存相互獨(dú)立，確保各路徑的計(jì)算互不打擾，增強(qiáng)輸出多樣性。

2、計(jì)算層：并行前向傳播

并行執(zhí)行：將P個(gè)差異化輸入同時(shí)輸入模型，利用GPU的并行計(jì)算能力，一次性完成P路前向傳播，生成P個(gè)輸出流。
效率優(yōu)勢(shì)：通過批量矩陣運(yùn)算實(shí)現(xiàn)P路并行，計(jì)算效率隨P線性增長(zhǎng)，共享模型主體參數(shù)，僅增加前綴嵌入等少量可訓(xùn)練參數(shù)。

3、輸出層：動(dòng)態(tài)加權(quán)聚合

通過多層感知機(jī)（MLP）動(dòng)態(tài)計(jì)算各路徑輸出的聚合權(quán)重，替代 CFG 的固定權(quán)重機(jī)制：若某路徑輸出與當(dāng)前輸入語(yǔ)義匹配度高，MLP 會(huì)為其分配更高權(quán)重。

PARSCALE更高效

PARSCALE vs. 參數(shù)擴(kuò)展

當(dāng)P=8時(shí)，1.6B參數(shù)模型在HumanEval的性能（Pass@1=39.1%）接近4.4B參數(shù)模型（Pass@1=45.4%），但內(nèi)存占用僅為后者的1/22，延遲增加量為1/6。

在GSM8K數(shù)學(xué)推理任務(wù)中，P=8使1.8B模型性能提升34%（相對(duì)基準(zhǔn)），顯著高于參數(shù)擴(kuò)展的增益。

兩階段訓(xùn)練策略

階段1：用傳統(tǒng)方法預(yù)訓(xùn)練模型至收斂（1Ttokens）。

階段2：凍結(jié)主體參數(shù)，僅訓(xùn)練前綴嵌入和聚合權(quán)重（20Btokens，占總數(shù)據(jù)的 2%）。

P=8模型在GSM8K上提升34%，且與從頭訓(xùn)練效果相當(dāng)，證明少量數(shù)據(jù)即可激活并行路徑的有效性。且該策略使訓(xùn)練成本降低約 98%

適配現(xiàn)有模型

研究團(tuán)隊(duì)在Qwen-2.5-3B模型上進(jìn)行持續(xù)預(yù)訓(xùn)練和參數(shù)高效微調(diào)（PEFT），僅調(diào)整前綴和聚合權(quán)重。

結(jié)果顯示，在代碼生成任務(wù)（HumanEval+）中PEFT 方法使Pass@1提升15%，且凍結(jié)主體參數(shù)時(shí)仍有效，證明動(dòng)態(tài)調(diào)整 P 的可行性。

PARSCALE通過可學(xué)習(xí)的多路徑輸入、動(dòng)態(tài)聚合權(quán)重、全流程并行優(yōu)化，將CFG的 “雙路徑啟發(fā)” 升級(jí)為一種通用的計(jì)算縮放范式。

感興趣的朋友可到官方查看更多細(xì)節(jié)～

論文鏈接：https://arxiv.org/abs/2505.10475
代碼地址：https://github.com/QwenLM/ParScale
參考鏈接：https://x.com/iScienceLuvr/status/1923262107845525660

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.