99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里通義發(fā)布并行計(jì)算新策略:1.6B等效4.4B,內(nèi)存消耗驟降95%

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

既能提升模型能力,又不顯著增加內(nèi)存和時(shí)間成本,LLM第三種Scaling Law被提出了。

對(duì)于1.6B模型,能實(shí)現(xiàn)性能接近4.4B模型,內(nèi)存占用僅為后者的1/22,延遲增加量為1/6

并且可直接應(yīng)用于現(xiàn)有模型(如Qwen-2.5),無需從頭訓(xùn)練。

這就是阿里通義團(tuán)隊(duì)提出的PARSCALE



目前LLMs的優(yōu)化主要有兩種思路:參數(shù)擴(kuò)展(如GPT-4)和推理時(shí)間擴(kuò)展(如DeepSeek-R1),但會(huì)增加內(nèi)存和時(shí)間成本。

阿里通義團(tuán)隊(duì)提出的新范式受CFG(無分類器引導(dǎo))雙路徑推理機(jī)制的啟發(fā)。

他們將CFG的并行思想從 “生成階段的推理優(yōu)化” 擴(kuò)展為 “訓(xùn)練和推理全流程的「計(jì)算縮放」”。

讓我們來扒一扒技術(shù)細(xì)節(jié)。

將CFG的并行思想擴(kuò)展到計(jì)算縮放
PARSCALE對(duì)于CFG雙路徑的靈感遷移

CFG 通過同時(shí)運(yùn)行有條件生成(輸入提示詞)和無條件生成(不輸入提示詞)兩條路徑,再通過加權(quán)平均融合結(jié)果,提升生成質(zhì)量(如文本相關(guān)性、圖像細(xì)節(jié)精準(zhǔn)度)。

其核心在于利用并行計(jì)算(兩次前向傳播)增強(qiáng)模型決策的多樣性和準(zhǔn)確性,而無需增加模型參數(shù)

研究人員觀察到CFG的有效性可能源于計(jì)算量的增加(兩次前向傳播),而非單純的條件引導(dǎo)。

由此提出假設(shè):并行計(jì)算的規(guī)模(如路徑數(shù)量)可能是提升模型能力的關(guān)鍵因素,而非僅依賴參數(shù)規(guī)模或推理時(shí)間的串行擴(kuò)展(如生成更多token)。

CFG用2條并行路徑提升性能,PARSCALE則將路徑數(shù)量擴(kuò)展為P條(如P=8),并通過可學(xué)習(xí)的輸入變換和動(dòng)態(tài)聚合,使并行計(jì)算成為一種可擴(kuò)展的 “計(jì)算縮放” 范式。下圖展示了PARSCALE方法。



PARSCALE改進(jìn)的并行計(jì)算框架

1、輸入層:可學(xué)習(xí)的多路徑輸入變換

核心改進(jìn)是將CFG的固定雙路徑擴(kuò)展為P條可學(xué)習(xí)的并行路徑,每條路徑通過可訓(xùn)練的前綴嵌入生成差異化輸入。

  • 前綴嵌入生成:為每個(gè)并行路徑引入可訓(xùn)練的前綴向量(維度與輸入嵌入一致),拼接在原始輸入前,形成路徑專屬輸入。
  • KV緩存區(qū)分:在Transformer的注意力層中,不同路徑的鍵(K)和值(V)緩存相互獨(dú)立,確保各路徑的計(jì)算互不打擾,增強(qiáng)輸出多樣性。

2、計(jì)算層:并行前向傳播

  • 并行執(zhí)行:將P個(gè)差異化輸入同時(shí)輸入模型,利用GPU的并行計(jì)算能力,一次性完成P路前向傳播,生成P個(gè)輸出流。
  • 效率優(yōu)勢(shì):通過批量矩陣運(yùn)算實(shí)現(xiàn)P路并行,計(jì)算效率隨P線性增長(zhǎng),共享模型主體參數(shù),僅增加前綴嵌入等少量可訓(xùn)練參數(shù)。

3、輸出層:動(dòng)態(tài)加權(quán)聚合

通過多層感知機(jī)(MLP)動(dòng)態(tài)計(jì)算各路徑輸出的聚合權(quán)重,替代 CFG 的固定權(quán)重機(jī)制:若某路徑輸出與當(dāng)前輸入語(yǔ)義匹配度高,MLP 會(huì)為其分配更高權(quán)重。

PARSCALE更高效

PARSCALE vs. 參數(shù)擴(kuò)展

當(dāng)P=8時(shí),1.6B參數(shù)模型在HumanEval的性能(Pass@1=39.1%)接近4.4B參數(shù)模型(Pass@1=45.4%),但內(nèi)存占用僅為后者的1/22,延遲增加量為1/6。



在GSM8K數(shù)學(xué)推理任務(wù)中,P=8使1.8B模型性能提升34%(相對(duì)基準(zhǔn)),顯著高于參數(shù)擴(kuò)展的增益。



兩階段訓(xùn)練策略

階段1:用傳統(tǒng)方法預(yù)訓(xùn)練模型至收斂(1Ttokens)。

階段2:凍結(jié)主體參數(shù),僅訓(xùn)練前綴嵌入和聚合權(quán)重(20Btokens,占總數(shù)據(jù)的 2%)。

P=8模型在GSM8K上提升34%,且與從頭訓(xùn)練效果相當(dāng),證明少量數(shù)據(jù)即可激活并行路徑的有效性。且該策略使訓(xùn)練成本降低約 98%



適配現(xiàn)有模型

研究團(tuán)隊(duì)在Qwen-2.5-3B模型上進(jìn)行持續(xù)預(yù)訓(xùn)練參數(shù)高效微調(diào)(PEFT),僅調(diào)整前綴和聚合權(quán)重。

結(jié)果顯示,在代碼生成任務(wù)(HumanEval+)中PEFT 方法使Pass@1提升15%,且凍結(jié)主體參數(shù)時(shí)仍有效,證明動(dòng)態(tài)調(diào)整 P 的可行性。



PARSCALE通過可學(xué)習(xí)的多路徑輸入、動(dòng)態(tài)聚合權(quán)重、全流程并行優(yōu)化,將CFG的 “雙路徑啟發(fā)” 升級(jí)為一種通用的計(jì)算縮放范式。

感興趣的朋友可到官方查看更多細(xì)節(jié)~

論文鏈接:https://arxiv.org/abs/2505.10475
代碼地址:https://github.com/QwenLM/ParScale
參考鏈接:https://x.com/iScienceLuvr/status/1923262107845525660

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
求職難!特里:幾次面試都說我沒經(jīng)驗(yàn),但我當(dāng)了22年切爾西隊(duì)長(zhǎng)

求職難!特里:幾次面試都說我沒經(jīng)驗(yàn),但我當(dāng)了22年切爾西隊(duì)長(zhǎng)

直播吧
2025-05-29 14:24:11
劉紅兵辭去廣東省副省長(zhǎng)職務(wù) 已任湖南省委常委、宣傳部部長(zhǎng)

劉紅兵辭去廣東省副省長(zhǎng)職務(wù) 已任湖南省委常委、宣傳部部長(zhǎng)

環(huán)球網(wǎng)資訊
2025-05-28 21:04:21
酸了!船記:若小卡當(dāng)年沒要求引進(jìn)喬治 沒送走SGA 球隊(duì)能多棒?

酸了!船記:若小卡當(dāng)年沒要求引進(jìn)喬治 沒送走SGA 球隊(duì)能多棒?

直播吧
2025-05-29 14:47:16
學(xué)員母親控訴孫繼海!博主:女子本弱,為母則剛 你們?nèi)绦墓炙?>
    </a>
        <h3>
      <a href=風(fēng)過鄉(xiāng)
2025-05-29 21:19:14
出差住亞朵,已經(jīng)成了職場(chǎng)潛規(guī)則

出差住亞朵,已經(jīng)成了職場(chǎng)潛規(guī)則

B面人物
2025-05-14 12:38:58
新版《哈利·波特》三人組官宣!國(guó)外網(wǎng)友沖爆官方:小演員們選得好,但我們不要黑人版斯內(nèi)普教授!

新版《哈利·波特》三人組官宣!國(guó)外網(wǎng)友沖爆官方:小演員們選得好,但我們不要黑人版斯內(nèi)普教授!

英國(guó)報(bào)姐
2025-05-28 21:11:03
印度偷送中國(guó)導(dǎo)彈殘骸給日本!專家拆開后傻眼:中國(guó)早埋了雷

印度偷送中國(guó)導(dǎo)彈殘骸給日本!專家拆開后傻眼:中國(guó)早埋了雷

起喜電影
2025-05-29 09:15:17
550萬在美華人數(shù)據(jù)全公開,88%中國(guó)籍博士留在美國(guó)!

550萬在美華人數(shù)據(jù)全公開,88%中國(guó)籍博士留在美國(guó)!

霹靂炮
2025-05-29 23:14:55
周琦談教練處理與球員關(guān)系:就是怕那種半吊子,完了還想當(dāng)祖師爺

周琦談教練處理與球員關(guān)系:就是怕那種半吊子,完了還想當(dāng)祖師爺

懂球帝
2025-05-29 14:26:33
河南太康一學(xué)校發(fā)生弒師案,全網(wǎng)沉默無人悼念

河南太康一學(xué)校發(fā)生弒師案,全網(wǎng)沉默無人悼念

城內(nèi)事城外說
2025-05-29 20:13:11
美國(guó)對(duì)中國(guó)留學(xué)生下手,27萬留美學(xué)生一夜之間……

美國(guó)對(duì)中國(guó)留學(xué)生下手,27萬留美學(xué)生一夜之間……

販財(cái)局
2025-05-29 14:55:12
向佐發(fā)文感謝妻子郭碧婷,曬兩孩子溫馨照片:我是多么幸運(yùn)的一個(gè)老公

向佐發(fā)文感謝妻子郭碧婷,曬兩孩子溫馨照片:我是多么幸運(yùn)的一個(gè)老公

魯中晨報(bào)
2025-05-29 14:29:18
難怪蔡依林彭于晏復(fù)合6年都沒被曝光,因?yàn)樗麄円娒娴牡攸c(diǎn)很隱蔽

難怪蔡依林彭于晏復(fù)合6年都沒被曝光,因?yàn)樗麄円娒娴牡攸c(diǎn)很隱蔽

跳跳歷史
2025-05-29 10:59:01
河南省十四屆人大常委會(huì)第十七次會(huì)議任免名單

河南省十四屆人大常委會(huì)第十七次會(huì)議任免名單

鄭州新聞廣播
2025-05-29 20:14:54
300204,8天翻倍!600358,重大資產(chǎn)重組,近百萬手封死漲停

300204,8天翻倍!600358,重大資產(chǎn)重組,近百萬手封死漲停

數(shù)據(jù)寶
2025-05-29 12:47:25
拼多多吃不到國(guó)補(bǔ),凈利潤(rùn)大跌45%

拼多多吃不到國(guó)補(bǔ),凈利潤(rùn)大跌45%

科技每日推送
2025-05-29 15:51:42
家中的床不可空置?觀音菩薩說:無人睡時(shí),也要擺放這3樣物品

家中的床不可空置?觀音菩薩說:無人睡時(shí),也要擺放這3樣物品

風(fēng)起青萍之未
2025-05-27 17:23:24
田徑亞錦賽:中國(guó)男子4×400米接力創(chuàng)賽季最佳成績(jī)晉級(jí)決賽

田徑亞錦賽:中國(guó)男子4×400米接力創(chuàng)賽季最佳成績(jī)晉級(jí)決賽

懂球帝
2025-05-29 14:04:20
男女在海底撈做不雅之事,手直接探進(jìn)女生裙子里,大尺度畫面流出

男女在海底撈做不雅之事,手直接探進(jìn)女生裙子里,大尺度畫面流出

博士觀察
2025-05-29 12:31:58
我親戚小孩在張繼科的培訓(xùn)班學(xué)習(xí)過,他說張和網(wǎng)絡(luò)上一點(diǎn)也不一樣

我親戚小孩在張繼科的培訓(xùn)班學(xué)習(xí)過,他說張和網(wǎng)絡(luò)上一點(diǎn)也不一樣

無處不風(fēng)景l(fā)ove
2025-05-28 17:52:59
2025-05-30 01:16:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10589文章數(shù) 176156關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)財(cái)報(bào)炸裂 黃仁勛卻嘆退出中國(guó)太可惜

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應(yīng)

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應(yīng)

體育要聞

納達(dá)爾,法網(wǎng),漫長(zhǎng)告別

娛樂要聞

辛柏青沉默8天后,這些事還是發(fā)生了

財(cái)經(jīng)要聞

若對(duì)等關(guān)稅叫停,特朗普還能怎么加關(guān)稅

汽車要聞

首搭鴻蒙座艙5 嵐圖FREE+將于6月預(yù)售

態(tài)度原創(chuàng)

教育
游戲
親子
數(shù)碼
軍事航空

教育要聞

除了老師的這種方法,你還能想到其他的么?

死亡擱淺2暫無DLC計(jì)劃 小島:現(xiàn)在已經(jīng)不流行了吧

親子要聞

這4大網(wǎng)紅玩具,一個(gè)都別給孩子買!

數(shù)碼要聞

英偉達(dá)原生 GeForce NOW 應(yīng)用登陸 Steam Deck

軍事要聞

以軍承認(rèn)使用激光武器攔截?zé)o人機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 南京市| 和林格尔县| 墨竹工卡县| 合水县| 台南市| 福海县| 茌平县| 盐源县| 连南| 略阳县| 北安市| 辰溪县| 民权县| 都江堰市| 葫芦岛市| 武宣县| 循化| 长丰县| 望江县| 宁河县| 西畴县| 科技| 嘉峪关市| 通州区| 中方县| 张北县| 改则县| 章丘市| 孟州市| 屯留县| 永春县| 贵州省| 井陉县| 宝清县| 玉林市| 南昌县| 建昌县| 蓬溪县| 古丈县| 兰州市| 东乡县|