99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

博士宿舍激情腦暴,革新了Scaling Law?Qwen和浙大聯(lián)手推出新定律,直接干掉95.5%推理內(nèi)存!

0
分享至


整理 | 華衛(wèi)

近日,阿里巴巴的研究團隊與浙江大學合作提出了一種新的 Scaling Law:并行計算縮放定律(Parallel Scaling Law,簡稱 ParScale),即在訓練和推理期間增加模型的并行計算,可以在不增加模型參數(shù)的情況下提升大模型的能力,且推理效率更高。

與實現(xiàn)相同性能提升的參數(shù)縮放相比,ParScale 帶來的內(nèi)存增加量是前者的4.5%(1/22) ,延遲增加量是前者的16.7% (1/6)。它還可以通過在少量 token 上進行后訓練,將現(xiàn)成的預訓練模型轉(zhuǎn)換為并行縮放模型,進一步降低訓練成本。

“我們發(fā)現(xiàn)的新縮放定律有可能促進更強大的模型在低資源場景中的部署,并為計算在機器學習中的作用提供了另一種視角。”研究人員表示,ParScale 通過重用現(xiàn)有參數(shù)來擴展并行計算,可以應用于任何模型結構、優(yōu)化過程、數(shù)據(jù)或任務。

目前,這一研究進展已在 GitHub 上開源代碼,在 HuggingFace 的 Space 上就可以直接體驗,相關論文《Parallel Scaling Law for Language Models》也在 arXiv 上發(fā)表。


開源地址:
https://github.com/QwenLM/ParScale?tab=readme-ov-file

體驗鏈接:
https://huggingface.co/ParScale

ParScale 怎么實現(xiàn)?

提升大語言模型(LLM)的智能水平,通常有兩條主流的 Scaling Law 路線。一是擴展參數(shù),用更多模型參數(shù)來更細致地學習,這種方法非常吃顯存;二是擴展推理思考的時間,增大思維鏈長度,這種方法非常吃時間且依賴于訓練數(shù)據(jù)、訓練策略(RL),只適用于部分場景。


主流 LLM Scaling 策略的比較

不同于這兩種傳統(tǒng) Scaling 方法,ParScale 是通過在訓練和推理階段引入多個并行流(parallel streams) ,將一個輸入轉(zhuǎn)換成多個輸入,然后對它們進行前向傳播,最后將結果合并為一個輸出。


該成果論文的第一作者 Mouxiang Chen 在知乎平臺公開介紹,他們的核心想法就是:在參數(shù)量不變的情況下,同時拉大訓練和推理并行計算量。

據(jù)悉,Mouxiang Chen 目前在浙江大學讀博士,拓展并行計算量的思路始于他在宿舍時和舍友學習 diffusion 模型的一次經(jīng)歷,他們對于 diffusion model 必用的一個 trick 百思不得其解:Classifier-Free Guidance(CFG)。

CFG 在推理階段拿到輸入 x 時,首先做一次正常的 forward 得到 f(x);然后再對 x 進行主動的劣化(比如去除條件)變?yōu)?x',再進行一次 forward 得到 f(x')。最終的輸出 g(x) 是 f(x) 和 f(x') 的一個加權組合,它的效果比 f(x) 更好,更能遵循輸入的條件。這個現(xiàn)象事實上有點反直覺:f(x) 和訓練階段是對齊的,而 g(x) 明顯和訓練階段的目標存在 gap。按照常識,只有訓練目標和推理目標形式相同,推理才能發(fā)揮最大效果。另外,f(x) 的參數(shù)量和 g(x) 也是相同的,輸入的有效信息量也相同,為什么 f(x) 反而學不到 g(x) 的能力?這說明背后或許存在更深層次的原因。

受到這一啟發(fā),Mouxiang Chen 做出一個大膽的猜想:Classifier-Free Guidance(CFG)在推理階段生效的原因,本質(zhì)上是用了雙倍的并行計算量,它拉大了模型本身的 capacity。

具體到 ParScale 上,其實現(xiàn)包括以下三步:

  • 輸入多樣化變換 :使用"前綴微調(diào)"(Prefix Tuning)技術,給每個輸入添加 P 個不同的可學習前綴,使模型能從多個視角理解和處理同一任務;

  • 并行處理 :將這些輸入送入模型的不同路徑中并行處理;

  • 動態(tài)聚合輸出 :采用動態(tài)加權平均方法,使用可學習的權重對各路徑輸出進行加權融合,利用 MLP 將來自多個流的輸出轉(zhuǎn)換為聚合權重,得到最終結果。

通俗來講,ParScale 的基本思想,不是讓模型對同一個問題反復回答,而是讓模型“多角度”進行回答,再通過動態(tài)加權融合回答,得出更聰明的答案。

至于 P 有沒有上限,仍然是懸而未決的問題,研究人員已將其留作未來工作。“即使有上限,它也和模型的參數(shù)有關。模型越大,直覺上提升 P 的收益應該也會越大。”Mouxiang Chen 表示。

在數(shù)學、編程等強推理任務中更強

在預訓練完成后進入后訓練階段時,研究人員采用了一種新的兩階段后訓練策略,來控制因并行流數(shù)量 P 增加而導致的訓練成本上升:

  • 第一階段使用 1T token 進行傳統(tǒng)訓練,采用固定學習率;

  • 第二階段引入 ParScale 方法,在僅 20B token 的數(shù)據(jù)上進行微調(diào),使用學習率退火策略。

簡單來說,該策略將資源密集型的訓練任務集中在第一階段,而在第二階段只需少量數(shù)據(jù)即可完成對并行擴展機制的有效適配,不僅大幅降低了總體訓練成本,同時還保留了 ParScale 的性能增益。

為證明了該策略的有效性,研究人員在多個下游基準測試中驗證了模型應用 ParScale 后的性能,包括常識、數(shù)學和編碼方面。


結果顯示,隨著并行流值數(shù)量 P 越多,模型在大多數(shù)基準測試的效果越好,且在數(shù)學、編程等需要強推理能力的任務中尤為顯著。當 P 增加到 8 時,在完全相同的訓練數(shù)據(jù)下,模型在編碼任務中提升了 4.3%,數(shù)學任務中提升了 7.3%,常識任務中提升了 2.6%;在 GSM8K 上提高了 10%,相當于原本 34% 的提升。

研究人員還在已經(jīng)訓了 18T token 的模型 Qwen-2.5 上應用了 ParScale,并在兩種設置下進行了驗證:一是持續(xù)預訓練(CPT),二是參數(shù)高效微調(diào)(PEFT)。結果顯示,即便在這樣一個已經(jīng)經(jīng)過全面訓練的模型上, ParScale 仍能帶來顯著的性能提升。這也表明動態(tài)并行縮放的可行性 —— 可以使用相同的模型權重,在不同的場合下使用不同數(shù)量的并行流,從而快速地動態(tài)調(diào)整模型能力以及推理開銷。這是目前的主流方法比較難做到的。

適用于手機、汽車和機器人等邊緣設備

許多網(wǎng)友都對這項成果表示贊賞,稱其“讓人眼前一亮”。還有人評價,“好思路,就像一層窗戶紙突然被捅開。”

“隨著人工智能的日益普及,我們認為未來的 LLM 將逐步從集中式服務器部署轉(zhuǎn)向邊緣部署,而 ParScale 可能成為適用于這些場景的一項有前景的技術。”研究人員表示。

據(jù)了解,研究人員在分析不同 batch 的推理成本發(fā)現(xiàn),ParScale 非常適合智能手機、智能汽車和機器人等資源匱乏的邊緣設備,這些設備的查詢通常很少,batch 也很小。鑒于這些環(huán)境中的內(nèi)存資源有限, ParScale 可以有效地利用小 batch 的內(nèi)存和延遲優(yōu)勢。與實現(xiàn)相同性能提升的參數(shù)擴展相比,并行擴展只會帶來前者 1/22 的內(nèi)存增加和 1/6 的延遲增加。

目前,研究人員對 ParScale 的相關研究仍然在進行中。未來,他們計劃進一步在更多的模型架構比如 MoE)以及更大的數(shù)據(jù)上進行嘗試。“ParScale 是一種計算密集型(但更高效)策略,與參數(shù)密集型的稀疏 MoE 架構形成互補。鑒于 MoE 架構對延遲友好,而 ParScale 對內(nèi)存友好,兩者結合能否生成更高效、高性能的模型值得研究。”

https://arxiv.org/pdf/2505.10475

https://www.zhihu.com/question/1907422978985169131?utm_psn=1908460136185459759

聲明:本文為 AI 前線翻譯整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。

AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯(lián)動,全覽 AI 技術前沿和行業(yè)落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態(tài)、場景應用、大模型架構創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
被前女友爆錘,“情歌王子”是“隱形海王”,還得了臟病?

被前女友爆錘,“情歌王子”是“隱形海王”,還得了臟病?

逍遙史記
2025-05-19 09:40:16
孫楊520送愛妻張豆豆紫色極氪,后備箱鮮花巨幕燈帶示愛甜度爆表

孫楊520送愛妻張豆豆紫色極氪,后備箱鮮花巨幕燈帶示愛甜度爆表

小椰的奶奶
2025-05-22 04:30:38
德外長一通電話打到北京,就臺灣問題立下保證,只求中方能夠信任

德外長一通電話打到北京,就臺灣問題立下保證,只求中方能夠信任

獵火照狼山
2025-05-21 17:48:13
芬太尼是什么,芬太尼關稅又是什么?

芬太尼是什么,芬太尼關稅又是什么?

小院之觀
2025-05-16 05:30:03
女人會這么做,已經(jīng)讓別人“搞”過很久了,你還不知道嗎?

女人會這么做,已經(jīng)讓別人“搞”過很久了,你還不知道嗎?

故衣談歷史
2025-05-12 11:18:43
淚目!朱媛媛最后露面身材干瘦 氣色差 患癌還高強度拍戲原因曝光

淚目!朱媛媛最后露面身材干瘦 氣色差 患癌還高強度拍戲原因曝光

悠閑歷史
2025-05-21 15:45:14
“荷爾蒙”旺盛的女人,一般有什么“特征”呢?

“荷爾蒙”旺盛的女人,一般有什么“特征”呢?

伊人河畔
2025-05-21 10:43:00
白敬亭、章若楠520高調(diào)秀愛,她穿他潮牌衣兩人同曬眨眼萌照甜翻

白敬亭、章若楠520高調(diào)秀愛,她穿他潮牌衣兩人同曬眨眼萌照甜翻

小邵說劇
2025-05-21 13:00:21
一張執(zhí)行令,扯下52歲董卿消失遮羞布,十年央視主持生涯功虧一簣

一張執(zhí)行令,扯下52歲董卿消失遮羞布,十年央視主持生涯功虧一簣

簡讀視覺
2025-04-24 15:10:03
張本智和球拍開膠!和王楚欽一樣,同一裁判,對手都是雨果!

張本智和球拍開膠!和王楚欽一樣,同一裁判,對手都是雨果!

振華觀史
2025-05-21 09:55:22
教宗在圣伯多祿廣場主持首次公開接見:“我向講中文的人們致以誠摯的問候”

教宗在圣伯多祿廣場主持首次公開接見:“我向講中文的人們致以誠摯的問候”

意訊
2025-05-21 22:58:33
43歲保姆跟64歲大爺搭伙,保姆:雖然他總是折騰我,但我卻特高興

43歲保姆跟64歲大爺搭伙,保姆:雖然他總是折騰我,但我卻特高興

孢木情感
2025-04-18 20:36:04
開播四小時,評分高達9.1,終于有一部像樣的刑偵劇可以追了

開播四小時,評分高達9.1,終于有一部像樣的刑偵劇可以追了

糊咖娛樂
2025-05-20 16:38:06
網(wǎng)友曝央視前主持王寧日本換血,臉色發(fā)黑全家出動,知情人透更多

網(wǎng)友曝央視前主持王寧日本換血,臉色發(fā)黑全家出動,知情人透更多

紅色鑒史官
2025-05-20 20:40:03
媒體人:沒想到國安讓張玉寧長期替補,接下來考驗俱樂部協(xié)調(diào)能力

媒體人:沒想到國安讓張玉寧長期替補,接下來考驗俱樂部協(xié)調(diào)能力

直播吧
2025-05-21 22:47:08
俄媒:一旦戰(zhàn)爭爆發(fā)中國將被圍攻,對中國而言,最危險的不只戰(zhàn)爭

俄媒:一旦戰(zhàn)爭爆發(fā)中國將被圍攻,對中國而言,最危險的不只戰(zhàn)爭

大國紀錄
2025-03-07 11:15:20
世乒賽有趣一幕:對手不檢查王楚欽的球拍 看都不看 直接躲到一邊

世乒賽有趣一幕:對手不檢查王楚欽的球拍 看都不看 直接躲到一邊

侃球熊弟
2025-05-21 12:47:43
朱媛媛去世!辛柏青透露妻子臨終狀態(tài),相愛32年,如今痛失愛妻

朱媛媛去世!辛柏青透露妻子臨終狀態(tài),相愛32年,如今痛失愛妻

娛樂白名單
2025-05-21 19:03:40
朱媛媛離世,辛柏青換白蠟燭頭像,兒子易烊千璽走心,女兒很可憐

朱媛媛離世,辛柏青換白蠟燭頭像,兒子易烊千璽走心,女兒很可憐

草莓解說體育
2025-05-22 02:09:52
17票贊成16票反對!美國最新投票結果出來了,特朗普有3個沒想到

17票贊成16票反對!美國最新投票結果出來了,特朗普有3個沒想到

小舟談歷史
2025-05-21 17:32:35
2025-05-22 05:55:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領域技術資訊。
856文章數(shù) 80關注度
往期回顧 全部

科技要聞

網(wǎng)易直擊IO大會:Gemini接管一切 眼鏡炸場

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

體育要聞

打破三大魔咒!廣廈終于將冠軍帶回浙江

娛樂要聞

中國國家話劇院發(fā)訃告:沉痛悼念朱媛媛

財經(jīng)要聞

年虧百億、裁員自救!“AI四小龍”難了

汽車要聞

價格下調(diào) 2025聰明款ID.4 X限時13.99萬起

態(tài)度原創(chuàng)

數(shù)碼
親子
游戲
本地
軍事航空

數(shù)碼要聞

聯(lián)發(fā)科在將其高端芯片引入Windows筆記本電腦的過程中面臨障礙

親子要聞

小肚子大不是脂肪的鍋!是核心兜不住內(nèi)臟了,產(chǎn)后和久坐人群必練

《瘋狂動物城 2》公開先導預告 / 《劍星》續(xù)作計劃 2027 年之前發(fā)售

本地新聞

云游中國 |重慶人手一只熊貓?四世同堂等你打卡

軍事要聞

連損3架戰(zhàn)機 美"杜魯門"號航母撤出紅海

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 云安县| 绍兴市| 长兴县| 长治县| 乌海市| 泸定县| 平顺县| 扶沟县| 胶南市| 益阳市| 嘉义市| 鞍山市| 文水县| 建始县| 通河县| 温宿县| 大埔县| 汉寿县| 南京市| 渭源县| 遂宁市| 崇信县| 彭水| 缙云县| 济宁市| 宁津县| 蓬莱市| 桃江县| 宣武区| 宿迁市| 正镶白旗| 盈江县| 永康市| 潮州市| 酉阳| 胶南市| 商水县| 荔波县| 建湖县| 玉龙| 定州市|