99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

研究人員提出AI模型無(wú)損壓縮框架,壓縮率達(dá)70%

0
分享至

大模型被壓縮 30% 性能仍與原模型一致,既能兼容 GPU 推理、又能減少內(nèi)存和 GPU 開(kāi)銷(xiāo)、并且比英偉達(dá)nvCOMP 解壓縮快 15 倍。

這便是美國(guó)萊斯大學(xué)博士生張?zhí)煲缓秃献髡叽蛟斓臒o(wú)損壓縮框架 DFloat11 所擁有的“本領(lǐng)”。


圖|張?zhí)煲唬▉?lái)源:https://github.com/tonyzhang617)

研究中,他們針對(duì)包括 Llama-3.1、Qwen-2.5 和 Gemma-3 在內(nèi)的最新模型進(jìn)行了實(shí)驗(yàn),借此證明 DFloat11 在保持逐位精確輸出的同時(shí),可以將模型大小減少約 30%。

與那些將未壓縮模型的部分卸載到 CPU 以便滿足內(nèi)存限制的替代方案相比,DFloat11 在 token 生成方面的吞吐量提高了 1.9 倍至 38.8 倍。

在 GPU 內(nèi)存預(yù)算固定的情況下,DFloat11 的上下文長(zhǎng)度比未壓縮模型長(zhǎng)出 5.3 倍至 13.17 倍。

這讓本次方法能在配備 8 個(gè) 80GB GPU 的單個(gè)節(jié)點(diǎn)上,實(shí)現(xiàn) 810GB Llama-3.1-405B 模型的無(wú)損推理。

這表明,基于 DFloat11 的壓縮技術(shù)顯著降低了大語(yǔ)言模型的硬件需求,同時(shí)在大多數(shù)實(shí)際用例中僅引入了合理的處理開(kāi)銷(xiāo)。

這意味著,本次方案能將任何 BFloat16 模型壓縮至其原始大小的約 70%,在提供與原始模型 100% 相同的性能的同時(shí),還能帶來(lái)諸多吞吐量?jī)?yōu)勢(shì),非常適用于 GPU 資源受限的部署環(huán)境。目前,研究人員已將相關(guān)代碼和模型放在 GitHub(https://github.com/LeanModels/DFloat11)。



DFloat11 解壓內(nèi)核的三個(gè)核心組件

據(jù)了解,為了在 GPU 上實(shí)現(xiàn)基于熵編碼權(quán)重的有效推理,研究團(tuán)隊(duì)引入了 DFloat 這種新型數(shù)據(jù)表示方法,并打造出一個(gè) GPU 內(nèi)核,該內(nèi)核旨在以大規(guī)模并行的方式針對(duì) DFloat11 權(quán)重進(jìn)行快速的在線解壓縮。

DFloat11 解壓內(nèi)核由三個(gè)核心組件組成:

? 利用存儲(chǔ)在 GPU 共享內(nèi)存中的緊湊查找表(LUT,lookup tables)針對(duì)熵編碼權(quán)重進(jìn)行高效解碼。用于解碼 32 位霍夫曼碼的單個(gè)單片查找表,大約需要 42.9 億個(gè)條目,這使得其內(nèi)存占用過(guò)高。為了緩解這一問(wèn)題,研究團(tuán)隊(duì)將其分解為多個(gè)可放入 GPU 共享內(nèi)存中的緊湊查找表,以便實(shí)現(xiàn)快速的訪問(wèn)。

? 精確高效地識(shí)別編碼權(quán)重中的“讀取”位置,以及解碼權(quán)重中的“寫(xiě)入”位置。由于經(jīng)過(guò)熵編碼的權(quán)重具有可變位寬、且緊密排列的特性,因此為每個(gè)線程確定正確的讀取/寫(xiě)入偏移量頗具挑戰(zhàn)。為此,研究團(tuán)隊(duì)通過(guò)兩階段內(nèi)核設(shè)計(jì)方案來(lái)解決這一問(wèn)題,即使用最少的輔助變量,來(lái)高效協(xié)調(diào)線程特定的輸入和輸出位置。

? 通過(guò)批量執(zhí)行矩陣解壓縮的方法,來(lái)提高 GPU 資源利用率。由于單個(gè)權(quán)重矩陣的尺寸相對(duì)較小,對(duì)其進(jìn)行單獨(dú)解壓縮會(huì)導(dǎo)致 GPU 利用率低下。為了解決這一問(wèn)題,研究團(tuán)隊(duì)在 Transformer 塊級(jí)別針對(duì)權(quán)重進(jìn)行解壓縮,不僅提高了吞吐量還降低了推理延遲。

研究人員表示,DFloat 是目前唯一一種既能減少內(nèi)存占用,又能與高效 GPU 推理兼容的數(shù)據(jù)格式。

通過(guò)應(yīng)用熵編碼,DFloat11 可以將頻率視為權(quán)重,從而分配動(dòng)態(tài)長(zhǎng)度編碼,借此實(shí)現(xiàn)接近信息最優(yōu)的壓縮,并且不會(huì)損失任何精度。



基于多款主流大模型開(kāi)展實(shí)驗(yàn)驗(yàn)證

研究中,課題組以實(shí)證方式評(píng)估了 DFloat11 壓縮的有效性及其在 GPU 上的推理效率。

他們將多款最新大語(yǔ)言模型從其原始的 BFloat16 表示形式壓縮為 DFloat 格式,并展示了相應(yīng)的壓縮因子。

然后,將運(yùn)行在不同 GPU 上的 DFloat11 壓縮模型的推理性能,與未壓縮模型的推理性能進(jìn)行比較。

同時(shí),他們進(jìn)行了一項(xiàng)消融研究,以便分析壓縮的影響。

研究團(tuán)隊(duì)在 CUDA 和 C++ 中實(shí)現(xiàn)了 DFloat11 解壓內(nèi)核,并將其集成到 Transformers 推理框架中,進(jìn)而評(píng)估了無(wú)損壓縮模型與未壓縮模型在推理效率上的對(duì)比結(jié)果。

對(duì)于未壓縮的基線模型,其使用 Hugging Face Accelerate 框架來(lái)支持 CPU 卸載和多 GPU 推理。

為了評(píng)估 DFloat11 內(nèi)核在不同硬件配置下的性能,研究團(tuán)隊(duì)在多臺(tái)配備不同 GPU 和 CPU 配置的機(jī)器上進(jìn)行了實(shí)驗(yàn)。


(來(lái)源:arXiv)

研究團(tuán)隊(duì)針對(duì)所有線性投影層都進(jìn)行了壓縮處理,將其參數(shù)格式從 BF16 轉(zhuǎn)換為 DFloat11。

所壓縮的模型包括 LLaMA 3/3.1/3.3、Qwen 2.5、QwQ、Mistral Nemo/Small/Codestral、Gemma 2/3 以及 DeepSeek R1 Distilled。

結(jié)果發(fā)現(xiàn),DFloat11 在所有模型中實(shí)現(xiàn)了約 70% 的壓縮率,相當(dāng)于有效位寬約為 11 位。

通過(guò)在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上進(jìn)行準(zhǔn)確率評(píng)估和困惑度評(píng)估,研究團(tuán)隊(duì)驗(yàn)證了 DFloat11 壓縮的無(wú)損特性。

其使用 lm_evaluation_harness 工具完成了本次評(píng)估,并展示了在大規(guī)模多任務(wù)語(yǔ)言理解基準(zhǔn)(MMLU)和 TruthfulQA 上的準(zhǔn)確率,以及在維基文本(WikiText)和 C4 數(shù)據(jù)集上的詞級(jí)困惑度。

結(jié)果如下表所示,壓縮后的模型與其原始的 BF16 版本,它們?cè)跍?zhǔn)確率和困惑度上保持一致。


(來(lái)源:arXiv)

為了進(jìn)一步驗(yàn)證無(wú)損特性,研究團(tuán)隊(duì)將 DFloat11 解壓縮后的 BF16 權(quán)重矩陣與每個(gè)模型的原始矩陣進(jìn)行了比較,確認(rèn)了它們?cè)诒忍丶?jí)上的完全等效性。

具體來(lái)說(shuō),其比較了 DFloat11 和 BF16 模型在不同硬件平臺(tái)上的推理效率。

評(píng)估結(jié)果顯示,未壓縮的 BF16 模型超出了單個(gè) GPU 的內(nèi)存限制,而無(wú)損壓縮的 DFloat11 模型則符合這些限制。

對(duì)于 BF16 模型,研究團(tuán)隊(duì)保留了 GPU 中的大部分模型和計(jì)算,同時(shí)將一些組件及其相關(guān)計(jì)算卸載到 CPU 上。

為了測(cè)量延遲和吞吐量,他們首先通過(guò)處理100 個(gè) token 來(lái)進(jìn)行預(yù)熱運(yùn)行。

在實(shí)際評(píng)估中,研究團(tuán)隊(duì)從空提示(empty prompt)開(kāi)始解碼了 100 個(gè) token,并使用了不同的批大小(patch size),每種配置分別運(yùn)行五次。


圖|不同模型、GPU 和批量大小情況下的結(jié)果(來(lái)源:arXiv)

如上圖所示,在 CPU 卸載的情況下,DFloat11 模型的表現(xiàn)始終優(yōu)于 BF16 模型,其延遲降低了 1.85 至 38.83 倍。

為了比較使用多個(gè) GPU 的情況,研究人員還展示了在單個(gè) GPU 上運(yùn)行的 DFloat11 模型與在兩個(gè) GPU 上運(yùn)行的 BF16 模型的性能對(duì)比。

結(jié)果顯示,DFloat11 壓縮所帶來(lái)的內(nèi)存節(jié)省,不僅減少了推理所需的 GPU 數(shù)量,還能實(shí)現(xiàn)更長(zhǎng)的文本生成長(zhǎng)度。

在推理過(guò)程中,隨著解碼 token 數(shù)量的增加,鍵值緩存也會(huì)出現(xiàn)線性增長(zhǎng),進(jìn)而會(huì)迅速成為 GPU 內(nèi)存的瓶頸。

如下圖,研究團(tuán)隊(duì)展示了在批大小為 1 的情況下,隨著解碼 token 數(shù)量的增加,DFloat11 和 BF16 模型在推理過(guò)程中的 GPU 內(nèi)存消耗情況。


(來(lái)源:arXiv)

與 BF16 模型相比,DFloat11 壓縮顯著延長(zhǎng)了 token 生成長(zhǎng)度,使得在達(dá)到 GPU 內(nèi)存限制之前,將可解碼的 token 數(shù)量增加了 5.33 至 13.17 倍。

與此同時(shí),研究團(tuán)隊(duì)在單個(gè)英偉達(dá) A100-40GB GPU 上,使用不同的 token 批大小,比較了 BF16 和 DFloat11 格式下 Llama-3.1-8B-Instruct 的延遲分解。

對(duì)于每種配置,他們都在 10 次運(yùn)行中測(cè)量前向傳遞過(guò)程中每個(gè)組件的延遲,并在下圖中報(bào)告了平均值。


(來(lái)源:arXiv)

與原始模型相比,由于 Transformer 塊的解壓和語(yǔ)言建模頭(Language Modeling Head)的存在,DFloat11 壓縮版本引入了額外的延遲。

這種解壓操作會(huì)增加一個(gè)固定的開(kāi)銷(xiāo),但是這一開(kāi)銷(xiāo)與 token 批大小無(wú)關(guān)。

因此,增加批大小可以分?jǐn)偨鈮撼杀荆瑥亩@著縮小整體推理時(shí)間的差距。

研究中,課題組還使用不同大小的權(quán)重矩陣,將 DFloat11 解壓縮內(nèi)核的延遲和吞吐量與兩個(gè)基線進(jìn)行對(duì)比:分別是 CPU 到 GPU 的傳輸,以及來(lái)自英偉達(dá) nvCOMP 庫(kù)的非對(duì)稱數(shù)字系統(tǒng)(ANS,Asymmetric Numeral System)解壓縮。

這樣做是為了對(duì)比評(píng)估以下兩種針對(duì)內(nèi)存受限推理的策略:第一種策略是將權(quán)重矩陣卸載到 CPU 內(nèi)存中,并在需要時(shí)將其傳輸?shù)?GPU;第二種策略是將壓縮后的矩陣存儲(chǔ)在 GPU 上,并在需要時(shí)進(jìn)行解壓縮。

實(shí)驗(yàn)中,研究團(tuán)隊(duì)使用 Llama-3.1-8B-Instruct 語(yǔ)言建模頭的權(quán)重矩陣,并將其分割成不同的大小,實(shí)驗(yàn)結(jié)果如下圖所示。


(來(lái)源:arXiv)

實(shí)驗(yàn)結(jié)果顯示,DFloat11 解壓縮的效率明顯高于兩條基線,其吞吐量比 CPU 到 GPU 的傳輸高出 24.87 倍,不僅延遲更低,而且比英偉達(dá) nvCOMP 解壓縮快 15.12 倍。

總的來(lái)說(shuō),研究人員提出的 DFloat11 能將大語(yǔ)言模型的 BFloat16 權(quán)重?zé)o損壓縮至約 11 位。通過(guò)利用 BFloat16 表示的信息冗余,研究團(tuán)隊(duì)在保持輸出逐位相同的同時(shí),實(shí)現(xiàn)了大約 30% 的模型尺寸縮減。

其還引入了新的算法設(shè)計(jì),從而能使 DFloat11 壓縮模型實(shí)現(xiàn)高效的 GPU 推理。通過(guò)精心地利用 GPU 內(nèi)存和計(jì)算層次結(jié)構(gòu),研究團(tuán)隊(duì)開(kāi)發(fā)了硬件感知算法,借此實(shí)現(xiàn)了 DFloat11 壓縮模型的高效在線推理。

針對(duì)主流大語(yǔ)言模型和大型推理模型的實(shí)驗(yàn)結(jié)果表明,本次方法在不改變輸出的情況下,始終能實(shí)現(xiàn)約 30% 的壓縮率。對(duì)于當(dāng)前比較缺少高端 GPU 的國(guó)內(nèi)研發(fā)環(huán)境來(lái)說(shuō),這一成果或能為大家?guī)?lái)一定啟發(fā)。

參考資料:

https://openreview.net/profile?id=~Tianyi_Zhang6

https://github.com/tonyzhang617

https://arxiv.org/pdf/2504.11651

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國(guó)983萬(wàn)平方公里領(lǐng)土,政府擁有28%,私人占有60%

美國(guó)983萬(wàn)平方公里領(lǐng)土,政府擁有28%,私人占有60%

高博新視野
2025-05-05 06:01:17
林志玲天使隕落:51歲回娘家撈金畏畏縮縮 明顯“日本化了”

林志玲天使隕落:51歲回娘家撈金畏畏縮縮 明顯“日本化了”

明月聊史
2025-05-03 22:40:06
BBC真人秀來(lái)中國(guó)拍攝引熱議!情侶選手三蹦子車(chē)后接吻,母子選手滯留了36個(gè)小時(shí)才出北京...

BBC真人秀來(lái)中國(guó)拍攝引熱議!情侶選手三蹦子車(chē)后接吻,母子選手滯留了36個(gè)小時(shí)才出北京...

北美省錢(qián)快報(bào)
2025-05-06 02:59:26
清爽的職業(yè)穿搭

清爽的職業(yè)穿搭

美女穿搭分享
2025-05-02 13:37:52
洋妹子體味都很大嗎?網(wǎng)友:她的頭發(fā)非常好聞,沒(méi)有任何體味!

洋妹子體味都很大嗎?網(wǎng)友:她的頭發(fā)非常好聞,沒(méi)有任何體味!

特約前排觀眾
2025-04-29 00:05:18
又反轉(zhuǎn)?曝65歲安帥與皇馬達(dá)離任協(xié)議!簽約巴西隊(duì)1年 或周日宣布

又反轉(zhuǎn)?曝65歲安帥與皇馬達(dá)離任協(xié)議!簽約巴西隊(duì)1年 或周日宣布

我愛(ài)英超
2025-05-05 23:13:09
勇士和森林狼誰(shuí)能晉級(jí)?蘇群的答案和帕金斯是一致的

勇士和森林狼誰(shuí)能晉級(jí)?蘇群的答案和帕金斯是一致的

趙仔說(shuō)
2025-05-05 19:59:57
科貝:皇馬將同利物浦進(jìn)行談判,盼阿諾德盡早加盟征戰(zhàn)世俱杯

科貝:皇馬將同利物浦進(jìn)行談判,盼阿諾德盡早加盟征戰(zhàn)世俱杯

雷速體育
2025-05-06 08:04:48
不能化妝打球,李夢(mèng)退出女籃?亮相云南,主動(dòng)官宣,張隆力挺

不能化妝打球,李夢(mèng)退出女籃?亮相云南,主動(dòng)官宣,張隆力挺

體育有點(diǎn)水
2025-05-05 13:13:02
什么是頂級(jí)思維?看完網(wǎng)友評(píng)論讓我大開(kāi)眼界

什么是頂級(jí)思維?看完網(wǎng)友評(píng)論讓我大開(kāi)眼界

有趣的火烈鳥(niǎo)
2024-11-15 23:37:28
網(wǎng)友:獨(dú)生女的苦!爸媽接連走了,留下106萬(wàn),41歲未婚該咋辦?

網(wǎng)友:獨(dú)生女的苦!爸媽接連走了,留下106萬(wàn),41歲未婚該咋辦?

火山詩(shī)話
2025-04-16 10:38:06
就在今天!5月5號(hào)早上跳水夢(mèng)之隊(duì),傳來(lái)全紅嬋新消息

就在今天!5月5號(hào)早上跳水夢(mèng)之隊(duì),傳來(lái)全紅嬋新消息

草莓解說(shuō)體育
2025-05-06 00:04:27
紀(jì)實(shí):榜一大哥刷20萬(wàn)獲3天陪伴,被女主播拉黑后,怒曬兩人恩愛(ài)照

紀(jì)實(shí):榜一大哥刷20萬(wàn)獲3天陪伴,被女主播拉黑后,怒曬兩人恩愛(ài)照

小椰的奶奶
2025-05-06 01:51:19
馬斯克精力太旺盛,搞大網(wǎng)紅肚子,補(bǔ)償上億

馬斯克精力太旺盛,搞大網(wǎng)紅肚子,補(bǔ)償上億

大白聊IT
2025-04-27 13:47:32
中超最新積分戰(zhàn)報(bào):天津創(chuàng)造奇跡,成都4連勝領(lǐng)跑,山東爆大冷

中超最新積分戰(zhàn)報(bào):天津創(chuàng)造奇跡,成都4連勝領(lǐng)跑,山東爆大冷

足球狗說(shuō)
2025-05-05 22:00:50
驚掉下巴!霍華德14娃爹再獵5美,知情人:行程表比賽程還滿!

驚掉下巴!霍華德14娃爹再獵5美,知情人:行程表比賽程還滿!

歐美八卦圈
2025-05-05 08:20:23
知情人士爆料國(guó)乒教練組即將調(diào)整,秦志戩將接替李隼出任總教練

知情人士爆料國(guó)乒教練組即將調(diào)整,秦志戩將接替李隼出任總教練

鳳幻洋
2025-05-05 17:36:07
老婆長(zhǎng)得像蘇妲己是啥體驗(yàn)?網(wǎng)友:毫無(wú)安全感,感覺(jué)要精神分裂

老婆長(zhǎng)得像蘇妲己是啥體驗(yàn)?網(wǎng)友:毫無(wú)安全感,感覺(jué)要精神分裂

解讀熱點(diǎn)事件
2025-03-29 00:20:03
再見(jiàn)哈登!鮑爾默攤牌!牽連三人,考慮重建,球迷:重返火箭吧

再見(jiàn)哈登!鮑爾默攤牌!牽連三人,考慮重建,球迷:重返火箭吧

阿泰希特
2025-05-05 10:11:57
氣瘋了!女子稱女兒都15歲了,還和他們擠一房間,公婆卻各占一間

氣瘋了!女子稱女兒都15歲了,還和他們擠一房間,公婆卻各占一間

火山詩(shī)話
2025-05-05 13:11:45
2025-05-06 08:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15137文章數(shù) 513625關(guān)注度
往期回顧 全部

科技要聞

這3款新 iPhone,可能會(huì)改變蘋(píng)果的未來(lái)

頭條要聞

趙心童世錦賽歷史性?shī)Z冠 曾因涉賭球丑聞被禁賽20個(gè)月

頭條要聞

趙心童世錦賽歷史性?shī)Z冠 曾因涉賭球丑聞被禁賽20個(gè)月

體育要聞

當(dāng)年的阿森納小球童,要踢歐冠決賽了

娛樂(lè)要聞

馬麗崩潰哭訴上熱搜,評(píng)論區(qū)罵聲一片

財(cái)經(jīng)要聞

人民幣暴漲近900點(diǎn)!發(fā)生了什么?

汽車(chē)要聞

小米SU7的真實(shí)續(xù)航到底有多少?

態(tài)度原創(chuàng)

游戲
家居
旅游
本地
公開(kāi)課

《巫師3》迎來(lái)發(fā)售十周年:新作至少等到2027

家居要聞

黑白紋理 簡(jiǎn)約低調(diào)空間

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

本地新聞

春色滿城關(guān)不住 | 花漾千陽(yáng)!塬上秘境藏幾重詩(shī)意?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 三门峡市| 横山县| 舟曲县| 都江堰市| 德庆县| 新邵县| 阿城市| 乌什县| 长沙县| 时尚| 东方市| 西平县| 澜沧| 香格里拉县| 怀来县| 北碚区| 故城县| 黔江区| 曲松县| 启东市| 萨迦县| 兴仁县| 丰顺县| 新化县| 赤水市| 山阳县| 剑川县| 中西区| 株洲县| 林口县| 巢湖市| 淮北市| 锦州市| 股票| 麟游县| 乌拉特中旗| 白玉县| 抚松县| 永德县| 齐河县| 临安市|