99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

最新的W4A4KV4全量化框架顯著提升了單張A100顯卡上大模型的推理速度,實現了性能的大幅提升。

0
分享至

計算所王穎研究員團隊聯合華北電力大學與上海科技大學團隊,在計算機體系結構領域頂級會議ASPLOS 2025上發布并開源了名為COMET的創新量化推理框架。該框架通過系統與算法的緊密協同,在權重(W4)、激活(A4)以及KV緩存(KV4)三個關鍵維度實現全4比特量化,打破了傳統量化性能與精度的瓶頸。在LLaMA-70B等大型模型上,僅帶來了0.32的困惑度細微增加,同時實現了端到端推理速度提升2.02倍,樹立了大模型量化推理領域的新標桿。

技術亮點包括:

  1. 1. 全面量化壓縮:將權重、激活和KV緩存全部壓縮至4比特,極大程度降低存儲與計算資源占用,且精度損失控制在極低水平。

  2. 2. 充分挖掘GPU潛能:通過創新的通道重排技術和異步流水線設計,顯著提高硬件利用率,GPU算力利用率達76%。

  3. 3. 簡易集成開源方案:用戶僅需5行代碼即可將COMET框架集成至TensorRT-LLM,實現對LLaMA-3及Qwen等大模型全系列的支持。

  4. 4. 卓越實際效果:在70億參數大型模型的長序列推理場景中,最高加速可達3.27倍,顯著降低端側設備推理運行成本約70%。

當前,全球大型模型的能耗問題日益嚴峻,例如GPT-4單次訓練耗電接近數千戶家庭的年用電量,推理過程的能效瓶頸更是不容忽視。傳統量化技術面臨明顯不足:

  • ? 權重量化(W4A16)雖壓縮權重,但激活仍采用高精度,造成GPU算力嚴重浪費;

  • ? 權重和激活雙量化(W8A8)雖然保障了精度,但加速效果受限且在長序列推理中內存需求仍居高不下。

COMET框架通過硬件與算法的深度融合,從GPU架構底層重新設計量化策略和計算核心,徹底解決了權重、激活及KV緩存量化難題,實現了全維度4比特超低精度推理的新突破,為大規模模型的節能高效推理提供了堅實技術支撐。

1. 離群點分布規律的重新認識
經過對LLaMA等主流大模型的深入研究,團隊首次發現激活中的異常值并非隨機分布,而是集中出現在大約10%的特定通道。這一發現為細粒度混合精度量化算法(FMPQ)的開發提供了重要依據。

在實際應用中,團隊設計了一種兼顧模型精度與計算效率的創新方案:首先,通過將激活張量以128通道為單位進行分塊劃分,使其與現代GPU張量核心的64×64×32計算結構高度匹配,確保量化過程與硬件執行緊密結合。針對激活中非均勻分布的異常值,算法引入動態精度調節機制,賦予異常值密集區域8比特高精度表示,而其他部分則采用4比特量化,從而在保持模型性能的同時,大幅提升計算效率。

此外,FMPQ引入了通道重排技術,通過智能置換將分散的異常值通道聚集到同一計算塊內,進一步降低對高精度計算資源的需求,實現更優的性能表現。


2. 動態調度混合精度計算

在實際應用中,結合W4A4和W4A8的混合精度運算常常導致計算負載分布不均,成為性能提升的瓶頸。為解決這一問題,團隊設計了三層異步流水線結構,旨在充分發揮GPU的計算能力,提高整體資源利用率。


整個系統架構從數據傳輸與計算的重疊優化入手,采用雙緩沖技術,在數據預加載的同時啟動計算過程,有效隱藏了讀取延遲,保證張量核心持續高效運行。團隊創新性地打破了傳統將一個計算任務固定分配給單個流式多處理器(SM)的模式,設計了更靈活的SM協同機制,使得閑置的計算單元能夠動態接管鄰近的任務,大幅度降低了局部計算資源的浪費。

此外,COMET框架在任務調度方面也實現了細致的優化。系統根據實時計算負載,動態調整INT4和INT8任務的分配比例,從而將不同SM之間的負載差異控制在5%以內,幾乎實現了均衡的算力分配。這些設計共同提升了整體的計算效率和資源利用率。


3. 極致挖掘硬件指令集潛能

在4比特量化領域,真正的難點不在于量化算法本身,而是數據格式轉換的效率限制。傳統做法通常需要執行多達10條指令才能完成一次4比特到8比特的轉換,極大地影響了部署性能。針對這一瓶頸,研究團隊從硬件指令集入手,深度挖掘GPU的底層能力,通過重構數據存儲格式和指令執行流程,將轉換操作精簡至僅需兩條指令完成。

這一簡化方案依賴兩大關鍵創新:首先,團隊充分利用GPU的PTX指令特性,實現了同時從16位數據塊中提取4個4比特數值,顯著提升了解包速度;其次,采用了“零擴展”替代常用的“符號擴展”技術,結合縮放參數的補償機制,保證了整體精度穩定不受影響。憑借此設計,轉換效率較傳統方法提升了約5倍。


在4比特極限壓縮的背景下,COMET框架通過細粒度混合精度量化,有效降低了量化對模型精度的影響。實際測試數據顯示,LLaMA-7B模型在WikiText2數據集上的困惑度僅由5.68略微上升至5.95,誤差保持在5%以內,展現出較強的穩定性。更為突出的是,針對LLaMA-3-70B等大型模型,困惑度的提升被嚴格控制在0.36以內,精度表現較傳統方案提升了三倍以上。同時,COMET還創新性地將KV緩存壓縮至4比特,顯著減少了長序列任務中的內存需求,降低幅度達75%,且精度損失控制在極低的0.05左右,基本可忽略不計。整體來看,COMET的精度已接近FP16浮點基準,明顯優于常見的W4A4及W8A8量化方法。


在性能方面,COMET同樣實現了顯著突破。以A100 GPU為例,經過深度優化的COMET-W4Ax計算內核在適配LLaMA、Mistral、Qwen等主流模型時,其運行速度是cuBLAS內核的2.75到2.97倍。更為關鍵的是,這個性能提升不僅體現在單次計算內核中,也得以在端到端推理流程中保持。在處理長序列任務(如1024個token輸入)時,整體吞吐量提升達到了3.27倍;即使在較短序列(128個token)條件下,依然能實現1.63倍的加速。得益于異步流水線和動態調度技術的應用,GPU中流式多處理器(SM)的利用效率由原先的45%提升到了76%,有效挖掘了硬件的計算潛能。




COMET-W4Ax的內核和接口現已公開開源,開發者只需簡單幾行代碼便能將其無縫集成到TensorRT-LLM框架中,實現從模型壓縮到推理加速的全流程支持,極大推動大規模模型的普及與廣泛應用。
相關論文《COMET: Towards Practical W4A4KV4 LLMs Serving》已正式發布,可通過鏈接 https://dl.acm.org/doi/pdf/10.1145/3676641.3716252 獲取全文。論文中詳細闡述了研究工作,并附帶完整的開源代碼,歡迎大家下載閱讀并發表意見交流。

我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,讓AI助力您的未來發展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
提前出局!可怕的不是國足0-1印尼,而是世界杯擴軍48隊仍進不去

提前出局!可怕的不是國足0-1印尼,而是世界杯擴軍48隊仍進不去

侃球熊弟
2025-06-05 23:48:06
花旗銀行大規模裁員,最高N+6,賠償太逆天!

花旗銀行大規模裁員,最高N+6,賠償太逆天!

大廠青年
2025-06-05 13:31:55
伊萬下課在即!媒體人熱議:沖擊2030要找好主帥,郝偉自毀前程

伊萬下課在即!媒體人熱議:沖擊2030要找好主帥,郝偉自毀前程

奧拜爾
2025-06-06 00:40:19
中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追咎!

中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追咎!

漣漪讀史
2025-06-04 09:00:16
巨額虧損4.7萬億,全國地鐵大暴雷背后的秘密

巨額虧損4.7萬億,全國地鐵大暴雷背后的秘密

楓冷慕詩
2025-06-05 18:38:46
凌晨有了結果!14票贊成,被美國一票否決!中方代表:美國再次濫用否決權,必須面對拷問

凌晨有了結果!14票贊成,被美國一票否決!中方代表:美國再次濫用否決權,必須面對拷問

魯中晨報
2025-06-05 08:26:06
人社部:7月31日前,勞務派遣全面整頓,派遣公司將面臨大清洗

人社部:7月31日前,勞務派遣全面整頓,派遣公司將面臨大清洗

娛樂看阿敞
2025-06-05 13:43:49
71歲伊萬即將下課!倒計時5天+中國足協無需支付違約金 坑慘國足

71歲伊萬即將下課!倒計時5天+中國足協無需支付違約金 坑慘國足

念洲
2025-06-05 23:48:06
國家衛健委發布會回應:無償獻血對身體沒有損害

國家衛健委發布會回應:無償獻血對身體沒有損害

封面新聞
2025-06-05 18:58:23
庫克尷尬了,蘋果坐了四年“全球賺錢第一”寶座后,跌至第2名了

庫克尷尬了,蘋果坐了四年“全球賺錢第一”寶座后,跌至第2名了

互聯網.亂侃秀
2025-06-05 16:19:16
巴西遭遇61年來最慘敗,世界杯資格危在旦夕!

巴西遭遇61年來最慘敗,世界杯資格危在旦夕!

阿恒侃大山
2025-06-05 09:47:17
0-1印尼!國足無緣美加墨創68年恥辱記錄,楊澤翔遭網爆:沒腦子

0-1印尼!國足無緣美加墨創68年恥辱記錄,楊澤翔遭網爆:沒腦子

后仰大風車
2025-06-05 23:58:31
浙江醫師:三亞身亡女孩不可能被銀環蛇咬傷

浙江醫師:三亞身亡女孩不可能被銀環蛇咬傷

逍遙史記
2025-06-05 09:35:10
體制內嚴打喝酒,什么信號?

體制內嚴打喝酒,什么信號?

樓市黃大大
2025-06-05 21:40:53
三位港獨藝人妄圖內地撈金,遭遇滑鐵盧!演唱會取消,全面遭抵制

三位港獨藝人妄圖內地撈金,遭遇滑鐵盧!演唱會取消,全面遭抵制

泠泠說史
2025-06-05 15:58:14
大風追蹤 | 浙江溫嶺23歲失聯女孩疑找到,警方稱需DNA鑒定才能確定

大風追蹤 | 浙江溫嶺23歲失聯女孩疑找到,警方稱需DNA鑒定才能確定

大風新聞
2025-06-05 15:00:13
女子被蛇咬去世后續:責任不在醫院,錯失4次活命機會,男友表態

女子被蛇咬去世后續:責任不在醫院,錯失4次活命機會,男友表態

凡知
2025-06-04 18:40:43
足協最擔心的事終于要發生了,廣東也要辦省內聯賽

足協最擔心的事終于要發生了,廣東也要辦省內聯賽

史行途
2025-06-05 14:59:10
特朗普最新回應稱,普京打來投訴電話,還暗示將會炸翻整個烏克蘭

特朗普最新回應稱,普京打來投訴電話,還暗示將會炸翻整個烏克蘭

碳基生物關懷組織
2025-06-05 18:27:12
中美使館一起發出預警!英國上校:俄軍將核爆四大目標逼烏軍投降

中美使館一起發出預警!英國上校:俄軍將核爆四大目標逼烏軍投降

南宗歷史
2025-06-05 16:19:50
2025-06-06 02:08:49
moonfdd incentive-icons
moonfdd
福大大架構師每日一題
840文章數 31關注度
往期回顧 全部

科技要聞

對話盛景網聯彭志強:跳出SaaS虧損黑洞!從“賣工具”到“賣結果”的AI RaaS轉型法則

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

陳赫宴請好友,李乃文攜妻子罕見亮相

財經要聞

習近平同美國總統特朗普通電話

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

親子
旅游
藝術
本地
公開課

親子要聞

保護孩子防侵犯,寶媽首先要改掉刻板印象!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 石林| 景德镇市| 蒲城县| 桐柏县| 黔东| 合作市| 汶川县| 五寨县| 新竹县| 荣成市| 华坪县| 紫云| 海原县| 右玉县| 临沂市| 双鸭山市| 高要市| 洞头县| 惠州市| 厦门市| 安溪县| 象山县| 成武县| 赣州市| 无为县| 黑河市| 沁源县| 澜沧| 浦县| 崇阳县| 绥化市| 太白县| 田阳县| 星子县| 任丘市| 千阳县| 临海市| 平泉县| 永城市| 巴楚县| 嘉兴市|