99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Diffusion約2倍無損加速!訓練-推理協同的緩存學習框架來了

0
分享至

HarmoniCa團隊 投稿
量子位 | 公眾號 QbitAI

面對擴散模型推理速度慢、成本高的問題,HKUST&北航&商湯提出了全新緩存加速方案——HarmoniCa:訓練-推理協同的特征緩存加速框架,突破DiT架構在部署端的速度瓶頸,成功實現高性能無損加速。



△HarmoniCa整體壓縮框架

由于現有指標并不能完全反映圖像效果優劣,因此該團隊研究人員提供了大量可視化效果對比圖,更多對比請看原論文。



△PIXART-圖像生成效果圖

該工作已被ICML 2025接收為Poster,并開源項目代碼。



Diffusion 加速難在哪?

Diffusion Transformer(DiT)作為高分辨率圖像生成主力架構,在推理階段仍面臨「重復計算多」「耗時嚴重」的現實瓶頸。例如,使用PIXART-α生成一張2048×2048圖像即需14秒,嚴重影響落地效率。

近期「特征緩存(Feature Caching)」成為加速新思路,但已有方法普遍存在兩大關鍵問題:

前序時間步無感知:訓練階段忽略緩存歷史,推理時則高度依賴先前結果,二者邏輯斷裂;

訓練目標錯位:訓練對準中間噪聲誤差,推理關注最終圖像質量,優化方向南轅北轍;

這兩大錯配,導致已有緩存學習方法加速有限、圖像失真明顯。緩存機制的基本工作原理如下:



△緩存機制

HarmoniCa緩存學習框架

一句話總結:目標一致、路徑同步,訓練與推理真正協同優化

該工作提出的HarmoniCa框架通過兩個關鍵機制,從根本上解決了以往學習型特征緩存方法中的訓練-推理脫節問題:

一、Step-Wise Denoising Training(SDT)

逐步去噪訓練,模擬推理全流程,誤差不再層層積累。

傳統方法在訓練時僅采樣某個時間步,緩存是空的,完全跳過了“歷史緩存影響”,而推理時,緩存是從頭累積的,訓練和推理根本不是一回事。

進而該工作提出 SDT 來打破這一不一致:

1)構建完整的 T 步去噪過程,與推理一致;
2)教師-學生結構:學生使用緩存進行去噪,教師不使用緩存作為“理想輸出”;3)每一時間步的Router都被獨立更新,顯式對齊多輪緩存路徑下的輸出誤差;4)學生模型每步將自己的輸出作為下一個輸入,使得誤差傳播機制貼近真實推理軌跡。

效果:SDT顯著降低了時間步間誤差積累,提升最終圖像清晰度與穩定性。



△SDT 有效抑制誤差蔓延(紅色為舊方法,藍色為 SDT)

二、Image Error Proxy Objective(IEPO)

一句話總結:不是“中間好”,而是“最后圖像好”,優化目標就是結果本身。

以往方法訓練時只對齊每一步的噪聲誤差,而推理的目標是最終圖像質量,兩者目標嚴重錯配,導致緩存Router學出來“看似合理”但效果很差。

該工作提出 IEPO 機制,核心思想是:

通過代理項 λ(t) 來估算“使用緩存 vs 不使用緩存”在時間步 t 對最終圖像 x? 的影響;

越關鍵的時間步,其 λ(t) 越大,引導 Router 減少該步緩存復用,保留精度;

每隔若干輪重新生成一批圖像,動態更新 λ(t),保證目標始終貼合訓練狀態。
IEPO 的優化目標為:



即在“圖像質量”與“加速率”之間實現可控權衡。

實驗結果

該工作在兩個典型任務場景中驗證了HarmoniCa的有效性:

  • 分類條件生成(DiT-XL/2@ImageNet)
  • 文本生成圖像(PIXART-α@COCO,多分辨率)

對比方法包括當前最佳的緩存學習方法 Learning-to-Cache (LTC)、啟發式緩存方法 FORA / ?-DiT,以及多種加速器設置(DDIM 步數縮減、量化剪枝等)。

分類條件生成(DiT-XL/2 256×256)



重點結論:

  • 在高壓縮率場景(10步推理)下,HarmoniCa保持圖像質量優勢,FID比LTC更低、IS更高
  • 同時達成更高緩存利用率,提升 實際加速效果

文本生成圖像(PIXART-α 256×256)



重點結論:

  • 即使在2K高分辨率下,HarmoniCa仍保持1.69×實際加速
  • 在CLIP語義匹配、FID等主流指標上均超過FORA

量化/剪枝VS HarmoniCa

除了與主流緩存方法的對比,該工作也評估了HarmoniCa相比剪枝和量化等壓縮技術的表現。在統一的 20 步采樣設置下,傳統方案如 PTQ4DiT、EfficientDM等雖然模型更小,但實際加速依賴硬件支持,特別是一些定制CUDA內核在H800等新架構上表現并不穩定。更重要的是,量化模型在小步數采樣時往往精度下降嚴重,PTQ4DiT就出現了明顯的性能下滑。而HarmoniCa不依賴底層魔改,無需專用硬件,在各種主流采樣器和設備上都能穩定提速,保持圖像質量,是當前更通用、更穩妥的部署選擇。



△與量化/剪枝方法的比較

與量化結合

該工作還驗證了HarmoniCa與模型量化技術的高度兼容性。在 PIXART-α 256×256 場景下,將HarmoniCa應用于4bit量化模型(EfficientDM),推理速度從1.18×提升至1.85×,FID僅略增0.12,幾乎無感知差異。說明HarmoniCa不僅可獨立提速,也能作為“加速插件”疊加于量化模型之上,進一步釋放性能潛力。未來,該工作也計劃探索其與剪枝、蒸餾等技術的組合能力,為DiT模型的輕量部署開辟更多可能。



△HarmoniCa和量化方法的組合

開銷分析

除了推理提速和質量提升,HarmoniCa 在訓練與推理開銷上也展現出極強優勢,是真正能用、敢用、易部署的工業級方案。



△訓練開銷對比

訓練側:
HarmoniCa 采用無需圖像的訓練策略,僅基于模型和噪聲即可完成優化,不依賴任何額外數據。在同等訓練輪次下,其訓練時間比主流方案 LTC 縮短約 25%,顯存占用相近,可在單卡穩定運行,適合閉源模型加速和快速迭代。

推理側:

推理端新增 Router 極其輕量,參數僅占 0.03%,計算開銷低于總 FLOPs 的 0.001%,幾乎不影響吞吐。配合特征緩存,HarmoniCa 在 PIXART-α 上可實現理論加速比2.07×、實測加速1.69×,具備優越的部署效率與工程可行性。

總結:緩存加速的新范式,訓練推理協同才是正解!

當前Diffusion加速路徑中,緩存機制正逐漸成為主流方案,但傳統做法要么依賴手工規則、要么訓練目標錯位,無法在真實部署中兼顧性能、效率、適應性。

該工作提出的HarmoniCa框架,首次通過:

  • SDT——真實模擬推理軌跡,讓緩存行為“可訓練”;
  • IEPO——從結果出發優化目標,兼顧圖像質量與加速比;
  • 無圖像訓練/多模型適配/高分辨率通用,讓部署更輕松;

在PIXART、DiT、LFM等多個模型上,HarmoniCa都實現了更快的推理、更高的質量、更低的訓練門檻,為緩存加速技術注入“可落地”的關鍵支撐。

論文地址:https://arxiv.org/abs/2410.01723

代碼地址:https://github.com/ModelTC/HarmoniCa

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
林青霞說:“我在香港拍了十年戲,1984年到1994年,我每天就感覺,像在一個荒島一樣。”

林青霞說:“我在香港拍了十年戲,1984年到1994年,我每天就感覺,像在一個荒島一樣。”

梁良公子影評
2025-07-06 21:12:01
確認了!他倆已正式結婚

確認了!他倆已正式結婚

浙江之聲
2025-07-06 11:31:12
鄧超孫儷帶娃現身BLACKPINK韓演唱會,散場鄧超背藍包

鄧超孫儷帶娃現身BLACKPINK韓演唱會,散場鄧超背藍包

喜歡歷史的阿繁
2025-07-07 00:13:21
70歲的王健林也沒想到,37歲夜夜笙歌的王思聰,終于給他爭了口氣

70歲的王健林也沒想到,37歲夜夜笙歌的王思聰,終于給他爭了口氣

白面書誏
2025-06-26 12:50:35
恭喜!楊瀚森首訓獲滿堂彩,征服主帥隊友,呂佩爾:他太聰明了

恭喜!楊瀚森首訓獲滿堂彩,征服主帥隊友,呂佩爾:他太聰明了

李喜林籃球絕殺
2025-07-06 11:35:00
悶聲發大財 新上任掘金總經理的四筆操作讓掘金騰飛

悶聲發大財 新上任掘金總經理的四筆操作讓掘金騰飛

籃球小煙花
2025-07-07 08:00:03
俞敏洪:當孩子不尊重你,不必翻臉,只需“烏鴉定律”就夠了

俞敏洪:當孩子不尊重你,不必翻臉,只需“烏鴉定律”就夠了

詩詞中國
2025-06-17 13:12:55
王勵勤真敬業!孫穎莎首秀3:2,失誤過多,邱貽可叫暫停不及時!

王勵勤真敬業!孫穎莎首秀3:2,失誤過多,邱貽可叫暫停不及時!

順靜自然
2025-07-07 06:10:57
“分手”13年,一別兩寬,蔣欣從不提王陽,如今才看懂她贏在哪

“分手”13年,一別兩寬,蔣欣從不提王陽,如今才看懂她贏在哪

素衣讀史
2025-07-05 13:32:32
中產被山姆背刺了一刀,山姆這波翻車,戳痛了多少人的信任

中產被山姆背刺了一刀,山姆這波翻車,戳痛了多少人的信任

億通電子游戲
2025-06-24 03:52:31
山東一男子花800萬買比特幣,6年后兒子患病急用錢,看到余額后愣了

山東一男子花800萬買比特幣,6年后兒子患病急用錢,看到余額后愣了

嘉琪Feel
2025-07-01 19:43:01
曹興誠公開嗆賴清德!罷團與青鳥形成一股勢力,或沖擊綠營政治生態

曹興誠公開嗆賴清德!罷團與青鳥形成一股勢力,或沖擊綠營政治生態

海峽導報社
2025-07-07 07:00:09
趙長江退場騰勢背后的殘酷邏輯:當D9從王牌變枷鎖

趙長江退場騰勢背后的殘酷邏輯:當D9從王牌變枷鎖

汽車大觀
2025-07-06 12:48:57
蘇超南京隊隊長楊笑天在比賽中出現不文明動作,官方通報:造成較壞社會影響,予以停賽1場

蘇超南京隊隊長楊笑天在比賽中出現不文明動作,官方通報:造成較壞社會影響,予以停賽1場

上觀新聞
2025-07-06 19:20:38
江蘇泰州6名游客包車川西游墜河,知情網友:3姐妹帶著各自女兒

江蘇泰州6名游客包車川西游墜河,知情網友:3姐妹帶著各自女兒

說說史事
2025-07-07 08:08:08
新型養老方式開始流行:比養老院省錢,比找保姆靠譜,不拖累子女

新型養老方式開始流行:比養老院省錢,比找保姆靠譜,不拖累子女

青眼財經
2025-07-06 17:51:54
官方新通報!解釋了為什么沒馬上開啟車門,打開玻璃通風換氣

官方新通報!解釋了為什么沒馬上開啟車門,打開玻璃通風換氣

辣條小劇場
2025-07-06 00:54:33
他發明一道菜年銷5萬噸,全球分店2000家,為何不回國開店?

他發明一道菜年銷5萬噸,全球分店2000家,為何不回國開店?

君好伴讀
2025-07-06 13:31:56
哪吒2停播后評價反轉:差評如潮,現象級爆款為何成行業公敵?

哪吒2停播后評價反轉:差評如潮,現象級爆款為何成行業公敵?

詩意世界
2025-07-04 18:31:02
安永佳:很多國足球員我都很熟悉,最需要注意的是王鈺棟

安永佳:很多國足球員我都很熟悉,最需要注意的是王鈺棟

懂球帝
2025-07-06 12:06:22
2025-07-07 09:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10801文章數 176177關注度
往期回顧 全部

科技要聞

小米YU7首批交付,雷軍現身為車主開車門

頭條要聞

鄭州五星級酒店擺攤日入3萬:烤鴨60一只 豬蹄每個48元

頭條要聞

鄭州五星級酒店擺攤日入3萬:烤鴨60一只 豬蹄每個48元

體育要聞

陳登星法國扣籃大賽奪冠!高舉國旗慶祝

娛樂要聞

35歲鹿晗暴瘦到認不出 傳和關曉彤分手

財經要聞

小紅書成網絡水軍接派單“新陣地”

汽車要聞

阿斯頓·馬丁跑車陣容將齊聚2025古德伍德速度節

態度原創

本地
家居
手機
時尚
軍事航空

本地新聞

建筑地標如何成為城市人才匯聚的 “強磁場”?

家居要聞

合理布局 三口之家的溫馨空間

手機要聞

二季度蘋果銷量回暖 華為重返第一

夏天穿衣別發愁,多試試牛仔單品和連衣裙,簡單大方又減齡

軍事要聞

以伊沖突后 哈梅內伊首次公開露面

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 祁连县| 肇州县| 平顺县| 同心县| 商洛市| 龙门县| 杭锦旗| 日照市| 新宁县| 泾川县| 固原市| 旺苍县| 东乡县| 上饶县| 左权县| 古交市| 峨边| 五台县| 怀安县| 温宿县| 青海省| 华坪县| 布拖县| 保康县| 灌云县| 潞城市| 五华县| 鄂托克旗| 郴州市| 无为县| 界首市| 洮南市| 忻州市| 噶尔县| 怀化市| 武鸣县| 望城县| 安义县| 西乌珠穆沁旗| 措勤县| 江山市|