HarmoniCa團隊 投稿
量子位 | 公眾號 QbitAI
面對擴散模型推理速度慢、成本高的問題,HKUST&北航&商湯提出了全新緩存加速方案——HarmoniCa:訓練-推理協同的特征緩存加速框架,突破DiT架構在部署端的速度瓶頸,成功實現高性能無損加速。
△HarmoniCa整體壓縮框架
由于現有指標并不能完全反映圖像效果優劣,因此該團隊研究人員提供了大量可視化效果對比圖,更多對比請看原論文。
△PIXART-圖像生成效果圖
該工作已被ICML 2025接收為Poster,并開源項目代碼。
Diffusion 加速難在哪?
Diffusion Transformer(DiT)作為高分辨率圖像生成主力架構,在推理階段仍面臨「重復計算多」「耗時嚴重」的現實瓶頸。例如,使用PIXART-α生成一張2048×2048圖像即需14秒,嚴重影響落地效率。
近期「特征緩存(Feature Caching)」成為加速新思路,但已有方法普遍存在兩大關鍵問題:
前序時間步無感知:訓練階段忽略緩存歷史,推理時則高度依賴先前結果,二者邏輯斷裂;
訓練目標錯位:訓練對準中間噪聲誤差,推理關注最終圖像質量,優化方向南轅北轍;
這兩大錯配,導致已有緩存學習方法加速有限、圖像失真明顯。緩存機制的基本工作原理如下:
△緩存機制
HarmoniCa緩存學習框架
一句話總結:目標一致、路徑同步,訓練與推理真正協同優化
該工作提出的HarmoniCa框架通過兩個關鍵機制,從根本上解決了以往學習型特征緩存方法中的訓練-推理脫節問題:
一、Step-Wise Denoising Training(SDT)
逐步去噪訓練,模擬推理全流程,誤差不再層層積累。
傳統方法在訓練時僅采樣某個時間步,緩存是空的,完全跳過了“歷史緩存影響”,而推理時,緩存是從頭累積的,訓練和推理根本不是一回事。
進而該工作提出 SDT 來打破這一不一致:
1)構建完整的 T 步去噪過程,與推理一致;
2)教師-學生結構:學生使用緩存進行去噪,教師不使用緩存作為“理想輸出”;3)每一時間步的Router都被獨立更新,顯式對齊多輪緩存路徑下的輸出誤差;4)學生模型每步將自己的輸出作為下一個輸入,使得誤差傳播機制貼近真實推理軌跡。
效果:SDT顯著降低了時間步間誤差積累,提升最終圖像清晰度與穩定性。
△SDT 有效抑制誤差蔓延(紅色為舊方法,藍色為 SDT)
二、Image Error Proxy Objective(IEPO)
一句話總結:不是“中間好”,而是“最后圖像好”,優化目標就是結果本身。
以往方法訓練時只對齊每一步的噪聲誤差,而推理的目標是最終圖像質量,兩者目標嚴重錯配,導致緩存Router學出來“看似合理”但效果很差。
該工作提出 IEPO 機制,核心思想是:
通過代理項 λ(t) 來估算“使用緩存 vs 不使用緩存”在時間步 t 對最終圖像 x? 的影響;
越關鍵的時間步,其 λ(t) 越大,引導 Router 減少該步緩存復用,保留精度;
每隔若干輪重新生成一批圖像,動態更新 λ(t),保證目標始終貼合訓練狀態。
IEPO 的優化目標為:
即在“圖像質量”與“加速率”之間實現可控權衡。
實驗結果
該工作在兩個典型任務場景中驗證了HarmoniCa的有效性:
- 分類條件生成(DiT-XL/2@ImageNet)
- 文本生成圖像(PIXART-α@COCO,多分辨率)
對比方法包括當前最佳的緩存學習方法 Learning-to-Cache (LTC)、啟發式緩存方法 FORA / ?-DiT,以及多種加速器設置(DDIM 步數縮減、量化剪枝等)。
分類條件生成(DiT-XL/2 256×256)
重點結論:
- 在高壓縮率場景(10步推理)下,HarmoniCa保持圖像質量優勢,FID比LTC更低、IS更高
- 同時達成更高緩存利用率,提升 實際加速效果
文本生成圖像(PIXART-α 256×256)
重點結論:
- 即使在2K高分辨率下,HarmoniCa仍保持1.69×實際加速
- 在CLIP語義匹配、FID等主流指標上均超過FORA
量化/剪枝VS HarmoniCa
除了與主流緩存方法的對比,該工作也評估了HarmoniCa相比剪枝和量化等壓縮技術的表現。在統一的 20 步采樣設置下,傳統方案如 PTQ4DiT、EfficientDM等雖然模型更小,但實際加速依賴硬件支持,特別是一些定制CUDA內核在H800等新架構上表現并不穩定。更重要的是,量化模型在小步數采樣時往往精度下降嚴重,PTQ4DiT就出現了明顯的性能下滑。而HarmoniCa不依賴底層魔改,無需專用硬件,在各種主流采樣器和設備上都能穩定提速,保持圖像質量,是當前更通用、更穩妥的部署選擇。
△與量化/剪枝方法的比較
與量化結合
該工作還驗證了HarmoniCa與模型量化技術的高度兼容性。在 PIXART-α 256×256 場景下,將HarmoniCa應用于4bit量化模型(EfficientDM),推理速度從1.18×提升至1.85×,FID僅略增0.12,幾乎無感知差異。說明HarmoniCa不僅可獨立提速,也能作為“加速插件”疊加于量化模型之上,進一步釋放性能潛力。未來,該工作也計劃探索其與剪枝、蒸餾等技術的組合能力,為DiT模型的輕量部署開辟更多可能。
△HarmoniCa和量化方法的組合
開銷分析
除了推理提速和質量提升,HarmoniCa 在訓練與推理開銷上也展現出極強優勢,是真正能用、敢用、易部署的工業級方案。
△訓練開銷對比
訓練側:
HarmoniCa 采用無需圖像的訓練策略,僅基于模型和噪聲即可完成優化,不依賴任何額外數據。在同等訓練輪次下,其訓練時間比主流方案 LTC 縮短約 25%,顯存占用相近,可在單卡穩定運行,適合閉源模型加速和快速迭代。
推理側:
推理端新增 Router 極其輕量,參數僅占 0.03%,計算開銷低于總 FLOPs 的 0.001%,幾乎不影響吞吐。配合特征緩存,HarmoniCa 在 PIXART-α 上可實現理論加速比2.07×、實測加速1.69×,具備優越的部署效率與工程可行性。
總結:緩存加速的新范式,訓練推理協同才是正解!
當前Diffusion加速路徑中,緩存機制正逐漸成為主流方案,但傳統做法要么依賴手工規則、要么訓練目標錯位,無法在真實部署中兼顧性能、效率、適應性。
該工作提出的HarmoniCa框架,首次通過:
- SDT——真實模擬推理軌跡,讓緩存行為“可訓練”;
- IEPO——從結果出發優化目標,兼顧圖像質量與加速比;
- 無圖像訓練/多模型適配/高分辨率通用,讓部署更輕松;
在PIXART、DiT、LFM等多個模型上,HarmoniCa都實現了更快的推理、更高的質量、更低的訓練門檻,為緩存加速技術注入“可落地”的關鍵支撐。
論文地址:https://arxiv.org/abs/2410.01723
代碼地址:https://github.com/ModelTC/HarmoniCa
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.