本文由南京大學,香港大學,上海人工智能實驗室,中國科學院大學與南洋理工大學 S-Lab 聯合完成。
擴散模型在視頻合成任務中取得了顯著成果,但其依賴迭代去噪過程,帶來了巨大的計算開銷。盡管一致性模型(Consistency Models)在加速擴散模型方面取得了重要進展,直接將其應用于視頻擴散模型卻常常導致時序一致性和外觀細節的明顯退化。
本文通過分析一致性模型的訓練動態,發現蒸餾過程中存在一個關鍵的沖突性學習機制:在不同噪聲水平的樣本上,優化梯度和損失貢獻存在顯著差異。這種差異使得蒸餾得到的學生模型難以達到最優狀態,最終導致時序一致性受損、畫面細節下降。
為解決這一問題,本文提出了一種參數高效的雙專家一致性模型(Dual-Expert Consistency Model,DCM):其中 Semantic Expert 負責學習語義布局和運動信息,Detail Expert則專注于細節的合成。此外,引入了 Temporal Coherence Loss 以增強語義專家的運動一致性,并引入 GAN Loss 與 Feature Matching Loss 以提升細節專家的合成質量。
DCM 在顯著減少采樣步數的同時,仍能達到當前相當的視覺質量,驗證了雙專家機制在視頻擴散模型蒸餾中的有效性。
- 論文標題:DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
- 論文地址:https://arxiv.org/pdf/2506.03123
- 代碼地址:https://github.com/Vchitect/DCM
- 項目主頁:https://vchitect.github.io/DCM
為什么一致性蒸餾在視頻生成上表現不佳?
擴散模型在圖像和視頻生成中表現出令人印象深刻的性能。然而,擴散模型迭代采樣的性質和規模逐漸增長的去噪 transformer 網絡,給推理過程帶來了繁重的計算代價。
為了緩解這個問題,一致性蒸餾通過減少采樣步數,降低推理時延。它通過訓練一個 student 模型學習直接映射采樣軌跡上任意一個點到相同的解點,以滿足 self-consistency 性質,進而提升少步推理結果的視覺質量。盡管支持少步采樣,它在復雜的視頻合成中往往難以保證視覺質量,容易出現布局錯亂、運動不自然以及細節降質等問題。
通過對推理過程的分析可以發現,相鄰時間步的去噪結果在推理早期差異顯著,而在后期變得更加緩慢和平滑。這是因為推理早期主要關注于合成語義,布局和運動這些相對低頻的特征成分,而在推理后期更加強調細節的合成。
這表明,在蒸餾過程中,student 模型在高噪聲和低噪聲訓練樣本中學習不同的模式,可能表現出不同的 learning dynamics。通過可視化蒸餾過程中一致性損失和損失梯度在高噪聲樣本和低噪聲樣本上的趨勢變化,可以看到,它們表現出顯著的差異,這表明聯合蒸餾一個 student 模型可能會引入優化的干擾,從而導致次優的視覺質量。
Dual-Expert 一致性模型:優化解耦與輕量高效設計
為了解耦蒸餾過程,本文首先根據推理過程中的去噪結果的變化趨勢將 ODE 解軌跡分為兩段:語義合成階段和細節合成階段。然后分別為兩個階段訓練兩個 Expert Denoiser,SemE 和 DetE,以滿足對應階段的 self-consistency 性質。在推理時,基于樣本的噪聲水平動態地選擇 SemE 或者 DetE 作為去噪網絡。這種方式雖然獲得了更好的視覺質量,但是也帶來了雙倍的參數代價,更大的內存消耗。
為了提升參數效率,進一步分析了兩個 Expert Denoisers 之間的參數差異,發現它們主要存在于 embedding layers 和 attention layers 中?;诖?,本文設計了一種參數高效的 Dual-Expert 一致性模型,具體來說,首先在語義合成軌跡上訓練語義合成專家 SemE,然后凍結它,并引入一套新的 embedding layers 和一個LoRA。在細節合成軌跡上微調和更新這些新添加的參數。通過這種方式,解耦了兩個 Expert Denoisers 的優化過程,并且僅僅引入了少量的額外參數,實現了相當的視覺質量。
此外,考慮到兩個 Expert Denoisers 不同的 training dynamics,在一致性損失的基礎上,為語義合成專家 SemE 額外引入了 Temporal Coherence 損失,以捕獲幀間運動變化。為了增強 DetE 的細節合成質量,為 DetE 引入了生成對抗損失和 Feature Matching 損失。
DCM 性能表現:10x 加速,相當視覺質量
為了驗證 DCM 的有效性,本文在 HunyuanVideo,CogVideoX 和 WAN2.1 上進行了實驗。如下表所示,在 4 步生成下,DCM 在實現了超過 10x 加速 (1504.5→121.52) 的同時,獲得了與原始 50 步采樣相當的Vbench得分(83.83%→83.86%),顯著超過 LCM 和 PCM 的表現。
下圖展示了 DCM 與原始模型、LCM 和 PCM 生成視頻的對比。可以看到,在減少推理步數的同時,DCM 依然能夠保持較高的語義質量和細節質量。
結語
本文指出,當前視頻合成中的一致性蒸餾存在一個關鍵的優化沖突:在不同噪聲水平的訓練樣本上,優化梯度和損失貢獻存在顯著差異。將整個 ODE 軌跡壓縮到一個單一的學生模型中,會導致這些因素難以平衡,從而造成生成結果的降質。為了解決這一問題,本文提出了一種參數高效的雙專家蒸餾框架(Dual-Expert Distillation Framework),通過將語義學習與細節精修解耦,實現更合理的建模。此外,引入了 Temporal Coherence Loss 來增強語義專家的運動一致性,并為細節專家引入 GAN Loss 和 Feature Matching Loss,以提升細節合成質量。DCM 在顯著減少采樣步數的同時,仍能達到當前相當的視覺效果,展現了專家分工機制在視頻擴散模型蒸餾中的有效性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.