99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

10×加速!DCM提升推理效率!HunyuanVideo13B推理時間縮短至120秒

0
分享至



本文由南京大學,香港大學,上海人工智能實驗室,中國科學院大學與南洋理工大學 S-Lab 聯合完成。

擴散模型在視頻合成任務中取得了顯著成果,但其依賴迭代去噪過程,帶來了巨大的計算開銷。盡管一致性模型(Consistency Models)在加速擴散模型方面取得了重要進展,直接將其應用于視頻擴散模型卻常常導致時序一致性和外觀細節的明顯退化。

本文通過分析一致性模型的訓練動態,發現蒸餾過程中存在一個關鍵的沖突性學習機制:在不同噪聲水平的樣本上,優化梯度和損失貢獻存在顯著差異。這種差異使得蒸餾得到的學生模型難以達到最優狀態,最終導致時序一致性受損、畫面細節下降。

為解決這一問題,本文提出了一種參數高效的雙專家一致性模型(Dual-Expert Consistency Model,DCM):其中 Semantic Expert 負責學習語義布局和運動信息,Detail Expert則專注于細節的合成。此外,引入了 Temporal Coherence Loss 以增強語義專家的運動一致性,并引入 GAN Loss 與 Feature Matching Loss 以提升細節專家的合成質量。

DCM 在顯著減少采樣步數的同時,仍能達到當前相當的視覺質量,驗證了雙專家機制在視頻擴散模型蒸餾中的有效性。



  • 論文標題:DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
  • 論文地址:https://arxiv.org/pdf/2506.03123
  • 代碼地址:https://github.com/Vchitect/DCM
  • 項目主頁:https://vchitect.github.io/DCM

為什么一致性蒸餾在視頻生成上表現不佳?

擴散模型在圖像和視頻生成中表現出令人印象深刻的性能。然而,擴散模型迭代采樣的性質和規模逐漸增長的去噪 transformer 網絡,給推理過程帶來了繁重的計算代價。

為了緩解這個問題,一致性蒸餾通過減少采樣步數,降低推理時延。它通過訓練一個 student 模型學習直接映射采樣軌跡上任意一個點到相同的解點,以滿足 self-consistency 性質,進而提升少步推理結果的視覺質量。盡管支持少步采樣,它在復雜的視頻合成中往往難以保證視覺質量,容易出現布局錯亂、運動不自然以及細節降質等問題。

通過對推理過程的分析可以發現,相鄰時間步的去噪結果在推理早期差異顯著,而在后期變得更加緩慢和平滑。這是因為推理早期主要關注于合成語義,布局和運動這些相對低頻的特征成分,而在推理后期更加強調細節的合成。

這表明,在蒸餾過程中,student 模型在高噪聲和低噪聲訓練樣本中學習不同的模式,可能表現出不同的 learning dynamics。通過可視化蒸餾過程中一致性損失和損失梯度在高噪聲樣本和低噪聲樣本上的趨勢變化,可以看到,它們表現出顯著的差異,這表明聯合蒸餾一個 student 模型可能會引入優化的干擾,從而導致次優的視覺質量。



Dual-Expert 一致性模型:優化解耦與輕量高效設計

為了解耦蒸餾過程,本文首先根據推理過程中的去噪結果的變化趨勢將 ODE 解軌跡分為兩段:語義合成階段和細節合成階段。然后分別為兩個階段訓練兩個 Expert Denoiser,SemE 和 DetE,以滿足對應階段的 self-consistency 性質。在推理時,基于樣本的噪聲水平動態地選擇 SemE 或者 DetE 作為去噪網絡。這種方式雖然獲得了更好的視覺質量,但是也帶來了雙倍的參數代價,更大的內存消耗。



為了提升參數效率,進一步分析了兩個 Expert Denoisers 之間的參數差異,發現它們主要存在于 embedding layers 和 attention layers 中?;诖?,本文設計了一種參數高效的 Dual-Expert 一致性模型,具體來說,首先在語義合成軌跡上訓練語義合成專家 SemE,然后凍結它,并引入一套新的 embedding layers 和一個LoRA。在細節合成軌跡上微調和更新這些新添加的參數。通過這種方式,解耦了兩個 Expert Denoisers 的優化過程,并且僅僅引入了少量的額外參數,實現了相當的視覺質量。



此外,考慮到兩個 Expert Denoisers 不同的 training dynamics,在一致性損失的基礎上,為語義合成專家 SemE 額外引入了 Temporal Coherence 損失,以捕獲幀間運動變化。為了增強 DetE 的細節合成質量,為 DetE 引入了生成對抗損失和 Feature Matching 損失。

DCM 性能表現:10x 加速,相當視覺質量



為了驗證 DCM 的有效性,本文在 HunyuanVideo,CogVideoX 和 WAN2.1 上進行了實驗。如下表所示,在 4 步生成下,DCM 在實現了超過 10x 加速 (1504.5→121.52) 的同時,獲得了與原始 50 步采樣相當的Vbench得分(83.83%→83.86%),顯著超過 LCM 和 PCM 的表現。



下圖展示了 DCM 與原始模型、LCM 和 PCM 生成視頻的對比。可以看到,在減少推理步數的同時,DCM 依然能夠保持較高的語義質量和細節質量。



結語

本文指出,當前視頻合成中的一致性蒸餾存在一個關鍵的優化沖突:在不同噪聲水平的訓練樣本上,優化梯度和損失貢獻存在顯著差異。將整個 ODE 軌跡壓縮到一個單一的學生模型中,會導致這些因素難以平衡,從而造成生成結果的降質。為了解決這一問題,本文提出了一種參數高效的雙專家蒸餾框架(Dual-Expert Distillation Framework),通過將語義學習與細節精修解耦,實現更合理的建模。此外,引入了 Temporal Coherence Loss 來增強語義專家的運動一致性,并為細節專家引入 GAN Loss 和 Feature Matching Loss,以提升細節合成質量。DCM 在顯著減少采樣步數的同時,仍能達到當前相當的視覺效果,展現了專家分工機制在視頻擴散模型蒸餾中的有效性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
我爸出軌秘書已經45年,我媽不哭不鬧,在他70歲生日這天絕地反擊

我爸出軌秘書已經45年,我媽不哭不鬧,在他70歲生日這天絕地反擊

詭譎怪談
2025-05-02 15:13:52
世俱杯首秀演砸!皇馬飛翼被打穿:圍觀式回追,12次丟球權

世俱杯首秀演砸!皇馬飛翼被打穿:圍觀式回追,12次丟球權

葉青足球世界
2025-06-19 06:08:44
看懂抗美援朝,也就懂了伊朗總統萊希死后,中國為啥在臺海掀桌子

看懂抗美援朝,也就懂了伊朗總統萊希死后,中國為啥在臺海掀桌子

知鑒明史
2025-06-16 18:26:37
強援已到,哈梅內伊凌晨發文,人狠字不多,軍方:上高超音速導彈

強援已到,哈梅內伊凌晨發文,人狠字不多,軍方:上高超音速導彈

愛喝酒的閑散人
2025-06-18 20:55:47
武漢65層江景房1.4萬暴跌至7千!超高層樓房的坑,白送都別跳!

武漢65層江景房1.4萬暴跌至7千!超高層樓房的坑,白送都別跳!

元氣科技館
2025-06-17 15:19:44
時速達174公里!女子醉駕撞死3人被公訴

時速達174公里!女子醉駕撞死3人被公訴

中國新聞周刊
2025-06-18 19:11:13
托卡耶夫笑得合不攏嘴,中方用58份文件,一股腦解了哈國所有難題

托卡耶夫笑得合不攏嘴,中方用58份文件,一股腦解了哈國所有難題

知鑒明史
2025-06-18 18:24:45
許昌女教師陳岸君被捕,奇特的補課方式揭露后,家長們崩潰了

許昌女教師陳岸君被捕,奇特的補課方式揭露后,家長們崩潰了

清茶淺談
2025-02-25 11:45:43
知情人士透露特朗普已批準對伊朗攻擊計劃 但未下達最終命令

知情人士透露特朗普已批準對伊朗攻擊計劃 但未下達最終命令

環球網資訊
2025-06-19 06:15:46
江蘇一醫院稱負債4400多萬 全體人員集體解聘合同

江蘇一醫院稱負債4400多萬 全體人員集體解聘合同

閃電新聞
2025-06-18 15:00:06
珍妮將繼續管理湖人!名記:這與庫班情況不同 非口頭承諾且有保障

珍妮將繼續管理湖人!名記:這與庫班情況不同 非口頭承諾且有保障

直播吧
2025-06-19 07:30:27
善惡終有報!58歲被淘汰的林志炫,是華語樂壇最大的悲哀與損失!

善惡終有報!58歲被淘汰的林志炫,是華語樂壇最大的悲哀與損失!

姩姩有娛呀
2025-05-28 09:07:12
馬克龍反對更換伊朗政權,希望伊朗被神權統治,這和卡特異曲同工

馬克龍反對更換伊朗政權,希望伊朗被神權統治,這和卡特異曲同工

南宗歷史
2025-06-18 13:29:33
中國女籃戰勝日本,4大不可思議和3個不爭事實!

中國女籃戰勝日本,4大不可思議和3個不爭事實!

五姑娘說體育
2025-06-18 22:08:06
中國百年糧油戰爭始末:消失的豬油,死于外國資本的聯合絞殺?

中國百年糧油戰爭始末:消失的豬油,死于外國資本的聯合絞殺?

明月聊史
2025-06-17 16:29:32
體制內退休金又要漲了?

體制內退休金又要漲了?

曹多魚的財經世界
2025-06-18 09:02:46
為什么小時候表現越懂事、越乖的孩子,長大之后心理問題越多了

為什么小時候表現越懂事、越乖的孩子,長大之后心理問題越多了

棉花糖媽媽
2025-06-18 21:47:56
“優衣庫鏡子”沖上熱搜第一!受害者發帖曝光鏡子貓膩,官方回應

“優衣庫鏡子”沖上熱搜第一!受害者發帖曝光鏡子貓膩,官方回應

傲傲講歷史
2025-06-18 11:47:36
離婚后的女人,90%逃不過這兩種結局

離婚后的女人,90%逃不過這兩種結局

加油丁小文
2025-06-15 09:00:07
長安的荔枝的女演員告訴我們:179分也能進上戲,世襲制還存在?

長安的荔枝的女演員告訴我們:179分也能進上戲,世襲制還存在?

木子愛娛樂大號
2025-06-16 16:02:27
2025-06-19 08:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10671文章數 142340關注度
往期回顧 全部

科技要聞

50萬元人形機器人進廠 搬運效率還不到人工一半

頭條要聞

相識十幾年 男子借宿初中同學家卻拿菜刀砍人致1死1傷

頭條要聞

相識十幾年 男子借宿初中同學家卻拿菜刀砍人致1死1傷

體育要聞

36歲鄧卓翔率隊9輪拿17分 從墊底升第9

娛樂要聞

前老板舉報李雪琴欠190萬轉移公司財產

財經要聞

被爆添加毒原料后相宜本草高管先后出走

汽車要聞

燈光技術升級還有插混版本 全新奧迪Q3預計明年國產

態度原創

健康
旅游
時尚
手機
房產

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

從桔梗裙到流光裙,慵懶又顯瘦,微胖女生閉眼入!

手機要聞

AYANEO Pocket S2 系列安卓掌機發布,預訂價 2999 元起

房產要聞

創紀錄了!海南單日賣地44億!保利、方大瘋狂出手!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 灵丘县| 乌拉特后旗| 兰坪| 五常市| 玛多县| 丰原市| 浠水县| 清苑县| 漠河县| 霍城县| 汝城县| 卢龙县| 罗平县| 万全县| 平昌县| 息烽县| 岐山县| 大关县| 桑植县| 南木林县| 宜州市| 博爱县| 于都县| 琼海市| 嘉善县| 车致| 关岭| 安化县| 岢岚县| 靖边县| 济源市| 安泽县| 西林县| 灌南县| 汉沽区| 日土县| 固镇县| 哈密市| 濮阳县| 扶风县| 宁河县|