網易首頁 > 網易號 > 正文申請入駐

CVPR2025：華科開源VA-VAE+LightningDiT，DiT訓練效率提升21倍

2025-03-25 19:49:04　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel社區上線，最新上線4090資源不限量，價格實惠，靈活方便，支持在線微調訓練模型，及和，并。

傳統潛在擴散模型長期面臨「重建」與「生成」的博弈：提升圖像重建質量需增加特征維度，卻導致生成性能斷崖式下跌。

華中科技大學王興剛團隊最新提出VA-VAE框架，通過預訓練視覺大模型對齊潛在空間，一舉打破性能瓶頸！搭配優化LightningDiT訓練架構，ImageNet 256×256生成任務FID刷新SOTA至1.35，僅需64個epoch即可達到原DiT模型1400 epoch的性能，訓練效率提升21倍！VA-VAE、LightningDiT框架已上線始智AI-wisemodel開源社區，歡迎前去體驗。此外，我們熱烈歡迎各位研究者將頂會開源成果發布到社區。

模型地址

https://www.wisemodel.cn/models/qingke/VA-VAE-imagenet256-f16d32-dinov2

https://wisemodel.cn/models/qingke/LightningDiT-XL-imagenet256-800epoch

01.

VA-VAE技術亮點

傳統視覺標記器（VAE）通過構建潛在空間，將圖像映射到低維向量表示，從而實現對圖像信息的壓縮和編碼。在后續的任務中，再利用這些編碼信息進行圖像的重建或生成。然而，在實際應用中，VAE在提升維度時面臨著艱難且難以平衡的兩難抉擇：

高維度：細節重建更清晰，但擴散模型訓練成本指數級增長

低維度：生成效率高，卻犧牲圖像保真度

1）破局利器——VA-VAE

在訓練高latents dim VAE這類視覺大模型時，視覺大模型對齊技術發揮著關鍵作用。通過引入DINOv2等視覺基礎模型預訓練模型的語義空間約束，能顯著優化訓練效果。這里的即插即用損失函數（VF Loss）設計精妙，包含了：

邊際余弦損失，專注于像素級對齊特征，使模型對圖像細節的處理更加精準；

距離矩陣損失，能夠保持全局結構一致性，讓模型從整體上把握圖像的結構特征；

自適應權重調節，動態平衡重建與對齊目標，根據訓練過程中的實際情況，靈活調整兩者權重，進一步提升模型的性能和穩定性，助力訓練出更加優質高效的視覺大模型。

2）LightingDiT加速引擎

從架構設計、訓練策略優化等角度大幅加速了傳統DiT的訓練效果。在使用SD-VAE的情況下，即使不增加任何額外計算代價，也能達到和REPA、MDTv2等工作媲美的訓練效果。

02.

視覺基礎模型對齊損失VF Loss

邊際余弦相似度損失

我們將視覺標記器編碼器輸出的圖像潛在特征投影后，與凍結的視覺基礎模型輸出的特征計算余弦相似度，通過 ReLU 函數和設置邊際值，使相似度低于邊際值的特征對損失有貢獻，從而聚焦于對齊差異較大的特征對。

邊際余弦相似度損失

我們將視覺標記器編碼器輸出的圖像潛在特征投影后，與凍結的視覺基礎模型輸出的特征計算余弦相似度，通過ReLU函數和設置邊際值，使相似度低于邊際值的特征對損失有貢獻，從而聚焦于對齊差異較大的特征對。

結合自適應權重組合為VF-Loss

03.

視覺基礎模型對齊的VAE

我們著重探究不同視覺分詞器（Tokenizer）在重建性能與生成性能間的權衡關系，以及引入VF Loss后帶來的改進成效，核心結論如圖所示。

1）優化困境驗證

隨著分詞器維度提升（如f16d16→f16d64），重建指標（rFID↓/PSNR↑）顯著改善，但生成FID↑明顯惡化。例如f16d64的LightningDiT-XL生成FID從8.28（d16）升至17.24（d64），體現了維度增加帶來的生成性能下降。

2）VF Loss的改進作用

在高維分詞器（如f16d32/d64）中，VF Loss（尤其是DINOv2）顯著提升生成性能：

f16d32的LightningDiT-XL生成FID從10.92→8.22（降幅24.7%）

f16d64的LightningDiT-L生成FID從20.73→14.95（降幅27.9%）

重建性能僅輕微下降（如f16d32的rFID從0.26→0.28），說明VF Loss有效緩解了優化困境。

圖5（對應文章第5.3節）通過模型參數規模與生成性能的關系曲線，揭示了關鍵結論

優化困境的規模依賴性

基線對比（藍色 vs 綠色曲線）：

未使用VF Loss的高維分詞器（f16d32）在參數規模增大時（0.1B→1.6B），生成FID僅從29.35→8.37，而低維分詞器（f16d16）從20.18→6.68。→ 表明單純增加模型參數無法完全彌補高維分詞器的生成性能損失。

VF Loss的擴展性優勢（橙色曲線）

使用VF Loss的高維分詞器（f16d32 VF DINOv2）在模型參數超過0.6B時，生成FID開始顯著低于未對齊的高維分詞器。表明VF Loss通過優化潛在空間的可學習性，使模型參數規模的收益被更高效地轉化為生成性能提升。

04.

系統性能ImageNet

本次實驗基于廣泛使用的 ImageNet 數據集展開，該數據集涵蓋了豐富多樣的圖像類別，是評估圖像生成算法性能的重要基準。

為了全面衡量所開發系統的圖像生成能力，采用了 rFID（相對 Frechet 初始距離）和 gFID（全局 Frechet 初始距離）這兩個重要指標。在經過多輪的算法優化和參數調整后，系統在 ImageNet 數據集上進行測試，最終得到了性能結果：ImageNet rFID=0.28，gFID=1.35 。

編輯丨成蘊年

----- END -----

wisemodel相關：

系統升級：

大賽報名：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.