始智AI wisemodel.cn開源社區
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,最新上線4090資源不限量,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。
傳統潛在擴散模型長期面臨「重建」與「生成」的博弈:提升圖像重建質量需增加特征維度,卻導致生成性能斷崖式下跌。
華中科技大學王興剛團隊最新提出VA-VAE框架,通過預訓練視覺大模型對齊潛在空間,一舉打破性能瓶頸!搭配優化LightningDiT訓練架構,ImageNet 256×256生成任務FID刷新SOTA至1.35,僅需64個epoch即可達到原DiT模型1400 epoch的性能,訓練效率提升21倍!VA-VAE、LightningDiT框架已上線始智AI-wisemodel開源社區,歡迎前去體驗。此外,我們熱烈歡迎各位研究者將頂會開源成果發布到社區。
模型地址
https://www.wisemodel.cn/models/qingke/VA-VAE-imagenet256-f16d32-dinov2
https://wisemodel.cn/models/qingke/LightningDiT-XL-imagenet256-800epoch
01.
VA-VAE技術亮點
傳統視覺標記器(VAE)通過構建潛在空間,將圖像映射到低維向量表示,從而實現對圖像信息的壓縮和編碼。在后續的任務中,再利用這些編碼信息進行圖像的重建或生成。然而,在實際應用中,VAE在提升維度時面臨著艱難且難以平衡的兩難抉擇:
高維度:細節重建更清晰,但擴散模型訓練成本指數級增長
低維度:生成效率高,卻犧牲圖像保真度
1)破局利器——VA-VAE
在訓練高latents dim VAE這類視覺大模型時,視覺大模型對齊技術發揮著關鍵作用。通過引入DINOv2等視覺基礎模型預訓練模型的語義空間約束,能顯著優化訓練效果。這里的即插即用損失函數(VF Loss)設計精妙,包含了:
邊際余弦損失,專注于像素級對齊特征,使模型對圖像細節的處理更加精準;
距離矩陣損失,能夠保持全局結構一致性,讓模型從整體上把握圖像的結構特征;
自適應權重調節,動態平衡重建與對齊目標,根據訓練過程中的實際情況,靈活調整兩者權重,進一步提升模型的性能和穩定性 ,助力訓練出更加優質高效的視覺大模型。
2)LightingDiT加速引擎
從架構設計、訓練策略優化等角度大幅加速了傳統DiT的訓練效果。在使用SD-VAE的情況下,即使不增加任何額外計算代價,也能達到和REPA、MDTv2等工作媲美的訓練效果。
02.
視覺基礎模型對齊損失VF Loss
邊際余弦相似度損失
我們將視覺標記器編碼器輸出的圖像潛在特征投影后,與凍結的視覺基礎模型輸出的特征計算余弦相似度,通過 ReLU 函數和設置邊際值,使相似度低于邊際值的特征對損失有貢獻,從而聚焦于對齊差異較大的特征對。
邊際余弦相似度損失
我們將視覺標記器編碼器輸出的圖像潛在特征投影后,與凍結的視覺基礎模型輸出的特征計算余弦相似度,通過ReLU函數和設置邊際值,使相似度低于邊際值的特征對損失有貢獻,從而聚焦于對齊差異較大的特征對。
結合自適應權重組合為VF-Loss
03.
視覺基礎模型對齊的VAE
我們著重探究不同視覺分詞器(Tokenizer)在重建性能與生成性能間的權衡關系,以及引入VF Loss后帶來的改進成效,核心結論如圖所示。
1)優化困境驗證
隨著分詞器維度提升(如f16d16→f16d64),重建指標(rFID↓/PSNR↑)顯著改善,但生成FID↑明顯惡化。例如f16d64的LightningDiT-XL生成FID從8.28(d16)升至17.24(d64),體現了維度增加帶來的生成性能下降。
2)VF Loss的改進作用
在高維分詞器(如f16d32/d64)中,VF Loss(尤其是DINOv2)顯著提升生成性能:
f16d32的LightningDiT-XL生成FID從10.92→8.22(降幅24.7%)
f16d64的LightningDiT-L生成FID從20.73→14.95(降幅27.9%)
重建性能僅輕微下降(如f16d32的rFID從0.26→0.28),說明VF Loss有效緩解了優化困境。
圖5(對應文章第5.3節)通過模型參數規模與生成性能的關系曲線,揭示了關鍵結論
優化困境的規模依賴性
基線對比(藍色 vs 綠色曲線):
未使用VF Loss的高維分詞器(f16d32)在參數規模增大時(0.1B→1.6B),生成FID僅從29.35→8.37,而低維分詞器(f16d16)從20.18→6.68。→ 表明單純增加模型參數無法完全彌補高維分詞器的生成性能損失。
VF Loss的擴展性優勢(橙色曲線)
使用VF Loss的高維分詞器(f16d32 VF DINOv2)在模型參數超過0.6B時,生成FID開始顯著低于未對齊的高維分詞器。 表明VF Loss通過優化潛在空間的可學習性,使模型參數規模的收益被更高效地轉化為生成性能提升。
04.
系統性能ImageNet
本次實驗基于廣泛使用的 ImageNet 數據集展開,該數據集涵蓋了豐富多樣的圖像類別,是評估圖像生成算法性能的重要基準。
為了全面衡量所開發系統的圖像生成能力,采用了 rFID(相對 Frechet 初始距離)和 gFID(全局 Frechet 初始距離)這兩個重要指標。在經過多輪的算法優化和參數調整后,系統在 ImageNet 數據集上進行測試,最終得到了性能結果:ImageNet rFID=0.28,gFID=1.35 。
編輯丨成蘊年
----- END -----
wisemodel相關:
系統升級:
大賽報名:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.