當整個 AI 視覺生成領域都在 Transformer 架構上「卷生卷死」時,一項來自北大、北郵和華為的最新研究卻反其道而行之,重新審視了深度學習中最基礎、最經典的模塊——3x3 卷積。
他們提出的DiC (Diffusion CNN),一個純卷積的擴散模型,不僅在性能上超越了廣受歡迎的 Diffusion Transformer (DiT),更在推理速度上實現了驚人的提升。這項工作證明了,經過精心設計,簡單的卷積網絡依然能在生成任務中登峰造極。
- 論文標題:DiC: Rethinking Conv3x3 Designs in Diffusion Models
- 論文鏈接:
- https://arxiv.org/abs/2501.00603
- 項目主頁/代碼
- https://github.com/YuchuanTian/DiC
引言
從Stable Diffusion到 Sora,基于 Transformer 的擴散模型已經成為AIGC領域的絕對主流。它們強大的可擴展性和卓越的生成效果令人驚嘆,但也帶來了巨大的計算開銷和緩慢的推理速度,成為實際應用中的一大瓶頸。
我們真的只能在 Transformer 這條路上走到底嗎?
在這篇論文中,研究者們給出了一個響亮的否定答案。他們大膽地拋棄了復雜的自注意力機制,回歸到了最純粹的 3x3 卷積,并構建了一個兼具速度與性能的全新擴散模型架構——DiC。
返璞歸真:為什么選擇 3x3 卷積
在 AI 硬件和深度學習框架(如 cuDNN)的加持下,3x3 卷積是硬件支持最好、優化最徹底的算子之一。得益于像 Winograd 這樣的高效算法,它的計算速度遠超其他類型的操作,是實現高吞吐量的關鍵。
然而,3x3 卷積也存在一個致命弱點:感受野受限。這使得它在需要全局信息的生成任務中,天然弱于擁有全局感受野的 Transformer。之前的工作大多認為,Transformer 中的自注意力機制是大型生成模型Scaling Law的關鍵。
DiC 的作者們正是要挑戰這一「常識」。
DiC 的基本模塊主要由兩個 Conv3x3 組成
DiC 的進化之路:從平庸到卓越
研究者們并非簡單地堆疊卷積層。他們通過一系列精巧的設計,一步步將一個平庸的卷積網絡打造成了性能怪獸。這個過程清晰地展現在了論文的路線圖(Roadmap)中:
架構選擇:U-Net Hourglass 是關鍵
研究發現,對于純卷積模型,傳統的 U-Net 沙漏型架構比 Transformer 中流行的直筒形 Transformer 堆疊架構更有效。通過編碼器中的下采樣和解碼器中的上采樣,模型可以在更高層級用同樣的 3x3 卷積核覆蓋更廣的原始圖像區域,從而有效彌補了感受野不足的問題。在此基礎上,DiC 減少了跳連的頻率,降低了 U-Net 頻繁跳連帶來的計算冗余。
全方位的條件注入
優化為了讓模型更精準地響應條件(如類別、文本等),DiC 進行了一套精密的「三連擊」優化。首先,它采用分階段嵌入(Stage-Specific Embeddings),為 U-Net 不同層級的特征提供專屬的、維度匹配的條件嵌入。其次,通過實驗確定了最佳的注入位置,讓條件信息在卷積塊的中間層介入,以最高效地調制特征。最后,DiC 引入了條件門控(Conditional Gating)機制*,通過動態縮放特征圖,實現了對生成過程更精細的控制。這套組合拳確保了條件信息被恰到好處地利用,極大地提升了模型的生成質量。
激活函數替換
將常用的 SiLU 替換為 GELU,帶來了一定的效果提升。
驚人的實驗結果:性能與速度雙豐收
超越 DiT,性能更優
在同等計算量(FLOPs)和參數規模下,DiC 在各個尺寸上都顯著優于 DiT。以 XL 尺寸為例,DiC-XL 的 FID 分數(越低越好)從 DiT-XL/2 的 20 降低到了 13,IS 分數(越高越好)也大幅提升,生成圖像的質量和多樣性都更勝一籌。
DiC 生成能力的超越已經足夠亮眼,而速度的優勢則更具顛覆性。由于純卷積架構對硬件的高度友好,DiC 的推理吞吐量(Throughput)遠超同級別的 Transformer 模型。例如,在相同模型參數量和算力的情況下,DiC-XL 的吞吐量達到了 313.7,是 DiT-XL/2(66.8)的近 5 倍!
Scaling Law 上的探索
研究者們積極探索 DiC 圖像生成能力的上限,發現模型收斂速度快。當不使用 cfg 時,在相同設定下 DiC 的收斂速度是 DiT 的十倍;在使用 cfg 時,FID 可以達到 2.25。
DiC 生成效果出眾,輸出圖像十分逼真
大圖上的探索
當生成圖像尺寸擴大時,Transformer 的二次方復雜度問題會急劇惡化。而 DiC 的線性復雜度使其優勢更加突出。實驗表明,在 512x512 分辨率下,DiC-XL 模型可以用比 DiT-XL/2 更少的計算量,遠超后者的速度,達到更好的生成效果。
結論與展望
DiC 的出現,有力地挑戰了「生成模型必須依賴自注意力」的固有觀念。它向我們展示了,通過深入的理解和精巧的架構設計,簡單、高效的卷積網絡依然可以構建強大的生成模型。卷積,在視覺 AIGC 的廣闊天地中仍然大有可為!
論文已被 CVPR2025 接收,更多內容,請參考原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.