網易首頁 > 網易號 > 正文申請入駐

北大、北郵、華為開源純卷積DiC：3x3卷積實現SOTA性能比DiT快5倍

2025-07-11 16:47:30　來源: 機器之心Pro

河北舉報

分享至

當整個 AI 視覺生成領域都在 Transformer 架構上「卷生卷死」時，一項來自北大、北郵和華為的最新研究卻反其道而行之，重新審視了深度學習中最基礎、最經典的模塊——3x3 卷積。

他們提出的DiC (Diffusion CNN)，一個純卷積的擴散模型，不僅在性能上超越了廣受歡迎的 Diffusion Transformer (DiT)，更在推理速度上實現了驚人的提升。這項工作證明了，經過精心設計，簡單的卷積網絡依然能在生成任務中登峰造極。

論文標題：DiC: Rethinking Conv3x3 Designs in Diffusion Models
論文鏈接：
https://arxiv.org/abs/2501.00603
項目主頁/代碼
https://github.com/YuchuanTian/DiC

引言

從Stable Diffusion到 Sora，基于 Transformer 的擴散模型已經成為AIGC領域的絕對主流。它們強大的可擴展性和卓越的生成效果令人驚嘆，但也帶來了巨大的計算開銷和緩慢的推理速度，成為實際應用中的一大瓶頸。

我們真的只能在 Transformer 這條路上走到底嗎？

在這篇論文中，研究者們給出了一個響亮的否定答案。他們大膽地拋棄了復雜的自注意力機制，回歸到了最純粹的 3x3 卷積，并構建了一個兼具速度與性能的全新擴散模型架構——DiC。

返璞歸真：為什么選擇 3x3 卷積

在 AI 硬件和深度學習框架（如 cuDNN）的加持下，3x3 卷積是硬件支持最好、優化最徹底的算子之一。得益于像 Winograd 這樣的高效算法，它的計算速度遠超其他類型的操作，是實現高吞吐量的關鍵。

然而，3x3 卷積也存在一個致命弱點：感受野受限。這使得它在需要全局信息的生成任務中，天然弱于擁有全局感受野的 Transformer。之前的工作大多認為，Transformer 中的自注意力機制是大型生成模型Scaling Law的關鍵。

DiC 的作者們正是要挑戰這一「常識」。

DiC 的基本模塊主要由兩個 Conv3x3 組成

DiC 的進化之路：從平庸到卓越

研究者們并非簡單地堆疊卷積層。他們通過一系列精巧的設計，一步步將一個平庸的卷積網絡打造成了性能怪獸。這個過程清晰地展現在了論文的路線圖（Roadmap）中：

架構選擇：U-Net Hourglass 是關鍵

研究發現，對于純卷積模型，傳統的 U-Net 沙漏型架構比 Transformer 中流行的直筒形 Transformer 堆疊架構更有效。通過編碼器中的下采樣和解碼器中的上采樣，模型可以在更高層級用同樣的 3x3 卷積核覆蓋更廣的原始圖像區域，從而有效彌補了感受野不足的問題。在此基礎上，DiC 減少了跳連的頻率，降低了 U-Net 頻繁跳連帶來的計算冗余。

全方位的條件注入

優化為了讓模型更精準地響應條件（如類別、文本等），DiC 進行了一套精密的「三連擊」優化。首先，它采用分階段嵌入（Stage-Specific Embeddings），為 U-Net 不同層級的特征提供專屬的、維度匹配的條件嵌入。其次，通過實驗確定了最佳的注入位置，讓條件信息在卷積塊的中間層介入，以最高效地調制特征。最后，DiC 引入了條件門控（Conditional Gating）機制*，通過動態縮放特征圖，實現了對生成過程更精細的控制。這套組合拳確保了條件信息被恰到好處地利用，極大地提升了模型的生成質量。

激活函數替換

將常用的 SiLU 替換為 GELU，帶來了一定的效果提升。

驚人的實驗結果：性能與速度雙豐收

超越 DiT，性能更優

在同等計算量（FLOPs）和參數規模下，DiC 在各個尺寸上都顯著優于 DiT。以 XL 尺寸為例，DiC-XL 的 FID 分數（越低越好）從 DiT-XL/2 的 20 降低到了 13，IS 分數（越高越好）也大幅提升，生成圖像的質量和多樣性都更勝一籌。

DiC 生成能力的超越已經足夠亮眼，而速度的優勢則更具顛覆性。由于純卷積架構對硬件的高度友好，DiC 的推理吞吐量（Throughput）遠超同級別的 Transformer 模型。例如，在相同模型參數量和算力的情況下，DiC-XL 的吞吐量達到了 313.7，是 DiT-XL/2（66.8）的近 5 倍！

Scaling Law 上的探索

研究者們積極探索 DiC 圖像生成能力的上限，發現模型收斂速度快。當不使用 cfg 時，在相同設定下 DiC 的收斂速度是 DiT 的十倍；在使用 cfg 時，FID 可以達到 2.25。

DiC 生成效果出眾，輸出圖像十分逼真

大圖上的探索

當生成圖像尺寸擴大時，Transformer 的二次方復雜度問題會急劇惡化。而 DiC 的線性復雜度使其優勢更加突出。實驗表明，在 512x512 分辨率下，DiC-XL 模型可以用比 DiT-XL/2 更少的計算量，遠超后者的速度，達到更好的生成效果。

結論與展望

DiC 的出現，有力地挑戰了「生成模型必須依賴自注意力」的固有觀念。它向我們展示了，通過深入的理解和精巧的架構設計，簡單、高效的卷積網絡依然可以構建強大的生成模型。卷積，在視覺 AIGC 的廣闊天地中仍然大有可為！

論文已被 CVPR2025 接收，更多內容，請參考原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.