99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

北大、北郵、華為開源純卷積DiC:3x3卷積實現SOTA性能比DiT快5倍

0
分享至



當整個 AI 視覺生成領域都在 Transformer 架構上「卷生卷死」時,一項來自北大、北郵和華為的最新研究卻反其道而行之,重新審視了深度學習中最基礎、最經典的模塊——3x3 卷積。

他們提出的DiC (Diffusion CNN),一個純卷積的擴散模型,不僅在性能上超越了廣受歡迎的 Diffusion Transformer (DiT),更在推理速度上實現了驚人的提升。這項工作證明了,經過精心設計,簡單的卷積網絡依然能在生成任務中登峰造極。



  • 論文標題:DiC: Rethinking Conv3x3 Designs in Diffusion Models
  • 論文鏈接:
  • https://arxiv.org/abs/2501.00603
  • 項目主頁/代碼
  • https://github.com/YuchuanTian/DiC

引言

從Stable Diffusion到 Sora,基于 Transformer 的擴散模型已經成為AIGC領域的絕對主流。它們強大的可擴展性和卓越的生成效果令人驚嘆,但也帶來了巨大的計算開銷和緩慢的推理速度,成為實際應用中的一大瓶頸。

我們真的只能在 Transformer 這條路上走到底嗎?

在這篇論文中,研究者們給出了一個響亮的否定答案。他們大膽地拋棄了復雜的自注意力機制,回歸到了最純粹的 3x3 卷積,并構建了一個兼具速度與性能的全新擴散模型架構——DiC。

返璞歸真:為什么選擇 3x3 卷積

在 AI 硬件和深度學習框架(如 cuDNN)的加持下,3x3 卷積是硬件支持最好、優化最徹底的算子之一。得益于像 Winograd 這樣的高效算法,它的計算速度遠超其他類型的操作,是實現高吞吐量的關鍵。

然而,3x3 卷積也存在一個致命弱點:感受野受限。這使得它在需要全局信息的生成任務中,天然弱于擁有全局感受野的 Transformer。之前的工作大多認為,Transformer 中的自注意力機制是大型生成模型Scaling Law的關鍵。

DiC 的作者們正是要挑戰這一「常識」。



DiC 的基本模塊主要由兩個 Conv3x3 組成

DiC 的進化之路:從平庸到卓越

研究者們并非簡單地堆疊卷積層。他們通過一系列精巧的設計,一步步將一個平庸的卷積網絡打造成了性能怪獸。這個過程清晰地展現在了論文的路線圖(Roadmap)中:



架構選擇:U-Net Hourglass 是關鍵

研究發現,對于純卷積模型,傳統的 U-Net 沙漏型架構比 Transformer 中流行的直筒形 Transformer 堆疊架構更有效。通過編碼器中的下采樣和解碼器中的上采樣,模型可以在更高層級用同樣的 3x3 卷積核覆蓋更廣的原始圖像區域,從而有效彌補了感受野不足的問題。在此基礎上,DiC 減少了跳連的頻率,降低了 U-Net 頻繁跳連帶來的計算冗余。

全方位的條件注入

優化為了讓模型更精準地響應條件(如類別、文本等),DiC 進行了一套精密的「三連擊」優化。首先,它采用分階段嵌入(Stage-Specific Embeddings),為 U-Net 不同層級的特征提供專屬的、維度匹配的條件嵌入。其次,通過實驗確定了最佳的注入位置,讓條件信息在卷積塊的中間層介入,以最高效地調制特征。最后,DiC 引入了條件門控(Conditional Gating)機制*,通過動態縮放特征圖,實現了對生成過程更精細的控制。這套組合拳確保了條件信息被恰到好處地利用,極大地提升了模型的生成質量。

激活函數替換

將常用的 SiLU 替換為 GELU,帶來了一定的效果提升。

驚人的實驗結果:性能與速度雙豐收

超越 DiT,性能更優



在同等計算量(FLOPs)和參數規模下,DiC 在各個尺寸上都顯著優于 DiT。以 XL 尺寸為例,DiC-XL 的 FID 分數(越低越好)從 DiT-XL/2 的 20 降低到了 13,IS 分數(越高越好)也大幅提升,生成圖像的質量和多樣性都更勝一籌。

DiC 生成能力的超越已經足夠亮眼,而速度的優勢則更具顛覆性。由于純卷積架構對硬件的高度友好,DiC 的推理吞吐量(Throughput)遠超同級別的 Transformer 模型。例如,在相同模型參數量和算力的情況下,DiC-XL 的吞吐量達到了 313.7,是 DiT-XL/2(66.8)的近 5 倍!

Scaling Law 上的探索

研究者們積極探索 DiC 圖像生成能力的上限,發現模型收斂速度快。當不使用 cfg 時,在相同設定下 DiC 的收斂速度是 DiT 的十倍;在使用 cfg 時,FID 可以達到 2.25。







DiC 生成效果出眾,輸出圖像十分逼真

大圖上的探索

當生成圖像尺寸擴大時,Transformer 的二次方復雜度問題會急劇惡化。而 DiC 的線性復雜度使其優勢更加突出。實驗表明,在 512x512 分辨率下,DiC-XL 模型可以用比 DiT-XL/2 更少的計算量,遠超后者的速度,達到更好的生成效果。



結論與展望

DiC 的出現,有力地挑戰了「生成模型必須依賴自注意力」的固有觀念。它向我們展示了,通過深入的理解和精巧的架構設計,簡單、高效的卷積網絡依然可以構建強大的生成模型。卷積,在視覺 AIGC 的廣闊天地中仍然大有可為!

論文已被 CVPR2025 接收,更多內容,請參考原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
郭晶晶霍啟剛一家貴州行,三個子女乖巧懂事,霍中曦和霍中怡很像

郭晶晶霍啟剛一家貴州行,三個子女乖巧懂事,霍中曦和霍中怡很像

二月侃事
2025-07-12 18:02:20
日媒:不理解陳熠選手贏球,卻被前輩教育“懂點事”

日媒:不理解陳熠選手贏球,卻被前輩教育“懂點事”

史行途
2025-07-12 17:48:02
“臺獨”分子祖籍曝光,蔡英文、蘇貞昌、賴清德原來是漢奸后代!

“臺獨”分子祖籍曝光,蔡英文、蘇貞昌、賴清德原來是漢奸后代!

妙知
2025-06-12 17:04:18
港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

木子愛娛樂大號
2025-07-05 09:37:33
綠營“大佬”赴陸,蔣萬安侯友宜出手,賴終于低頭,盧秀燕尷尬了

綠營“大佬”赴陸,蔣萬安侯友宜出手,賴終于低頭,盧秀燕尷尬了

史韻流轉
2025-07-12 11:28:42
勸告邱毅:不要在錯誤的道路越走越遠

勸告邱毅:不要在錯誤的道路越走越遠

星光看娛樂
2025-03-31 17:43:58
48小時三大事件爆發,俄軍斬首美軍進場,全球格局一夜驟變

48小時三大事件爆發,俄軍斬首美軍進場,全球格局一夜驟變

星辰夜語
2025-07-12 19:11:09
2025年高考錄取:清華北大集體“爆冷”,吉林大學僅576分!

2025年高考錄取:清華北大集體“爆冷”,吉林大學僅576分!

教育導向分享
2025-07-11 21:46:22
魯比奧稱俄遭受重大損失,特朗普要宣布大事,俄羅斯打錯了牌?

魯比奧稱俄遭受重大損失,特朗普要宣布大事,俄羅斯打錯了牌?

山河路口
2025-07-11 12:41:47
國內油價或大跌超5毛/升,7月15日晚油價迎下半年“首次下跌”

國內油價或大跌超5毛/升,7月15日晚油價迎下半年“首次下跌”

油價早知道
2025-07-12 00:14:53
楊少華生前住在楊倫家,工資全上交,全家都在楊議公司上班

楊少華生前住在楊倫家,工資全上交,全家都在楊議公司上班

情感大頭說說
2025-07-11 00:09:33
直到郭晶晶孩子未能登艦,才發現仨娃名字暗藏深意,字字都有來頭

直到郭晶晶孩子未能登艦,才發現仨娃名字暗藏深意,字字都有來頭

深析古今
2025-07-08 10:32:53
每年收入過億,卻為窮人復仇,誰還記得槍殺醫保巨頭的富三代路易吉?

每年收入過億,卻為窮人復仇,誰還記得槍殺醫保巨頭的富三代路易吉?

杜紹斐DUSHAOFEI
2025-07-11 14:06:51
老人把1200萬遺產全給兒子,女兒拒絕贍養,律師一句話讓全家傻眼

老人把1200萬遺產全給兒子,女兒拒絕贍養,律師一句話讓全家傻眼

朝暮書屋
2025-07-03 10:35:56
2025年養老金調整補發在即,企退漲4%、事退漲2%,是否可行?

2025年養老金調整補發在即,企退漲4%、事退漲2%,是否可行?

社保大看臺
2025-07-12 18:36:10
河南魯山“715萬建牛郎織女雕塑”調查兩年仍無結論?市紀檢委:還在調查,涉及保密

河南魯山“715萬建牛郎織女雕塑”調查兩年仍無結論?市紀檢委:還在調查,涉及保密

瀟湘晨報
2025-07-12 12:00:41
董明珠再次讓世界刮目相看!孟羽童拋磚引玉后,她連下3步妙棋

董明珠再次讓世界刮目相看!孟羽童拋磚引玉后,她連下3步妙棋

橘子大娛社
2025-07-12 19:25:03
軍校全面上漲,空軍工程大學太夸張,漲幅第一!

軍校全面上漲,空軍工程大學太夸張,漲幅第一!

勛哥教你填志愿
2025-07-11 17:14:29
中衛市委常委、市紀委書記劉凱華,已任寧夏社科聯黨組書記

中衛市委常委、市紀委書記劉凱華,已任寧夏社科聯黨組書記

澎湃新聞
2025-07-12 14:38:28
故事:以牙還牙,咱300重裝合成營現身巴基斯坦對壘3萬俾路支武裝

故事:以牙還牙,咱300重裝合成營現身巴基斯坦對壘3萬俾路支武裝

一根香煙的少婦
2025-07-01 17:07:14
2025-07-12 21:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10845文章數 142374關注度
往期回顧 全部

科技要聞

Kimi深夜整活,開源了首個萬億參數模型

頭條要聞

媒體:3萬億公積金放"大招" 真的可以用來付首付了

頭條要聞

媒體:3萬億公積金放"大招" 真的可以用來付首付了

體育要聞

夏聯-開拓者大勝勇士 楊瀚森首秀10+4+5+3帽

娛樂要聞

鹿晗賬號解禁后首曬自拍,漲粉超400萬

財經要聞

中國超半數城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優點很多缺點也很多

態度原創

本地
藝術
時尚
數碼
公開課

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

女人“優雅到老”并不難,別隨便穿衣,這4個方法真的超實用

數碼要聞

聯想、惠普、機械革命都來BW25了,B站話語權這么強了?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 北宁市| 泗水县| 南涧| 四平市| 集安市| 南丰县| 海原县| 重庆市| 舞钢市| 象山县| 富裕县| 聂荣县| 西盟| 兴文县| 鄢陵县| 蒙山县| 望都县| 三门县| 惠安县| 仁布县| 鄂托克前旗| 新竹县| 繁峙县| 兴安县| 九龙坡区| 若羌县| 博湖县| 凯里市| 湘潭市| 余干县| 宿州市| 敦化市| 栾城县| 库尔勒市| 金平| 鹤山市| 崇义县| 阳高县| 海晏县| 寿光市| 平陆县|