99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GAN歸來:模型大幅簡化,訓練更穩定,逆襲擴散模型,AI社區瘋傳

0
分享至

來源:機器之心

GANs are so back!?

2025 年了,GAN 能否擊敗擴散模型?答案是 Yes!

本周五,AI 社區開始討論一種全新極簡主義 GAN(生成對抗網絡)。


現代版 GAN 基準論文成為了周五 HuggingFace 熱度最高的研究。該論文也入選了 NeurIPS 2024。

它并不像以往那樣走 tricks 路徑 —— 通過一場「現代化」改造,GAN 現在可以進行更長時間的訓練(與擴散模型的訓練步驟數相當),一旦 GAN 訓練時間足夠長,并且架構足夠強大,它們就可以勝過擴散模型,并成為更好、更快、更小的模型。

來自布朗大學、康奈爾大學的研究者們表示,通過引入一個新的損失函數,我們就可以解決以往 GAN 模式崩潰(collapse)和不穩定性的問題。

為了證明可行性,他們測試了 GAN 里流行的 StyleGAN2,通過新的理論進行最簡升級(修改后改名為「R3GAN」)。結果雖然模型變得更簡單了,但 R3GAN 在圖像生成和數據增強任務上性能還是超過了所有 GAN 模型和擴散模型。


新的方法給未來的研究奠定了一個更為整潔、可擴展的基礎。


  • 論文鏈接:https://arxiv.org/abs/2501.05441

  • GitHub 鏈接:https://github.com/brownvc/R3GAN

  • HuggingFace:https://huggingface.co/spaces/multimodalart/R3GAN

有一種廣泛流傳的說法認為 GAN 很難訓練,并且文獻中的 GAN 架構充斥著大量的經驗性 tricks。但是作者團隊提供了反駁這一說法的證據,并以更有原則的方式建立了一個現代版 GAN 基線。

在該研究中,作者首先通過推導出一個行為良好的正則化相對 GAN 損失函數,解決了模式 dropping 和不收斂問題,而這些問題在以前經常是通過大量 ad-hoc tricks 來應對的。他們從數學層面分析了這一損失函數,并證明它具有局部收斂保證,這與大多數現有的相對損失函數不同。

其次,這個損失函數能夠拋棄所有的 ad-hoc tricks,并用現代版架構替代常見的 GAN 中所使用的過時的骨干網絡。以 StyleGAN2 為例,他們展示了一個簡化過的現代版路線圖 ——R3GAN(Re-GAN)。盡管方法非常簡單,但它在 FFHQ、ImageNet、CIFAR 和 Stacked MNIST 數據集上卻超越了 StyleGAN2,并且在與最先進的 GAN 和擴散模型的比較中表現出色。

在生成式 AI 技術興起之前,GAN 是 AI 領域中的熱門研究方向,該方法能讓我們能夠在一次前向傳遞中生成高質量圖像。然而我們無法忽略的是,Goodfellow 等人構建的原始目標因其極小極大特性而極難優化,訓練的不穩定性一直對 GAN 的研究產生著負面影響。

與擴散模型等其他生成模型相比,GAN 的發展一直比較緩慢??紤]到一旦得到了表現良好的損失函數,我們就可以自由地設計現代 SOTA 主干架構。在新工作中,作者剝離了 StyleGAN 的所有功能,找出那些必不可少的功能,然后從現代 ConvNets 和 transformer 中借用了架構設計,包括一系列 ResNet 設計、初始化、重采樣、分組卷積、no normalization 等,引出了一種比 StyleGAN 更簡單的設計。

該工作率先從數學上證明了 GAN 不需要通過改進的正則化損失來進行訓練。

提高訓練穩定性

該研究證明,通過將目標進展與正則化訓練損失結合起來,GAN 獲得了更高的訓練穩定性,能夠用現代骨干網絡升級 GAN。

首先,該研究提出了一個新的目標,通過零中心梯度懲罰增強 RpGAN,提高穩定性。該研究從數學上證明,梯度懲罰 RpGAN 與正則化經典 GAN 享有相同的局部收斂保證,并且刪除正則化方案會導致不收斂。

在定義 GAN 的目標時,研究者需要應對兩個挑戰:穩定性和多樣性。為了在這兩方面同時取得進展,該研究將 stable 方法與基于理論的簡單正則化器結合起來。

傳統 GAN 被表述為判別器 D_ψ 和生成器 G_θ 之間的極小極大博弈:

在實際實現中,傳統 GAN 容易受到兩種常見故障場景的影響:模式 collapse/dropping 和不收斂。

該研究采用了一種略有不同的極小極大博弈 ——RpGAN,由 Jolicoeur-Martineau 等人提出,以解決模式 dropping 問題。

一般的 RpGAN 定義為:

然而,經驗表明,未正則化的 RpGAN 表現不佳。

為了解決 RpGAN 不收斂的問題,該研究探索梯度懲罰作為解決方案,因為事實證明,零中心梯度懲罰 (0-GP) 有助于經典 GAN 的收斂訓練。兩個最常用的 0-GP 是 R1 和 R2:


研究團隊認為實際的解決方案是在真實數據和虛假數據上對 D 進行正則化。此外,如 Fang et al.(2022) 所言,真實數據和虛假數據具有大致相同的梯度范數可能會減少判別器過擬合。


新基線的路線圖 — R3GAN

行為良好的 RpGAN + R1 + R2 損失函數緩解了 GAN 優化中的問題,同時根據近期的骨干網絡進展,這使他們能夠構建一個極簡版基線 ——R3GAN。這不僅僅只是提出一種新方法,而是從 StyleGAN2 基線中繪制出一條路線圖。

這個模型(配置 A)包括一個類似于 VGG 的骨干網絡(G),一個 ResNet(D),一些有助于基于風格生成的 tricks,以及許多作為修補弱骨干網絡的 tricks。接著去除了 StyleGAN2 中所有非必要的特性(配置 B),并應用他們的損失函數(配置 C),逐步現代化網絡骨干(配置 D-E)。



架構比較

實驗細節

模式恢復 — StackedMNIST

研究團隊在 StackedMNIST(無條件生成)上重復了之前在 1000-mode 收斂實驗中的做法,但這一次使用了更新后的架構,并與最先進的 GAN 及基于似然的方法進行了比較。



在 Stacked-MNIST 上使用配置 E 生成的樣本定性示例

FID — FFHQ-256

研究者訓練配置 E 模型直到收斂,并在 FFHQ 數據集上使用優化的超參數和訓練計劃進行 256×256 分辨率的無條件生成。



在 FFHQ-256 上使用配置 E 生成的樣本定性示例

FID — FFHQ-64

為了與 EDM 進行直接比較,研究團隊在 64×64 分辨率的 FFHQ 數據集上評估了模型。為此,他們去除了 256×256 模型中的兩個最高分辨率階段,從而得到了一個生成器,其參數數量不到 EDM 的一半。盡管如此,他們的模型在該數據集上的表現仍是超過了 EDM,并且只需要一次函數評估。


FID — CIFAR-10

研究者訓練配置 E 模型直到收斂,并在 CIFAR-10 數據集上使用優化的超參數和訓練計劃進行條件生成。盡管模型容量相對較小,他們的方法在 FID 指標上超過了許多其他 GAN 模型。



在 CIFAR-10 上使用配置 E 生成的樣本的定性示例

FID — ImageNet-32

研究者訓練配置 E 模型直到收斂,在 ImageNet-32 數據集上使用優化的超參數和訓練計劃進行條件生成,并與近期的 GAN 模型和擴散模型進行了比較(見下圖)。

作者團隊調整了模型生成器的參數數量,使其與 StyleGAN-XL 的生成器相匹配(84M 參數)。盡管使用了比判別器小 60% 的模型,并且沒有使用預訓練的 ImageNet 分類器,該方法仍然達到了可媲美的 FID 值。



在 ImageNet-32 上使用配置 E 生成的樣本定性示例

FID — ImageNet-64

研究團隊在 ImageNet-64 數據集上評估了他們的模型,以測試其可擴展性。他們在 ImageNet-32 模型的基礎上增加了一個分辨率階段,從而得到了一個包含 104M 參數的生成器。該模型的參數量幾乎是依賴于 ADM 骨干網絡的擴散模型 的三分之一,這些模型的參數量大約為 300M。

盡管模型較小,并且他們的模型在一步生成樣本的同時,其在 FID 指標上超越了更大參數量的擴散模型(見下圖)。



在 ImageNet-64 上使用配置 E 生成的樣本定性示例

新 GAN 研究正在社區獲得越來越多的關注。StabilityAI 的研究總監也轉發了該篇論文,并對作者團隊去除了 StyleGAN 中許多復雜性并且提高性能一點,給出了高度評價。


GAN 加入了現代化元素之后,是否可以重新起航逆襲 Stable Diffusion?對此,你怎么看?

參考內容:

https://huggingface.co/papers/2501.05441

https://x.com/iscienceluvr/status/1877624087046140059?s=61


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
67歲著名演員家中猝逝,死因曝光,晚年凄涼兒子自殺與妻子反目

67歲著名演員家中猝逝,死因曝光,晚年凄涼兒子自殺與妻子反目

開開森森
2025-07-04 08:40:29
央視肖曉琳:退休5個月,在美國兒子家死去,臨終25字遺言太深刻

央視肖曉琳:退休5個月,在美國兒子家死去,臨終25字遺言太深刻

飄飄然的娛樂匯
2025-04-26 22:10:06
淚目!91歲老人被送敬老院,外表淡定滿眼驚恐,她的家不要她了?

淚目!91歲老人被送敬老院,外表淡定滿眼驚恐,她的家不要她了?

瓜哥的動物日記
2025-07-04 16:29:28
特朗普在共和黨人中的支持率創下歷史新高 甚至超過了里根總統任期五個月時的支持率

特朗普在共和黨人中的支持率創下歷史新高 甚至超過了里根總統任期五個月時的支持率

新浪財經
2025-07-04 00:23:00
深度科普:四維空間,和三維空間到底有什么區別?

深度科普:四維空間,和三維空間到底有什么區別?

宇宙時空
2025-07-04 11:40:13
女優辛尤里突曬7個月孕肚!親曝生父真實身份

女優辛尤里突曬7個月孕肚!親曝生父真實身份

葫蘆哥愛吐槽
2025-07-03 19:26:26
“7.5末世”倒計時,日本這場集體恐慌有多離譜?

“7.5末世”倒計時,日本這場集體恐慌有多離譜?

牲產隊2024
2025-07-04 18:07:16
曹德旺高估了福耀科技大學,福耀科技大學高估了王樹國

曹德旺高估了福耀科技大學,福耀科技大學高估了王樹國

前沿天地
2025-07-04 04:49:01
79年霍英東建廣州白天鵝賓館遇審批難,楊尚昆:我去看望一下葉帥

79年霍英東建廣州白天鵝賓館遇審批難,楊尚昆:我去看望一下葉帥

紅色先驅
2025-06-28 20:22:06
32歲楊紫轉變風格,將波點裙帶斷貨,斜劉海造型簡直美神降臨

32歲楊紫轉變風格,將波點裙帶斷貨,斜劉海造型簡直美神降臨

蓓小西
2025-05-31 08:37:18
妻子走了我只能去女婿家過年,只有女兒在忙活,吃飯時她卻趕我走

妻子走了我只能去女婿家過年,只有女兒在忙活,吃飯時她卻趕我走

第四思維
2025-06-30 12:51:45
中國稀土太子爺的奢靡生活:40萬一頓飯,父子聯手揮霍上百億資產

中國稀土太子爺的奢靡生活:40萬一頓飯,父子聯手揮霍上百億資產

混沌錄
2025-06-27 22:48:15
伊朗,現代人類文明的傷疤

伊朗,現代人類文明的傷疤

老爸講科學
2025-06-24 23:13:33
楊丞琳李榮浩:還相愛,但只能分開。

楊丞琳李榮浩:還相愛,但只能分開。

美芽
2025-07-02 19:14:45
這是希島あいり(希島愛里)最初也是最后的傳奇共演!

這是希島あいり(希島愛里)最初也是最后的傳奇共演!

孤獨的獨角獸影視
2025-06-09 09:55:15
罕見!他的行長任職資格,上級部門始終未核準!

罕見!他的行長任職資格,上級部門始終未核準!

運營商段子手
2025-07-04 09:08:59
為什么說中醫不科學?因為有一個巨大的邏輯漏洞,你解釋不清楚

為什么說中醫不科學?因為有一個巨大的邏輯漏洞,你解釋不清楚

肯定式教養
2025-06-10 06:56:12
晨意幫忙丨疑似玻璃擦從四十多層高樓墜落,女子被砸傷致右眼摘除!多方發聲

晨意幫忙丨疑似玻璃擦從四十多層高樓墜落,女子被砸傷致右眼摘除!多方發聲

瀟湘晨報
2025-07-04 17:38:51
6歲我赤著腳去繼父家,繼父用紅燒肉款待了我,多年后我這樣做

6歲我赤著腳去繼父家,繼父用紅燒肉款待了我,多年后我這樣做

四象八卦
2025-05-09 05:55:58
普京確認出席規格,特朗普也來?一旦9月全赴京,最大輸家將誕生

普京確認出席規格,特朗普也來?一旦9月全赴京,最大輸家將誕生

來科點譜
2025-07-03 16:28:28
2025-07-05 00:11:00
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
276文章數 130關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

體育要聞

體壇最爽打工人:37歲被裁,工資領到72歲

娛樂要聞

李宇春身上的標簽哪個才是真的?

財經要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

重生之拿回銷量 領克10 EM-P搶鮮實拍

態度原創

親子
旅游
本地
健康
公開課

親子要聞

這爺爺和孫子打起來了?周歲宴能請多少桌?農村一條龍做菜可好吃

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

建筑地標如何成為城市人才匯聚的 “強磁場”?

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天柱县| 望奎县| 凤山市| 桐庐县| 梁山县| 峨山| 修水县| 鄱阳县| 客服| 桐柏县| 巫山县| 甘洛县| 昭觉县| 潢川县| 化州市| 玉门市| 阳信县| 株洲市| 呈贡县| 万州区| 兰溪市| 宜兴市| 虎林市| 靖江市| 南城县| 青岛市| 德清县| 西城区| 新和县| 肇庆市| 湛江市| 佛坪县| 广州市| 郸城县| 阿拉尔市| 静海县| 泰宁县| 子洲县| 独山县| 江阴市| 永登县|