在AI藝術(shù)創(chuàng)作的前沿,一場(chǎng)關(guān)于控制權(quán)的靜默革命正在發(fā)生。傳統(tǒng)觀念認(rèn)為,要讓人工智能生成不同風(fēng)格的圖像,必須重新訓(xùn)練整個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。然而,一項(xiàng)突破性研究發(fā)現(xiàn),這種轉(zhuǎn)換可能遠(yuǎn)比想象的簡(jiǎn)單——只需在特定的"樣式空間"中找到正確的方向,僅用幾千個(gè)參數(shù)就能實(shí)現(xiàn)原本需要數(shù)百萬(wàn)參數(shù)才能完成的風(fēng)格遷移。這種被稱為"StyleDomain"的技術(shù)不僅大大簡(jiǎn)化了AI藝術(shù)的創(chuàng)作過(guò)程,更揭示了生成模型內(nèi)部運(yùn)作的奇妙規(guī)律,為我們理解人工智能的創(chuàng)造性打開了新的窗口。
風(fēng)格空間解密
StyleGAN誕生于2019年,由NVIDIA研究團(tuán)隊(duì)開發(fā),迅速成為了AI藝術(shù)創(chuàng)作領(lǐng)域的寵兒。它不僅能生成逼真的人臉圖像,還能通過(guò)調(diào)整某些參數(shù),改變這些人臉的表情、年齡、發(fā)型等細(xì)節(jié)。但如果你想把這些真實(shí)人臉變成卡通風(fēng)格,或者將其轉(zhuǎn)變?yōu)樗孛栊Ч?,傳統(tǒng)的做法往往是重新訓(xùn)練整個(gè)網(wǎng)絡(luò),這需要大量的計(jì)算資源和時(shí)間。
傳統(tǒng)的StyleGAN模型結(jié)構(gòu)可以分為三個(gè)核心部分:映射網(wǎng)絡(luò)、仿射層和合成網(wǎng)絡(luò)。映射網(wǎng)絡(luò)負(fù)責(zé)將隨機(jī)噪聲轉(zhuǎn)換為中間潛在向量,仿射層將這些向量進(jìn)一步轉(zhuǎn)化為控制各層風(fēng)格的參數(shù),而合成網(wǎng)絡(luò)則基于這些風(fēng)格參數(shù)生成最終圖像。整個(gè)模型加起來(lái)有超過(guò)3000萬(wàn)個(gè)參數(shù),每次適應(yīng)新風(fēng)格時(shí)都需要調(diào)整大部分參數(shù),這是一個(gè)非常龐大的工程。
研究人員分析了在不同域適應(yīng)情況下,StyleGAN的哪些部分對(duì)風(fēng)格轉(zhuǎn)換影響最大。他們發(fā)現(xiàn),對(duì)于相似領(lǐng)域的轉(zhuǎn)換(如真實(shí)人臉到素描風(fēng)格人臉),僅調(diào)整仿射層的輸出就足以達(dá)到良好效果。這個(gè)發(fā)現(xiàn)打破了之前認(rèn)為必須重新訓(xùn)練整個(gè)合成網(wǎng)絡(luò)的觀念。而對(duì)于差異更大的領(lǐng)域(如人臉到貓臉),雖然僅調(diào)整仿射層不夠,但也不必調(diào)整全部參數(shù)。
隨著研究深入,研究人員注意到StyleGAN中有一個(gè)特殊的空間——StyleSpace(風(fēng)格空間)。這個(gè)空間由仿射層的輸出組成,控制著圖像的各種風(fēng)格特征。通過(guò)直接在這個(gè)空間中找到特定方向(稱為StyleDomain方向),我們可以輕松地將生成器從一個(gè)域適應(yīng)到另一個(gè)域,而無(wú)需修改任何網(wǎng)絡(luò)權(quán)重。
這種方法在實(shí)際測(cè)試中表現(xiàn)出色。在一組文本引導(dǎo)的域適應(yīng)實(shí)驗(yàn)中,使用StyleDomain方向達(dá)到了與完整參數(shù)優(yōu)化相當(dāng)?shù)馁|(zhì)量和多樣性得分。例如,將真實(shí)人臉轉(zhuǎn)換為素描風(fēng)格時(shí),完整參數(shù)優(yōu)化的質(zhì)量分?jǐn)?shù)為0.208,多樣性為0.296;而使用StyleDomain方向的方法得分為0.193和0.306,甚至在多樣性上有所提高。
更令人驚訝的是,StyleDomain方向只需要約6000個(gè)參數(shù),相比完整模型的3000萬(wàn)個(gè)參數(shù),縮小了約5000倍。這意味著,存儲(chǔ)100種不同風(fēng)格的生成器,使用傳統(tǒng)方法需要3GB的存儲(chǔ)空間,而使用StyleDomain方向僅需不到1MB。
參數(shù)瘦身術(shù)
發(fā)現(xiàn)StyleDomain方向只是開始,研究團(tuán)隊(duì)進(jìn)一步探索如何讓這些參數(shù)變得更加精簡(jiǎn)。他們發(fā)現(xiàn),在StyleDomain方向的6000個(gè)參數(shù)中,實(shí)際上大部分值非常接近零,對(duì)最終效果影響很小。通過(guò)應(yīng)用標(biāo)準(zhǔn)剪枝技術(shù),保留絕對(duì)值最大的20%參數(shù),將其余設(shè)為零,研究人員創(chuàng)造了一個(gè)更加精簡(jiǎn)的參數(shù)化方法——StyleSpaceSparse。
令人驚嘆的是,StyleSpaceSparse在大多數(shù)測(cè)試場(chǎng)景中,表現(xiàn)與完整的StyleDomain方向幾乎相同。以"迪士尼"風(fēng)格為例,完整StyleDomain的質(zhì)量和多樣性分?jǐn)?shù)為0.627和0.308,而StyleSpaceSparse的分?jǐn)?shù)為0.617和0.304,差異微乎其微。但參數(shù)數(shù)量從6000降至1200,進(jìn)一步減少了80%,存儲(chǔ)空間降至原始模型的十幾萬(wàn)分之一。
對(duì)于差異較大的域(如從人臉到動(dòng)物),StyleDomain方向確實(shí)表現(xiàn)不佳。為此,研究人員提出了Affine+參數(shù)化,它在仿射層的基礎(chǔ)上,增加了合成網(wǎng)絡(luò)中的一個(gè)卷積塊的參數(shù)優(yōu)化。這個(gè)卷積塊位于6464分辨率層,研究表明這是對(duì)域適應(yīng)最重要的分辨率級(jí)別。
Affine+雖然比StyleDomain復(fù)雜,但與完整參數(shù)優(yōu)化相比仍然非常輕量——僅為510萬(wàn)個(gè)參數(shù),約為完整模型的六分之一。在貓臉和狗臉數(shù)據(jù)集上,Affine+甚至超過(guò)了完整參數(shù)優(yōu)化的性能,F(xiàn)ID分?jǐn)?shù)分別為7.0和18.6,而完整優(yōu)化為7.1和20.3(FID分?jǐn)?shù)越低表示生成質(zhì)量越高)。
為進(jìn)一步減輕參數(shù)負(fù)擔(dān),研究人員應(yīng)用低秩分解技術(shù)到仿射層的權(quán)重上,創(chuàng)造了AffineLight+參數(shù)化。這使參數(shù)量進(jìn)一步減少到約60萬(wàn)個(gè),是完整模型的五十分之一。即使如此,AffineLight+在少量樣本場(chǎng)景下,表現(xiàn)仍然優(yōu)于許多現(xiàn)有方法。
這些輕量級(jí)參數(shù)化方法不僅節(jié)省了計(jì)算資源,還使實(shí)時(shí)風(fēng)格轉(zhuǎn)換和在低性能設(shè)備上運(yùn)行復(fù)雜AI藝術(shù)變?yōu)榭赡?。它們還揭示了StyleGAN內(nèi)部運(yùn)作的一些基本原理——風(fēng)格特征可以被理解為高維空間中的特定方向,這些方向具有可組合性和可轉(zhuǎn)移性。
在實(shí)驗(yàn)中,研究人員還發(fā)現(xiàn)了StyleDomain方向的兩個(gè)驚人特性。第一個(gè)是"可混合性":不同StyleDomain方向可以線性組合,產(chǎn)生混合風(fēng)格效果。例如,將"卡通"和"素描"方向混合,可以得到具有兩種風(fēng)格特征的新風(fēng)格。第二個(gè)是"可轉(zhuǎn)移性":在一個(gè)領(lǐng)域(如人臉)優(yōu)化的StyleDomain方向,可以應(yīng)用到另一個(gè)領(lǐng)域(如動(dòng)物),產(chǎn)生相似的風(fēng)格轉(zhuǎn)換效果。
這些發(fā)現(xiàn)為AI藝術(shù)創(chuàng)作提供了新視角,不僅簡(jiǎn)化了技術(shù)實(shí)現(xiàn),還揭示了生成模型內(nèi)部的風(fēng)格表達(dá)機(jī)制,為未來(lái)更豐富的創(chuàng)意應(yīng)用鋪平了道路。
風(fēng)格方向奇譜
研究人員在探索StyleDomain方向的過(guò)程中,發(fā)現(xiàn)這些方向并非僅僅是技術(shù)上的簡(jiǎn)化工具,而是具備一些令人驚嘆的特性,這些特性讓AI藝術(shù)創(chuàng)作有了更豐富的可能性。
第一個(gè)特性是"可混合性"。想象一下,你有一個(gè)將人臉變成皮克斯動(dòng)畫風(fēng)格的方向,還有一個(gè)將人臉變成小丑形象的方向。傳統(tǒng)思維會(huì)認(rèn)為,這兩種風(fēng)格是互斥的,你只能選擇其中一種。但研究顯示,StyleDomain方向可以像顏料一樣混合。你可以把"皮克斯風(fēng)格"和"小丑風(fēng)格"的方向加在一起,得到的結(jié)果是一張保留了兩種風(fēng)格特點(diǎn)的混合風(fēng)格圖像——既有皮克斯的卡通質(zhì)感,又帶有小丑的特征。
這一發(fā)現(xiàn)徹底改變了我們對(duì)風(fēng)格轉(zhuǎn)換的理解。在實(shí)際測(cè)試中,研究者將"皮克斯"風(fēng)格、"小丑"風(fēng)格和基于特定參考圖像的風(fēng)格三種方向混合,創(chuàng)造出了一種全新的視覺(jué)效果。這就像是調(diào)配雞尾酒——不同風(fēng)格按特定比例混合,可以創(chuàng)造出無(wú)限種新風(fēng)格。
第二個(gè)特性或許更加神奇——"可轉(zhuǎn)移性"。假設(shè)你已經(jīng)把一個(gè)生成模型從生成真實(shí)人臉調(diào)整為生成狗臉。現(xiàn)在,你想讓這些狗臉變成素描風(fēng)格。傳統(tǒng)方法是你需要專門為狗臉模型重新訓(xùn)練素描風(fēng)格。但研究發(fā)現(xiàn),為人臉模型找到的"素描風(fēng)格"方向可以直接應(yīng)用到狗臉模型上,結(jié)果令人驚訝地好——狗臉確實(shí)變成了素描風(fēng)格,而且保留了狗的特征。
這種轉(zhuǎn)移能力跨越了不同的對(duì)象類別。研究者展示了一個(gè)例子:他們將為人臉找到的"迪士尼風(fēng)格"方向應(yīng)用到狗臉、貓臉甚至教堂模型上,每一次應(yīng)用都成功地將生成的圖像轉(zhuǎn)換為迪士尼風(fēng)格,同時(shí)保留了原始對(duì)象的內(nèi)容和特性。
除了這兩個(gè)主要特性外,StyleDomain方向還能與傳統(tǒng)的圖像編輯技術(shù)無(wú)縫結(jié)合。比如,你可以先應(yīng)用一個(gè)改變年齡的編輯方向,再應(yīng)用一個(gè)"皮克斯風(fēng)格"的StyleDomain方向,得到一個(gè)變老(或變年輕)的皮克斯風(fēng)格人物。這種組合的可能性幾乎是無(wú)限的。
更令人印象深刻的是,StyleDomain方向還允許跨域圖像漸變。傳統(tǒng)的圖像漸變通常局限在同一個(gè)領(lǐng)域內(nèi),比如從一張真實(shí)人臉漸變到另一張真實(shí)人臉。而StyleDomain技術(shù)可以實(shí)現(xiàn)從真實(shí)人臉到卡通人臉,再到素描人臉的平滑過(guò)渡,創(chuàng)造出前所未有的視覺(jué)體驗(yàn)。
研究團(tuán)隊(duì)在論文中展示了一個(gè)復(fù)雜的例子:從真實(shí)人臉開始,通過(guò)"狗臉"方向轉(zhuǎn)變?yōu)楣?,再?yīng)用"素描"方向轉(zhuǎn)為素描風(fēng)格的狗,最后應(yīng)用"皮克斯"方向得到皮克斯風(fēng)格的狗。整個(gè)過(guò)程是平滑連續(xù)的,沒(méi)有任何視覺(jué)上的突兀或不自然。這種能力在以前的生成模型技術(shù)中是不可想象的。
這些特性不僅展示了StyleDomain方向的技術(shù)價(jià)值,也揭示了生成模型內(nèi)部的一些基本規(guī)律——風(fēng)格特征在高維空間中形成了一種可組合、可轉(zhuǎn)移的表達(dá)系統(tǒng),就像語(yǔ)言中的詞匯和語(yǔ)法一樣,可以跨越不同的語(yǔ)境而保持其基本含義。
數(shù)據(jù)對(duì)決實(shí)驗(yàn)
理論探索之外,研究團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn),來(lái)驗(yàn)證StyleDomain方向及其相關(guān)參數(shù)化方法在實(shí)際應(yīng)用中的表現(xiàn)。這些實(shí)驗(yàn)分為兩大類:一張圖片適配(One-shot)場(chǎng)景和少量樣本(Few-shot)場(chǎng)景。
在一張圖片適配場(chǎng)景中,系統(tǒng)只能看到目標(biāo)風(fēng)格的一個(gè)例子(如一張皮克斯風(fēng)格的人臉),就需要學(xué)會(huì)生成該風(fēng)格的新圖像。研究團(tuán)隊(duì)將StyleSpace和StyleSpaceSparse參數(shù)化與多個(gè)現(xiàn)有方法進(jìn)行了比較,包括JoJoGAN、MTG、GOSA、DiFa、TargetCLIP和DomMod。
數(shù)據(jù)顯示,在質(zhì)量和多樣性的平衡上,StyleSpace和StyleSpaceSparse表現(xiàn)出色。以"泰坦"風(fēng)格為例,DiFa模型的質(zhì)量分?jǐn)?shù)為0.719,但多樣性只有0.226;而StyleSpace(DiFa)的質(zhì)量分?jǐn)?shù)為0.672,多樣性提高到0.296。更令人印象深刻的是,StyleSpaceSparse雖然只使用了原始參數(shù)的五分之一,但其質(zhì)量和多樣性指標(biāo)仍然保持在0.659和0.303的高水平。
在存儲(chǔ)效率上,StyleSpaceSparse的優(yōu)勢(shì)更加明顯。存儲(chǔ)12個(gè)風(fēng)格域的適配生成器,完整模型需要1.80GB空間,而StyleSpaceSparse僅需56.4KB,縮小了約32,000倍。這意味著,在移動(dòng)設(shè)備上存儲(chǔ)成千上萬(wàn)種風(fēng)格變得可行。
對(duì)于少量樣本場(chǎng)景,研究團(tuán)隊(duì)比較了Affine+和AffineLight+參數(shù)化與現(xiàn)有方法(ADA、CDC和AdAM)在狗臉和貓臉數(shù)據(jù)集上的表現(xiàn)。實(shí)驗(yàn)考察了不同數(shù)量樣本(從5張到100張)的適配效果。
結(jié)果顯示,在低數(shù)據(jù)量情況下,Affine+表現(xiàn)尤為突出。在10張樣本的設(shè)置中,對(duì)于貓臉數(shù)據(jù)集,Affine+的FID分?jǐn)?shù)為38.40,明顯優(yōu)于AdAM的47.05和ADA的51.38(FID越低表示生成質(zhì)量越高)。對(duì)于狗臉數(shù)據(jù)集,Affine+的優(yōu)勢(shì)較小但仍然存在,F(xiàn)ID為96.38,相比AdAM的119.61和ADA的100.25有所改善。
更令人驚訝的是,AffineLight+盡管參數(shù)量?jī)H為原始模型的五十分之一,在10張樣本的設(shè)置中仍達(dá)到了與ADA相當(dāng)?shù)男Чㄘ埬楩ID為43.91,狗臉FID為101.31)。這一結(jié)果挑戰(zhàn)了我們對(duì)復(fù)雜模型在少量數(shù)據(jù)場(chǎng)景中必要性的認(rèn)識(shí)。
除了性能數(shù)據(jù)外,研究團(tuán)隊(duì)還展示了StyleDomain技術(shù)在實(shí)際應(yīng)用中的效果。在跨域圖像轉(zhuǎn)換任務(wù)中,StyleDomain方向能夠?qū)⒁粡堈鎸?shí)人臉圖像轉(zhuǎn)變?yōu)樗孛琛⒂彤嫽蚩ㄍL(fēng)格,且保留原始圖像的身份特征。在參考圖片引導(dǎo)的圖像轉(zhuǎn)換中,系統(tǒng)能夠提取參考圖片的風(fēng)格特征,并將其應(yīng)用到源圖像上,創(chuàng)造出融合了兩者特點(diǎn)的新圖像。
在跨域圖像漸變實(shí)驗(yàn)中,StyleDomain方向展示了驚人的靈活性。研究者創(chuàng)造了一個(gè)從真實(shí)人臉到狗臉,再到素描狗臉的平滑過(guò)渡序列。整個(gè)過(guò)程中,圖像的變化是連續(xù)的,沒(méi)有明顯的跳躍或不自然的中間狀態(tài)。這種能力在視頻特效、動(dòng)畫制作和創(chuàng)意內(nèi)容生成中有廣泛的應(yīng)用前景。
這些實(shí)驗(yàn)不僅驗(yàn)證了StyleDomain技術(shù)的有效性,也展示了它在計(jì)算效率、存儲(chǔ)成本和創(chuàng)意可能性方面的巨大潛力。它使得復(fù)雜的AI藝術(shù)創(chuàng)作變得更加簡(jiǎn)單、高效且易于部署,為創(chuàng)意工作者提供了強(qiáng)大而靈活的工具。
參考資料
Alanov, A., Titov, V., Nakhodnov, M., &; Vetrov, D. (2023). StyleDomain: Efficient and Lightweight Parameterizations of StyleGAN for One-shot and Few-shot Domain Adaptation. ICCV 2023.
StyleGAN2 architecture and its applications in image synthesis and manipulation.
One-shot and few-shot domain adaptation techniques for generative adversarial networks.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.