本文刊發于《現代電影技術》2024年第2期
專家點評
神經輻射場(Neural Radiance Fields, NeRF)最早由Ben Mildenhall等研究者在2020年歐洲計算機視覺大會(ECCV)上提出并獲得當年的最佳論文獎。該技術通過使用稀疏的輸入視圖集來優化底層連續體積場景函數以實現復雜場景新視圖的合成,其豐富和拓展了傳統的隱式表達方法,僅僅通過二維圖像作為監督即可實現對復雜三維場景的表達。NeRF通過優化訓練得到的神經輻射場模型,可以渲染出任意視角、具有復雜幾何和外觀場景的照片級真實感新視圖。得益于其超強的隱式表達能力,近年來NeRF技術得到迅速發展,在新視點合成、三維重建等領域得到成功應用。《基于NeRF的3D場景動畫風格遷移及其技術美學價值研究》一文將NeRF引入三維場景動畫制作中,提出了一種改進的神經輻射場技術,對拍攝影像進行三維重構,進而完成動畫風格遷移,借此形成獨特的三維動畫場景藝術效果的解決方案。實驗表明,NeRF能夠針對三維場景實現更好的動畫風格遷移效果,較為快速地生成不同風格的動畫影片,有望提高影視動畫等創作效率,并在一定程度上節約制作成本。該方法為影視動畫創作者提供了藝術創作的新思路和新方法,有望進一步拓展視覺藝術創作形式,對相關研究者和從業人員具有較強的參考價值。
——劉世光
教授
天津大學智能與計算學部博士生導師
作 者 簡 介
王騰飛
上海政法學院上海紀錄片學院講師,上海電影特效工程技術研究中心特聘研究員,主要研究方向:電影高新技術、電影敘事學等。
上海大學上海電影學院講師、碩士生導師,主要研究方向:圖形圖像處理、數字影視技術等。
于 冰
黃東晉
上海大學上海電影學院副教授,影視工程系主任,博士生導師,主要研究方向:人工智能、影視技術、計算機圖形學等。
上海大學上海電影學院碩士研究生在讀,主要研究方向:電影修復技術、深度學習。
范正輝
摘要
針對傳統3D動畫場景建模技術存在操作困難,相關行業對3D模型需求量大、計算機硬件要求較高等諸多問題,本文提出一種改進的神經輻射場(NeRF)技術,通過對拍攝影像進行3D重構,進而完成動畫風格遷移,借此形成獨特3D動畫場景藝術效果的解決方案。作為一種新穎的3D重建方法,NeRF受到計算機圖像合成領域廣泛關注。本文將NeRF引入3D場景動畫制作中,在驗證本方案可行性與科學性的同時,也為3D動畫場景創建提供新思路,充實技術美學價值。
關鍵詞
NeRF;風格遷移;人工智能;3D動畫場景
3D動畫制作流程往往采用3ds Max、Maya、Blender等軟件進行建模并添加模型材質,渲染輸出3D動畫影像。即便是3D動畫場景也依然遵循這樣的基本制作流程,因此在制作過程中需要大量人力物力才得以維持,工作繁雜且制作過程辛苦。而在虛擬現實(VR)、游戲場景設計等諸多領域中,對3D場景以及其中相關事物的建模需求量不斷攀升,需求與制作形成嚴重不平衡的局面。因此,本文提出基于改進的神經輻射場(Neural Radiance Fields, NeRF)技術對拍攝影像進行3D重構,進而完成動畫風格遷移(AnimeGAN),借此形成獨特3D動畫場景藝術效果,從而嘗試改變傳統3D場景動畫制作方式,以期為3D藝術創作提供解決相關問題的新途徑新方法。
2020年,Midenhall等人[1]首次提出NeRF并將其運用于新視圖合成。在實現復雜場景高度真實視覺的合成方面,NeRF是一種新穎的視覺合成與3D創建方法[2],其模型采用多層感知器[3](Multi?layer Perceptrons, MLPs)進行隱式神經場景體繪制[4](Volume Rendering of Neural Implicit)并實現視覺圖像合成[5],且可以只使用單一場景的多視圖圖像進行訓練。目前國內外相關研究主要集中在3D場景創建領域,只需拍攝較少影像畫面,運用NeRF就可以實現創建3D影像場景這一目的。
基于NeRF可以有效解決3D場景動畫風格遷移,相較于傳統基于VGG?19[6]神經學習網絡,其不只是局限于二維平面中圖像紋理等元素的處理。作為人工智能算法的模型之一,NeRF在3D場景風格遷移運用中具有較強優勢。本文將改進NeRF基本算法模型,借助神經網絡(Neural Network)學習系列劇集《中國奇譚》的動畫風格,并針對其3D場景進行風格化遷移,以期為3D場景藝術化創作提供思路與參考,并進一步充實技術美學價值。
1NeRF研究現狀
作為近年來出現的一種新穎的視覺圖像合成方式,NeRF通過多層感知場景進行體積表達,能夠實現較好的視覺效果呈現,可以有效將單張圖像制作成較好的3D影像。此外,NeRF能夠實現高質量圖像轉換,并展現出較好的實驗效果,單個圖像的影像空間表達等得到較大提升。
傳統創作過程中,將二維圖像轉成3D影像時,專業人士大多參照二維圖像并將其創建成3D模型,通過模擬二維圖像中的紋理,映射到 3D 紋理中從而完成目標物的建模。基于當下生成式人工智能(Generated AI)的方式創建模型,又極具挑戰性,無法較好地完成目標任務。同時在3D風格化方面,也存在其結果與目標樣式的相似一致性等諸多問題。
自Midenhall提出NeRF相關研究之后,通過新穎的視角將任意二維轉換成3D,并較好地完成風格遷移與表達,這種方法利用體積渲染(Volume Rendering),達到保持跨視圖的一致性,自此陸續出現NeRF相關研究成果。2021年Zhan[7]等人發表關于多模態圖像合成與編輯的調查報告;2022年Tewari[8]等人發表有關于神經渲染的報告,同年,Chiang[9]等人將NeRF應用于場景表達;依賴于預訓練樣式,實現超網格的格式化外觀。Kolkin[10]等人提出3D風格化問題,運用NeRF可以更加有效地實現圖像多樣化的問題;Zhang[11]等人提出基于深度學習神經網絡技術,進一步提升NeRF計算能力。目前相關研究主要集中在提高NeRF體積渲染,通過訓練,將現有的NeRF轉化為具有不同風格的場景。訓練主要分為兩大階段:第一階段基于圖像中的色彩變換信息進行遷移訓練藝術輻射場(Artistic Radiance Fields,ARF),第二階段則是采用基于匹配的VGG風格化損失,即最近鄰特征匹配損失[10](Nearest Neighbour Feature Matching,NNFM)進一步訓練ARF,主要從觀測方向的局部向量反射、相機姿勢、漫反射顏色、高光色調、表面法線方向等進行突破,并對稀疏輸入視圖等方面進行訓練,采用變形場、深度監督與點云等多種方法提高NeRF的渲染精度,如Zhang等[11]提出基于亮度場景的可控制3D場景風格化解決方案,較為有效地解決體積渲染中存在的樣式化問題;Sucar等[12]則提示可從相機姿態與隱式場景的表示著手,對圖像集中的場景進行優化,間接提高體積渲染技術等。
2NeRF基本原理
作為新型的影像合成技術,NeRF基于五維向量、空間中點位置、攝影機觀察的角度與方向等獲得物體深度,此外還可基于觀察角度下物體在空間中點的色彩信息完成體素渲染,借此得到預測像素值。
四維空間是在傳統3D空間基礎之上加上時間共同構成。自愛因斯坦相對論誕生以來,空間與時間成為一個不可分割的整體,同時空間和時間可以相互轉化。對系統論而言,任何系統都是有層次的,從狹義角度,即隨著時間推移,事物不同深度的本質不斷演變成事物在發展過程中的不同階段。層次統一的空間理論與時間、傳統空間構成五維空間的理論基礎,同時事物正是通過五維空間相關要素之間的相互轉化實現發展。在五維空間基礎之上加上向量,共同構成五維向量。本文基于對五維空間及其向量的認知,借助計算機有效計算在3D空間中某一點以及在這個點觀察方向上所視該點的色彩信息等,記錄該點某一特定時期在系統中的狀態。
基于上述原理形成NeRF模型下對3D場景的認知基礎。NeRF模型則是將3D場景表示為由神經網絡相似的輻射場,在這個場中,每一個點都有相關顏色,每個方向都有一個較好的觀測視角,點和視角可以較好地構成體積密度,對于NeRF中的五維空間而言,圖1中x、y、z代表3D空間中點所處的位置信息,θ代表方位角,φ代表軸視角。在不同方位角度、不同軸視角下,看到3D空間中的物體其色彩有所不同,點的顏色會隨著場中的觀察方向以及場景內坐標的變化而變化。通過跟蹤光線等,就可以合成出圖像中每個點的新穎視圖﹝圖1(a)﹞;對于空間中的任意一點,都可以得出這個點的RGB三基色中所含信息以及該點的深度﹝圖1(b)﹞。在同一系統中的不同攝影機視角下,使用體積渲染生成這個點的色彩信息以及密度﹝圖1(c)﹞,這意味著NeRF可以實現復雜場景中高真實感視圖合成的可能。本文在充分掌握并吸收Midenhall等提出的NeRF原理基礎上,對其算法等進行改進,并嘗試將相關技術運用于動畫風格遷移之中,即充分學習二維場景的風格并以其作為參考,借助NeRF將風格投射到3D場景之中,以驗證其可行性。
圖1 NeRF原理[2]
3NeRF基礎模型風格遷移算法優化
3.1 NeRF進行3D風格效果遷移的步驟
NeRF進行3D風格效果遷移主要包括以下基本步驟:
(1)通過神經網絡對目標圖片進行風格化學習,如VGG?16、VGG?19[14]。運用預先訓練好的卷積神經網絡[15](CNN),有效學習目標圖像中的色相、紋理等相關重要信息,為創造高質量的藝術輻射場奠定基礎。
(2)對所拍攝的影像中目標場景進行3D空間重建,從不同視點來表達影像世界中的場景,并形成場景云。這種方式可以有效模擬并“還原”真實世界場景,包含場景中的光影等。
(3)經過3D場景重建以及目標圖像學習之后,可以有效將圖片風格遷移至3D場景中,從而完成對3D目標的藝術化創作。NeRF即可完成3D場景風格遷移,具體流程如圖2所示。
圖2 NeRF風格遷移實驗步驟[13]
3.2 基于優化后的NeRF進行風格遷移的算法
本文在原有風格遷移基礎步驟之上,增加針對動畫風格中的相關算法。
(1)對拍攝影像中的目標場景,使用COLMAP[6]進行稀疏重建。COLMAP是一種結合了通用運動結構和多視圖立體的3D重建管線,可以根據不同視角的照片得到目標場景的稀疏重建結果,其輸出包括相機內外參數以及3D點信息的文件。將上述位姿信息轉換格式后送入NeRF進行新視角合成,得到重建后的3D模型。
(2)使用ARF算法[5]對重建后的3D模型進行風格化。由于常用于圖像風格化的VGG風格損失難以將高頻細節遷移到3D場景,ARF算法使用了NNFM,在將風格圖像遷移到3D場景的同時保證了多視點一致性。具體而言,對風格圖像Is和給定視角的NeRF渲染圖像Ir分別提取出VGG特征圖Fs和Fr。Fs(i, j)表示特征圖Fr第i行第j列像素的特征向量。NNFM如式(1)所示。
其中,N表示Fr的像素總數,D(Fr(i,j),Fs(i', j'))表示兩個向量之間的余弦距離。即最小化Fr的每個特征與其在Fs特征空間中最近鄰的余弦距離。
(3)為了避免最鄰近特征匹配損失導致過度風格化,ARF采用了一個內容保持損失函數來度量內容圖與特征圖之間的l2距離。
式(2)中,λ是控制風格化強度的權重。ARF通過VGG提取特征圖,使用以上損失函數不斷優化風格化,以期獲得具有多視點一致性、藝術性強的風格化結果。
4優化后NeRF對3D場景動畫風格遷移實踐
我們以上海美術電影制片廠系列劇集《中國奇譚》為例,使用優化后NeRF對攝影作品進行風格遷移,并驗證NeRF的有效性與可行性。在進行相關實驗、收集相關數據時,既有使用大疆無人機拍攝的大型建筑物場景,也有利用普通攝影機記錄的小型建筑物場景,確保實驗過程中數據的多樣性,共同用于3D風格化遷移實驗;同時,也設有同一場景進行不同風格遷移實驗,采用多實驗選型與多風格遷移共同增強本實驗的科學性。
基于NeRF的風格遷移開展實踐。本文截取《中國奇譚》之《小妖怪的夏天》中影像畫面(圖3)進行實驗,實驗優先選擇小型場景進行風格遷移測試研究,且視點集中在一側,運用VGG?19神經網絡對圖3進行相關要素學習,以獲得目標圖像特征。在獲取到相應特征后,將所拍到的影像轉換成圖像序列幀。本實驗對相關圖像序列每間隔四幀選出特定關鍵幀(圖4),用于對相關場景進行3D重建。以獲取在計算機可視范圍內對應像素點,借此形成每一像素點的體積云用于生成3D影像空間,即完成3D重建,經過相關算法處理完成之后截取部分具有代表性的圖片,整體效果如圖5所示。圖5較為完整地展示了計算機重建3D空間的過程。在此基礎之上,實驗借助VGG?19神經網絡進行特征學習,并遷移至3D重建空間中形成影像(圖6)。借助NeRF可以較為有效地將單一圖片中的動畫風格遷移至3D場景中,本文截取此次實驗中的三張圖片(圖7)進行效果分析。經分析,三幅圖像中所標注的紅色區域部分,其前景中的水泥制噴泉可以較好地與背景建筑物體區分。風格遷移完成后,有關像素點色彩信息在3D空間中未發生閃爍,且有關色相等并無明顯變化,能夠較好地與前后景區分,較為成功地完成3D動畫風格遷移實驗。
圖3 《小妖怪的夏天》圖片
圖4 建筑物序列
圖5 建筑物三維重建
圖6 建筑物3D風格遷移
圖7 建筑物風格遷移效果
為增強本實驗各類方法的有效性驗證,本文截取《中國奇譚》之《鄉村巴士帶走了王孩兒和神仙》中圖像﹝圖8(A)﹞,經過神經網絡學習遷移至其他多種不同建筑物體的大型場景,對選用的三組場景﹝圖8(B)(C)(D)﹞進行360°旋轉掃描實驗,將圖8(A)的動畫影像風格遷移至(B)(C)(D)這三組不同的場景影像其建筑物整體輪廓部分,最終效果與圖8(A)的風格較為相似,整體實驗結果尚可。與此同時,在本實驗過程中,為進一步驗證實驗的可靠性與可行性,我們將水墨、油畫等不同風格動畫影像遷移至同一場景之中,進行效果分析(圖9),借助圖9(A)場景進行三維重建,采用三種不同影像風格進行三維效果遷移,最終呈現效果如圖9(B)(C)(D)所示,整體風格遷移較為完善,且不存在色彩閃爍等現象,同時畫面的明暗交接等效果較好。因此,基于神經網絡所習得的動畫影像風格,借助NeRF能夠將其較好地進行3D場景遷移,且生成的場景可以接受不同風格動畫影像。
圖8 同種風格遷移到不同場景效果圖
圖9 多種風格遷移效果圖
經過不同的動畫風格學習,改進后的NeRF可以較為有效地對3D場景進行風格化遷移,既可將同一動畫風格遷移至不同建筑場景之中,也能實現不同動畫風格遷移至同一場景之中。在原有的神經學習網絡基礎上,通過解析影像畫面,借助NeRF將單一圖片中的動畫風格遷移至三維影像空間之中。從實驗結果可知,該方法具備可行性,可以為動畫藝術創作提供全新的思路與方法。
5基于NeRF進行動畫風格遷移的價值思考
作為在計算機技術支持下的人工智能算法之一,經過相關實驗,NeRF能夠較好運用于3D場景動畫風格遷移中。這種方式將催生出新的藝術創作手法,促使影像畫面具有新的藝術形態,如“動畫藝術”,并不斷促使“技術美學”走上新臺階。通過對圖像進行特征學習,NeRF能夠有效地將風格遷移到其他圖片序列中,且保持3D效果特征,可以視為“技術”通過學習藝術,進而“自行”創造藝術之美的過程。作為計算機技術之一的數字技術,脫離部分物質實體,其藝術材質更多展現為數字化的,形成介入技術美學[16]的典型特征,并為現代技術美學開拓疆域。科技促使哲學美感、倫理美感、文化美感融為一體成為現實可能[17]。
此外,NeRF表現出突破二維平面風格遷移,帶來多元化創作方式的特征。通過處理3D圖像,使得藝術創作獲得巨大解放,促使“藝術復制”的快速發展,從而取代“藝術唯一”。在傳統藝術創作之中,藝術作品往往具有唯一性和不可復制性,否則只會淪為贗品;但基于數字技術,尤其是在NeRF支持下,藝術創作突破單一平面,促使對影像畫面中的3D目標物形成風格遷移,此時藝術的“復制”不只是單純的“照搬”,而是經過人工智能學習之后,對影像進行風格遷移,“藝術永恒”逐漸被沖擊。
在NeRF等技術支持下,形成的新型藝術創作方式促使“制作”輔助“創作”,形成新型的技術美學話語。通過機器學習[11](Machine Learning)制作更多的藝術作品,而藝術創作可以留給藝術家進行思考。技術只需將藝術符號等進行組裝,便可形成新的藝術作品,并給藝術審美文化帶來沖擊。在計算機技術支持下,影視作品中的相關元素呈現多元化發展趨勢,NeRF作為人工智能技術的一種,可以對藝術作品等進行“復制”,從一種“現實”轉換為另一種“現實”,促使影像藝術等不再只是對“現實模仿”,而是借助數字技術重新對空間進行改造,制作出更具“幻影”的空間。
隨著計算機處理能力以及各類算法的提升,機器學習能夠更為高效地整合資源,尤其是未來量子計算將大大滿足智能算法的算力要求,計算機將不斷參與現代藝術創作,將技術美學推上新的臺階。作為智能算法之一,NeRF參與影像畫面的藝術創作,成為后現代主義美學的新秀。技術美學將直接參與藝術創作并推動藝術發展,這也將導致技術必須直接介入美學,在現代社會文化中,不斷形成技術、藝術、美學之間的密切聯系。同時,人工智能技術也創造全新的現代審美文化,其能夠參與藝術化創作,以技術建構的美促進傳統藝術觀念發生改變,從原有的“個體創作”“全體創作”不斷升級為“機器創作”,借助各類學習算法等促使藝術創作觀念發生改變。
6結論
通過對COLMAP以及本論文提出的相關算法進行優化改進,并對相關數據進行驗證性實驗等可知,NeRF能夠針對3D場景實現效果更佳的動畫風格遷移,較為快速生成不同風格的動畫影片,提高影視、動畫等創作效率,在一定程度上節約成本,為影視動畫創作提供藝術創作新思路新方法,進一步拓展視覺藝術創作的深度與廣度,也期待未來出現更好的3D動畫效果解決方案。
與此同時,隨著人工智能等各類技術不斷發展,未來計算機技術、美學、藝術三者將不斷融合。這將促使后現代美學不斷發展壯大,并沖擊傳統媒體文化及相關理論研究,改變人們對藝術的認知,藝術創作方式也將發生改變。
注釋、參考文獻
(向下滑動閱讀)
①本文所使用《中國奇譚》等圖片來源于互聯網且僅用于學術研究,感謝上海美術電影制片廠,最終版權仍屬于上海美術電影制片廠。
[1] Mildenhall B, Srinivasan P P, Tancik M, et al. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 405?421.
[2] Gao K, Gao Y N, He H J, et al. NeRF: Neural Radiance Field in 3D Vision, Introduction and Review[EB/OL]. (2023?11?30)[2024?01?05]. https://arxiv.org/pdf/2210.00379.pdf.
[3] Tolstikhin I, Houlsby N, Kolesnikov A, et al. MLP?Mixer: An all?MLP Architecture for Vision[EB/OL].(2021?06?11)[2024?01?05].https://arxiv.org/pdf/2105.01601.pdf.
[4] Yariv L, Gu J, Kasten Y, et al. Volume Rendering of Neural Implicit Surfaces[EB/OL].(2021?12?01)[2024?01?05].https://arxiv.org/pdf/2106.12052.pdf.
[5] Sch?nberger J L, Zheng E, Frahm J M, et al. Pixelwise view selection for unstructured multi?view stereo[C]//Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11?14, 2016, Proceedings, Part III 14. Springer International Publishing, 2016: 501?518.
[6] 董蓀,丁友東,錢昀.基于人工智能的風格遷移算法在動畫特效設計中的應用[J].裝飾,2018(01):104?107.
[7] Zhan F, Yu Y, Wu R, et al. Multimodal image synthesis and editing:A survey[EB/OL].(2023?08?24)[2024?01?21].https://arxiv.org/pdf/2112.13592.pdf.
[8] Tewari A, Thies J, Mildenhall B, et al. Advances in neural rendering[J]. Computer Graphics Forum, 2022, 41(2): 703?735.
[9] Chiang P Z, Tsai M S, Tseng H Y, et al. Stylizing 3d scene via implicit representation and hypernetwork[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2022: 1475?1484.
[10] Kolkin N, Kucera M, Paris S, et al. Neural neighbor style transfer[EB/OL]. (2023?03?24)[2024?01?21]. https://arxiv.org/pdf/2203.13215.pdf.
[11] Zhang Y, He Z, Xing J, et al. Ref?NPR: Reference?Based Non?Photorealistic Radiance Fields for Controllable Scene Stylization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023: 4242?4251.
[12] Sucar E , Liu S , Ortiz J ,et al.iMAP: Implicit Mapping and Positioning in Real?Time[EB/OL].(2021?03?21)[2024?01?05]. https://arxiv.org/pdf/2103.12352v1.pdf.
[13] Zhang K, Kolkin N, Bi S, et al. Arf: Artistic radiance fields[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 717?733.
[14] Simonyan K, Zisserman A. Very deep convolutional networks for large?scale image recognition[EB/OL]. (2015?04?10)[2024?01?21]. https://arxiv.org/pdf/1409.1556.pdf.
[15] Gu J, Wang Z, Kuen J, et al. Recent advances in convolutional neural networks[J]. Pattern recognition, 2018, 77: 354?377.
[16] 高鑫. 技術美學研究(上) [J]. 現代傳播(中國傳媒大學學報), 2011(02): 63?70.
[17] Jordan M I, Mitchell T M. Machine learning: Trends, perspectives, and prospects[J].Science, 2015.
[18] 高鑫. 技術美學研究(下) [J]. 現代傳播(中國傳媒大學學報), 2011(03): 69?75.
【本文項目信息】2022年度上海政法學院青年基金項目“虛擬技術在電影敘事中的運用”(2022XQN18)。
主管單位:國家電影局
主辦單位:電影技術質量檢測所
標準國際刊號:ISSN 1673-3215
國內統一刊號:CN 11-5336/TB
投稿系統:ampt.crifst.ac.cn
官方網站:www.crifst.ac.cn
期刊發行:010-63245081
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.