本文刊發于《現代電影技術》2024年第8期
專家點評
角色動畫可賦予電影虛擬角色生動的表現力和獨特的視覺風格。在傳統角色動畫制作中,動畫師需要利用動作捕捉技術結合手動調整來設計角色每幀動作,不僅耗時費力、效率低下,且很難保證動作風格的一致性。隨著人工智能深度學習技術的發展與應用,研究人員開始探索如何利用深度神經網絡自動生成和優化角色動畫,輔助制作效率和呈現效果的提升。其中,基于運動細節注意力的風格化角色動畫技術是一種結合計算機視覺(CV)、深度學習和動畫藝術的前沿方法,該方法可協助動畫師生成具有獨特風格的角色動畫。《基于運動細節注意力的風格化角色動畫生成系統》一文針對角色動畫的自動風格化生成,提出了一種基于運動細節注意力(MD?ATN)模塊的創新風格化運動生成系統,該系統在整合運動淺層特征和深層特征的同時,著重考慮了動作細節特征的損失特性,實現了風格化角色動畫的高質量生成。隨著深度學習技術發展和模型計算效率提高,角色動畫風格化技術必將在多風格融合、實時風格化和風格化定制等多個方向實現更多突破。可以預見,未來風格化角色動畫技術將在影視、游戲和虛擬現實(VR)等領域得到更加廣泛和深入的應用,進而推動影視動畫藝術與現代智能科技的深度融合。
——周令非
中國電影科學技術研究所
(中央宣傳部電影技術質量檢測所)
高級工程師
作 者 簡 介
周凡穎
上海大學上海電影學院2021級碩士研究生,主要研究方向:運動風格遷移、計算機動畫。
上海大學上海美術學院2020級大學本科,主要研究方向:3D場景理解、圖像美學估計。
范藝嚴
翟承碩
上海大學上海電影學院2022級碩士研究生,主要研究方向:數字人。
上海大學上海電影學院教授,上海電影特效工程技術研究中心副主任,主要研究方向:數字影視技術、計算機圖形學。
丁友東
摘要
運動捕捉技術在電影產業中的應用極大提升了角色動作的逼真度,而運動風格遷移技術則進一步拓展了這一領域的可能性。運動風格遷移能夠將特定情緒、年齡、狀態等風格特征遷移至現有的運動捕捉內容中。本文提出一種創新的基于運動細節注意力(MD?ATN)模塊的風格化運動生成系統,旨在為動畫電影的角色運動風格遷移提供一種高效、直觀的解決方案。MD?ATN模塊整合了運動的淺層和深層特征,增加了動作細節,從而生成表現力豐富的風格化運動。實驗結果表明,該系統在保持運動內容一致性的同時,遷移了指定的運動風格,為動畫電影的角色動畫制作提供了新的技術手段和創意空間,提升了創作效率。
關鍵詞
計算機動畫;角色動畫;運動合成;運動風格遷移;生成模型
1引言
在動畫電影制作領域,角色動作和表現是敘事和情感傳達的核心。 運動捕捉技術的應用極大地豐富了動畫角色的表演細節,提高了制作效率。 然而,隨著觀眾對個性化和多樣化動畫體驗需求的日益增長,傳統的運動捕捉技術面臨著新的挑戰。 為了創造出更具個性化和藝術性的角色動作,動畫電影產業迫切需要一種能夠靈活轉換和融合不同運動風格的技術。 運動風格遷移技術滿足了這一需求,能將角色情緒、狀態等運動風格遷移至特定的運動捕捉內容上 [1] 。 該技術不僅能保留原始動作細節,還能賦予角色全新的表現形式,為動畫電影的角色設計和表演創作提供更廣闊的創意空間,同時也為電影制作帶來效率和成本上的優勢。
然而,現有運動風格遷移方法在保留運動特征細節方面仍存在一定局限性。首先,在運動風格的特征空間中,通常使用全局方法計算特征均值和方差,這導致局部細節在很大程度上被忽略。第二,盡管一些方法[2]使用注意力機制來捕獲局部風格特征,但該風格特征通常源于更深層次的特征,導致低層次細節特征被忽略。第三,現有方法只是簡單將重新加權的風格特征融合到內容特征中,未能很好地考慮特征分布。以上原因導致現有方法生成的運動缺乏細節,不適用于電影制作領域。
針對上述問題,本文提出了一個新的風格化角色動畫生成系統。該系統包含一個具有細節感知注意的新模塊,稱為運動細節注意力(Motion Details Attention, MD?ATN)模塊。同時,本文設計了一種新的基于MD?ATN模塊的動作細節特征損失優化目標。如圖1所示,MD?ATN模塊使用注意力機制和歸一化處理運動的全局和局部特征,從風格和內容的淺層和深層特征獲得嵌入特征,因此網絡能夠更加精準地控制和調整角色動作的風格特征。這種對細節的關注使得生成的風格化運動更加豐富和逼真,更好地適應了動畫電影制作對高質量動態表現的要求。通過在Xia數據集[3]和Bandai?Namco?Research? Motion數據集[4]進行實驗驗證,本文方法在識別精度和弗雷歇運動距離(Fréchet Motion Distance, FMD)評分上均取得較好表現,證明了其在動畫電影角色風格遷移任務中的先進性和有效性。
圖1 MD?ATN模塊示意圖
2相關研究
2.1 圖像風格遷移
隨著深度學習的發展,Gatys等[5]提出一種基于卷積神經網絡(CNN)的高效參數化紋理建模方法。之后,Ulyanov等[6]提出實例歸一化(IN),其通過訓練后的網絡將任意內容圖像的風格修改為單個指定的目標風格。Huang等[7]擴展了Ulyanov的想法,通過自適應實例歸一化(AdaIN)將不同的風格統計信息注入同一網絡中。AdaIN調整內容輸入的均值和方差以匹配風格輸入的均值和方差,并通過傳遞特征統計信息有效地將內容和風格結合起來,最終生成風格化圖像。Park等[8]提出的SANet考慮了局部風格,其從風格和內容特征圖中計算注意力分數并調整風格特征,將注意力輸出整合至內容特征中。Liu等[9]受AdaIN和SANet的啟發,提出了自適應注意力歸一化(AdaAttN)模塊,該模塊考慮了具有注意力機制的淺層和深層特征,并基于每個點自適應地傳遞特征分布,因此可更好地為圖像生成高質量的風格化結果。受AdaAttN思想啟發,本文在運動風格遷移中設計了MD?ATN模塊以獲取運動風格的全局和局部特征。
2.2 運動風格遷移
基于深度學習的方法大大提高了風格化運動的質量和生成速度。基于Gram矩陣[5],Holden等[10]在潛在空間中編輯運動,實現了運動風格的遷移。Dong等[11]提出一個基于CycleGAN的新框架,用于將成年人的動作捕捉數據轉換為兒童風格的動作。Aberman等[12]提出的框架從帶有風格標簽的不成對運動數據集中學習。Park等[13]構建時空圖模擬運動片段,讓網絡學習關節之間的空間關系。Tao等[14]提出一種實時風格化運動的生成方法,通過編碼器-遞歸-解碼器結構和一種結合特征注意和時間注意的新判別器完成了風格化運動的生成。Jang等[2]聚焦于人體局部的運動風格遷移,允許對角色的某些身體部位進行風格編輯。最近,Findlay等[15]和Chang等[16]使用去噪擴散概率模型(DDPM)以合成風格化的人體運動。
在上述使用歸一化模塊的方法[2,12,13]中,AdaIN僅考慮全局風格分布,操作內容特征使其特征分布與風格特征一致。而Jang等[2]提出的BP?Net模塊雖然在局部風格化中發揮了作用,但其未能探索淺層特征且未考慮局部特征統計。相較而言,本文方法關注輸入運動的淺層和深層特征,通過MD?ATN模塊提取風格特征,在風格遷移和內容保存間取得了更好的平衡,能生成更具細節的風格化運動,更適合應用于動畫電影制作領域。
3本文方法
3.1 網絡概述
圖2 本文網絡結構圖
3.2 運動細節注意力(MD?ATN)
圖3 MD?ATN模塊框架圖
3.3 動作細節特征損失
3.4 訓練項
4實驗與結果
4.1 評估指標
本文使用弗雷歇運動距離(FMD)以及內容和風格的識別準確度定量評估網絡質量。FMD測量運動特征向量間距離,FMD越低代表生成的運動質量和多樣性越高。此外,本文訓練了一個動作內容和風格的識別網絡,通過該網絡可得運動的內容識別準確率(Content Recognition Accuracy, CRA)和風格識別準確率(Style Recognition Accuracy, SRA),文中的準確率代表內容識別準確率與風格識別準確率的平均值,其用于衡量風格遷移的質量和內容一致性,值越高代表識別準確率越高。
4.2 定量比較
本文方法與Jang等[2]、Aberman等[12]和Park等[13]的方法比較后的定量結果如表1所示,結果顯示本文方法取得了較好表現的FMD,即由本文方法生成的風格化運動具有較高質量。值得一提的是,Jang等[2]的方法取得最好FMD的原因在于該方法更關注生成運動的多樣性,能生成各種組合的風格化運動,然而此方法會過度遷移提供風格的運動中的內容特征,導致生成不自然的運動,此現象將在定性比較結果中展示。此外,本文方法取得了最高的準確率,這表明本文方法可很好地保持運動的內容特征和風格特征,這有助于減少在電影制作中對生成的運動進行編輯的時間成本。
表1 本文方法與Jang等[2]、Aberman等[12]和Park等[13]的定量對比結果
4.3 定性比較
本文方法與Jang等[2]和Park等[13]的方法定性比較結果如圖4所示。為了使結果更直觀,本文對BVH骨架進行了蒙皮處理,這樣不僅展示了骨架的動態變化,還更好地呈現了風格遷移在動畫角色上的應用。圖4中紅框標記出了與本文結果相比,其他方法在內容特征保留和風格特征保留方面的不足之處。盡管Park等[13]的方法在風格遷移方面取得了一定成效,但在保留風格局部特征方面存在局限,且有時無法維持內容一致性;雖然Jang等[2]等的方法在一定程度上保留了風格的局部特征,卻傾向于過度遷移風格運動中的內容特征,這可能歸因于其BP?Net模塊未能充分捕捉淺層特征。經過對比,本文方法保留了最多的局部特征,并在內容特征和風格特征間取得了良好平衡,能產生更加和諧且視覺效果更好的結果。
圖4 本文方法與Jang等[2]和Park等[13]的定性對比結果
4.4 消融實驗
本文通過消融實驗驗證了MD?ATN模塊與動作細節特征損失項對網絡的作用,結果如表2所示。其中,FMD數值越低,生成的運動質量越高;CRA數值越高,生成的運動具有更好的內容一致性;SRA的數值越高,生成的運動具有更好的風格一致性。
表2 消融實驗結果
(1)MD?ATN的作用。AdaIN[7]可提取風格的全局特征,而SANet[8]更關注風格的局部特征。因此,本文用AdaIN和AdaIN與SANet模塊相結合的方式替換MD?ATN模塊,以驗證其在本文網絡中的效果。結果表明,AdaIN在風格遷移方面非常有效,但它忽略了風格的局部特征。此外,具有AdaIN與SANet模塊的網絡取得了較差的FMD、CRA和SRA,這說明不能通過簡單結合的方式同時獲取全局特征與局部特征,而需通過一個統一模塊達到該目的。相比之下,采用MD?ATN模塊的網絡生成的運動取得了更好的FMD、CRA和SRA,這表明在運動風格遷移中,獲取網絡的淺層和深層信息以及考慮風格的全局特征和局部特征是有效的。
(2)動作細節特征損失Lmdf的作用。本文通過從損失項中移除Lmdf來分析其對風格化運動結果的影響。結果顯示,沒有動作細節特征損失的網絡獲得了更差的FMD,這表明沒有Lmdf的網絡無法更好地學習從風格編碼器E和MD?ATN模塊中提取的風格特征,Lmdf項對于生成更真實且具有細節的運動非常重要。
4.5 風格插值
本文通過風格插值證明模型的泛化能力。圖5(a)展示了步行內容中使用不同權重的大搖大擺風格的遷移結果;圖5(b)展示了對于相同運動內容,在沮喪和童真兩種風格間插值的遷移結果。由圖5可知,風格插值使得風格化運動的生成更加可控,可幫助電影制作者或動畫師根據需求調整所需風格的權重,提高電影制作的效率。該過程在本文設計的風格化動畫生成系統中尤為重要。
圖5 風格插值遷移結果
5風格化角色動畫生成系統研發
5.1 系統開發環境
本系統使用Python作為主要編程語言,利用其豐富的庫以實現快速開發;系統后端使用了第3章提出的基于運動細節注意力的風格化運動遷移框架;前端界面則通過PyQt5實現,確保了跨平臺的兼容性和用戶交互的流暢性;系統部署于英偉達(NVIDIA)GeForce RTX 3090 GPU(24GB)上。
5.2 風格化角色動畫生成系統流程
本文系統旨在為動畫師工作任務提供便利,其流程圖如圖6所示。風格化動畫生成系統的工作流程是用戶友好且直觀的。在操作流程中,用戶可選擇目標運動和作為參考的風格運動,并通過滑動條調整風格化程度,從而精確控制風格遷移效果。系統提供預覽功能,使用戶能夠即時查看合成結果,并在滿意后導出所需的BVH格式動畫片段。這一流程不僅提升了工作效率,也使得創作過程更加直觀。
圖6 風格化角色動畫生成系統流程圖
5.3 風格化角色動畫生成系統設計
系統采用第3章設計的網絡,集成MD?ATN模塊和風格化特征損失優化算法,確保了風格遷移的質量和動畫的細節表現。系統分為單一風格遷移和多風格遷移兩個主要功能模塊,以適應不同應用場景和用戶需求。其中,單一風格遷移模塊專注于將一種特定風格應用到運動內容上,適用于需要特定風格化效果的場景;多風格遷移模塊允許用戶混合多種風格特征,創造出獨特的、復合的風格化動畫,適合探索創新的動畫效果。系統的兩個模塊界面如圖7所示,它們都為用戶提供了如下步驟:(1)上傳運動內容數據:用戶通過界面上傳BVH格式的運動捕捉數據,作為動畫生成的內容基礎;(2)上傳風格運動數據:用戶上傳定義風格特征的BVH格式運動數據,用于指導風格遷移過程;(3)調整風格化程度:系統提供滑動條,允許用戶調整風格遷移的程度,從而在保留原始動作特征的同時,控制風格特征的顯著性;(4)生成預覽:用戶點擊“生成結果”按鈕后,系統將實時渲染風格化動畫,并在界面上提供預覽;(5)導出數據:如果用戶對預覽結果滿意,可以點擊“導出數據”按鈕,將風格化后的動畫保存為BVH文件,以便后續的編輯或使用。
圖7 風格化角色動畫生成系統界面
6 結語
本文提出了一種新的運動風格遷移模塊MD?ATN,通過調整風格特征的加權均值和方差來轉換特征統計量,可更好地提取運動風格的全局和局部特征,并將其應用于輸出運動。實驗結果表明,該方法能夠生成高質量的風格化運動結果,保證了一致的全局風格和良好的局部細節,使輸出結果更具表現力。本文開發了一個完整的風格化動畫生成系統,為動畫電影制作提供了一個高效、直觀的工作流程,有助于降低動畫電影制作成本。隨著人工智能技術的持續進步,運動風格遷移技術將更廣泛地應用于電影制作,進一步輔助行業從業者拓展創意邊界,創造出更加生動的CGI角色,推動動畫藝術的發展。
注釋、參考文獻
(向下滑動閱讀)
[1] Tilmanne J, Moinet A, Dutoit T. Stylistic gait synthesis based on hidden Markov models[J/OL].(2012?03?26)[2024?08?12].https://asp-eurasipjournals.springeropen.com/articles/10.1186/1687-6180-2012-72#citeas.
[2] Jang D K, Park S, Lee S H. Motion puzzle: Arbitrary motion style transfer by body part[J]. ACM Transactions on Graphics (TOG), 2022, 41(3):1?16.
[3] Xia S, Wang C, Chai J, et al. Realtime style transfer for unlabeled heterogeneous human motion[J]. ACM Transactions on Graphics (TOG), 2015, 34(4):1?10.
[4] Kobayashi M, Liao C C, Inoue K, et al. Motion Capture Dataset for Practical Use of AI?based Motion Editing and Stylization[EB/OL]. (2023?07?09)[2024?07?11]. https://arxiv.org/abs/2306.08861.
[5] Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2414?2423.
[6] Ulyanov D, Vedaldi A, Lempitsky V. Instance normalization: The missing ingredient for fast stylization[EB/OL]. (2017?11?06)[2024?07?11]. https://arxiv.org/abs/1607.08022.
[7] Huang X, Liu M Y, Belongie S, et al. Multimodal unsupervised image?to?image translation[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 172?189.
[8] Park D Y, Lee K H. Arbitrary style transfer with style?attentional networks[C]//proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 5880?5888.
[9] Liu S, Lin T, He D, et al. Adaattn: Revisit attention mechanism in arbitrary neural style transfer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 6649?6658.
[10] Holden D, Saito J, Komura T. A deep learning framework for character motion synthesis and editing[J]. ACM Transactions on Graphics (TOG), 2016, 35(4):1?11.
[11] Dong Y, Aristidou A, Shamir A, et al. Adult2child: Motion style transfer using cyclegans[C]//Proceedings of the 13th ACM SIGGRAPH Conference on Motion, Interaction and Games, 2020: 1?11.
[12] Aberman K, Weng Y, Lischinski D, et al. Unpaired motion style transfer from video to animation[J]. ACM Transactions on Graphics (TOG), 2020, 39(4):64?1.
[13] Park S, Jang D K, Lee S H. Diverse motion stylization for multiple style domains via spatial?temporal graph?based generative model[J]. Proceedings of the ACM on Computer Graphics and Interactive Techniques, 2021, 4(3): 1?17.
[14] Tao T, Zhan X, Chen Z, et al. Style?ERD: Responsive and coherent online motion style transfer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 6593?6603.
[15] Findlay E J C, Zhang H, Chang Z, et al. Denoising Diffusion Probabilistic Models for Styled Walking Synthesi[EB/OL]. (2022?09?29)[2024?07?11]. https://arxiv.org/abs/2209.14828.
[16] Chang Z, Findlay E J C, Zhang H, et al. Unifying human motion synthesis and style transfer with denoising diffusion probabilistic models[EB/OL]. (2022?12?16)[2024?07?11]. https://arxiv.org/abs/2212.08526.
[17] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Proceedings of Advances in Neural Information Processing Systems (NIPS), 2014: 2672?2680.
[18] Yan S, Xiong Y, Lin D. Spatial temporal graph convolutional networks for skeleton?based action recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1).
[19] Zhu J Y, Park T, Isola P, et al. Unpaired image?to?image translation using cycle?consistent adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2223?2232.
[20] Yang D, Hong S, Jang Y, et al. Diversity?sensitive conditional generative adversarial networks[EB/OL]. (2019?01?25)[2024?07?11]. https://arxiv.org/abs/1901.09024.
主管單位:國家電影局
主辦單位:電影技術質量檢測所
標準國際刊號:ISSN 1673-3215
國內統一刊號:CN 11-5336/TB
投稿系統:ampt.crifst.ac.cn
官方網站:www.crifst.ac.cn
期刊發行:010-63245081
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.