本文刊發(fā)于《現(xiàn)代電影技術(shù)》2024年第11期
專家點(diǎn)評(píng)
在電影行業(yè)虛擬角色特效制作領(lǐng)域,表情制作的“逼真”與高效,一直是創(chuàng)作人員創(chuàng)新和專業(yè)技術(shù)領(lǐng)域突破的制高點(diǎn)之一。人工智能生成內(nèi)容(AIGC)的顛覆式發(fā)展,給虛擬角色,尤其是非人虛擬角色的表情制作帶來(lái)了新的探索思路。當(dāng)下主要有兩個(gè)技術(shù)路線:一是充分利用AI大模型的高效生成能力,同時(shí)加強(qiáng)對(duì)影像關(guān)鍵幀的描述性約束控制;二是在輸入?yún)⒖嫉膱D片和影像中,增強(qiáng)對(duì)虛擬角色表情和動(dòng)作的遷移控制。總體上,隨著AIGC技術(shù)的發(fā)展進(jìn)步,其驅(qū)動(dòng)虛擬角色表情制作的水平,在實(shí)驗(yàn)中已基本能夠滿足影視作品虛擬預(yù)演快速制作的技術(shù)要求,多用于電影特效鏡頭的輔助參考,但未來(lái)直接生成電影高質(zhì)量?jī)?nèi)容的階段應(yīng)該很快就會(huì)到來(lái),值得行業(yè)人員積極研究。《人工智能生成內(nèi)容(AIGC)驅(qū)動(dòng)的電影虛擬角色面部特效研究》一文,對(duì)當(dāng)下特效領(lǐng)域應(yīng)用AIGC驅(qū)動(dòng)虛擬角色面部特效的方法進(jìn)行了整體分析,對(duì)當(dāng)下主流國(guó)產(chǎn)AI大模型在影視級(jí)虛擬角色表情特效制作中的實(shí)驗(yàn)效果進(jìn)行了對(duì)比分析和整體判斷,提出了符合行業(yè)實(shí)際的制作思路和優(yōu)化流程,指出了高分辨率和多角色表演的未來(lái)持續(xù)研究方向。
——?jiǎng)④?/p>
研究員
中國(guó)電影博物館副館長(zhǎng)
中國(guó)電影電視技術(shù)學(xué)會(huì)先進(jìn)影像專委會(huì)副主任
作 者 簡(jiǎn) 介
吳方強(qiáng)
北京電影學(xué)院攝影系實(shí)驗(yàn)師,主要研究方向:數(shù)字電影色彩、數(shù)字電影CGI技術(shù)。
北京電影學(xué)院攝影系講師,主要研究方向:數(shù)字電影攝影技術(shù)、虛擬攝制。
徐沁雪
周 冰
北京電影學(xué)院表演學(xué)院副教授,主要研究方向:戲劇、電影表演藝術(shù)研究。
摘要
為研究AIGC技術(shù)對(duì)特效領(lǐng)域中虛擬非人角色表情制作帶來(lái)的變革,本文結(jié)合當(dāng)下主流國(guó)產(chǎn)AI大模型,對(duì)影視級(jí)虛擬角色表情特效制作開(kāi)展實(shí)驗(yàn),并提出制作思路和優(yōu)化的制作流程。實(shí)驗(yàn)結(jié)果基本滿足影視作品虛擬預(yù)演(PreViz)快速制作的技術(shù)要求,可用于電影特效鏡頭的輔助制作。本文最后總結(jié)了該實(shí)驗(yàn)方法的可拓展性及迭代方向。
關(guān)鍵詞
AIGC;動(dòng)作捕捉;文生視頻;表情特效;國(guó)產(chǎn)大模型
1引言
隨著計(jì)算機(jī)視覺(jué)(CV)技術(shù)的快速發(fā)展,特效制作成為影視作品的重要組成部分,模擬、仿真重現(xiàn)、再創(chuàng)造一直是該領(lǐng)域的研究重點(diǎn)。多年來(lái),電影虛擬角色特效領(lǐng)域已具備完整的生產(chǎn)制作流程,從身體動(dòng)作到面部表情均有不同路徑的解決方案,這些方案基本圍繞三維動(dòng)畫(huà)工具搭建,從三維模型到骨骼綁定,都與三維仿真技術(shù)高度關(guān)聯(lián)。隨著技術(shù)的發(fā)展,虛擬角色模型已有多種成熟解決方案,而虛擬角色表情一直是制作難度較高的環(huán)節(jié)。人工智能生成內(nèi)容(Artificial Intelligence Generated Content, AIGC)技術(shù)的出現(xiàn)讓筆者重新思考這一領(lǐng)域的制作,是否可用AIGC技術(shù)實(shí)現(xiàn)這一對(duì)傳統(tǒng)三維制作富有挑戰(zhàn)的環(huán)節(jié)。當(dāng)下AIGC商用產(chǎn)品中有諸多使用視頻驅(qū)動(dòng)圖片中角色面部動(dòng)作的解決方案,主要用于真人角色面部動(dòng)作制作,對(duì)其他非人類角色的支持并不友好。本文提出一種基于AIGC的解決方案,無(wú)需三維仿真工具介入,也能較好地處理虛擬角色表情特效,且可大幅降低制作成本。
虛擬角色在生產(chǎn)生活中應(yīng)用廣泛,本文討論的虛擬角色主要指電影行業(yè)終端銀幕影像中的虛擬角色。
2虛擬角色面部特效制作技術(shù)
虛擬角色面部特效制作技術(shù)復(fù)雜,主要使用基于計(jì)算機(jī)圖形學(xué)(Computer Graphics, CG)的三維應(yīng)用來(lái)生產(chǎn),其關(guān)鍵技術(shù)主要有面部建模、材質(zhì)貼圖、骨骼蒙皮、動(dòng)畫(huà)模擬、渲染生成等[1],制作工藝復(fù)雜,修改鏈條長(zhǎng),制作周期長(zhǎng)。本文主要基于虛擬角色制作中的面部表情特效制作進(jìn)行重點(diǎn)論述,這是虛擬角色特效制作的創(chuàng)作重點(diǎn)和技術(shù)難點(diǎn),其制作技術(shù)主要有手動(dòng)制作關(guān)鍵幀驅(qū)動(dòng)的表情特效技術(shù)、基于面部動(dòng)作捕捉的表情特效技術(shù)等。
2.1 手動(dòng)制作關(guān)鍵幀驅(qū)動(dòng)的表情特效技術(shù)
手動(dòng)制作關(guān)鍵幀驅(qū)動(dòng)的表情特效技術(shù)需要首先基于面部三維模型進(jìn)行蒙皮骨骼綁定,得到面部特征控制的基本驅(qū)動(dòng)點(diǎn)后,再通過(guò)動(dòng)畫(huà)藝術(shù)家手動(dòng)為這些驅(qū)動(dòng)點(diǎn)制作不同的表情動(dòng)作關(guān)鍵幀以生成表情特效。該技術(shù)目前仍被大量用于表情特效制作,其優(yōu)勢(shì)在于可控性強(qiáng),動(dòng)態(tài)效果可夸張,亦可寫(xiě)實(shí),但在工業(yè)化生產(chǎn)中對(duì)團(tuán)隊(duì)能力的依賴度高,角色創(chuàng)作上主要依靠動(dòng)畫(huà)藝術(shù)家的個(gè)人能力;技術(shù)操作上,對(duì)蒙皮綁定技術(shù)要求高,創(chuàng)作時(shí)效性主要依賴創(chuàng)作者的能力,在團(tuán)隊(duì)協(xié)作時(shí),不同創(chuàng)作者間的能力差異往往導(dǎo)致時(shí)效管理難以標(biāo)準(zhǔn)化。
2.2 基于面部動(dòng)作捕捉的表情特效技術(shù)
2001年,電影《指環(huán)王:護(hù)戒使者》(The Lord of the Rings: The Fellowship of the Ring)中角色“咕嚕姆”的面部表情特效制作使用了面部動(dòng)作捕捉(Facial Motion Capture)技術(shù)。面部動(dòng)作捕捉又被稱為面部表情捕捉(Facial Expression Capture),是動(dòng)作捕捉技術(shù)的一部分[2],主要使用人臉表演來(lái)驅(qū)動(dòng)三維虛擬角色的表情生成,首先通過(guò)攝影機(jī)拍攝動(dòng)作捕捉演員的面部表演獲取視頻圖像素材,之后對(duì)素材進(jìn)行分析得出演員面部特征點(diǎn)的空間運(yùn)動(dòng)數(shù)據(jù),最后將這些數(shù)據(jù)和三維模型中的控制點(diǎn)相關(guān)聯(lián)驅(qū)動(dòng)三維模型呈現(xiàn)相應(yīng)表情,《阿凡達(dá)》(Avatar)、《猩球崛起》(Rise of the Planet of the Apes)等影片中大量使用了該技術(shù)。其中,捕捉面部表情時(shí),可通過(guò)有跟蹤標(biāo)記點(diǎn)和無(wú)跟蹤標(biāo)記點(diǎn)兩種方式。
2.2.1 有跟蹤標(biāo)記點(diǎn)的面部動(dòng)作捕捉
在面部動(dòng)作捕捉技術(shù)的初期,主要使用有跟蹤標(biāo)記點(diǎn)的面部動(dòng)作捕捉。該技術(shù)需要先在動(dòng)作捕捉演員臉上按要求標(biāo)記跟蹤點(diǎn)并進(jìn)行拍攝,得到帶有跟蹤標(biāo)記點(diǎn)的視頻素材;通過(guò)后期算法對(duì)跟蹤標(biāo)記點(diǎn)進(jìn)行計(jì)算處理得到每個(gè)點(diǎn)的運(yùn)動(dòng)軌跡,之后在三維軟件中將運(yùn)動(dòng)軌跡數(shù)據(jù)轉(zhuǎn)換為控制面部動(dòng)作的相關(guān)骨骼綁定數(shù)據(jù),最終實(shí)現(xiàn)虛擬角色的表情動(dòng)作。該技術(shù)的運(yùn)用極大提高了生產(chǎn)效率,提升了表情特效的寫(xiě)實(shí)度、精準(zhǔn)度。
該技術(shù)作為成熟的表情特效解決方案當(dāng)前仍被廣泛使用。其主要難點(diǎn)在于根據(jù)不同的后期算法,需在動(dòng)作捕捉演員臉上按照不同方式標(biāo)記跟蹤點(diǎn),跟蹤點(diǎn)標(biāo)記不完整或因演員表演導(dǎo)致的跟蹤點(diǎn)模糊均會(huì)提高后期處理難度;動(dòng)作捕捉演員口腔內(nèi)部無(wú)法設(shè)置跟蹤點(diǎn),舌頭的動(dòng)態(tài)只能通過(guò)后期處理。
2.2.2 無(wú)跟蹤標(biāo)記點(diǎn)的面部動(dòng)作捕捉
隨著計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,無(wú)跟蹤標(biāo)記點(diǎn)的面部動(dòng)作捕捉得以實(shí)現(xiàn),省去了為演員臉部提前進(jìn)行標(biāo)記的繁復(fù)工作,演員的表演體驗(yàn)也更加友好。其可分為兩種:一是從拍攝的面部視頻中提取相應(yīng)的特征點(diǎn)(如嘴角、眼角、鼻翼、眉毛等)以生成關(guān)鍵部位的動(dòng)作數(shù)據(jù);二是使用深度攝影機(jī)拍攝帶有深度信息的人臉數(shù)據(jù),從中提取關(guān)鍵特征點(diǎn)的位置屬性傳遞給三維軟件[3]。無(wú)跟蹤標(biāo)記點(diǎn)的面部動(dòng)作捕捉方式在實(shí)際拍攝中方便部署,生產(chǎn)流程環(huán)節(jié)相對(duì)較少,成本較低。其主要難點(diǎn)在于使用非深度相機(jī)在實(shí)際拍攝過(guò)程中,演員面部的光線可能會(huì)有各種變化,精度會(huì)出現(xiàn)一定程度的損失;無(wú)跟蹤標(biāo)記點(diǎn)也意味著面部畫(huà)面信息數(shù)據(jù)和三維模型的匹配過(guò)程有較大容錯(cuò)空間,使表情的精確度和還原度有所降低。
2.3 傳統(tǒng)技術(shù)的限制
使用有跟蹤標(biāo)記點(diǎn)的面部動(dòng)作捕捉技術(shù)制作虛擬角色面部表情特效的方法在電影工業(yè)中的使用已十分成熟,從《指環(huán)王:護(hù)戒使者》的“咕嚕姆”到《猩球崛起》中的一眾猩猩,虛擬角色的表情越來(lái)越生動(dòng)逼真。但這種工藝的制作流程環(huán)節(jié)復(fù)雜,人力資源需求高,只有具備豐富經(jīng)驗(yàn)的特效團(tuán)隊(duì)才能較好完成虛擬角色的表情特效制作,使這類特效制作在影片制作中的成本升高,在一定程度上限制了技術(shù)本身的發(fā)展迭代。
隨著顯卡計(jì)算能力的不斷提高,以虛幻引擎(Unreal Engine, UE)為代表的高寫(xiě)實(shí)度實(shí)時(shí)渲染引擎在電影生產(chǎn)中被廣泛應(yīng)用,而其基于蘋(píng)果手機(jī)深度攝像頭的面部動(dòng)作捕捉也成為一種低成本、高響應(yīng)度的解決方案。UE虛擬人(MetaHuman)中的虛擬角色及其表情驅(qū)動(dòng)的解決方案將游戲行業(yè)的生產(chǎn)方式引入影視行業(yè),使更廣泛領(lǐng)域的創(chuàng)作者能參與到特效制作領(lǐng)域中,使技術(shù)的迭代速度更快,技術(shù)門(mén)檻更低。
以上提到的制作方法在后期處理中均需通過(guò)三維軟件進(jìn)行最終模擬渲染,而三維仿真技術(shù)本身制作流程較為復(fù)雜,制作成本較高,周期較長(zhǎng)。
2.4 AIGC技術(shù)變革下的表情特效探索
當(dāng)前AIGC技術(shù)發(fā)展迅速,諸多文本生成視頻(Text?to?Video, T2V)模型相繼推出,在電影美術(shù)設(shè)計(jì)、游戲設(shè)計(jì)等諸多領(lǐng)域得到廣泛深入的應(yīng)用。為研究AIGC技術(shù)革新下,虛擬角色的表情特效制作是否有可靠的制作方案,筆者對(duì)當(dāng)前幾款國(guó)產(chǎn)AI生成影像工具進(jìn)行了測(cè)試研究,并總結(jié)提煉出一種基于Stable Diffusion[4]制作虛擬角色表情特效的方法。
3基于AIGC制作虛擬角色表情特效的方法
2024年2月,OpenAI 發(fā)布了名為 Sora的人工智能T2V模型[5],雖然該模型至2024年8月還未發(fā)布用戶版,但此后多家公司發(fā)布了自己的文生視頻模型,如Runway Gen?3、Pika、Stable Video Diffusion、快手可靈、字節(jié)即夢(mèng)、Luma AI等。這些模型使視頻生產(chǎn)有了更多途徑,除了T2V外,以上大部分產(chǎn)品也支持圖片生成視頻(Image?to?Video, I2V)的方式。相較而言,I2V比T2V可控性更高,筆者通過(guò)測(cè)試發(fā)現(xiàn),需多次生成才能得到符合創(chuàng)作需求的表情表演結(jié)果,成功率低。
在影視工業(yè)化生產(chǎn)中,真人角色的表演主要使用攝影機(jī)拍攝,而虛擬角色需通過(guò)計(jì)算機(jī)制作,其中,表情特效的制作是本次研究的重點(diǎn)。為探索結(jié)合不同AIGC工具下虛擬角色表情特效生成的效果差異,本文在以下測(cè)試中建立了一個(gè)大猩猩的動(dòng)物角色進(jìn)行測(cè)試比較,通過(guò)Stable Diffusion生成了角色閉嘴狀態(tài)和張嘴狀態(tài)的兩張圖片,同時(shí)還拍攝了一段真人模擬大猩猩的表演素材用于驅(qū)動(dòng)視頻輸入源(以下簡(jiǎn)稱“輸入源”)。
3.1 基于I2V的虛擬角色表情特效
在實(shí)際使用場(chǎng)景中,虛擬角色的造型通常是給定的,因此文字直接生成視頻的可靠性較低,為保證角色一致性,需采用I2V的方法。
3.1.1 使用可靈AI生成虛擬角色表情
可靈AI(KLING AI)是快手推出的AI創(chuàng)意生產(chǎn)力平臺(tái),基于快手自研大模型可靈,提供高質(zhì)量視頻及圖像生成[6]。我們選擇了可靈AI的I2V模型,分別使用“高性能”和“高表現(xiàn)”兩種模式進(jìn)行測(cè)試。為避免模型中對(duì)猩猩張嘴表情理解的偏差,我們分別使用了閉嘴和張嘴的圖像作為輸入圖像進(jìn)行測(cè)試;為使虛擬角色的表情符合我們實(shí)際拍攝的真人表演,生成視頻使用的描述語(yǔ)為“圖中的大猩猩怒吼,轉(zhuǎn)頭,憤怒,固定鏡頭,電影質(zhì)感,8K,寫(xiě)實(shí)”,通過(guò)多次生成,筆者選擇其中最接近測(cè)試目的的結(jié)果進(jìn)行比較。
在“高性能”模式下,生成5秒分辨率為720 × 720、幀速率為30 FPS的視頻,兩張圖片的生成結(jié)果均只對(duì)鏡頭運(yùn)動(dòng)做了簡(jiǎn)單調(diào)整,角色基本無(wú)表演,不符合測(cè)試目的預(yù)期。在“高表現(xiàn)”模式下,生成同樣的視頻,視頻內(nèi)容更匹配描述語(yǔ)內(nèi)容,除轉(zhuǎn)頭幅度較大的生成結(jié)果,角色造型基本和輸入圖片一致,表演節(jié)奏普遍較慢。這種方式需在多次生成的結(jié)果中選擇符合預(yù)期的結(jié)果,與真人表演相比存在極大的不可控和表演節(jié)奏的差距。
3.1.2 使用智譜AI生成虛擬角色表情
清影是智譜AI推出的視頻AI生成工具,清影依托智譜大模型團(tuán)隊(duì)自研打造的視頻生成大模型CogVideo,支持文生視頻、圖生視頻。該模型使用Transformer架構(gòu),并摒棄了傳統(tǒng)的Cross Attention模塊,創(chuàng)新性地設(shè)計(jì)了Expert Block以實(shí)現(xiàn)文本與視頻兩種不同模態(tài)空間的對(duì)齊,并通過(guò)Full Attention機(jī)制優(yōu)化模態(tài)間的交互效果[7]。
筆者使用清影的圖生視頻功能進(jìn)行測(cè)試,使用與3.1.1相同的描述語(yǔ),通過(guò)多次生成,選擇其中較優(yōu)結(jié)果進(jìn)行比較。
該模型當(dāng)前支持視頻生成時(shí)長(zhǎng)為6秒鐘、分辨率為1440 × 960、幀速率為16 FPS,多次生成中最符合描述語(yǔ)的動(dòng)作在實(shí)際表現(xiàn)中與我們預(yù)想目標(biāo)有一定差距,表演較為簡(jiǎn)單,對(duì)描述語(yǔ)做出了簡(jiǎn)單的呈現(xiàn),生動(dòng)性較低,五官基本保持不變。在我們?cè)O(shè)定的需求下,清影和可靈AI存在相同的使用短板,可控性較差。
3.2 基于視頻驅(qū)動(dòng)的AI生成虛擬角色表情特效
基于視頻驅(qū)動(dòng)的AI生成視頻方法,我們選擇最新開(kāi)源的MimicMotion和LivePortrait模型進(jìn)行測(cè)試研究。
3.2.1 基于MimicMotion的制作方法
MimicMotion是騰訊公司推出的一款人工智能人像動(dòng)態(tài)視頻生成框架。該框架利用先進(jìn)的技術(shù),根據(jù)用戶提供的單張參考圖像和一系列要模仿的姿勢(shì),生成高質(zhì)量、姿勢(shì)引導(dǎo)的人類動(dòng)作視頻。MimicMotion的核心在于其置信度感知的姿態(tài)引導(dǎo)技術(shù),確保視頻幀的高質(zhì)量和時(shí)間上的平滑過(guò)渡[8]。其在基于擴(kuò)散模型的多種方法中生成的面部動(dòng)作與輸入動(dòng)作的相關(guān)性和合理性上均有更好的表現(xiàn)[9]。
本文使用MimicMotion官網(wǎng)推薦的工作流程在本地進(jìn)行了環(huán)境部署及測(cè)試,由于輸入的圖片參考對(duì)結(jié)果有相應(yīng)影響,我們分別使用了閉嘴和張嘴的猩猩圖片作為參考圖片進(jìn)行測(cè)試。
MimicMotion生成視頻時(shí)長(zhǎng)與輸入源相同,分辨率與輸入圖片同為1024 × 1024,幀速率與輸入源同為25 FPS。通過(guò)測(cè)試,筆者發(fā)現(xiàn)該模型生成內(nèi)容的大軀干運(yùn)動(dòng)表現(xiàn)尚可,頭部結(jié)構(gòu)和運(yùn)動(dòng)表現(xiàn)相對(duì)準(zhǔn)確,但面部表情與輸入視頻相差較大,出現(xiàn)了不同程度的面部扭曲和錯(cuò)誤。該結(jié)果符合模型論文研究結(jié)果,此模型主要用于人類動(dòng)作的生成,對(duì)于非人類的猩猩角色理解有一定偏差,當(dāng)前不適用于非人類造型虛擬角色的表情特效制作。
3.2.2 基于LivePortrait的制作方法
2024年7月4日,快手開(kāi)源了圖生視頻模型LivePortrait,旨在將不同風(fēng)格靜態(tài)圖像中的人像轉(zhuǎn)化為動(dòng)態(tài)肖像視頻。LivePortrait 使用6900萬(wàn)高質(zhì)量幀作為訓(xùn)練數(shù)據(jù),并采用混合圖像視頻訓(xùn)練策略,使LivePortrait具備更強(qiáng)的泛化性,能夠適應(yīng)更多不同類型的輸入數(shù)據(jù)。此外,LivePortrait利用緊湊的隱式關(guān)鍵點(diǎn)代表混合形狀,并設(shè)計(jì)縫合和重定向模塊,這些模塊使用計(jì)算開(kāi)銷極小的小型多層感知器(Multilayer Perceptron, MLP),從而增強(qiáng)了對(duì)生成動(dòng)畫(huà)的控制能力[10]。2024年8月2日,該模型團(tuán)隊(duì)更新了支持動(dòng)物面部的新版本。
本文使用該項(xiàng)目網(wǎng)站推薦的工作流程在本地進(jìn)行了環(huán)境部署及測(cè)試,與3.2.1的測(cè)試方法相同,我們分別使用了閉嘴和張嘴的猩猩圖片作為輸入?yún)⒖紙D片進(jìn)行測(cè)試。
該模型下生成視頻時(shí)長(zhǎng)與輸入源相同,分辨率也與輸入圖片相同(1024 × 1024),幀速率與輸入源相同(25 FPS)。測(cè)試發(fā)現(xiàn),該模型專注于角色頸部以上運(yùn)動(dòng)的生成,軀干無(wú)動(dòng)作表現(xiàn),表情基本模擬輸入視頻中的表情,但對(duì)于猩猩角色的生動(dòng)性表現(xiàn)一般,夸張表情的表現(xiàn)較為保守,并且出現(xiàn)不同程度的五官特征扭曲。另外生成視頻的動(dòng)作連續(xù)性不佳,存在一定程度的抖動(dòng);對(duì)頭部結(jié)構(gòu)的表現(xiàn)不佳,主要體現(xiàn)在五官的動(dòng)態(tài)表現(xiàn)缺少細(xì)節(jié)。該模型可用于類人化程度更高的虛擬角色表情特效制作,同時(shí),由于該模型只專注于頭部及表情動(dòng)畫(huà),如有肢體動(dòng)作表現(xiàn)需求需配合其他方法實(shí)現(xiàn)。3.1中所述的I2V測(cè)試方法結(jié)果如圖1所示。
圖1 I2V方法測(cè)試結(jié)果
4基于擴(kuò)散模型的虛擬角色表情特效制作方法探索
經(jīng)過(guò)以上測(cè)試發(fā)現(xiàn),當(dāng)下可用的AI工具在虛擬角色的表情特效制作上均展現(xiàn)出一定的可能性,但因其制作過(guò)程需多次生成,結(jié)果的確定性較低,不符合影視工業(yè)標(biāo)準(zhǔn)化制作需求,當(dāng)前主要用于短視頻制作。經(jīng)過(guò)多次測(cè)試,本文試圖提出一種可控性更高的制作方法,結(jié)合傳統(tǒng)制作流程與AIGC技術(shù),優(yōu)化以上測(cè)試中遇到的問(wèn)題,實(shí)現(xiàn)影視級(jí)的虛擬角色表情制作。相較于傳統(tǒng)的制作流程,該方法成本更低、更高效,制作流程如圖2所示。
圖2 本文提出的制作流程
4.1 表演素材(輸入源)拍攝
表演設(shè)計(jì)上需盡可能擬合最終的虛擬角色表情特征,本文測(cè)試使用了具備豐富表演經(jīng)驗(yàn)的表演者進(jìn)行素材拍攝。高可靠性的表演利于在影視行業(yè)應(yīng)用中進(jìn)行高效選擇決策,為最終的虛擬角色表情提供相對(duì)可靠精準(zhǔn)的制作參考。測(cè)試發(fā)現(xiàn),表演過(guò)程中演員五官清晰度對(duì)AI生成十分重要,可適當(dāng)化妝以保證拍攝到更為清晰的五官變化。為提供更為精準(zhǔn)的每幀五官特征信息,減少運(yùn)動(dòng)模糊,素材宜采用50 FPS的拍攝幀速率以及更大的鏡頭光孔。為匹配Stable Diffusion XL(SDXL)的最優(yōu)分辨率,我們對(duì)拍攝素材進(jìn)行了裁切,最終使用1024 × 1024分辨率的素材。
4.2 基于擴(kuò)散模型的流程搭建
如圖2所示,為得到更高質(zhì)量影像,本實(shí)驗(yàn)使用SDXL基礎(chǔ)大模型進(jìn)行圖像生成。為使流程搭建方便調(diào)整,本實(shí)驗(yàn)在本地部署的ComfyUI[11]中搭建了整個(gè)工作流。ComfyUI節(jié)點(diǎn)式的使用方法清晰明了,可自定義節(jié)點(diǎn)為個(gè)性化使用需求提供便利,且方便多版本的修改和比較;同時(shí),節(jié)點(diǎn)式操作方式與影視行業(yè)中其他后期特效軟件的操作方式有一定相似性,比無(wú)界面的使用方法更易于在影視行業(yè)推廣。
4.2.1 生成圖像的潛空間控制
使用擴(kuò)散模型生成圖像時(shí),一次生成過(guò)程會(huì)生成一幅圖像,需使用圖像約束控制生成大猩猩的姿態(tài)與輸入姿態(tài)保持一致。我們使用了ControlNet對(duì)潛空間的圖像樣式進(jìn)行約束控制,ControlNet可實(shí)現(xiàn)多種類型控制[12],大部分控制類型可實(shí)現(xiàn)生成圖像的輪廓控制,而我們的制作需求中虛擬角色和輸入源的輪廓完全不一致,輪廓控制只會(huì)導(dǎo)致最終生成的角色造型不符合要求。因此,我們需提取輸入源視頻的表情及運(yùn)動(dòng)姿態(tài),可使用的方法主要有DensePose[13]、OpenPose[14]及DWPose[15];通過(guò)測(cè)試比較,DensePose主要專注于人物大的形體動(dòng)態(tài),繼續(xù)保持了源視頻的造型;OpenPose因輸入源中胳膊有所裁切,生成的圖像會(huì)出現(xiàn)肢體數(shù)據(jù)不完整的情況,在非正面表情中,五官的位置也會(huì)出現(xiàn)不同程度的錯(cuò)位;DWPose在各種姿態(tài)和表情下表現(xiàn)相對(duì)更穩(wěn)定(圖3)。
圖3 姿態(tài)提取方式比較(從上至下逐行依次為源和DensePose、OpenPose、DWPose的處理結(jié)果)
我們選擇了DWPose進(jìn)行約束控制,在使用ControlNet前對(duì)源視頻進(jìn)行了預(yù)處理,得到源視頻中角色的五官及骨骼,使最終生成的角色造型輪廓不受影響,又較好地遷移了輸入源的姿態(tài)。
4.2.2 生成圖像的連續(xù)性控制
使用姿態(tài)控制生成的圖像雖在姿態(tài)和表情上每一幀與輸入源視頻較為一致,但將其合并為視頻影像后存在嚴(yán)重的抖動(dòng)和閃爍。傳統(tǒng)影視后期特效工具可去除抖動(dòng)和閃爍,但此圖像序列連續(xù)幀的像素信息差異大,使用傳統(tǒng)影視后期工具無(wú)法去除,使用AI工具改進(jìn)流程可直接生成連續(xù)性更好的圖片序列。
4.2.2.1 使用AnimateDiff控制圖像連續(xù)性
由上海人工智能實(shí)驗(yàn)室、香港中文大學(xué)和斯坦福大學(xué)的學(xué)者們共同完成的AnimateDiff是一種將文生圖模型轉(zhuǎn)換為動(dòng)畫(huà)生成器的實(shí)用框架,其具有視覺(jué)質(zhì)量保持、運(yùn)動(dòng)多樣性、輕量級(jí)微調(diào)等優(yōu)點(diǎn),為視頻生成提供了新的可能性。運(yùn)動(dòng)模塊是該框架的核心模塊,采用Temporal Transformer架構(gòu),在時(shí)間維度上進(jìn)行信息交換,捕捉動(dòng)畫(huà)中視覺(jué)內(nèi)容的變化,生成運(yùn)動(dòng)動(dòng)態(tài)[16]。使用AnimateDiff保證生成圖像運(yùn)動(dòng)的連續(xù)性,解決了直接使用ControlNet生成畫(huà)面內(nèi)容的抖動(dòng)和閃爍。
圖像序列中虛擬角色運(yùn)動(dòng)的連續(xù)性提高會(huì)導(dǎo)致內(nèi)容變化的減少,無(wú)法實(shí)現(xiàn)輸入源姿態(tài)有表現(xiàn)力的遷移,如我們考慮角色特點(diǎn),希望猩猩張嘴時(shí)嘴張得比較大,但輸入源中表演者因骨骼的局限無(wú)法實(shí)現(xiàn)類似猩猩的張嘴幅度。
4.2.2.2 基于關(guān)鍵幀的描述語(yǔ)
雖使用ControlNet進(jìn)行了相應(yīng)約束,該流程的核心仍是基于T2I的圖像生成,因此描述語(yǔ)作為生成圖像的第一引導(dǎo)要素十分重要。在一個(gè)連續(xù)的表情生成過(guò)程中如果只使用同樣的描述語(yǔ),勢(shì)必造成表情的僵化,引入基于關(guān)鍵幀的描述語(yǔ)則很好地解決了該問(wèn)題,對(duì)輸入源的表情動(dòng)作進(jìn)行語(yǔ)義的關(guān)鍵幀拆分,再將其按輸出的幀編號(hào)進(jìn)行描述語(yǔ)的表情部分修改。如“1,金剛大猩猩,眨眼,平靜;6,金剛大猩猩,張大嘴,憤怒……”,實(shí)現(xiàn)了輸出結(jié)果與輸入源視頻表情的完整遷移。
4.2.3 制作結(jié)果
基于上述流程,我們進(jìn)行了5秒的表演視頻輸入測(cè)試(基于T2I的生成模式,理論上生成時(shí)長(zhǎng)可不受限),輸入視頻幀速率25 FPS(對(duì)原視頻的50 FPS進(jìn)行了抽幀處理)、分辨率1024 × 1024;最終輸出視頻時(shí)長(zhǎng)、分辨率、幀速率與輸入?yún)⒖荚匆曨l一致。
從測(cè)試結(jié)果(圖4)可知,輸出的虛擬大猩猩表情符合輸入源視頻的表演特征,軀干姿態(tài)和表情動(dòng)作都有較好的呈現(xiàn),角色的一致性和動(dòng)態(tài)的連續(xù)性能夠較好地保持,并展示出較為生動(dòng)的光影效果。
圖4 基于本文工作流程的生成結(jié)果
4.3 優(yōu)化和擴(kuò)展
SDXL模型的最優(yōu)分辨率為1024 × 1024[17],在更高分辨率需求下直接生成的結(jié)果并不理想,可引入提升分辨率的方法進(jìn)行二次生成。動(dòng)態(tài)遷移中的表情變化因描述語(yǔ)和AnimateDiff平滑所需幀數(shù)因素會(huì)導(dǎo)致某些表演細(xì)節(jié)的損失,可使用更高幀速率的輸入源視頻和細(xì)分更小幀間隔的描述語(yǔ)來(lái)生成更長(zhǎng)的視頻,之后再對(duì)其進(jìn)行降幀速率平滑處理。基于此工作流程,若我們?cè)陉P(guān)鍵幀的描述語(yǔ)上加入角色變化,可制作某些需求下的變身特效(圖5)。
圖5 不同方法生成結(jié)果的對(duì)比
4.4 總結(jié)
基于本文提出的研究方向,我們選取當(dāng)下熱度較高的國(guó)產(chǎn)AI生成工具和兩種針對(duì)表情遷移設(shè)計(jì)的國(guó)產(chǎn)開(kāi)源大模型,分別基于I2V進(jìn)行了生成測(cè)試,同時(shí)開(kāi)發(fā)了一套基于 T2I 擴(kuò)散模型的工作流程,對(duì)比結(jié)果如圖5所示。
I2V的集成化產(chǎn)品可靈AI、清影均能生成流暢的表情,依賴多次生成中選擇最接近目標(biāo)視頻的生成方式難以保證制作的時(shí)效性,可適用于對(duì)表演沒(méi)有精確要求的使用場(chǎng)景,在表演要求精確的視頻生產(chǎn)中可用性較低。基于國(guó)產(chǎn)開(kāi)源MimicMotion和LivePortrait工具的工作流程開(kāi)發(fā)較為容易,MimicMotion更適于肢體動(dòng)作遷移,非人型虛擬角色表情與輸入視頻相差較大,出現(xiàn)了不同程度的面部扭曲和五官錯(cuò)誤,生成視頻平滑度較高,可用于類人型虛擬角色肢體動(dòng)作遷移的場(chǎng)景;LivePortrait專注于表情遷移,非人型虛擬角色表情生動(dòng)性較差,只簡(jiǎn)單模仿輸入源的五官位置變化,無(wú)法實(shí)現(xiàn)肢體動(dòng)作的遷移,較難滿足角色肢體和表情同時(shí)變化的需求。
本文提出的制作流程部署較為簡(jiǎn)單,借鑒動(dòng)作捕捉的技術(shù)路線,可實(shí)現(xiàn)虛擬角色的面部表情遷移,并保持在新角色中表情的生動(dòng)性。在對(duì)表演有精確要求的視頻制作中展現(xiàn)出較高可靠性,可用于影片虛擬預(yù)演及影視畫(huà)面內(nèi)容制作,在虛擬角色表情制作中可作為輔助方法。
5結(jié)語(yǔ)
本文通過(guò)對(duì)當(dāng)下AI工具在虛擬角色表情制作中的深入研究,比較分析當(dāng)下AI工具在這一細(xì)分領(lǐng)域的可用性,最終設(shè)計(jì)的工作流程實(shí)現(xiàn)了虛擬角色表情特征在骨骼形態(tài)差異較大的角色中的遷移,實(shí)現(xiàn)了基于輸入源視頻制作虛擬角色表情的可控輸出及變換角色的特效。相信隨著AI技術(shù)的快速發(fā)展,影視行業(yè)高可用AI技術(shù)和工藝流程會(huì)加速迭代,提高影視作品綜合生產(chǎn)力。通過(guò)AI制作影視級(jí)的表情特效具有一定的可行性,在特定使用場(chǎng)景下完全可滿足實(shí)際生產(chǎn)需求。國(guó)產(chǎn)視頻生成模型發(fā)展迅速,為影視行業(yè)提供了諸多創(chuàng)作工具。影視行業(yè)的內(nèi)容生產(chǎn)方式也將相應(yīng)發(fā)生改變,擁抱新技術(shù)、用好新技術(shù)對(duì)于創(chuàng)作者十分重要。在本文實(shí)驗(yàn)過(guò)程中,筆者在傳統(tǒng)工藝流程及AI技術(shù)領(lǐng)域進(jìn)行諸多富有成效的探索,提出了制作虛擬角色表情特效可行的方法,也為我們指明了方向,高分辨率及多角色同時(shí)表演將是未來(lái)持續(xù)研究的重點(diǎn)。
參考文獻(xiàn)
(向下滑動(dòng)閱讀)
[1] 徐成華,王蘊(yùn)紅,譚鐵牛. 三維人臉建模與應(yīng)用[J]. 中國(guó)圖象圖形學(xué)報(bào)(A輯),2004,9(8):893?903. DOI:10.3969/j.issn.1006-8961.2004.08.001.
[2] Rahul M. Review on Capture Technology[J]. Global Journal of Computer Science and Technology: F Graphics & Vision,2018, 18(1):22?26.
[3] 賈云鵬,周峻. 作為技術(shù)史的藝術(shù)史——從《阿凡達(dá)》看電影技術(shù)的變革[J]. 北京電影學(xué)院學(xué)報(bào),2010(3):21?28. DOI:10.3969/j.issn.1002-6142.2010.03.005.
[4] Rombach R, Blattmann A, Lorenz D, et al. High?Resolution Image Synthesis With Latent Diffusion Models[C]//Proceedings of the IEEE/CVF Conference on Com? puter Vision and Pattern Recognition,2022:10684?10695.
[5] OpenAI. Sora[EB/OL]. [2024?07?19]. https://openai.com/sora.
[6] KLING AI: Next?Generation AI Creative Studio[EB/OL]. [2024?07?19]. https://klingai.com.
[7] 智譜AI技術(shù)文檔[EB/OL]. [2024?08?15].https://zhipu-ai.feishu.cn/wiki/MFxywuqcbiKmOrkXwJzcEuqwnJd.
[8] windows 一鍵整合包 MimicMotion騰訊的AI人類高質(zhì)量人像動(dòng)態(tài)視頻生成框架[EB/OL]. [2024?07?25]. https://cloud.tencent.com/developer/article/2433731.
[9] Zhang Y, Gu J, Wang L W, et al. Mimicmotion: High?quality human motion video generation with confidence?aware pose guidance[EB/OL].[2024?10?31]. https://arxiv.org/abs/2406.19680.
[10] Guo J, Zhang D, Liu X, et al. LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control[EB/OL].[2024?10?31]. https://arxiv.org/abs/2407.03168.
[11] ComfyUI [EB/OL]. [2024?07?19]. https://github.com/comfyanonymous/ComfyUI.
[12] Zhang L, Rao A, Agrawala M. Adding conditional control to text?to?image diffusion models[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023: 3836?3847.
[13] Güler R A, Neverova N, Kokkinos I. Dense human pose estimation in the wild[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018:7297?7306.
[14] Cao Z, Simon T, Wei S E, et al. Realtime multi?person 2d pose estimation using part affinity fields[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2017: 7291?7299.
[15] Yang Z, Zeng A, Yuan C, et al. Effective whole?body pose estimation with two?stages distillation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023: 4210?4220.
[16] Guo Y, Yang C, Rao A, et al. Animatediff: Animate your personalized text?to?image diffusion models without specific tuning[EB/OL].[2024?10?31]. https://arxiv.org/abs/2307.04725.
[17] Podell D, English Z, Lacey K, et al. SDXL: Improving Latent Diffusion Models for High?Resolution Image Synthesis[EB/OL].[2023?07?04]. https://arxiv.org/abs/2307.01952.
[18] 石樂(lè)民. 無(wú)標(biāo)記面部表情捕捉系統(tǒng)關(guān)鍵技術(shù)研究[D]. 吉林:長(zhǎng)春理工大學(xué),2017.
[19] 何向真. 運(yùn)動(dòng)捕捉技術(shù)基礎(chǔ)[M]. 北京:中國(guó)科學(xué)技術(shù)出版社,2022.
[20] Hu E J, Shen Y, Wallis P, et al. LoRA: Low?Rank Adaptation of Large Language Models[EB/OL].[2024?10?31]. https://arxiv.org/abs/2106.09685.
【本文項(xiàng)目信息】2022年北京市社科基金規(guī)劃項(xiàng)目“未來(lái)高科技條件下電影影像發(fā)展前景研究”(22YTB014)。
主管單位:國(guó)家電影局
主辦單位:電影技術(shù)質(zhì)量檢測(cè)所
標(biāo)準(zhǔn)國(guó)際刊號(hào):ISSN 1673-3215
國(guó)內(nèi)統(tǒng)一刊號(hào):CN 11-5336/TB
投稿系統(tǒng):ampt.crifst.ac.cn
官方網(wǎng)站:www.crifst.ac.cn
期刊發(fā)行:010-63245081
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.