本文刊發(fā)于《現(xiàn)代電影技術(shù)》2024年第3期
專家點評
當(dāng)前,我國電影產(chǎn)業(yè)蓬勃發(fā)展,科技正在為電影產(chǎn)業(yè)的發(fā)展進(jìn)步提供強大助力;深度學(xué)習(xí)技術(shù)在人類社會生產(chǎn)生活的各個領(lǐng)域得到廣泛應(yīng)用,且在效率和性能方面不斷凸顯優(yōu)勢,為深度學(xué)習(xí)技術(shù)在電影產(chǎn)業(yè)的應(yīng)用提供了新思路。與此同時,電影工業(yè)也逐步進(jìn)入轉(zhuǎn)型階段,進(jìn)一步催生了深度學(xué)習(xí)與電影產(chǎn)業(yè)結(jié)合的需求。論文《基于深度學(xué)習(xí)的電影智能化攝制技術(shù)研究》以電影攝制流程為主線,介紹了深度學(xué)習(xí)技術(shù)在電影攝制領(lǐng)域的應(yīng)用;從電影前期籌備、中期拍攝到后期制作,詳細(xì)梳理介紹了當(dāng)前電影智能化攝制的先進(jìn)技術(shù)及應(yīng)用情況,同時總結(jié)了電影智能化過程中面臨的相關(guān)問題及技術(shù)挑戰(zhàn),并對深度學(xué)習(xí)與電影攝制結(jié)合的發(fā)展需求和未來趨勢進(jìn)行了分析與展望。論文通過介紹深度學(xué)習(xí)技術(shù)在電影攝制過程中的研究進(jìn)展及應(yīng)用,可以拓寬電影從業(yè)人員的技術(shù)視野;通過總結(jié)當(dāng)前電影智能化攝制面臨的技術(shù)挑戰(zhàn),可以為相關(guān)研究提供方向和重點,有助于進(jìn)一步優(yōu)化完善深度學(xué)習(xí)技術(shù)在電影領(lǐng)域的應(yīng)用;其對于技術(shù)發(fā)展趨勢的展望也有助于激發(fā)電影創(chuàng)新活力。
——季向陽
教授
清華大學(xué)自動化系腦與認(rèn)知科學(xué)研究所所長
中國人工智能學(xué)會深度學(xué)習(xí)專委會主任
作 者 簡 介
胡 堃
胡堃(1990-),男,博士,悉尼大學(xué)計算機科學(xué)學(xué)院博士后研究員, CVPR 2024、ACM MULTIMEDIA 2024等國際會議程序委員會成員、會議審稿人, 多家專業(yè)學(xué)術(shù)期刊審稿人,主要研究方向: 多媒體計算、人工智能、計算機圖形學(xué)和交叉學(xué)科研究。
解沛(1996-),男,碩士,中國電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測所)工程師,主要研究方向:數(shù)字電影技術(shù)。
解沛
摘要
近年來,深度學(xué)習(xí)(DL)技術(shù)在不同領(lǐng)域應(yīng)用廣泛,極大提升了各行業(yè)的生產(chǎn)效率。隨著電影工業(yè)的發(fā)展,為更好將深度學(xué)習(xí)技術(shù)應(yīng)用服務(wù)于電影產(chǎn)業(yè),促進(jìn)電影工業(yè)提質(zhì)升級,本文以電影攝制全流程為主線,結(jié)合先進(jìn)技術(shù)與實際應(yīng)用,對目前深度學(xué)習(xí)技術(shù)在電影智能化攝制各個環(huán)節(jié)上的研究進(jìn)展進(jìn)行了梳理與回顧,并結(jié)合現(xiàn)狀對深度學(xué)習(xí)與電影攝制結(jié)合的發(fā)展需求和未來趨勢進(jìn)行了分析與展望,分析得出目前深度學(xué)習(xí)主要在語義分割與圖像增強等方面已有較成熟應(yīng)用,未來研究人員應(yīng)在更具創(chuàng)造性的環(huán)節(jié)上加強研究,并更加關(guān)注版權(quán)規(guī)范。
關(guān)鍵詞
深度學(xué)習(xí);電影攝制技術(shù);神經(jīng)網(wǎng)絡(luò);生成模型;智能化
1引言
2023年我國電影總票房為549.15億元,其中國產(chǎn)電影票房為460.05億元,占比83.77%[1],觀影人次為12.99億。隨著科技發(fā)展,電影拍攝與制作的工業(yè)化水平取得了極大提升,我國也正由電影大國向電影強國邁進(jìn)。與此同時,深度學(xué)習(xí)(DL)作為機器學(xué)習(xí)(ML)的重要分支,近些年在計算機視覺(CV)、自然語言處理(NLP)、數(shù)據(jù)挖掘(DM)以及多模態(tài)內(nèi)容理解等領(lǐng)域發(fā)揮了巨大作用。因部分環(huán)節(jié)工作的主觀性與藝術(shù)性,電影攝制流程對于深度學(xué)習(xí)的結(jié)合與應(yīng)用仍處于探索階段。本文通過調(diào)研國內(nèi)外現(xiàn)有技術(shù)與文章,針對攝制流程中的不同階段,對深度學(xué)習(xí)技術(shù)在電影智能化攝制中的應(yīng)用進(jìn)行探討與分析,以期提出電影工業(yè)化未來的發(fā)展趨勢與方向。
2深度學(xué)習(xí)技術(shù)與電影攝制流程的結(jié)合
電影攝制是一個涉及多個環(huán)節(jié)的復(fù)雜過程,通常根據(jù)時間線分為三大階段:前期創(chuàng)意與籌備、中期拍攝以及后期制作。在前期創(chuàng)意階段,首先是劇本創(chuàng)作環(huán)節(jié),劇本作者會按照線性結(jié)構(gòu)詳細(xì)描繪故事情節(jié)、場景布局和對白。劇本完成之后,導(dǎo)演會要求分鏡師根據(jù)劇本內(nèi)容制作分鏡頭腳本,并詳細(xì)規(guī)劃每一鏡頭的編號、畫面類型、拍攝手法和時長等信息。此外,對于包含計算機圖形學(xué)(CG)元素的電影,還需對虛擬場景和角色進(jìn)行建模和繪制;為了確保拍攝過程的順暢,許多創(chuàng)作者還會對分鏡頭進(jìn)行虛擬預(yù)演(PreViz)。拍攝階段是電影制作中至關(guān)重要的一環(huán),旨在捕捉分鏡頭腳本中所需的全部視頻畫面及部分現(xiàn)場聲音素材,主要設(shè)備包括攝影機、麥克風(fēng)和燈光系統(tǒng)等。在拍攝過程中,導(dǎo)演和攝影指導(dǎo)需緊密協(xié)作,確保每一鏡頭的構(gòu)圖與劇本或預(yù)演保持一致;燈光系統(tǒng)需提供符合鏡頭氛圍的照明;盡可能多角度拍攝;要隨時注意素材的安全保存與傳輸。此外,隨著虛擬攝制技術(shù)的推廣普及,運用動作捕捉和面部捕捉技術(shù)也日漸成為常態(tài)。后期制作指的是拍攝結(jié)束后進(jìn)行的全部工作,包括素材的剪輯、聲音設(shè)計、視覺效果(VFX)制作、色彩校正、混錄以及母版制作等環(huán)節(jié)。
深度學(xué)習(xí)技術(shù)通過自動整合特征提取和建模過程,推動了多種任務(wù)的成功解決。與傳統(tǒng)機器學(xué)習(xí)相比,深度學(xué)習(xí)依托于神經(jīng)網(wǎng)絡(luò)(Neural Network)架構(gòu),通過增加網(wǎng)絡(luò)深度來形成對輸入數(shù)據(jù)更強大的深層表示能力。目前,常用的深度學(xué)習(xí)架構(gòu)主要包括多層感知機(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、圖神經(jīng)網(wǎng)絡(luò)(GNN)[2]以及Transformer網(wǎng)絡(luò)[3]等。其中,MLP是深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)算法;CNN擅長處理視覺和聽覺方面的信息[4];RNN能夠有效處理和理解文章、視頻或動作序列等連續(xù)的信息流;GNN在動畫仿真包括粒子特效領(lǐng)域、處理基于人體姿態(tài)識別[5][6]領(lǐng)域顯示出強大能力;Transformer網(wǎng)絡(luò)具有理解復(fù)雜數(shù)據(jù)結(jié)構(gòu)和模式的強大能力,同時通過引入跨模態(tài)注意力(Cross?Attention)機制,催生了如GPT[7]和Stable Diffusion[8]等模型。
基于電影攝制的流程順序,深度學(xué)習(xí)技術(shù)在不同階段均有應(yīng)用,主要應(yīng)用場景如圖 1所示。
圖 1 電影攝制流程
3深度學(xué)習(xí)在電影前期創(chuàng)意籌備階段的應(yīng)用
前期創(chuàng)意與籌備工作是整部電影的基石,既需要足夠獨特的劇本,也需要將創(chuàng)意落地的分鏡頭腳本,部分還需要為電影拍攝準(zhǔn)備虛擬預(yù)演,此外,含虛擬場景的片段還應(yīng)當(dāng)為拍攝時使用的場景與角色進(jìn)行建模。近年來,基于深度學(xué)習(xí)實現(xiàn)文本擴充、文生圖以及文生視頻等技術(shù)發(fā)展迅猛,在電影前期也得到了廣泛應(yīng)用。
3.1 劇本創(chuàng)作
劇本作為一部電影的基石,其創(chuàng)作顯得尤為重要。隨著數(shù)據(jù)集與模型的不斷優(yōu)化,現(xiàn)有技術(shù)所生成的劇本內(nèi)容更加流暢也更符合人類閱讀習(xí)慣。常見的劇本生成方式是利用已有文本對神經(jīng)語言模型進(jìn)行訓(xùn)練,輸入簡單的創(chuàng)意內(nèi)容文本(通常是幾句話),輸出具有情節(jié)、人物等內(nèi)容的長篇幅文本。Dharaniya等[9]提出一種基于自然語言處理(NLP)的啟發(fā)式算法的電影劇本生成模型。通過采集不同電影的文本數(shù)據(jù)(包括角色、場景和類型等)并進(jìn)行數(shù)據(jù)預(yù)處理;再使用深度置信網(wǎng)絡(luò)(Deep Belief Network, DBN)從代表性批歸一化方法(Representative Batch Normalization, RBN)層中提取深度特征后獲得相關(guān)特征;最后,將深度特征賦予基于集成學(xué)習(xí)的電影腳本生成(Ensemble?based Movie Script Generation, EMCG)系統(tǒng),其中使用集成學(xué)習(xí)的腳本生成過程由雙向長短期記憶網(wǎng)絡(luò)(LSTM)、GPT-3和GPT?NeoX模型執(zhí)行。為了保證劇本內(nèi)容既有相鄰句子連貫性,又有段落之間的統(tǒng)一,相較于通過大量文本內(nèi)容進(jìn)行訓(xùn)練,Cho等[10]嘗試從連貫性和內(nèi)聚性的角度對神經(jīng)語言模型(NLM)進(jìn)行升級,提出一種基于神經(jīng)網(wǎng)絡(luò)的跨句語言特征、連貫和銜接的長文本生成方法。作者在該方法中提供了兩種鑒別器(Discriminator),其中連貫鑒別器幫助從宏觀角度上構(gòu)建段落,銜接鑒別器從微觀上對相鄰的句子進(jìn)行連接。近年來,隨著對話式人工智能的迅速發(fā)展,劇本生成也采用了類似模式,Zhu等[11]提出一種基于所提供的敘述內(nèi)容生成電影腳本的方法。該方法主要針對場景生成,通過更新機制跟蹤敘述中提供的內(nèi)容,每一次新生成的內(nèi)容均是基于上下文、敘述和反饋之間的多重匹配。此外,他們還構(gòu)建了一個大規(guī)模數(shù)據(jù)集,用于從電影腳本中生成敘事引導(dǎo)腳本。類似的,Eldhose等[12]提出一種名為“Alyce Garner Peterson”的人工智能劇本微調(diào)模型,該模型能夠根據(jù)給定的故事給出劇本內(nèi)容。
3.2 圖像生成
無論是創(chuàng)作用于拍攝的分鏡頭故事板,還是設(shè)計現(xiàn)場或虛擬場景的布景說明,將文字描述轉(zhuǎn)換成相應(yīng)的圖像內(nèi)容都是一個關(guān)鍵步驟。對于圖像生成任務(wù),主要的模型包括生成式對抗網(wǎng)絡(luò)(GAN)[13][14][15]、擴散模型(Diffusion Model)[16][17]以及變分自編碼器(Variational AutoEncoder, VAE)[18]三類(圖 2);每一類模型都可以進(jìn)行有條件和無條件的圖像生成。其中,有條件生成根據(jù)給定的條件或信息生成圖像,而無條件生成則隨機生成符合訓(xùn)練數(shù)據(jù)分布的圖像。
圖 2 三類生成模型的特點
特別地,以文本作為條件,微軟和京東共同開發(fā)了一種名為對象驅(qū)動的注意力生成式對抗網(wǎng)絡(luò)(Object?driven Attentive Generative Adversarial Network,Obj?GAN)[19]。它允許以對象為中心的復(fù)雜場景的文本生成圖像,并引入了一種基于快速R?CNN的目標(biāo)檢測模型,以提供詳細(xì)的對象信息來確保生成的對象與文本描述和預(yù)設(shè)的布局相匹配。作為近年來熱門的深度學(xué)習(xí)模型,Stable Diffusion是一個文本生成圖像模型。該模型通過逐步迭代的方式,將原始圖像的潛在表示擴散到高分辨率圖像。
相較于單純的文本到圖像的轉(zhuǎn)換,基于圖像作為條件的場景也得到了廣泛研究。例如,Zeng等[20]提出用于從任何精度級別語義實現(xiàn)圖像生成的框架SceneComposer,既實現(xiàn)了基于純文本生成圖像,也可以針對畫布上的涂鴉進(jìn)行圖像生成。
3.3 虛擬預(yù)演
在電影準(zhǔn)備階段,為了保證開拍后的每一個鏡頭順利完成拍攝,不僅需要繪制故事板,還需要完成部分鏡頭的虛擬預(yù)演(PreViz)。利用深度學(xué)習(xí)技術(shù)完成虛擬預(yù)演視頻的生成,通常需要提供每一個分鏡的場景描述,包括但不限于人物、置景、光線以及構(gòu)圖等內(nèi)容,利用上述內(nèi)容,我們期望生成一個合理、能夠符合所提供文本內(nèi)容的視頻。基于上述需求,Zhang等[21]提出一個處理復(fù)雜文本到動畫的方法。基于現(xiàn)有的劇本創(chuàng)作動畫生成系統(tǒng),作者構(gòu)建了一個自然語言處理(NLP)流程。首先將輸入的劇本內(nèi)容分割成不同的功能塊,然后對描述性的句子進(jìn)行簡化,最后使用簡化句子生成動畫。作者還提出一組簡化復(fù)雜句子的語言轉(zhuǎn)換規(guī)則,以從簡化句子中提取的信息用于生成描述文本的粗略故事板和視頻。通過實驗,68%的參與者認(rèn)為該系統(tǒng)可以基于劇本生成合理的動畫。虛擬預(yù)演除了根據(jù)文本生成相關(guān)視頻畫面外,通常還需要體現(xiàn)鏡頭、布景、人物位置甚至燈光等內(nèi)容。針對這類需求,Zhu等[22]提出MovieFactory,該方法可以根據(jù)自然語言所描述的需求生成包含畫面的多模態(tài)電影內(nèi)容。這是第一個完全自動化的電影生成模型,使用簡單的文本輸入創(chuàng)建連貫的電影內(nèi)容。該方法第一步利用ChatGPT將提供的文本擴展為用于電影生成的詳細(xì)順序腳本;第二步通過視覺生成和音頻檢索,在視覺和聽覺上進(jìn)一步豐富腳本;第三步,采用空間微調(diào)彌合預(yù)訓(xùn)練圖像模型和新視頻數(shù)據(jù)集之間的差異;最后,引入時間學(xué)習(xí)來捕捉對象運動的特征。此外,在音頻方面,該方法利用檢索模型來選擇和對齊與電影情節(jié)和視覺內(nèi)容相對應(yīng)的音頻元素。對于聲音效果,作者從原始文本內(nèi)容或生成的視頻內(nèi)容中提取特征,并將它們與數(shù)據(jù)庫中合適的音頻剪輯進(jìn)行匹配;對于背景音樂,則利用ChatGPT來總結(jié)情節(jié)和音調(diào),然后將推薦的音調(diào)類別與音樂信息檢索技術(shù)相結(jié)合來識別合適的音樂曲目。MovieFactory生成的樣本可在 YouTube或者bilibili上查閱。
近期,OpenAI提出其第一個視頻模型Sora[23]。在發(fā)布的技術(shù)報告中,研究人員表示其與GPT模型同樣采用Transformer網(wǎng)絡(luò)架構(gòu),這種架構(gòu)可以處理視頻和圖片中時空片段的隱式空間表示。Sora 是一種擴散模型,它從看起來像靜態(tài)噪聲的視頻開始生成視頻,通過多個步驟消除噪聲來逐漸還原視頻。除了能夠僅根據(jù)文本說明生成視頻,該模型還能通過靜止圖像生成視頻,從而提升準(zhǔn)確性和對細(xì)節(jié)的關(guān)注。基于不同的輸入(文本、圖像甚至視頻),Sora可以應(yīng)用在不同的場景下,它可以將視頻沿時間線向前或向后進(jìn)行擴展;改變輸入視頻的風(fēng)格和環(huán)境;實現(xiàn)視頻間的拼接與平滑過渡;還可以對現(xiàn)有視頻進(jìn)行擴展或填充缺失幀。Sora目前也存在無法精確模擬物理運動以及長視頻邏輯不連貫等問題,但相比于其他視頻生成模型,Sora已經(jīng)能夠創(chuàng)造出更符合真實運鏡效果的視頻,也更加契合電影攝制的技術(shù)與藝術(shù)要求。
3.4 場景建模
在現(xiàn)代電影制作中,除了實地拍攝外,部分鏡頭常采用虛擬攝制技術(shù),包括傳統(tǒng)藍(lán)幕/綠幕技術(shù)和采用LED顯示屏的新技術(shù)。無論選擇藍(lán)幕/綠幕還是LED顯示屏,構(gòu)建逼真的虛擬場景都非常關(guān)鍵,這不僅包括整體環(huán)境的搭建,還涉及場景中的細(xì)節(jié),比如紋理和氣候所形成的地質(zhì)特點。三維掃描實際場景后創(chuàng)建虛擬環(huán)境,是一種被廣泛應(yīng)用的整體環(huán)境構(gòu)建方法。為了解決從實景點云數(shù)據(jù)輸入到3D建模場景輸出的問題,Handa等[24]提供了一個用于生成高質(zhì)量室內(nèi)環(huán)境3D場景的框架——SceneNet。他們提出一種分層模型生成器,利用從現(xiàn)有室內(nèi)場景數(shù)據(jù)集中學(xué)習(xí)到的對象關(guān)系先驗,通過模擬退火算法(Simulated Annealing, SA)進(jìn)行求解。掃描后的場景在轉(zhuǎn)換成虛擬場景時,如需對不同物體進(jìn)行識別和分割,過去通常需要耗費大量的人工進(jìn)行識別。對于該問題,Chen等[25]提出通過點云驅(qū)動的深度學(xué)習(xí)方法,該方法可以檢測并分類點云場景中的建筑元素。在論文中,首先將點云轉(zhuǎn)換為圖形表示并通過基于邊緣的分類器對來自不同對象的點的邊緣進(jìn)行識別;之后利用分類器識別到的邊緣進(jìn)行組件分割并確定建筑組件的類型;最后,將每個檢測到的對象與特征空間中的建筑信息模型(Building Information Modeling, BIM)進(jìn)行匹配。針對場景中每一個對象的動態(tài)紋理生成,Tesfaldet等[26]提出用于動態(tài)紋理合成的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的雙流網(wǎng)絡(luò)模型。Pajouheshgar等[27]提出一種可以實時合成任意幀大小和無限長度動態(tài)紋理視頻的模型。利用多尺度感知和位置編碼,該模型中局部單元可以進(jìn)行遠(yuǎn)距離建模并獲取全局信息。通過定性和定量實驗表明,與普通的近鄰成分分析(Neighbourhood Components Analysis, NCA)模型相比,該模型在視覺質(zhì)量和計算表達(dá)能力方面有更高的性能。
3.5 角色建模和設(shè)計
除了場景建模外,電影拍攝還常常會用到角色建模技術(shù)。通過角色建模,既可以實現(xiàn)對真人演員的數(shù)字化,也可以構(gòu)建純虛擬的數(shù)字人物。在真人建模的領(lǐng)域,相較于全身的數(shù)字化生成,僅針對面部或頭部建模的研究與應(yīng)用更為研究者所熱衷。在角色建模和設(shè)計時,通常需要真實人物數(shù)據(jù)(一張圖片或一段視頻)來生成數(shù)字角色。Nagano等[28]通過GAN實現(xiàn)了僅使用一張2D輸入圖像來驅(qū)動動態(tài)頭像的構(gòu)建。該網(wǎng)絡(luò)根據(jù)生成的口腔內(nèi)部和眼睛紋理來合成動態(tài)頭像動畫,這是第一個能夠從單個圖像生成具有口腔內(nèi)部動態(tài)紋理的技術(shù)。Wei等[29]提出一個利用面部特征制作與真人表情相似動畫的系統(tǒng),該系統(tǒng)使用消費級別的頭戴式攝像頭(Headset Mounted Camera, HMC)即可實現(xiàn)。該系統(tǒng)需要使用兩套不同的HMC設(shè)備——訓(xùn)練HMC和追蹤HMC,訓(xùn)練HMC體積較大,配備9個攝像頭,旨在數(shù)據(jù)采集和模型構(gòu)建;追蹤HMC內(nèi)置3個攝像頭,用于精確制作動畫。Galanakis等[30]通過創(chuàng)建一個巨大的帶有標(biāo)簽的面部渲染合成數(shù)據(jù)集并將其用于訓(xùn)練網(wǎng)絡(luò),使后者能夠準(zhǔn)確地建模和概括面部身份、姿勢和外觀。該模型可以準(zhǔn)確地提取面部特征,擬合任意姿勢和光照的面部圖像,并用于在可控條件下重新渲染面部。除了角色建模外,如何實現(xiàn)生成角色與虛擬場景的交互也是目前熱門研究內(nèi)容,對于該問題,Starke等[31]提出一種神經(jīng)網(wǎng)絡(luò)框架來合成涉及與環(huán)境密切交互的動作(坐下、站立、繞行以及開門等)。該系統(tǒng)通過輸入目標(biāo)位置以及需要實現(xiàn)的動作,計算完成目標(biāo)動作過程中需要的動作,同時計算過程中需要避開或適應(yīng)的障礙或家具,最終生成一段動畫序列。
4深度學(xué)習(xí)在電影拍攝中的應(yīng)用
相較于電影制作前期,深度學(xué)習(xí)在電影拍攝過程中的應(yīng)用并不普遍。這是因為實際拍攝環(huán)節(jié)涉及攝影師、燈光師和錄音師等分屬不同工種的眾多專業(yè)人員,使基于深度學(xué)習(xí)的技術(shù)解決方案尚未能夠在全環(huán)節(jié)廣泛實施。目前深度學(xué)習(xí)技術(shù)主要應(yīng)用于動作與面部捕捉、實時對焦等方面。
4.1 動作捕捉與面部捕捉
在電影拍攝當(dāng)中,動作捕捉通常用于利用捕捉到的運動數(shù)據(jù)驅(qū)動已建模角色進(jìn)行同樣的運動。通過結(jié)合深度學(xué)習(xí)技術(shù),可以對已經(jīng)記錄下的運動數(shù)據(jù)進(jìn)行插幀以及修改。此外,目前還有技術(shù)可實現(xiàn)對視頻內(nèi)容中的人物進(jìn)行動作捕捉,Tung等[32]提出一種單相機輸入的基于深度學(xué)習(xí)的運動捕捉模型。該模型不是直接優(yōu)化網(wǎng)格和骨架參數(shù),而是優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)重,在給定單目視頻的情況下預(yù)測3D形狀和骨架配置。該模型使用強監(jiān)督和自監(jiān)督相結(jié)合的端到端方式進(jìn)行訓(xùn)練,其中強監(jiān)督數(shù)據(jù)使用合成數(shù)據(jù),自監(jiān)督數(shù)據(jù)使用骨骼關(guān)鍵點、密集3D網(wǎng)格運動以及人類-背景分割三部分可微分渲染數(shù)據(jù)。在面部捕捉領(lǐng)域,研究方向更多是對拍攝視頻內(nèi)容進(jìn)行識別與捕捉。Laine等[33]提出一個基于視頻的面部表演捕捉實時深度學(xué)習(xí)框架,在給定單目視頻的情況下對人臉進(jìn)行密集的3D追蹤。為了提升準(zhǔn)確性,該框架的面部捕捉流程使用了多視角立體跟蹤方法和藝術(shù)家手動修正關(guān)鍵區(qū)域(例如眼睛和嘴唇)的方式。Wang等[34]針對面部表情動態(tài)捕捉,提出一種基于深度學(xué)習(xí)的面部特征提取和3D動畫生成方法,并利用支持向量機(Support Vector Machine, SVM)技術(shù)進(jìn)行特征分類。作者通過C++和OpenGL對3D動畫進(jìn)行渲染模擬。實驗結(jié)果表明,該方法的人臉檢測算法在準(zhǔn)確率和速度上均具有良好的性能,可以實現(xiàn)視頻圖像中人臉區(qū)域的實時檢測。
4.2 對焦的實現(xiàn)
在電影拍攝中,確保焦點的準(zhǔn)確性至關(guān)重要,而自動對焦技術(shù)則能進(jìn)一步保障拍攝工作的順利進(jìn)行。目前,大多數(shù)技術(shù)專注于對已拍攝的視頻或圖像內(nèi)容進(jìn)行后期對焦處理。Wang等[35]研究者提出一種基于圖像的自動對焦新流程,能夠迅速準(zhǔn)確地找到焦點,速度比以往對比度增強方法快5~10倍,通過建立圖像與其焦點位置之間的直接映射來實現(xiàn)快速對焦,并設(shè)計了一種焦點控制策略,通過動態(tài)調(diào)整焦點位置,極大地提高了基于焦點堆棧估計的圖像質(zhì)量。Zhang等[36]提出一種電影焦點追蹤方法和系統(tǒng),能夠在智能手機拍攝的深景深視頻中生成可重調(diào)焦的視頻內(nèi)容,并利用對未來視頻幀的分析,為當(dāng)前幀提供上下文感知的自動對焦功能。為了生成這種可重新對焦的視頻,研究者們擴展了原本設(shè)計用于靜態(tài)攝影的先進(jìn)機器學(xué)習(xí)方法,提供了新的數(shù)據(jù)集、更適合電影焦點處理的渲染模型,以及保證時間連貫性的過濾方案。Nazir等[37]提出一種利用深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)對單張失焦圖像的深度估計,并獲得全焦(All?in?Focus, Aif)圖像。該方法是由一個編碼器和兩個并行解碼器組成的雙頭架構(gòu),每個解碼器實現(xiàn)不同的任務(wù),一個輸出深度信息,另一個輸出去模糊圖像。
5深度學(xué)習(xí)在電影后期制作中的應(yīng)用
對于后期制作,深度學(xué)習(xí)主要應(yīng)用于音視頻處理與增強等方面。相較于其他兩個階段,深度學(xué)習(xí)在后期制作中已具備較為成熟的應(yīng)用場景,也是應(yīng)用效果較好的一個領(lǐng)域。
5.1 音樂處理和生成
除了拍攝期間錄制的同期聲外,音樂和音效的制作通常都在后期完成。目前,基于深度學(xué)習(xí)的音樂處理技術(shù)發(fā)展迅猛,尤其是在利用樂譜進(jìn)行音樂合成方面已經(jīng)取得較為成熟的進(jìn)展。Mao等[38]開發(fā)了一種名為DeepJ的端到端生成模型,該模型能夠模仿特定作曲家的風(fēng)格來創(chuàng)作音樂,并能學(xué)習(xí)不同的音樂風(fēng)格和音符的高低起伏。通過主觀評價,證明了該模型相比于傳統(tǒng)的長短期記憶網(wǎng)絡(luò)(LSTM)方法有明顯改進(jìn)。Li等[39]提出一種創(chuàng)新的旋律創(chuàng)作方法,該方法優(yōu)化了基于單個小節(jié)的生成式對抗網(wǎng)絡(luò)(GAN)模型,并引入了兩個判別器來構(gòu)建一個增強型的GAN模型:一是LSTM模型,確保樂段之間的連貫性;另一是CNN模型,增強樂段間的一致性。另一項研究中,Li等[40]還提出MRBERT預(yù)訓(xùn)練模型,專注于多任務(wù)音樂生成,包括旋律和節(jié)奏的學(xué)習(xí)。該模型經(jīng)過微調(diào)后,能夠在多種音樂生成應(yīng)用中使用,如網(wǎng)絡(luò)音樂作曲家,實現(xiàn)旋律生成、編輯、補全及和弦匹配等功能。Li等[41]還提出一種使用基于Transformer網(wǎng)絡(luò)的序列到序列模型生成旋律和弦的方法,該模型分為預(yù)訓(xùn)練的編碼器和解碼器。Lu等[42]則提出一種從文本描述生成樂譜的系統(tǒng),該系統(tǒng)通過音樂屬性作為中介,將任務(wù)分解為從文本到屬性的解析和從屬性到音樂的生成兩個階段,特點是數(shù)據(jù)高效和能夠精確控制生成結(jié)果。Parker等[43]提出一種基于非自回歸Transformer的端到端音樂生成模型,該模型可以理解給定音樂并基于輸入音樂生成新的音樂。
5.2 字幕生成
字幕生成通常是后期制作中耗費人工時間最長的幾項工作之一,目前深度學(xué)習(xí)技術(shù)還無法完全代替手動添加字幕,但也有了不錯的方法。Xu等[44]提出一種深層框架,通過學(xué)習(xí)多模態(tài)注意力長短期記憶(Multimodal Attention Long?Short Term Memory, MA?LSTM)來增強視頻字幕的網(wǎng)絡(luò)。MA?LSTM網(wǎng)絡(luò)充分利用多模態(tài)流和時間注意力,在句子生成過程中有選擇地關(guān)注特定元素。此外,MA?LSTM中還設(shè)計了一種新穎的子和(Child?sum)融合單元,以將不同的編碼模式有效組合到初始解碼狀態(tài)。Li等[45]提出一個分層模塊化網(wǎng)絡(luò),在生成字幕之前在實體、動詞、謂詞和句子4個粒度上橋接視頻表示和語言語義。每個級別由一個模塊實現(xiàn),以將相應(yīng)的語義嵌入到視頻表示中。此外,作者還提出一個基于字幕場景圖的強化學(xué)習(xí)模塊,以更好地測量句子相似度。實驗結(jié)果表明,所提出的方法在三個廣泛使用的基準(zhǔn)數(shù)據(jù)集上的性能優(yōu)于此前的模型。
6挑戰(zhàn)與前景
電影攝制是藝術(shù)創(chuàng)作與高新技術(shù)應(yīng)用相結(jié)合的工作,既有需要大量創(chuàng)意與設(shè)計的劇本撰寫、拍攝等工作,也有簡單機械的字幕生成等工作。通過上述回顧我們可以看到,無論是藝術(shù)創(chuàng)作還是簡單的重復(fù)性工作,都已經(jīng)開始通過與深度學(xué)習(xí)技術(shù)相結(jié)合,進(jìn)一步提升電影制作效率。未來,應(yīng)做好以下工作。
(1)提升輸出效率與輸出內(nèi)容專業(yè)性
在電影攝制過程中,Transformer網(wǎng)絡(luò)已然成為構(gòu)建各種生成模型的首選。基于Transformer網(wǎng)絡(luò)的GPT和Sora能夠很好地理解與分析自然語言,在劇本創(chuàng)作、分鏡腳本生成、虛擬預(yù)演等工作上具有優(yōu)秀的表現(xiàn);基于擴散模型和Transformer網(wǎng)絡(luò)的Stable Diffusion更擅長于文生圖以及圖生圖等領(lǐng)域;基于Transformer網(wǎng)絡(luò)的SteamGen等模型在音樂的生成與處理領(lǐng)域具有更多的研究進(jìn)展。然而,目前各類算法仍然存在輸出效率不高,輸出內(nèi)容不精細(xì)等問題。未來,研究人員可以繼續(xù)在Transformer網(wǎng)絡(luò)上進(jìn)行深入研究,升級或創(chuàng)新生成模型,提高生成效率,進(jìn)一步提升輸出的音視頻內(nèi)容精確性與專業(yè)性。
(2) 擴充完善電影級訓(xùn)練數(shù)據(jù)集
目前基于電影的專用深度學(xué)習(xí)算法與技術(shù)還處于發(fā)展階段,這不僅需要硬件的升級與算法的創(chuàng)新,同樣需要基于電影領(lǐng)域?qū)S糜?xùn)練數(shù)據(jù)集的幫助。由于深度學(xué)習(xí)的主要算法是數(shù)據(jù)驅(qū)動,如果用于訓(xùn)練的數(shù)據(jù)由于人為選擇標(biāo)準(zhǔn)或標(biāo)簽而分布不均或不具代表性,則學(xué)習(xí)后的結(jié)果同樣可能存在偏差。未來,研究人員在提出新算法的同時,也應(yīng)當(dāng)建立和補充更加豐富多元也更為專業(yè)的訓(xùn)練數(shù)據(jù)集,同時考慮觀眾偏好以及時代特征,符合相關(guān)審查規(guī)范,進(jìn)一步推動深度學(xué)習(xí)模型在訓(xùn)練時數(shù)據(jù)集的專業(yè)性與完備性。
(3)研究基于電影攝制全流程的深度學(xué)習(xí)技術(shù)
基于深度學(xué)習(xí)的電影攝制解決方案仍在持續(xù)涌現(xiàn),然而目前深度學(xué)習(xí)技術(shù)在電影攝制方面的應(yīng)用仍然處于割裂且分散的狀態(tài),無法實現(xiàn)對電影前后期全流程進(jìn)行統(tǒng)一而全面的應(yīng)用。在持續(xù)推進(jìn)各階段不同工作的新技術(shù)新應(yīng)用的同時,還應(yīng)當(dāng)全局考慮電影攝制整體流程,嘗試實現(xiàn)基于全流程的深度學(xué)習(xí)新應(yīng)用;還可嘗試將不同深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行融合與集成,從而使深度學(xué)習(xí)技術(shù)不再單獨完成單一任務(wù),真正實現(xiàn)從劇本創(chuàng)作到成品電影的全流程智能化,進(jìn)而創(chuàng)造出有價值、有意義的作品與內(nèi)容。
參考文獻(xiàn)
(向下滑動閱讀)
[1] 人民網(wǎng).中國電影年度票房突破500億元 國產(chǎn)影片包攬前十[EB/OL].(2023?11?14)[2024?02?01]. https://www.chinafilm.gov.cn/xwzx/gzdt/202311/t20231114_778828.html.
[2] Scarselli F, Gori M, Tsoi A C, et al. Computational capabilities of graph neural networks[J]. IEEE Transactions on Neural Networks, 2008, 20(1): 81?102.
[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017:30.
[4] Gu J, Wang Z, Kuen J, et al. Recent advances in convolutional neural networks[J]. Pattern recognition, 2018, 77: 354?377.
[5] Zhao L, Peng X, Tian Y, et al. Semantic graph convolutional networks for 3D human pose regression[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition,2019: 3425?3435.
[6] Li M, Chen S, Chen X, et al. Actional?structural graph convolutional networks for skeleton?based action recognition[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition,2019: 3595?3603.
[7] Brown T, Mann B, Ryder N, et al. Language models are few?shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877?1901.
[8] Rombach R, Blattmann A, Lorenz D, et al. High?resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition,2022: 10684?10695.
[9] Dharaniya R, Indumathi J, Kaliraj V. A design of movie script generation based on natural language processing by optimized ensemble deep learning with heuristic algorithm[J]. Data & Knowledge Engineering, 2023, 146: 102150.
[10] Cho W S, Zhang P, Zhang Y, et al. Towards coherent and cohesive long?form text generation[EB/OL]. (2018?11?11)[2024?02?01].https://arxiv.org/abs/1811.00511.
[11] Zhu Y, Song R, Nie J Y, et al. Leveraging narrative to generate movie script[J]. ACM Transactions on Information Systems (TOIS), 2022, 40(4): 1?32.
[12] Eldhose K A, Jose C, Siddharth S, et al. Alyce: An Artificial Intelligence Fine?Tuned Screenplay Writer[C]//Innovative Data Communication Technologies and Application: Proceedings of ICIDCA 2020. Springer Singapore, 2021: 627?636.
[13] Reed S, Akata Z, Yan X, et al. Generative adversarial text to image synthesis[C]//International conference on machine learning. PMLR, 2016: 1060?1069.
[14] Brock A, Donahue J, Simonyan K. Large scale GAN training for high fidelity natural image synthesis[EB/OL]. (2018?09?28)[2024?02?01].https://arxiv.org/abs/1809.11096.
[15] Karras T, Laine S, Aila T. A style?based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition,2019: 4401?4410.
[16] Gu S, Chen D, Bao J, et al. Vector quantized diffusion model for text?to?image synthesis[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022: 10696?10706.
[17] Saharia C, Chan W, Saxena S, et al. Photorealistic text?to?image diffusion models with deep language understanding[J]. Advances in Neural Information Processing Systems, 2022, 35: 36479?36494.
[18] Kingma D P, Welling M. Auto?encoding variational bayes[EB/OL]. (2013?12?24)[2024?02?18].https://arxiv.org/abs/1312.6114.
[19] Li W, Zhang P, Zhang L, et al. Object?driven text?to?image synthesis via adversarial training[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019: 12174?12182.
[20] Zeng Y, Lin Z, Zhang J, et al. Scenecomposer: Any?level semantic image synthesis[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2023: 22468?22478.
[21] Zhang Y, Tsipidi E, Schriber S, et al. Generating animations from screenplays[EB/OL]. (2019?04?10)[2024?02?18].https://arxiv.org/abs/1904.05440.
[22] Zhu J, Yang H, He H, et al. MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images[EB/OL].(2023-06-12)[2024-02-18] .https://arxiv.org/abs/2306.07257.
[23] OpenAI.Creating video from text [EB/OL].[2024?02?18]. https://openai.com/sora.
[24] Handa A, P?tr?ucean V, Stent S, et al. Scenenet: An annotated model generator for indoor scene understanding[C]//2016 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2016: 5737?5743.
[25] Chen J, Kira Z, Cho Y K. Deep learning approach to point cloud scene understanding for automated scan to 3D reconstruction[J]. Journal of Computing in Civil Engineering, 2019, 33(4): 04019027.
[26] Tesfaldet M, Brubaker M A, Derpanis K G. Two?stream convolutional networks for dynamic texture synthesis[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2018: 6703?6712.
[27] Pajouheshgar E, Xu Y, Zhang T, et al. DyNCA: Real?time Dynamic Texture Synthesis Using Neural Cellular Automata[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2023: 20742?20751.
[28] Nagano K, Seo J, Xing J, et al. paGAN: real?time avatars using dynamic textures[J]. ACM Trans. Graph, 2018, 37(6): 258.
[29] Wei S E, Saragih J, Simon T, et al. VR facial animation via multiview image translation[J]. ACM Transactions on Graphics (TOG), 2019, 38(4): 1?16.
[30] Galanakis S, Gecer B, Lattas A, et al. 3DMM?RF: Convolutional Radiance Fields for 3D Face Modeling[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision,2023: 3536?3547.
[31] Starke S, Zhang H, Komura T, et al. Neural state machine for character?scene interactions[J]. ACM Trans. Graph, 2019, 38(6).
[32] Tung H Y, Tung H W, Yumer E, et al. Self?supervised learning of motion capture[J]. Advances in neural information processing systems, 2017,:30.
[33] Laine S, Karras T, Aila T, et al. Production?level facial performance capture using deep convolutional neural networks[C]//Proceedings of the ACM SIGGRAPH/Eurographics symposium on computer animation,2017: 1?10.
[34] Wang B, Shi Y. Expression dynamic capture and 3D animation generation method based on deep learning[J]. Neural Computing and Applications, 2023, 35(12): 8797?8808.
[35] Wang C, Huang Q, Cheng M, et al. Deep learning for camera autofocus[J]. IEEE Transactions on Computational Imaging, 2021, 7: 258?271.
[36] Zhang X, Matzen K, Nguyen V, et al. Synthetic defocus and look?ahead autofocus for casual videography[EB/OL]. (2019?05?15)[2024?02?18].https://arxiv.org/abs/1905.06326.
[37] Nazir S, Vaquero L, Mucientes M, et al. Depth estimation and image restoration by deep learning from defocused images[J]. IEEE Transactions on Computational Imaging, 2023, 9: 607?619.
[38] Mao H H, Shin T, Cottrell G. DeepJ: Style?specific music generation[C]//2018 IEEE 12th International Conference on Semantic Computing (ICSC). IEEE, 2018: 377?382.
[39] Li S, Jang S, Sung Y. Automatic melody composition using enhanced GAN[J]. Mathematics, 2019, 7(10): 883.
[40] Li S, Sung Y. MRBERT: Pre?Training of Melody and Rhythm for Automatic Music Generation[J]. Mathematics, 2023, 11(4): 798.
[41] Li S, Sung Y. Transformer?Based Seq2Seq Model for Chord Progression Generation[J]. Mathematics, 2023, 11(5): 1111.
[42] Lu P, Xu X, Kang C, et al. MuseCoco: Generating Symbolic Music from Text[EB/OL]. (2023?05?31)[2024?02?18].https://arxiv.org/abs/2306.00110.
[43] Parker J D, Spijkervet J, Kosta K, et al. StemGen: A music generation model that listens[EB/OL]. (2023?12?14)[2024?02?18].https://arxiv.org/abs/2312.08723.
[44] Xu J, Yao T, Zhang Y, et al. Learning multimodal attention LSTM networks for video captioning[C]//Proceedings of the 25th ACM international conference on Multimedia,2017: 537?545.
[45] Li G, Ye H, Qi Y, et al. Learning Hierarchical Modular Networks for Video Captioning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.
主管單位:國家電影局
主辦單位:電影技術(shù)質(zhì)量檢測所
標(biāo)準(zhǔn)國際刊號:ISSN 1673-3215
國內(nèi)統(tǒng)一刊號:CN 11-5336/TB
投稿系統(tǒng):ampt.crifst.ac.cn
官方網(wǎng)站:www.crifst.ac.cn
期刊發(fā)行:010-63245081
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.