本文刊發于《現代電影技術》2024年第7期
專家點評
電影是視覺藝術與聽覺藝術的有機結合,通過視覺與聽覺的傳遞,呈現給觀眾無與倫比的視聽體驗。多模態技術協同利用視覺、聽覺、文本等信息,能夠實現依靠單一感知通道難以完成的任務,有效提升信息處理性能和魯棒性。不同于傳統視覺生成任務,電影內容制作需要聲畫同步,單模態技術難以勝任這一任務,而多模態技術能夠實現視聽內容的同步合成與處理,為電影內容的自動生成提供了可能。此外,電影制作中的音效生成也有別于傳統聲音信號處理,電影中的音效軌道需根據畫面對每個單一事件實施精細控制,聲音的空間感需要與畫面內容的變化相適應,這些任務都對配音師的創作編輯帶來挑戰。多模態技術能夠根據輸入數據自動生成與視覺畫面相適應的音效效果,實現影片內容和音效的邏輯融合,有助于激發配音師的創作靈感,有效提升創作效率?!峨娪爸悄芑谱餍聶C遇:CVPR 2024多模態技術發展綜述》一文討論分析了2024年國際計算機視覺與模式識別會議(CVPR)中多模態領域前沿技術成果,客觀展示了當前多模態技術的前沿發展現狀,探討其可能為電影智能化制作帶來的新機遇,對電影從業者和相關研究人員具有較高的參考價值。
——劉世光
教授
天津大學智能與計算學部博士生導師
作 者 簡 介
謝志峰
上海大學上海電影學院、上海電影特效工程技術研究中心副教授,博士生導師,主要研究方向:電影高新技術、人工智能。
上海大學上海電影學院碩士研究生在讀,主要研究方向:多模態模型、電影音效生成。
余盛葉
摘要
為了探討電影智能化制作新機遇,本文深入分析2024年國際計算機視覺與模式識別會議(CVPR)中多模態領域前沿技術成果。具體而言,本文聚焦視覺、文本和音頻三個模態的研究與多模態技術在電影制作領域的重要應用:視頻生成、視頻編輯和預告片剪輯技術,視頻描述生成和視頻內容解讀技術,以及聲畫同步、音效生成和視頻配樂技術。研究表明,電影制作過程與多模態技術的融合應用不僅大幅提高制作效率,也將顯著增強藝術表現力。最后,本文總結了當前面臨的多模態技術挑戰,并展望了相關技術在未來電影制作中的發展方向。
關鍵詞
人工智能;電影制作;多模態技術;大語言模型;計算機視覺
1引言
國際計算機視覺與模式識別會議(CVPR),自1983年在美國華盛頓特區首次舉辦以來,已經發展成為計算機視覺領域最具影響力的年度盛會。作為CCF?A類會議,CVPR每年吸引全球相關科研工作者分享最新研究成果,這些成果不僅能夠指引未來的研究方向,還推動了技術的實際應用。截至2024年7月8日,谷歌學術引用(Google Scholar Citation)官方統計CVPR的H5指數①為422,位居全球出版物第四,在工程與計算機類出版物中排名第一。
CVPR以其嚴格的審稿標準和低錄取率著稱,收錄論文通常涵蓋從圖像處理、物體檢測到深度學習等廣泛的研究方向。CVPR 2024于2024年6月17日至6月21日在美國華盛頓州西雅圖召開,根據4月5日CVPR官方發布的結果,會議共收到研究者提交的有效論文11532篇,其中2719篇被接收,整體接收率約為23.6%[1]。對CVPR 2024的錄用論文進行可視化分析后,發現擴散模型(Diffusion Model)、三維視覺、神經輻射場(NeRF)、大語言模型(LLM)、多模態(Multimodal)、語義分割(Semantic Segmentation)等領域應用已成為時下熱點。這些研究不僅在學術界具有重要意義,其技術成果也極大地推動了影視、游戲、動畫和交互等領域的應用創新。
2電影制作中的多模態技術融合
多模態是指結合來自多種不同感官通道的信息,例如視覺、語言和聲音,用以改善和增強機器理解環境的能力。通過這種方式,模型不僅可以處理圖像和視頻,還可理解和生成描述這些視覺內容的文本或響應語音指令。多模態技術使計算機能夠更全面地理解復雜的場景和交互,這在自然語言處理(NLP)、圖像和視頻分析、機器人技術以及改善用戶界面的交互體驗等方面尤為重要。
當代電影制作中,多模態技術的運用通過深度整合視覺、文本和聲音三個核心模態,顯著提升電影作品的藝術質量,促進影視技術革新,并進一步加深了電影的情感傳遞和視覺沖擊力。
作為電影的基本構成元素,視覺模態通過高級攝影技巧和精細視覺設計來采集和呈現影像。優秀的攝影作品不僅關注畫面的構圖和色彩管理,還通過動態的鏡頭運用如推拉、旋轉等手法,增強故事的視覺動態感,使觀眾感受到場景的真實性。文本模態通過劇本和對白展開,為電影提供了結構和敘事深度。劇本不僅是故事發展的藍圖,也是情感沖突和角色發展的核心。有效的對白能夠加深角色的層次感,推動劇情發展,同時還能揭示更深層次的主題和寓意。聲音模態則通過精心設計的音效和音樂來增強電影的情感表達。其范疇不僅限于背景音樂或主題曲,更包括環境聲音、角色行動的聲效等,這些聲音元素在合適的時刻被精確地運用,可以極大地提升場景的緊張氣氛或情感深度。當以上三個模態在電影中得到有效融合,便能相輔相成,共同構建多層次、多感官的豐富體驗。視覺的震撼力、文本的敘事深度和聲音的情感引導共同作用,為觀眾提供一種全方位的沉浸體驗。
CVPR 2024會議上發表的多模態相關研究有望為電影制作行業帶來技術創新,為簡化制作流程、提升作品的藝術價值和市場競爭力提供技術支撐。本文將深入探討這些技術在電影制作中的具體應用以及所帶來的變革,從視頻生成、視頻編輯到預告片剪輯技術,視頻描述生成與視頻內容解讀的進步,并討論聲音技術在聲畫同步、音效生成和視頻配樂的創新應用。同時,總結當前面臨的挑戰與未來展望,探索多模態技術如何持續推動電影制作領域的創新。
3CVPR 2024 中電影制作領域多模態技術綜述
3.1 視覺模態與電影制作
視覺模態是電影最直接和最具沖擊力的表現形式。早期電影主要為黑白無聲,僅依靠視覺講述故事、表達情感。隨著技術的進步,特別是彩色電影和數字影像技術的引入,電影視覺表現力得到了顯著增強。現代電影制作中,高清攝影、特效和計算機生成圖像(CGI)等技術被廣泛使用,使創作者能夠呈現出更精細、震撼的視覺效果。
(1)視頻生成
視頻生成任務是利用生成模型自動創建視頻內容。其基于文本描述、圖像等生成對應視頻,可以得到高度逼真的場景和人物,并廣泛應用于影視制作、廣告創作、虛擬現實(VR)和動漫游戲等領域。
Wu等[2]提出的LAMP(Learn A Motion Pattern)技術,是一種通過微調少量視頻數據上的預訓練文本到圖像模型來實現高效和低成本的視頻生成方法。LAMP通過解耦內容和運動生成,優化幀間通訊,并采用共享噪聲策略,有效提升了視頻的質量和運動模式學習,展示出良好的泛化能力。
此外,Wang等[3]開發的MicroCinema方法,通過一個兩階段創新流程來解決視頻生成的外觀和時間連貫性問題。該方法首先利用文本到圖像生成器創建關鍵幀,之后在第二階段使用Stable Diffusion模型加入時間層,以實現高質量運動建模。引入的外觀注入網絡(Apperance Injection Network)和外觀感知噪聲(Apperance Noise Prior)策略確保了視頻在保持外觀一致的同時,展示出流暢的動態效果。
盡管單文本生成視頻技術極具潛力,能夠根據簡單的文字描述生成豐富多樣的視覺內容,生成的結果多元且自由,能夠極大地拓寬創作者的想象力。然而,為了達到電影制作中所需的精細控制和高質量輸出,這些技術在實際應用中還需滿足更多條件。
Zeng等[4]提出的PixelDance技術采用了一種獨特的方法,結合擴散模型、文本和圖像指令,生成內容豐富的動態視頻。該方法的核心創新在于同時使用視頻的首幀和尾幀圖像指令以及文本指令,使模型能更精確地構建復雜場景和動作,并提供了更精細的控制。
Jain等[5]的PEEKABOO方法在基于UNet的視頻生成模型中引入了時空控制(Spatio?temporal Control)。該方法通過調整注意力機制,實現對視頻詳細內容的精確控制,同時保持低延遲。這不僅提高了視頻生成質量,還允許用戶交互式地控制視頻中對象的大小、位置、姿態和運動,增強了視頻內容的個性化和應用潛力。
Cai等[6]提出的Generative Rendering方法則進一步推動了視頻生成技術的邊界。這種基于擴散的方法利用UV空間初始化噪聲,增強自注意力層以及深度線索引導,實現4D引導的風格化動畫的高保真和幀間一致性生成。該方法將無紋理的3D動畫場景直接渲染為風格化動畫,并通過文本提示指定樣式,為圖像生成模型提供了更高的用戶控制級別。
文本生成視頻技術在電影制作中的應用包括預覽、動畫、概念驗證和故事板(Storyboard)制作等。以故事板為例,其通常作為“可視化劇本”,包含一系列按時間順序排列的插圖和注釋。它們由分鏡師根據導演的指示和劇本內容繪制,詳細描述了特定的情節或動作,如鏡頭角度、移動和關鍵事件。故事板不僅可幫助制作團隊預覽電影的視覺表現,也常作為溝通和協作的工具,確保電影的視覺風格和故事節奏得到統一和精確地執行。然而,傳統的故事板制作過程復雜,耗時較長,且在展現復雜動作、特效和動態場景時存在局限性。文本生成視頻技術在此顯示出巨大潛力,通過將文字描述轉換為動態、可交互的3D故事板,為導演和制片人提供了更直觀、更詳細的預覽方式。通過簡單的文字輸入即時生成相應的動態場景和鏡頭,以便導演、制片人制作前期預覽電影中的關鍵鏡頭,并根據需求進行調整。這種即時反饋極大提高了決策的準確性和效率。Wu等[2-6]研究不僅顯示了文本引導視頻生成領域的創新,也凸顯了高質量電影制作過程中,細節把握和動態控制的必要性。
(2)視頻編輯
視頻編輯任務通過算法和模型對視頻的視覺元素進行細化調整,例如視覺風格、角色和場景等,以提高視頻質量和視覺效果,實現創作者的藝術意圖。
在CVPR 2024上,Yang等[7]提出一種新穎的零樣本擴散框架FRESCO,專注于保持視頻編輯中的時空一致性。該框架通過結合光流引導(Optical Flow Guidance)和自相似性(Self?similarity)優化特征,顯著提升了視頻編輯的一致性和覆蓋范圍。用戶只需提供輸入視頻,FRESCO就能根據目標文本提示重新渲染視頻,同時保留原有的語義內容和動作。該框架與ControlNet、SDEdit 和 LoRA 等多種輔助技術兼容,提供靈活且個性化的視頻轉換和編輯能力。
Feng等[8]提出的CCEdit是一種先進的生成式視頻編輯框架,通過三叉網絡結構(Trident Network Structure)實現結構與外觀的精確控制。該框架包含三個主要分支:文本到視頻的主生成分支、結構控制分支和外觀控制分支。主生成分支轉換預訓練的文本到圖像模型以適應視頻生成,結構控制分支處理輸入視頻的每幀結構信息,外觀控制分支則允許編輯參考幀以精確控制外觀。這些分支通過學習型時序層(Learnable Temporal Layers)集成,確保了視頻幀的時間一致性。
Ma等[9]提出一種基于文本的視頻編輯框架MaskINT,通過兩階段處理提高視頻編輯的效率和質量。首先,使用預訓練的文本到圖像模型編輯關鍵幀;其次,通過非自回歸生成變換器(Non?autoregressive Masked Generative Transformer)的結構感知幀插值模塊,并行生成所有中間幀。MaskINT顯著加快了視頻編輯速度,實驗表明其在時間一致性和文本對齊方面與傳統擴散方法相當,推理時間快5~7倍。該框架可為廣告、直播和電影行業提供高效的文本視頻編輯解決方案。
Xing等[10]提出一種高效的視頻擴散模型SimDA(Simple Diffusion Adapter),通過微調現有的大型圖像擴散模型(如穩定擴散),增加極少的參數(僅2%)。SimDA采用潛移注意機制(Latent?Shift Attention, LSA)改進時間建模能力,顯著提高處理效率和視頻質量。此模型在訓練和推理時顯著降低了GPU內存需求和時間成本,使推理速度比傳統自回歸方法CogVideo快39倍,還可應用于視頻超分辨率和編輯,訓練速度提高3倍。SimDA不僅優化了視頻生成和編輯的性能,還大幅減少了訓練成本。
以上研究均基于二維視頻,還有一些研究致力于三維立體場景和人物的畫面編輯。Jiang等[11]提出一種新穎的電影行為轉移方法。該技術利用基于神經輻射場(NeRF)的可微分拍攝技術,從現有影片中提取攝影機軌跡和角色動作,并將這些行為轉換至全新的角色和場景中。該方法允許在不同的屬性,如照明、角色動態和場景設置等方面進行修改。Liu等[12]提出一種新穎的視頻編輯框架DynVideo?E,首次將動態神經輻射場應用于以人為中心的視頻編輯中。傳統的基于擴散模型的視頻編輯在處理長視頻或存在大規模運動及視角變化的視頻時,難以保持時間上的高一致性。DynVideo?E通過將視頻信息集成到三維動態人體空間和三維背景空間中,利用人體姿態引導的變形場(Deformation Field),實現了編輯內容在整個視頻中的一致傳播。此外,該技術支持360°自由視角的高保真新視圖合成,顯著優于當前最先進的SOTA方法,具有高達50%至95%的人類偏好改進率。DynVideo?E不僅提高了視頻編輯的時間一致性和視覺效果,而且通過多視角多姿態的得分蒸餾采樣(Score Distillation Sampling, SDS)、超分辨率技術以及風格遷移等策略,進一步增強了三維動態人體空間的編輯質量和動畫能力。
通過以上方法,導演和制作團隊能夠在實際拍攝前模擬不同的拍攝效果進行預覽和優化,或者在后期制作中根據需求進行動態調整。這些方法不僅省去了重拍鏡頭和定制動畫的需求,也大幅提升了制作效率和藝術表現力。例如,電影《蜘蛛俠:縱橫宇宙》運用平行宇宙的概念,將280余個蜘蛛俠角色集于一體,每個角色都呈現出獨特的風格,如朋克蜘蛛俠、樂高蜘蛛俠和恐龍蜘蛛俠等。這種創新不僅突破了傳統動畫電影的統一畫風規則,而且通過融合多種風格,如水彩畫、鉛筆手稿、漫畫等,為觀眾創造了無縫且豐富多彩的視聽體驗,打破了次元壁,帶來了前所未有的視覺沖擊和情感共鳴。如果運用以上視頻編輯技術,或可更高效、更低成本地實現電影風格化的創新。
(3)預告片剪輯
在電影產業中,預告片扮演著至關重要的營銷角色。預告片通過展示引人入勝的關鍵場景、故事情節和演員陣容,激發觀眾的期待和興趣,是影片上映前的關鍵營銷手段。然而,傳統的預告片制作過程不僅耗時而且依賴于專業知識,通常涉及繁瑣的鏡頭選擇和排序。
為了應對這些挑戰,Argaw等[13]提出一種名為Trailer Generation Transformer (TGT)的創新自動化解決方案。該框架能夠從整部電影中自動選取并合成鏡頭,生成具有邏輯連貫性的預告片。TGT框架借鑒了機器翻譯技術的原理,將電影和預告片建模為鏡頭序列,并將預告片生成問題定義為序列到序列的任務??蚣懿捎蒙疃葘W習編碼器-解碼器架構,其中電影編碼器利用自注意力機制將每個電影鏡頭嵌入整體上下文中,以此采集不同鏡頭之間的復雜關系。預告片解碼器則以自回歸模型預測下一預告片鏡頭的特征表現,并精確考慮鏡頭在預告片中的時間順序。這種自動化剪輯技術既優化了預告片制作流程,還顯著提升了制作效率和質量。
3.2 文本模態與電影制作
文本模態在電影中的應用可追溯到默片時代的標題卡,用以解釋情節發展或展示對話。有聲電影誕生后,文本通過對話和劇本直接參與聲音敘事。劇本作為電影制作的基礎,不僅提供結構化的故事線,還包含詳細的場景描述、角色對話和動作指令,是電影敘事和情感表達的核心。
(1)視頻描述
視頻描述技術利用自然語言處理(NLP)算法,基于視頻內容自動生成文字描述。該技術通過分析視頻的視覺和音頻信息,提取關鍵特征并轉化為自然語言描述,廣泛應用于視頻搜索、推薦系統和無障礙輔助等領域,可顯著提高視頻內容的可訪問性和檢索效率。
Zhou等[14]提出的新型流式密集視頻描述生成模型,采用基于K?means聚類的記憶機制和流式解碼算法,能夠處理長視頻序列并實時生成描述,展示了該技術的實時應用潛力。
Xu等[15]進一步推進了視頻描述的生成技術,通過構建第一人稱和第三人稱視頻的統一表示空間,提出一種檢索增強的描述生成方法EgoInstructor。該方法利用自動化流程生成視頻偽配對,并通過EgoExoNCE損失函數訓練交叉視角檢索模塊,有效對齊視頻特征。這不僅提高了描述生成的準確性和相關性,還通過利用人類的自然學習過程來改善第一人稱視頻描述的生成。
Kim等[16]開發的CM2模型是一個基于外部記憶的跨模態密集視頻描述生成框架,通過跨模態檢索相關文本線索并結合視覺和文本交叉注意力機制,有效改進了視頻中重要事件的定位與描述。CM2模型不僅能自然流暢地生成視頻描述,還能顯著提升視頻內容的理解和交互體驗。
Islam等[17]提出專為長視頻設計的Video ReCap模型,通過遞歸視頻-語言架構在不同層次上處理和生成描述,能夠有效應對從幾秒到幾小時的視頻長度。該模型采用層次化學習策略和偽摘要數據訓練,在長視頻描述生成任務中實現顯著的性能提升。此外,其在長視頻理解和復雜視頻問答任務中的應用潛力使Video ReCap更適配于需要深入分析和描述視頻內容的場景。
Raajesh等[18]研究提出一個名為MICap的新型單階段影片描述模型,通過自回歸的序列到序列生成方式,融合了填空任務(Fill?in?the?Blanks, FITB)和完整描述生成。MICap使用變換器基礎的編解碼器同時處理視頻描述和角色身份標注,以提升處理效率和準確性。該模型較適合需要在多個視頻中保持角色身份一致性的場景,能夠生成包含角色具體身份的描述性字幕,如電影和電視劇制作。
Jin等[19]提出一種創新視頻文本檢索(VTR)方法MV?Adapter(Multimodal Video Adapter),專為提升任務效率和性能而設計。這種方法采用雙分支結構,并通過瓶頸式架構(下采樣、變換器、上采樣)實現視頻和文本的高效處理。為了增強時間建模能力,MV?Adapter引入了時間適應(Temporal Adaption, TA)模塊,該模塊能夠根據視頻的全局和局部特征動態生成權重。同時,跨模態綁定(Cross Modality Tying, CMT)模塊通過共享模態參數空間生成權重,以提高跨模態學習效率。該方法的高效性和靈活性使其適用于需要快速準確檢索視頻和文本的各種應用場景,如自動化媒體分析和內容審查。
視頻描述生成技術在電影制作中扮演著多重角色。它不僅能自動生成情節概要和場景描述,幫助導演、編劇和編輯快速回顧和調整情節發展,進而顯著提升編輯效率;還能提取視頻中的關鍵場景和高光時刻,為制作預告片或宣傳短片提供素材。此外,該技術通過自動劃分視頻章節并生成對應的描述和總結,幫助觀眾更好地理解和導航視頻內容。在內容審查方面,該技術還可輔助審查人員快速理解視頻內容,確保內容符合相關法律法規,并有效標注及調整敏感情節。
(2)視頻理解
視頻理解技術利用計算機視覺算法,實現對視頻內容的全方位理解。盡管當前的研究大部分集中在對基礎情節發展和視覺元素交互的理解上,但在探討高層次藝術和深層社會意義方面已初步顯出成效。
Song等[20]提出的MovieChat框架,整合了視覺模型和大語言模型(LLM),專為處理長視頻理解任務設計。MovieChat通過引入高效的記憶管理機制和滑動窗口方法提取視頻特征,并通過短期與長期記憶系統處理這些特征,顯著減少了計算復雜性和內存成本,增強了長時間序列的連續性。該模型可以根據觀眾的提問提供解答,例如解釋劇情背景或角色關系,不僅能幫助觀眾更好地理解和討論電影劇情,還能顯著提升觀眾的參與感和滿意度。
Wang等[21]開發的OmniViD框架,將視頻任務視為基于視頻的語言建模任務。通過編碼器-解碼器架構和多模態特征提取,OmniViD引入了文本、時間和畫面框等不同條件,實現了對不同視頻任務的統一處理。該方法有效統一了輸出格式和訓練目標,提高了處理效率,OmniViD在動作識別、視頻字幕、視頻問答及視覺對象追蹤等多個視頻任務上表現出色。
Nguyen等[22]提出的Hierarchical Interlacement Graph(HIG)框架,旨在深入理解視頻中的復雜交互動態。HIG通過其獨特的層次化結構和統一層,簡化了操作流程,并增強了對視頻內容中對象相互作用的全面把握。該框架不僅能適應不同視頻序列,還能靈活調整其結構以捕捉視頻中人物與物體的各種交互活動。
Jin等[23]提出的Chat?UniVi是一種新型的統一視覺語言模型,通過動態視覺令牌同時理解圖像和視頻。該模型采用多尺度表示法,通過基于密度峰值聚類的K近鄰(Density Peak Clustering K?Nearest Neighbours, DPC?KNN)算法逐步合并視覺令牌,實現對圖像空間細節和視頻時間關系的綜合捕捉。Chat?UniVi可在不進行微調的情況下,直接應用于圖像和視頻理解任務,并在這些任務上展示出了優越性能。
Tores等[24]提出了一種新的計算機視覺任務,用于檢測電影中的角色物化現象。通過創建一個名為ObyGaze12的數據集,該數據集包括12部電影中的1914個視頻片段,這些片段圍繞多個物化概念由專家進行詳細注釋。研究團隊采用概念瓶頸模型(Concept Bottleneck Models, CBMs)來評估和提升模型在解析拍攝類型、視線、姿態和外觀等物化概念的能力。這一技術的應用場景主要是影視制作,目的是量化并識別影視作品中的性別物化現象,進一步探討和挑戰銀幕上的性別偏見。這為影視行業的性別平等評估和學術研究提供了新的工具和視角。
視頻理解是深入分析和理解電影內涵的過程,它對觀眾、電影研究者和創作者都至關重要。對觀眾而言,對電影的解讀不僅加深了對劇情、人物和情感的理解,還提升了對視覺元素和敘事結構的審美鑒賞能力,促使他們深入思考影片背后的主題和藝術表達。對研究者來說,視頻理解推動了電影理論的發展,幫助理解電影與文化、歷史及社會的關系,并揭示了電影如何通過視覺敘事和情節發展反映時代背景和社會觀念。同時,解讀經典影片為創作者提供了學習和靈感的源泉,進而探索新的表達方式和主題,更好地理解觀眾需求,以創作出更具深度和影響力的作品。
3.3 音頻模態與電影制作
聲音在電影中的應用標志著電影從默片時代向有聲電影的轉變。這一轉變始于20世紀20年代末,聲音的引入不僅改變了電影的敘事技巧,也極大地增強了電影的情感表達和觀眾的沉浸感。隨著技術的發展,環繞聲系統和多聲道立體聲系統的引入進一步豐富了電影的聲音層次,使聲音設計成為電影藝術中不可或缺的一部分。
(1)聲畫同步
聲音與畫面的同步是所有視頻內容提供者的基本要求,涵蓋了視聽軌道時間同步和視聽內容同步兩個關鍵方面。
視聽軌道時間同步關注視頻和音頻流在時間上的精準匹配。這種同步的失誤可能發生在從拍攝到播放的全過程中,包括內容編輯或編碼階段的錯誤。研究顯示,即便是微小的同步偏差,如45毫秒,也可能顯著影響觀眾的觀看體驗。盡管市場上有多種商業解決方案,但它們往往難以滿足大規模生產的需求。
此外,視聽內容同步主要指音頻內容與視頻中的視覺元素是否匹配,在電影譯制片中常常存在這一問題。配音版需要精細調整口型和語言,以求達到對話的自然流暢。配音過程中,譯員需在錄音棚實時調整以確保音視頻的一致性。盡管配音版在制作上投入更大,但由于人物口型與語言發音的不匹配,以及語言差異有時也會降低配音的自然度,它通常不如原音版更受觀眾歡迎。
針對視聽軌道時間同步這一挑戰,Fernandez?Labrador等[25]開發了一種基于Transformer的音視頻同步模型DiVAS,直接處理原始音視頻數據,有效應對不同幀速率(FPS)和采樣率帶來的挑戰。DiVAS不僅在動作電影、電視劇等多種媒體內容上展示了其優越的同步精度和處理速度,而且能對片段和整體作品進行音視頻同步分析,為內容創作者和分析師提供了一個全面而有效的解決方案。盡管如此,這種同步技術主要解決的是音軌和畫面軌道時間上的對齊,并未涉及視聽內容上的對應,如配音的自然度和語言的匹配問題。
在視聽內容同步方面,Choi等[26]提出一種創新的視聽語音翻譯(AV2AV)框架,能將視聽輸入直接翻譯成目標語言的視聽輸出,解決了傳統語音翻譯系統中常見的視聽不一致問題。利用AVHuBERT模型的模態不可知(Modality?agnostic)特性和專門設計的AV渲染器,這一系統在翻譯過程中保持了說話者音色和面部特征的一致性,只改變語言和口型,適用于多種跨語言交流場景,包括國外電影的本地化。
(2)音效生成
音效生成技術利用多模態生成模型,根據輸入數據自動生成各種音效。該技術可根據文本描述、圖像或視頻內容生成與場景匹配的音效,廣泛應用于影視制作、游戲開發和交互式媒體等領域。
Xing等[27]開發的Seeing and Hearing框架利用預訓練的單模態生成模型和ImageBind對齊器,在多模態嵌入空間中同步生成視覺和音頻內容。該框架利用雙向引導信號建立視覺與音頻間的連接,展現了優秀的性能,適用于多種視頻到音頻的轉換任務,無需大規模數據集訓練,資源消耗低。模型在視頻到音頻(V2A)、圖像到音頻(I2A)、音頻到視頻(A2V)和聯合視頻音頻(Joint?VA)四個任務上展現了出色性能和廣泛的適用性。
然而電影中音效軌道需要對每個單一事件進行精細控制,Xie等[28]通過視覺-語言模型提出可控的音效生成框架SonicVisionLM,根據音效是否在屏幕內可見將音效分為屏內音效和屏外音效,模型既可以自動識別并生成影片的屏內音效,并配套提供了用戶交互模塊,用于配音師對影片的屏外音效實現創作編輯,進一步激發創作靈感。在技術上針對生成音效與影片動作在時間同步上的難題,與生成音效與影片內容高度一致的問題,最終實現了影片內容與屏內音效的邏輯融合,以及對屏外音效的靈活編輯。
自20世紀90年代以來,多聲道體系及數字技術的廣泛應用對電影聲音創作產生了深遠影響。音效不再僅被視為電影的附屬元素,而是成為了提升故事氛圍和增強真實感的關鍵因素,且在電影藝術中的角色日益重要。電影音效的來源極為豐富和多樣,包括自然聲、室內外環境音及人物動作等,這些聲音共同構建了場景的聽覺背景和連貫氛圍。環境音效如風聲、水聲和背景音樂等,與畫面緊密結合,為電影場景勾畫出聽覺背景。硬音效則包括角色和物體活動產生的各種聲音,如門的開關聲和動作打斗聲,而擬音(Foley)技術則通過后期制作同步錄制聲音,模擬角色與環境的交互作用。以上音效生成技術的應用,增加了電影音效自動生成的可行性,不僅可大幅降低電影聲音的制作時間和人力成本,也能有效縮短電影制作周期。
(3)視頻配樂
視頻配樂技術根據視頻內容和情感基調自動生成或推薦合適的音樂。該技術通過分析視頻的視覺和音頻特征,識別出情節和情感的變化,進而匹配相應的音樂片段,廣泛應用于電影、廣告、游戲和多媒體制作中。
Li等[29]開發的Diff?BGM模型,是一個基于擴散的生成框架,用于生成與視頻內容高度對齊的背景音樂。該模型通過集成視頻的語義特征和動態特征,利用片段感知的交叉注意力層,在擴散過程中實現音視頻的精確同步。這種技術不僅提高了視頻的吸引力和表現力,還為電影、短片、廣告和社交媒體等視頻內容的制作提供了自動配樂,極大地減少了對版權音樂的依賴,同時避免了版權問題。
在用戶交互方面,Dong等[30]提出MuseChat,這是一個為視頻內容設計的對話式音樂推薦系統。該系統通過自然語言對話,實時調整音樂選擇以更貼近用戶的具體需求和偏好。通過結合音樂推薦和句子生成兩大模塊,MuseChat使用戶能夠指定音樂風格、情緒和樂器使用等細節,從而生成與視頻內容和用戶偏好高度一致的音樂。該系統特別適用于社交媒體和個人視頻制作,幫助用戶快速且準確地匹配合適的背景音樂。
Chowdhury等[31]研究開發的MeLFusion模型是一種新型的擴散模型,其通過結合圖像和文本輸入來生成與之一致的音樂,克服了傳統音樂生成模型在多模態條件下的局限性。運用“視覺突觸”機制直接從圖像和文本提示中提取特征,轉換為音樂生成的輸入。MeLFusion為社交媒體內容創作者提供了一種高效的音樂創作工具,支持在多種創作環境中高效生成與視覺內容一致的音樂。
以上技術為電影制作提供了一種靈活、高效、成本較低的音樂解決方案。電影音樂主要分為配樂和歌曲兩大類,配樂包括主題音樂、場景音樂和背景音樂,而歌曲則包括主題曲和插曲。音樂是電影藝術的靈魂,不僅推動劇情發展,還可深化電影主旨和塑造人物形象。例如,《海上鋼琴師》廣泛使用配樂有效地參與敘事并加深情感表達。利用視頻配樂技術,編曲家可快速定位音樂的基調,同時從中獲取靈感進行更細致的創作。
4總結和展望
多模態技術正逐步改變電影制作領域,開拓了無限的創新可能性。這些技術不僅提高了內容生成的自動化水平,還增強了復雜場景的理解和情節的深度解析能力。通過整合視覺、聽覺和文本數據,多模態技術可精確地生成與劇本描述相匹配的視覺場景和音頻內容,極大提升了沉浸式體驗和個性化內容的質量。此外,它還促進了跨學科的協同創作,使編劇、導演、配音演員、音效師和特效師能夠在實時合作平臺上高效工作,快速響應反饋和調整創意。
未來的研究將致力于進一步探索多模態技術在解決更加復雜的場景理解和情節構建中的應用。例如,通過高級算法自動分析和生成劇情摘要,以及提供詳盡的角色交互和情感動態圖譜,這些技術可以幫助創作團隊更深入地挖掘劇本潛力,精確控制故事敘述的節奏和情感流動。同時,利用先進的機器學習模型,多模態技術將能夠分析觀眾的行為和反應,從而提供極具針對性和吸引力的個性化推薦。
盡管多模態技術帶來了諸多好處,它在實際應用中也面臨著不少挑戰。數據的整合和處理需要精密的技術支持,以確保不同模態之間的無縫對接和信息的一致性。深度學習模型的復雜性及其不透明性是另一個需要解決的問題,要求開發更為先進的可解釋人工智能技術,使創作過程更加透明和可控。此外,實時處理能力的提升、數據隱私和安全的保護、多語言和跨文化內容的生成,都是技術發展中亟需克服的重要障礙。
在全球范圍內,多模態技術的發展將持續推動電影制作的變革。隨著技術的不斷進步和創新,預計這些工具不僅將使電影制作過程更高效、成本更低,而且能夠創造出前所未有的觀影體驗。隨著研究的深入和技術的成熟,多模態技術將在未來的電影制作中發揮更加關鍵的作用,開辟新的藝術表達和商業模式。
注釋和參考文獻
(向下滑動閱讀)
① H5指數,即H5?Index,是對某期刊最近5年間所發表論文引用數進行評價的數據。該指數具有廣泛代表性且由于不受超高引用單篇論文的影響,相對比較客觀。
[1] CVPR.#CVPR2024[EB/OL].(2024?04?05)[2024?07?10].https://x.com/CVPR/status/1775979633717952965.
[2] Wu R, Chen L, Yang T, et al. LAMP: Learn A Motion Pattern for Few?Shot Video Generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7089?7098.
[3] Wang Y, Bao J, Weng W, et al. Microcinema: A divide?and?conquer approach for text?to?video generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 8414?8424.
[4] Zeng Y, Wei G, Zheng J, et al. Make pixels dance: High?dynamic video generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 8850?8860.
[5] Jain Y, Nasery A, Vineet V, et al. PEEKABOO: Interactive video generation via masked?diffusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 8079?8088.
[6] Cai S, Ceylan D, Gadelha M, et al. Generative rendering: Controllable 4d?guided video generation with 2d diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7611?7620.
[7] Yang S, Zhou Y, Liu Z, et al. FRESCO: Spatial?Temporal Correspondence for Zero?Shot Video Translation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 8703?8712.
[8] Feng R, Weng W, Wang Y, et al. Ccedit: Creative and controllable video editing via diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 6712?6722.
[9] Ma H, Mahdizadehaghdam S, Wu B, et al. Maskint: Video editing via interpolative non?autoregressive masked transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7403?7412.
[10] Xing Z, Dai Q, Hu H, et al. Simda: Simple diffusion adapter for efficient video generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7827?7839.
[11] Jiang X, Rao A, Wang J, et al. Cinematic Behavior Transfer via NeRF?based Differentiable Filming[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 6723?6732.
[12] Liu J W, Cao Y P, Wu J Z, et al. Dynvideo?e: Harnessing dynamic nerf for large?scale motion?and view?change human?centric video editing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7664?7674.
[13] Argaw D M, Soldan M, Pardo A, et al. Towards Automated Movie Trailer Generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7445?7454.
[14] Zhou X, Arnab A, Buch S, et al. Streaming dense video captioning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 18243?18252.
[15] Xu J, Huang Y, Hou J, et al. Retrieval?augmented egocentric video captioning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 13525?13536.
[16] Kim M, Kim H B, Moon J, et al. Do You Remember? Dense Video Captioning with Cross?Modal Memory Retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 13894?13904.
[17] Islam M M, Ho N, Yang X, et al. Video ReCap: Recursive Captioning of Hour?Long Videos[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 18198?18208.
[18] Raajesh H, Desanur N R, Khan Z, et al. MICap: A Unified Model for Identity?aware Movie Descriptions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 14011?14021.
[19] Jin X, Zhang B, Gong W, et al. MV?Adapter: Multimodal Video Transfer Learning for Video Text Retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 27144?27153.
[20] Song E, Chai W, Wang G, et al. MovieChat: From dense token to sparse memory for long video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 18221?18232.
[21] Wang J, Chen D, Luo C, et al. OmniViD: A generative framework for universal video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 18209?18220.
[22] Nguyen T T, Nguyen P, Luu K. HIG: Hierarchical interlacement graph approach to scene graph generation in video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 18384?18394.
[23] Jin P, Takanobu R, Zhang W, et al. Chat?UniVi: Unified visual representation empowers large language models with image and video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 13700?13710.
[24] Tores J, Sassatelli L, Wu H Y, et al. Visual Objectification in Films: Towards a New AI Task for Video Interpretation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 10864?10874.
[25] Fernandez?Labrador C, Ak?ay M, Abecassis E, et al. DiVAS: Video and Audio Synchronization with Dynamic Frame Rates[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 26846?26854.
[26] Choi J, Park S J, Kim M, et al. AV2AV: Direct Audio?Visual Speech to Audio?Visual Speech Translation with Unified Audio?Visual Speech Representation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 27325?27337.
[27] Xing Y, He Y, Tian Z, et al. Seeing and hearing: Open?domain visual?audio generation with diffusion latent aligners[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7151?7161.
[28] Xie Z, Yu S, He Q, et al. SonicVisionLM: Playing sound with vision language models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 26866?26875.
[29] Li S, Qin Y, Zheng M, et al. Diff?BGM: A Diffusion Model for Video Background Music Generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 27348?27357.
[30] Dong Z, Liu X, Chen B, et al. Musechat: A conversational music recommendation system for videos[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 12775?12785.
[31] Chowdhury S, Nag S, Joseph K J, et al. MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 26826?26835.
主管單位:國家電影局
主辦單位:電影技術質量檢測所
標準國際刊號:ISSN 1673-3215
國內統一刊號:CN 11-5336/TB
投稿系統:ampt.crifst.ac.cn
官方網站:www.crifst.ac.cn
期刊發行:010-63245081
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.