99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

《現代電影技術》|黃東晉等:人工智能生成內容在電影創制中的革新:ECCV 2024 AIGC技術綜述

0
分享至


本文刊發于《現代電影技術》2024年第11期

專家點評

人工智能技術的飛速發展與廣泛應用為電影創制領域帶來了一場深刻的變革。AIGC技術及其在圖像生成、視頻生成、3D生成等方面的突破性進展,為電影行業帶來了前所未有的創新動力。當前在圖像、視頻和3D內容生成中的AIGC前沿技術,在提升內容真實感、多樣性和可控性方面取得了顯著進展。同時,這些技術在劇本撰寫、特效制作、角色扮演等電影創制環節可以有效簡化制作流程、降低成本,并為創作者提供更多樣化的工具和方法。然而,盡管AIGC技術為電影創制帶來了巨大潛力,但也面臨著技術可控性、版權保護和創作者權益等挑戰。此外,只有在技術創新與倫理規范的共同推動下,AIGC技術才能更好地賦能電影創制,助力電影產業的高質量發展?!度斯ぶ悄苌蓛热菰陔娪皠撝浦械母镄拢篍CCV 2024 AIGC 技術綜述》深入探討了ECCV 2024會議上展示的AIGC技術在電影創制中的融合創新應用,揭示了AIGC技術如何推動電影制作流程的自動化和智能化,以及其在提升作品藝術價值和市場競爭力方面的潛力。整體而言,本文為讀者提供了一個關于AIGC技術在電影創制中應用的全面視角,不僅展示了技術的進步,也提出了行業發展中需要關注的問題,對于電影行業的從業者和研究人員來說,這是一篇兼具啟發性和指導性的文章。

——葉龍

教授

中國傳媒大學數據科學與智能媒體學院院長

作 者 簡 介

黃東晉

上海大學上海電影學院、上海電影特效工程技術研究中心副教授、博士生導師,主要研究方向:虛擬現實、人工智能、數字影視技術等。

上海大學上海電影學院博士研究生在讀,主要研究方向:深度學習、圖像處理等。

劉金華

王 倩

上海大學上海電影學院碩士研究生在讀,主要研究方向:計算機視覺與深度學習。

上海大學上海電影學院碩士研究生在讀,主要研究方向:深度學習、生成式模型等。

湯譯翔

近年來,人工智能生成內容(AIGC)技術取得突破性進展,電影行業作為內容創作和傳播的重要陣地,正面臨AIGC技術帶來的變革浪潮。本文深入剖析2024年歐洲計算機視覺國際會議(ECCV)在AIGC領域的最新研究成果,重點探討圖像生成、視頻生成、3D生成等前沿技術以及在電影創制領域的融合創新應用。最后,本文總結AIGC技術在電影創制流程中的巨大潛力和當前面臨的挑戰,并對其未來的發展路徑進行了展望。

關鍵詞

電影創制;人工智能生成內容;圖像生成;視頻生成;3D生成

1引言

歐洲計算機視覺國際會議(European Conference on Computer Vision, ECCV)自1986年在法國首次舉辦以來,已發展成為計算機視覺(CV)和人工智能(AI)領域最具影響力的學術盛會之一。ECCV 每兩年舉辦一次,吸引了來自全球的頂尖研究人員和業界專家前來分享圖像處理、機器學習(ML)、模式識別、深度學習(DL)等領域的最新研究成果和技術突破。ECCV 2024于9月29日至10月4日在意大利米蘭召開,大會共收到8585篇論文投稿,最終錄用了2395篇,錄用率為27.9%[1]。

在本屆大會上,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)成為主要的焦點議題,展示了其在視覺生成和內容創作中的巨大潛力。AIGC在圖像生成與編輯、視頻生成與編輯、3D生成與編輯等領域取得了顯著進展,特別是擴散模型(Diffusion Model)、生成式對抗網絡(GAN)、變分自編碼器(VAE)等生成技術,極大提升了圖像、視頻和3D生成的真實感、多樣性和可控性。這些創新成果極大地推動了影視、游戲、動畫等文化創意產業的應用創新,深刻重塑其創制流程。

2AIGC技術與電影創制

傳統的電影創制流程通常包括劇本撰寫、分鏡頭繪制、場景搭建、演員表演、特效制作、剪輯與后期處理等多個環節。而傳統電影制作方法尤其在特效制作、角色扮演、動畫生成和后期編輯等方面存在諸多局限性[2],視覺效果和特效的制作尤其耗時耗力,往往需要依賴專業的藝術家、動畫師和特效團隊通過手工繪制、3D建模、動畫渲染等方式逐幀完成。盡管這種流程能確保影片的高質量,但其制作周期漫長、成本高昂,且對創作者的專業技能要求較高。此外,在視覺效果和創意表達上,傳統流程常受到技術手段和資源的限制,難以快速響應創意需求的變化和市場的多樣化需求。

近年來,AIGC技術飛速發展,在各領域大放光彩。電影作為極具代表性的文化創意產業,正逐步成為AIGC技術實踐與創新的重要舞臺。該技術不僅在圖片生成、視頻生成與編輯等方面帶來了創新,還在場景構建、虛擬角色的創作與3D動作生成等領域推動了電影創制的不斷革新。通過自動化和個性化的內容創作,AIGC 技術正在為電影產業帶來全新的可能性,使創制過程更加高效、靈活且富有創造力,進一步推動了電影創制與科技發展的深度融合。

ECCV 2024 會議上發表的 AIGC 相關研究更好地為電影創制帶來新的技術突破,為簡化制作流程、提升作品的藝術價值和市場競爭力提供技術支撐。本文將深入探討這些技術在電影創制中的具體應用以及將帶來的變革,闡述其如何進一步推動電影創制的智能化進程,為創作者提供更加多樣化的工具和方法,從而提升電影的創意表達能力和生產效率。

3ECCV 2024中AIGC技術發展綜述

本章深入分析ECCV 2024會議中關于圖像生成與編輯、視頻生成與編輯、3D生成與編輯等AIGC技術的最新研究進展,并就這些關鍵技術在電影創制領域的應用潛力與價值展開討論(圖1)。


圖1  ECCV 2024中AIGC技術的最新研究成果及其在電影創制領域的創新應用

3.1 圖像生成與編輯

多樣化的圖像生成與編輯技術正在為電影制作行業開辟新的可能性。創作者可利用這些先進工具,創造出更為豐富和引人入勝的視覺效果。這些技術的結合使電影制作不再局限于傳統手段,從而在視覺表現上實現更大的靈活性與創新性。無論是生成新圖像、編輯現有素材,還是對畫面進行增強,這些手段都極大地豐富了故事敘述方式。

(1)圖像生成技術

圖像生成技術可基于文本描述、草圖或現有圖像生成高質量的新圖像,廣泛應用于電影制作領域。通過不斷優化算法,這些技術能夠實現更具創意、更細膩的視覺效果。

Xue等[3]提出一種優化框架,用于改進去噪擴散概率模型(Denoising Diffusion Probabilistic Model, DDPM)的采樣效率。該框架通過設計一個優化目標,最小化常微分方程的真實解與數值求解的近似解之間的距離。利用約束信任區域方法,該目標能在15秒內高效達成。該優化框架顯著提升了在CIFAR?10和ImageNet數據集上的圖像生成性能,表現出相較于其他方法平均所需時間的明顯優勢。

Sun等[4]提出的AnyControl是一種創新的多控制文本到圖像(T2I)生成方法。其通過多控制編碼器,有效將用戶指定空間條件(如深度圖和邊緣圖)整合至預訓練模型中。AnyControl支持多種控制信號的自由組合,通過統一的多模態嵌入,AnyControl可引導生成過程,產生高質量且準確可靠的結果。

Hong等[5]提出的ComFusion方法,是一種個性化的文本到圖像生成方法,其能從單一圖像生成多個特定場景中的個性化主體。ComFusion引入了類別場景先驗以保持正則化,利用預訓練模型中的主體類別和場景特定知識,提高了生成圖像的保真度。

Kim等[6]提出的BeyondScene框架,利用分階段和層次化的方法,首先生成基礎圖像,專注于多人實例創建中的關鍵元素和超出擴散模型Token限制的詳細描述。之后通過創新的實例感知層次放大過程,將基礎圖像無縫轉換為超過訓練圖像尺寸的高分辨率輸出。此框架顯著提高了與詳細文本描述的一致性和自然度,能夠用于創建高質量的帶角色影視圖片素材,對于電影海報、概念設計等需求有所助益。

(2)圖像編輯技術

圖像編輯在影視行業中的應用需求同樣廣泛,主要體現在實時特效添加、個性化內容創作、跨媒體整合和成本效益等方面。創作者可根據不同應用需求快速調整視頻內容,實現高質量、個性化定制,靈活的編輯工具還可降低后期制作的時間和成本。

Koo等[7]提出的FlexiEdit技術旨在解決當前圖像編輯方法在處理非剛性編輯時遇到的挑戰。FlexiEdit引入了兩項關鍵技術:一是隱空間精煉,通過減少目標編輯區域內的高頻成分來調整隱式去噪模型(Denoising Diffusion Implicit Models, DDIM)的隱空間,使其更適合布局修改;二是編輯保真度增強,通過重新逆向過程確保編輯結果更精確地反映輸入文本提示。這項技術在圖像編輯領域,尤其是在執行復雜的非剛性編輯方面,取得了顯著進步。

Cui等[8]提出的StableDrag技術旨在解決基于點的圖像編輯(Point?based Image Editing)現存的兩大主要問題,即不準確的點跟蹤和不完整的運動監督。StableDrag通過設計一種判別式點跟蹤方法和基于置信度的潛在空間增強策略來構建一個穩定且精確的拖拽編輯框架。得益于這些獨特的設計,StableDrag實現了包括StableDrag?GAN和StableDrag?Diff在內的兩類圖像編輯模型。拖動形式施加的圖像編輯更符合人的操作直覺,借助此類技術,能夠構建出快捷易用的工作流,使影視從業者不必增加學習成本即可輕松完成編輯。

除通用的圖像編輯方法,Jin等[9]提出一種全新的學習范式,即數據放大學習(Data Amplify Learning, DAL)及其緊湊型化妝模型 TinyBeauty,以應對當前面部化妝方法中存在的不準確監督(如臉部對齊錯誤)和復雜面部提示(包括臉部解析)等問題。DAL的核心在于使用基于擴散的數據放大器(Diffusion?based Data Amplifier),避免了傳統擴散模型中的細節消失問題,并在保留面部身份的同時實現精確的化妝控制與組合。這種專門針對化妝編輯的模型能大大增加影視后期對演員妝造的修補增強,驅動更細膩完善的視覺效果。

(3)圖像增強技術

圖像增強技術在影視行業的應用主要體現在后期制作、超分辨率重建、色彩增強、場景合成、去噪聲處理和虛擬角色合成等方面。這些技術能修復拍攝瑕疵,提高素材質量,并使圖像更加鮮艷真實,提升觀影體驗。此外,通過去噪聲和合成技術,創作者能夠更高效地處理低光環境素材和生成自然的虛擬角色,從而實現更高的創作自由和可能性。

Li等[10]提出一種新的超分辨率技術,通過動態深度神經網絡(Dy?DCA)和內容感知數據處理流水線(Content?Aware Data Processing Pipeline)減少模型數量,從而優化性能并節省計算資源。該技術在普通手機上實現了更好的峰值信噪比(PSNR)和實時性能。

Li等[11]提出的BeNeRF是針對從單張模糊圖像及其對應的事件流中恢復神經輻射場(Neural Radiance Field, NeRF)的一種創新方法。該方法通過引入事件流來規范NeRF的學習過程,有效消除了運動模糊。該方法不僅能從學習到的NeRF渲染視角一致的潛在清晰圖像,還能以高質量重現模糊圖像的生動效果,進而輔助影視制作中的素材修復與增強,傳統方法中需丟棄的廢片,可通過去模糊恢復其使用價值。

Sun等[12]提出一種基于直方圖變換器(Histoformer)的方法,用于惡劣天氣條件下的圖像恢復。該方法主要針對由天氣引起的退化因素,如相似的遮擋和亮度變化等,提出直方圖自注意力機制,將空間特征按照強度分箱處理,并在不同的或同一個箱內應用自注意力,以便有選擇地關注動態范圍內的空間特征并對像素進行處理。Histoformer可用于改善惡劣天氣下影視拍攝的質量,特別是外景情況下對天氣環境的依賴性。

Fu等[13]提出名為Temporal As a Plugin(TAP)的新型無監督視頻去噪框架及逐步微調策略,旨在解決獲取動態場景配對視頻數據的難題。TAP能利用跨噪聲幀的時間信息,補充其空間去噪能力。噪聲引起的圖像退化是影視資料保存過程中的主要問題之一,通過不斷優化的去噪方法,可實現對受到噪聲影響的老電影進行修復,也可增強拍攝的圖像素材。

Zhuang等[14]提出的PowerPaint是首個能同時高質量完成上下文感知圖像修復和文本引導對象修復任務的模型。其通過引入可學習的任務提示及定制化微調策略,明確指導模型專注于不同的修復目標,從而克服了現有方法難以同時處理這兩種類型修復任務的挑戰。

圖像生成與編輯技術在影視創制各階段展現出廣泛的應用潛力。圖像生成技術不僅加速了圖像生成過程,支持快速批量生產圖片素材,還通過個性化的圖片控制手段賦予創作者更大的創作自由度,便于他們根據影片需求微調或快速迭代圖片要素。這在概念設計和原型展示階段尤為重要,能有效縮短制作周期并降低成本。圖像編輯技術不僅優化了傳統工作流程中的編輯環節,提高了素材處理的效率和靈活性,還增強了創作者對AI生成圖像的控制能力,確保最終作品能夠更好地滿足創作意圖。在影視制作中后期,圖像增強技術可用于圖像修復、去噪、去模糊及惡劣天氣條件下圖像質量的恢復,從而減少廢片率。與直接生成圖像相比,基于現有素材的圖像增強技術更加可控和實用,成為推動AIGC在影視行業應用的關鍵因素之一。與此同時,上映影片的技術指標也在不斷提升,如由李安執導的《雙子殺手》于2019年上映,其影片技術規格達到了3D 4K 120 FPS。如此高規格的影片,目前只有少數頭部制作機構能涉足,而AI賦能的圖像超分辨率、補幀等技術將把高新技術格式制片帶向更多從業者。

3.2 視頻生成與編輯

隨著深度學習和計算機視覺技術的飛速發展,AI驅動的視頻處理系統已能夠執行從無到有的視頻生成、復雜的視頻編輯與后期制作等任務。這些技術不僅大大提高了電影創制效率,還為創作者提供了前所未有的創意可能性。視頻生成任務包括從文本、圖像或簡單草圖生成完整視頻序列,而編輯任務則涵蓋了視頻內容的修改、增強和轉換。這些AI系統能夠理解并操作視頻的多個方面,包括視覺內容、運動動態、音頻同步,甚至是敘事結構和情感表達。

(1)視頻生成技術

視頻生成技術利用深度學習和神經網絡(Neural Network)模型,能夠從文本描述、靜態圖像或簡單的草圖輸入中自動創造出符合描述的高保真視頻序列。如生成影視和游戲中的場景、角色、特效等,或根據原始影片生成電影預告片,根據產品文字介紹生成視頻廣告等,具備廣闊的應用前景。

Guo等[15]提出SparseCtrl,一種為預訓練的文本生成視頻模型添加時間稀疏控制的方法。通過附加編碼器網絡,SparseCtrl可適應包括深度、草圖和RGB圖像在內的多種模態,極大增強了視頻生成的實用性。該方法在草圖到視頻、圖像動畫、關鍵幀插值等應用中,都顯示出有效性和較好的泛化能力。

Ren等[16]提出Customize?A?Video方法,能實現對文本到視頻擴散模型的一次性運動定制。該方法通過優化模型參數,使模型可根據文本提示和參考視頻,生成具有特定動作和運動特征的視頻。其優勢在于保持文本對齊和時間一致性的同時,還能提供豐富的運動細節多樣性。

Liu等[17]提出PhysGen,一種基于剛體物理的圖像到視頻生成方法。它通過結合物理引擎和深度學習技術,能從靜態圖像生成逼真、物理上合理的視頻。該方法無需訓練,生成的視頻具有高度的現實感和可控性,展示出優于現有數據驅動的圖像到視頻生成作品的結果。

Liang等[18]提出MoVideo方法,利用擴散模型來生成具有運動感知能力的視頻,通過結合文本提示和運動信息來生成連貫且逼真的視頻序列。MoVideo在文本到視頻和圖像到視頻的生成方面都取得了良好的效果,顯示了良好的即時一致性、幀一致性和視覺質量。

Wu等[19]提出FreeInit方法,旨在解決視頻擴散模型在初始噪聲設置上的問題,通過迭代細化初始噪聲提高視頻生成的時間一致性。研究者們展示了該方法在多個擴散模型上的有效性,包括VideoCrafter、ModelScopeT2V和AnimateDiff,并探討了在頻率域中調節初始噪聲的不同頻率成分以改善時間一致性。

Li等[20]提出ZeroI2V方法,能將預訓練的圖像Transformer模型零成本地適應到視頻任務上。研究者們通過引入空間-時間動態頭注意力(Spatial?Temporal Dynamic Head Attention, STDHA)和線性適配器(Linear Adapter)來增強模型對視頻數據的時間建模能力,同時保持了參數數量的最小化。該方法在視頻識別任務上取得了優異性能,并且比全參數微調的參數更新更少,但性能呈現顯著提升。

Niu等[21]提出圖像動畫控制方法MOFA?Video,能利用額外的控制信號(如人體標記參考、手動軌跡和提供的其他視頻)或它們的組合,從給定的圖像生成視頻。為實現這一目標,該論文設計了幾種領域感知的運動場適配器(MOFA?Adapters),以控制視頻生成過程中的生成運動。通過這種方法實現了對圖像動畫的精細控制,在動畫應用中展示了其有效性和靈活性。

(2)視頻編輯技術

視頻編輯技術是一種用于處理和修改視頻內容的方法,通常涵蓋多種操作,包括剪輯、拼接、特效添加、畫面調整等。近年來,隨著人工智能和機器學習的發展,視頻編輯技術逐漸向自動化和智能化升級,不斷改善與用戶之間的交互體驗。

Yoon等[22]提出基于擴散模型的視頻編輯框架DNI。該框架通過在指定編輯區域添加高斯噪聲來減少輸入視頻結構對編輯區域的限制性影響,從而實現對視頻中主體或對象的復雜非剛性修改。該框架的優點是能夠以與模型無關的方式輕松應用于任何基于擴散的編輯系統,并增強他們執行非剛性編輯的能力。

Fan等[23]提出新型視頻編輯方法Videoshop,利用噪聲外推擴散反演技術來實現對視頻的局部語義編輯。該方法通過編碼、噪聲外推反演、擴散和重縮放解碼等步驟,實現了對輸入視頻的編輯,并能根據編輯后的第一幀引導視頻的編輯過程。該方法表現出能夠制作更高質量視頻的編輯能力。

Singer等[24]提出一種新的視頻編輯技術,通過結合文本到圖像的模型和圖像編輯適配器,實現了無需監督數據的視頻編輯。研究者們設計了一種因子化擴散蒸餾(Factorized Diffusion Distillation, FDD)方法,通過凍結適配器并使用低秩適配(LoRA)權重對文本到圖像的主干網絡進行微調,以改善視頻編輯質量。

Rao等[25]提出一種視頻去模糊方法,利用小波感知動態變換器(Wavelet?Aware Dynamic Transformer)和擴散模型來提高去模糊效果。研究者們首先使用小波感知動態變換器提取高質量的特征,然后通過擴散模型生成先驗特征。通過三個階段的訓練策略,該方法能夠生成無偽影且高度真實的去模糊視頻。

Deng等[26]提出交互式拖拽風格視頻編輯方法DragVideo。該方法利用視頻擴散模型和LoRA技術,允許用戶通過拖拽操作來編輯視頻中的對象。用戶可定義關鍵點和目標點,并通過優化過程來實現預期的編輯效果。與現有方法相比,DragVideo展示出在視頻編輯中的有效性和操作簡單易上手的優勢。

Wu等[27]提出DragAnything方法,通過使用實體表示來實現對視頻中任意對象的運動控制。研究者們提出了一種基于軌跡的視頻生成任務,該任務要求模型根據給定運動軌跡合成視頻。DragAnything通過引入實體表示和2D高斯表示,提高了運動控制的準確性和視頻質量。該方法還支持對前景和背景的靈活控制,甚至可實現對云層和星空等復雜背景元素的控制。

Wang等[28]提出視頻外延方法MOTIA(Mastering Video Outpainting Through Input?Specific Adaptation),通過特定輸入適應來優化視頻外延任務的性能。MOTIA利用了預訓練的文本到圖像(T2I)模型Stable Diffusion,結合視頻編輯技術,將2D卷積轉換為偽3D卷積,又將2D組歸一化轉換為3D組歸一化,以處理視頻潛在特征。此外,MOTIA還整合了最初用于圖像修復的ControlNet網絡,以處理額外的遮罩輸入,并利用其提取有效信息,實現更可控的去噪。該方法不僅增加了視頻的空間維度,也確保了新擴展區域與已知區域之間的連續性及和諧性。

(3)聲畫同步技術

隨著AIGC技術的發展,音頻和視頻的無縫整合成為電影制作中的一項重要突破。這一領域的創新聚焦于如何使用AI技術來協調和同步音頻與視頻內容,創造出更加沉浸式和引人入勝的觀影體驗。

Zhang等[29]提出ASVA(Audio?Synchronized Visual Animation),旨在通過音頻信號來控制視頻內容的動態效果,實現音畫同步。該技術的核心在于生成與音頻同步的視頻序列,具體而言,即給定一段音頻和一張圖片,生成一系列視頻幀,這些幀不僅要在視覺上保持高質量,還要在語義上與原始圖片和音頻保持一致,同時展現出時間上的連貫性和自然的對象運動。該技術還可使模型捕捉音頻的細微變化,從而實現對視頻動態的精確控制。此外,該技術通過首幀空間注意力和時序卷積機制,在生成動畫的同時保持了與輸入圖像的高度一致性,這一特性對電影制作中保持場景連續性至關重要。

Pascual等[30]提出一個V2A生成模型MaskVAT,其將全頻帶高質量的通用音頻編解碼器與序列到序列掩蔽生成模型互連。這種組合允許對高音頻質量、語義匹配和時間同步性進行同時建模。通過將高質量的編解碼器與適當的預訓練視聽功能和序列到序列并行結構相結合,該模型在視聽同步上有較好的表現效果,有望達到一些最新非編解碼器生成音頻模型的技術水平。

Goncalves等[31]提出PEAVS(Perceptual Evaluation of Audio?Visual Synchrony),用于評估視聽同步性。該方法基于觀眾意見評分,通過分析視聽內容不同的失真類型和級別,并與人類評估結果進行比較,以驗證其有效性。PEAVS在大多數情況下與人類判斷一致,但若在片段混亂的初期階段,其性能不如人類評估。此外,PEAVS在檢測視聽偏移方面表現出更好的效果。

AI驅動的視頻生成與編輯技術正深刻改變電影制作行業。從視頻生成到編輯再到聲畫同步,這些技術大大提高了制作效率,同時為創作者提供了前所未有的創意可能性。在前期創作階段,人工智能輔助編劇系統可根據創意提示生成初步劇本,為編劇提供靈感。預演工具能快速生成粗略的場景動畫,幫助導演構思鏡頭。在后期制作環節,AI驅動的視頻編輯軟件可自動完成粗剪,為剪輯師節省大量時間。智能調色系統能一鍵實現色彩風格化,提升視覺美感?;谏疃葘W習的視頻修復技術可去除畫面噪點、修復老舊影像。而視頻生成AI甚至可創造出全新的鏡頭和特效,進一步拓展創作可能性。

3.3 3D生成與編輯

3D生成與編輯技術是現代電影制作的重要組成部分,它不僅增強了影片的視覺表現力,也大幅提升了制作效率和質量。當前,先進的3D生成和編輯技術能夠實時處理復雜的幾何形態和場景,為電影創制工作者提供了更大的制作空間和技術支持。

(1)虛擬人生成技術

虛擬人生成是3D生成技術的重要應用方向之一,其目的是通過先進算法實現高度逼真的角色建模和動作生成。該技術有望替代傳統手工建模,自動生成復雜的角色外形和動作,大幅減少動畫師的工作量,提升制作效率。此外,虛擬人生成技術還為游戲、電影和虛擬人類的交互提供了新的可能性,使虛擬角色不僅是視覺上的呈現,更能在情感表達和交互方面具有更高的真實感。

Zhuo等[32]提出VividDreamer,運用了不變評分蒸餾(ISD)方法。該方法旨在解決傳統分數蒸餾采樣(Score Distillation Sampling, SDS)方法中過飽和與過平滑問題。通過將SDS的重建項替換為不變評分項,VividDreamer能夠平衡分類器自由引導和重建的矛盾,實現更高保真的3D對象生成。

Moon等[33]提出ExAvatar,結合了SMPL?X網格模型和3D高斯分布,能夠從單目視頻生成帶有面部表情和手部動作的全身3D角色。通過在面部表情空間中進行驅動,該方法顯著減少了在生成新面部表情時的偽影問題。

Liu等[34]提出TexDreamer方法,旨在解決基于語義UV圖生成高保真3D人類紋理的挑戰。盡管現有的多視圖渲染監督文本到圖像(T2I)模型在生成方面取得了一定進展,但仍面臨生成速度、文本一致性和紋理質量等問題。TexDreamer通過高效的紋理適應微調策略,將大型T2I模型適配到語義UV結構,同時保持其原有泛化能力。

Zhang等[35]提出Motion Mamba方法,旨在生成長序列且高效的人類動作。該方法利用狀態空間模型(SSMs),通過設計層次化的時序Mamba模塊處理時序數據,并通過雙向空間Mamba模塊增強運動幀之間的連貫性。該方法在生成質量和速度上實現顯著提升。

Ren等[36]提出CrossDiff方法,結合了文本描述與運動生成,通過共享的Transformer網絡集成3D和2D信息,將運動噪聲統一至單一特征空間,從而實現了跨維度的特征解碼。該方法的主要優點在于其交叉擴散機制,能在訓練過程中將2D或3D噪聲逆轉為利落的運動,這一能力有效地捕捉到了復雜的人體運動細節。因此,CrossDiff在文本到運動基準測試中表現出色,展示了生成更真實運動序列的能力。

He等[37]提出EmoTalk3D方法,通過“Speech?to?Geometry?to? Appearance”框架生成情感可控的3D角色。該方法先從音頻特征預測出精確的3D幾何序列,隨后通過4D高斯分布生成3D角色外觀,實現了更高質量的口型同步和渲染效果,特別是在動態面部細節(如皺紋和微表情)的捕捉方面表現出色。

(2)場景生成技術

3D場景生成技術在電影制作中扮演了重要角色,電影創制工作者不再受限于物理場景的構建,而可自由設計和調整影片的虛擬環境。這不僅提高了創作的靈活性,還增強了視覺效果的豐富性。高質量的場景建模要求對拓撲結構和幾何細節有良好的捕捉能力,近期的研究提供了新的解決方案,推動了這一領域技術的進步。

Zhai等[38]提出EchoScene方法,利用場景圖擴散模型生成3D室內場景。通過雙分支擴散模型,EchoScene可動態適應場景圖,解決現有方法處理場景圖時面臨的節點數目和邊組合多樣性問題。該方法通過信息回聲機制實現了形狀和布局分支間的協作,提高了場景生成的可控性和一致性,并在實驗中表現出高質量的生成結果,超過了現有的生成方法。

Liu等[39]提出VCD?Texture方法,通過基于方差對齊的3D?2D協同去噪框架,統一了2D和3D的潛特征學習。通過整合多視角的2D潛特征并進行光柵化處理,該方法有效提升了紋理合成的精度。此外,該方法還提出了修復沖突區域的修補精化過程,從而實現高質量的3D場景紋理生成。

Han等[40]提出VFusion3D方法,用于從視頻擴散模型中學習大規模3D生成模型。該方法通過解鎖視頻擴散模型的多視角生成能力,生成了大規模的合成多視角數據集,從而訓練出一個前饋式的3D生成模型。VFusion3D能夠從單個圖像快速生成3D資產,并在性能上優于現有的最先進方法,實現了更加精細的場景建模。

?cal等[41]提出SceneTeller,一種基于文本的3D房間設計方法。該方法利用自然語言描述對象在房間中的擺放,生成相應的高質量3D場景。該方法通過使用上下文學習、CAD模型檢索和基于3D高斯點的風格化,構建了一個便于新手用戶使用的完整流程,展示了生成3D場景的最新成果。

(3)3D編輯技術

3D編輯技術是近年來計算機圖形學和電影制作領域的重要方向。這些技術不僅能夠對3D模型進行細節優化,還能通過幾何與紋理的調整實現高精度的模型定制。在電影制作中,3D編輯技術的快速發展為復雜場景的生成、角色的精細化雕刻以及特效制作帶來了革命性變化。相比傳統手動編輯流程,現階段常用的3D編輯工具借助先進的算法和機器學習技術,可自動化地完成模型和場景的生成與調整,為電影制作團隊節省了大量時間與成本,并提升了視覺效果的精確度和一致性。

Ye等[42]提出Gaussian Grouping方法,通過擴展高斯分組技術實現3D場景中物體的分割與編輯。該方法引入了一種緊湊的身份編碼,使高斯可以根據物體實例或場景中的內容進行分組,并結合SAM模型的2D掩碼預測進行監督,能夠高效實現多種3D場景編輯操作,如物體移除、填充、著色和風格遷移。

Xu等[43]進一步優化了紋理編輯技術,提出Texture?GS方法。該方法通過解耦3D高斯散射中的幾何和紋理信息,解決了之前方法中紋理編輯受限的問題。通過引入紋理映射模塊,Texture?GS實現了高效的外觀編輯,能夠在消費級設備上實時渲染高保真圖像,并在DTU數據集上的實驗中表現出色。

Khalid等[44]提出基于單目視頻的3D場景生成和編輯方法3DEgo,旨在通過文本提示直接從單目視頻中生成逼真的3D場景。3DEgo通過消除COLMAP(COLLISION?MAPping)的依賴,并在視頻幀編輯前融入噪聲混合模塊,從而簡化多階段的編輯流程。最終,通過3D高斯點云進行場景重建,展現了極高的編輯精度和效率。

Chen等[45]提出多視角一致性3D編輯方法DGE(Direct Gaussian Editor),通過修改高質量的2D編輯器,如InstructPix2Pix,確保編輯的一致性。在給定一組多視角一致的圖像編輯序列后,直接優化基于3D高斯點云的場景表示,生成高質量3D編輯效果,相較于逐步更新的3D表示方法,DGE更高效、更精確。

Karim等[46]提出零樣本文本驅動的3D編輯方法Free?Editor,無需重新訓練模型,通過單視圖編輯實現3D場景的修改。Free?Editor通過編輯Transformer確保視圖內一致性,同時通過自視圖和跨視圖注意力機制傳遞風格,大幅降低了編輯時間和資源消耗。

在現代電影創制中,3D生成與編輯技術的融合創新應用為創作者提供了前所未有的可能性,不僅提升了影片視覺效果,還推動了敘事方式和表現手法的變革。通過利用自然語言描述和智能生成算法,創作者不僅能更高效地實現設計創意,還能在動態調整和多維度展示中持續獲得靈感,從而拓寬敘事邊界。此外,3D編輯技術的進步使后期制作變得更加精準。創作者能在更短時間內完成復雜場景的修改和特效應用,從而聚焦藝術創作本身。這種快速迭代的能力,不僅提升了制作效率,還為觀眾呈現更具沉浸感的視覺體驗。

4總結與展望

ECCV 2024大會展示的前沿技術,進一步驗證了AIGC在實際電影制作中的巨大潛力。AIGC技術在電影創制中展現出的多重應用價值,將為電影行業帶來前所未有的創新與變革。通過GAN、VAE、擴散模型等技術,AIGC實現了高質量圖像生成、復雜視頻合成、3D建模與渲染等功能,使電影制作更加高效、靈活,制作周期與成本得以顯著降低。與此同時,AIGC還為電影創作者提供了豐富的創意表達工具,進而輕松實現虛擬角色塑造、特效場景制作、劇情與對白生成等任務,為電影內容的多樣化與創新性提供了強有力的技術支持。

AIGC技術作為新質生產力的核心關鍵引擎,將進一步重塑電影創制流程,但同時也面臨諸多挑戰。隨著AIGC生成內容在電影中應用的日益普及,技術可控性、版權保護、創作者權益等問題也將變得更加突出。如何確保AIGC生成的角色、場景與內容在版權上得到合理保護,如何明確創作者與技術提供方之間的權益歸屬,以及如何使電影創制過程更規范、透明、可控等,都將是亟待解決的關鍵問題。只有在技術創新與倫理規范的共同推動下,AIGC才能更好地賦能電影創制,助力中國電影高質量發展。

參考文獻

(向下滑動閱讀)

[1] European Conference on Computer Vision (ECCV)[EB/OL]. [2024?09?30]. https://papercopilot.com/statistics/eccv-statistics/.

[2] Zhang J. Application Analysis of Special Effects Technology in Film and Television Post?Production[C]//Frontier Computing: Proceedings of FC 2020. Springer Singapore, 2021: 1007?1013.

[3] Xue S, Liu Z, Chen F, et al. Accelerating Diffusion Sampling with Optimized Time Steps[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 8292?8301.

[4] Sun Y, Liu Y, Tang Y, et al. AnyControl: Create Your Artwork with Versatile Control on Text?to?Image Generation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2406.18958.

[5] Hong Y, Duan Y, Zhang B, et al. ComFusion: Personalized Subject Generation in Multiple Specific Scenes From Single Image[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2402.11849.

[6] Kim G, Kim H, Seo H, et al. BeyondScene: Higher?Resolution Human?Centric Scene Generation With Pretrained Diffusion[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2404.04544.

[7] Koo G, Yoon S, Hong J W, et al. FlexiEdit: Frequency?Aware Latent Refinement for Enhanced Non?Rigid Editing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.17850.

[8] Cui Y, Zhao X, Zhang G, et al. StableDrag: Stable Dragging for Point?based Image Editing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.04437.

[9] Jin Q, Chen X, Jin M, et al. Toward Tiny and High?quality Facial Makeup with Data Amplify Learning[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.15033.

[10] Li G, Shu Z, Ji J, et al. Data Overfitting for On?Device Super?Resolution with Dynamic Algorithm and Compiler Co?Design[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.02813.

[11] Li W, Wan P, Wang P, et al. BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.02174.

[12] Sun S, Ren W, Gao X, et al. Restoring Images in Adverse Weather Conditions via Histogram Transformer[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.10172.

[13] Fu Z, Guo L, Wang C, et al. Temporal As a Plugin: Unsupervised Video Denoising with Pre?Trained Image Denoisers[EB/OL]. [2024?10?22].https://arxiv.org/abs/2409.11256.

[14] Zhuang J, Zeng Y, Liu W, et al. A Task is Worth One Word: Learning with Task Prompts for High?quality Versatile Image Inpainting[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.03594.

[15] Guo Y, Yang C, Rao A, et al. Sparsectrl: Adding Sparse Controls to Text?to?video Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2311.16933.

[16] Ren Y, Zhou Y, Yang J, et al. Customize?a?video: One?shot Motion Customization of Text?to?video Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2402.14780.

[17] Liu S, Ren Z, Gupta S, et al. PhysGen: Rigid?Body Physics?Grounded Image?to?Video Generation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2409.18964.

[18] Liang J, Fan Y, Zhang K, et al. Movideo: Motion?aware Video Generation with Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2311.11325.

[19] Wu T, Si C, Jiang Y, et al. Freeinit: Bridging Initialization Gap in Video Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.07537.

[20] Li X, Wang L. Zeroi2v: Zero?cost Adaptation of Pre?trained Transformers from Image to Video[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2310.01324.

[21] Niu M, Cun X, Wang X, et al. MOFA?Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image?to?Video Diffusion Model[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2405.20222.

[22] Yoon S, Koo G, Hong J W, et al. DNI: Dilutional Noise Initialization for Diffusion Video Editing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2409.13037.

[23] Fan X, Bhattad A, Krishna R. Videoshop: Localized Semantic Video Editing with Noise?Extrapolated Diffusion Inversion[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.14617.

[24] Singer U, Zohar A, Kirstain Y, et al. Video Editing via Factorized Diffusion Distillation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.09334.

[25] Rao C, Li G, Lan Z, et al. Rethinking Video Deblurring with Wavelet?Aware Dynamic Transformer and Diffusion Model[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2408.13459.

[26] Deng Y, Wang R, Zhang Y, et al. Dragvideo: Interactive Drag?style Video Editing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.02216.

[27] Wu W, Li Z, Gu Y, et al. DragAnything: Motion Control for Anything using Entity Representation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.07420.

[28] Wang F Y, Wu X, Huang Z, et al. Be?Your?Outpainter: Mastering Video Outpainting through Input?Specific Adaptation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.13745.

[29] Zhang L, Mo S, Zhang Y, et al. Audio?Synchronized Visual Animation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.05659.

[30] Pascual S, Yeh C, Tsiamas I, et al. Masked Generative Video?to?Audio Transformers with Enhanced Synchronicity[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.10387.

[31] Goncalves L, Mathur P, Lavania C, et al. Perceptual Evaluation of Audio?visual Synchrony Grounded in Viewers' Opinion Scores[EB/OL]. [2024?10?22].https://eccv.ecva.net/virtual/2024/poster/1398.

[32] Zhuo W, Ma F, Fan H, et al. VividDreamer: Invariant Score Distillation for Hyper?Realistic Text?to?3D Generation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.09822.

[33] Moon G, Shiratori T, Saito S. Expressive Whole?Body 3D Gaussian Avatar[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.21686.

[34] Liu Y, Zhu J, Tang J, et al. TexDreamer: Towards Zero?Shot High?Fidelity 3D Human Texture Generation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.12906.

[35] Zhang Z, Liu A, Reid I, et al. Motion Mamba: Efficient and Long Sequence Motion Generation[EB/OL]. [2024?10?11].https://eccv.ecva.net/virtual/2024/poster/655.

[36] Ren Z, Huang S, Li X. Realistic Human Motion Generation with Cross?Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.10993.

[37] He Q, Ji X, Gong Y, et al. EmoTalk3D: High?Fidelity Free?View Synthesis of Emotional 3D Talking Head[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2408.00297.

[38] Zhai G, ?rnek E P, Chen D Z, et al. EchoScene: Indoor Scene Generation via Information Echo over Scene Graph Diffusion[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2405.00915.

[39] Liu S, Yu C, Cao C, et al. VCD?Texture: Variance Alignment based 3D?2D Co?Denoising for Text?Guided Texturing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.04461.

[40] Han J, Kokkinos F, Torr P. VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.12034.

[41] ?cal B M, Tatarchenko M, Karaoglu S, et al. SceneTeller: Language?to?3D Scene Generation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.20727.

[42] Ye M, Danelljan M, Yu F, et al. Gaussian Grouping: Segment and Edit Anything in 3D Scenes[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.00732.

[43] Xu T X, Hu W, Lai Y K, et al. Texture?GS: Disentangle the Geometry and Texture for 3D Gaussian Splatting Editing[EB/OL]. [2024?10?11]. https://eccv.ecva.net/virtual/2024/poster/581.

[44] Khalid U, Iqbal H, Farooq A, et al. 3DEgo: 3D Editing on the Go![EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.10102.

[45] Chen M, Laina I, Vedaldi A. Dge: Direct Gaussian 3d Editing by Consistent Multi?view Editing[EB/OL]. [2024?10?11]. https://eccv.ecva.net/virtual/2024/poster/2412.

[46] Karim N, Khalid U, Iqbal H, et al. Free?Editor: Zero?shot Text?driven 3D Scene Editing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.13663.

【本文項目信息】上海市人才發展資金資助項目 (2021016)。



主管單位:國家電影局

主辦單位:電影技術質量檢測所

標準國際刊號:ISSN 1673-3215

國內統一刊號:CN 11-5336/TB

投稿系統:ampt.crifst.ac.cn

官方網站:www.crifst.ac.cn

期刊發行:010-63245081

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

電影技術微刊 incentive-icons
電影技術微刊
電影技術微刊
565文章數 208關注度
往期回顧 全部

專題推薦

洞天福地 花海畢節 山水饋贈里的“詩與遠方

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 灵宝市| 永定县| 昆明市| 克东县| 彝良县| 秀山| 洪泽县| 庆云县| 工布江达县| 洛扎县| 张掖市| 伊吾县| 元朗区| 凉山| 龙里县| 龙州县| 当阳市| 湖北省| 普宁市| 隆回县| 扎赉特旗| 德安县| 松江区| 嘉定区| 靖州| 涪陵区| 沭阳县| 额尔古纳市| 慈溪市| 汉阴县| 开江县| 仙桃市| 富阳市| 大方县| 龙岩市| 吐鲁番市| 武定县| 德化县| 左权县| 名山县| 云林县|