99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

《現代電影技術》|劉紹龍等:生成式AI驅動的電影技術創新——SIGGRAPH 2024 AIGC相關研究綜述

0
分享至


本文刊發于《現代電影技術》2024年第10期

專家點評

《生成式AI驅動的電影技術創新——SIGGRAPH 2024 AIGC相關研究綜述》通過總結SIGGRAPH 2024會議的最新研究成果,從泛化性、穩定性、可控性三個核心維度分析了當下生成式AI的研究方向與技術特點,探討了其在虛擬角色動作生成、群體動畫模擬、三維資產生成等方面的創新應用,突顯了人工智能生成內容(AIGC)技術在推動電影制作流程革新中的重要潛力。作者認為AI生成技術將成為提升電影制作效率、豐富影像表現力的關鍵工具,但同時也面臨生成質量仍不穩定、計算資源需求過高等現實問題。文章為電影技術的未來發展提供了富有前瞻性的洞見,并對AIGC如何提升電影制作中的創意表達與生產效率展開了深入探討。該綜述引發更深層次的思考在于,AIGC技術的廣泛應用將對電影行業的創作模式產生何種影響?一方面,生成式AI的高效生成能力能夠大幅減少傳統電影制作中的手動勞動,賦予創作者更多的時間和空間去探索新的藝術表達方式;另一方面,AI技術的介入是否會削弱電影創作中的人文關懷和藝術獨特性。這一點值得電影行業從業者和技術開發者共同思考和探討。總之,這一綜述對于電影行業的從業者與技術研究人員具有重要的參考價值,有助于推動生成式AI在影視領域的進一步應用和發展。

——王嵐君

天津大學新媒體與傳播學院研究員、博士生導師

作 者 簡 介

劉紹龍

北京師范大學藝術與傳媒學院博士后,主要研究方向:圖形學、虛擬現實、計算機動畫、數字藝術。

北京師范大學藝術與傳媒學院碩士研究生在讀,主要研究方向:人工智能藝術、虛擬現實與混合現實。

段佳鑫

摘要

SIGGRAPH會議長期以來一直是電影產業與先進技術融合的關鍵推動力。本文聚焦SIGGRAPH 2024所展示的生成式人工智能(Generative AI)技術在影像內容創作中的應用,系統梳理了計算機圖形學(CG)與人工智能交叉領域的最新研究進展,并從泛化性、穩定性和可控性三個核心維度對生成式AI技術的現狀進行深入分析,探討了其在電影制作中的創新應用及其面臨的挑戰。此外,本文對生成式AI在未來電影技術發展中的角色進行了深度審視與前瞻預測,旨在為讀者提供一個從技術迭代的視角理解生成式AI技術的適用性及其對未來電影產業的影響。

關鍵詞

圖形學;人工智能;SIGGRAPH;AI內容生成;電影技術

國際計算機圖形與交互技術會議(SIGGRAPH)是計算機圖形學(CG)領域的頂級會議之一,匯集了來自世界各地的研究人員、實踐者和藝術家,會議展示了計算機圖形圖像技術、交互技術、虛擬現實和增強現實、數字藝術、動畫、人工智能(AI)等領域的最新進展。2024年會議延續其作為創新與前沿研究中心的傳統,共接收252篇科研成果,較去年增長36%,相關研究的火熱程度和研究者參與度逐年增長。這些成果中包含大量生成式AI(Generative AI)等新興技術,探討計算機圖形學(CG)、機器視覺與人工智能的交叉領域,突顯計算機視覺與計算機圖形學之間日益擴展的重疊部分。正如組委會所提到的,SIGGRAPH 展示的論文主題正在不斷演變,AI的進展擴大了計算機視覺(CV)和計算機圖形學間共享主題的范圍,尤其是基于生成式 AI 的應用。

近年來,生成式AI正迅速成為電影技術領域的重要推動力。其核心優勢在于高質量新穎內容的低成本生成,涵蓋不同維度的數字資產生成,從而受到電影制作多個環節的廣泛關注,并被作為輔助工具引入影視內容生產中。本次會議恰恰展示了成熟的計算機圖形學研究對于生成式影像內容的新應用探索。基于近期的研究,擴散模型(Diffusion Model)、GPT大模型等生成模型框架已得到深入探討和廣泛推廣,相關研究成果正從對模型架構的理論性探索轉向具體生產應用,尤其關注性能優化、穩定可控及交互形式的研發。這一轉向預示著技術迭代進入了優化階段,進一步推動生成模型在多領域,尤其是影像內容創作相關領域實際應用中的深化。為了更好地總結本次會議中生成式AI技術、計算機圖形學技術以及電影技術應用的融合成果,本文從泛化性、穩定性和可控性三個方面進行描述和展望,以便讀者從全局視角判斷生成式AI技術在電影領域的適用性和發展前景,進而激發新的研究思路。

1跨模態泛化性與多任務擴展

生成式AI技術的泛化能力可解釋為其在不同領域、不同任務和不同數據類型上都能有效應用并保持優異性能。例如,擴散模型框架在圖像、視頻生成等不同生成任務中展現出一致的適用性與魯棒性。在本次會議中,這種跨任務適應能力已擴展到動作、頭像、表情、群體動畫(Crowd Animation)、特殊圖像等內容生成領域,不僅涵蓋了電影影像的表層特征,還深入到與視覺效果和感知體驗密切相關的垂直領域。技術發展正與電影制作需求步調一致,這體現了生成式AI技術在電影制作中的應用正從廣度向深度發展。

1.1 虛擬角色的動作生成

虛擬角色的動作生成與編輯一直是計算機圖形學經典話題,與傳統基于自回歸方式預測下一個動作信號的方法,以及文生圖、圖生圖等應用場景不同,生成式AI方法將虛擬角色的骨骼信息或面部關鍵點作為學習對象,利用自然語言或引導信息,通過嘗試引入擴散模型框架進行內容生成、風格化等處理。Sun等[1]提出從局部到全局的文本生成人物運動的擴散模型框架,該框架首先采用大語言模型將人物全局運動描述分解為身體各部位的描述,如胳膊叉腰、腿部伸直等,然后由部分肢體運動編碼器對局部語義進行對齊,這樣既能保證人體局部運動的準確性,又能保證整體動作的連貫性。Chen等[2]提出一種運動擴散概率模型用以生成高質量和多樣化的角色動畫,其核心基于條件自回歸運動擴散模型(Conditional Autoregressive Motion Diffusion Model,CAMDM),包括單獨的條件標記化、對過去運動的無分類器指導以及啟發式未來軌跡擴展。該方法輸入歷史動作,經由簡單用戶控制即可生成一系列不同動作,展現出良好的實時性與交互性。Zhang等[3]提出一個能夠生成長時間運動序列的方法,將運動的時間軸與擴散過程的時間軸融合,使用 U?Net 架構以自回歸方式合成內容,從而形成任意時長的運動序列,這對虛擬角色的運動連續一致性和運動過程中的引導控制有很大幫助。Cohan等[4]研究了擴散模型在生成由關鍵幀引導的不同人體運動的潛力,提出一個簡單且統一的中間運動擴散模型,以適應時間稀疏的關鍵幀、部分姿勢規范及文本提示。該方法符合以關鍵幀為核心的傳統三維動畫制作方法,將關鍵幀繁瑣的手動調節調整為自然語言交互的文本提示,對電影動畫和后期制作人員更友好,提高了制作效率。

1.2 群體動畫的模擬生成

群體動畫模擬是后期CG特效、虛擬攝制、游戲制作等流程的主要部分,是模擬展示大型場景的必要手段,未來將應用于虛擬現實(VR)影像、虛擬攝制等前沿影像制作工作流程中。前期工作主要為通過物理模擬等傳統圖像學的計算分析方法,但需要美術團隊和工程團隊進行視覺環境創建、智能角色設計、復雜系統構建等工作支持,仍屬勞動密集型制作環節。為加速群體動畫內容的創建,Ji等[5]提出一種可根據與環境設置兼容的文本進行驅動的人群動畫行為自動生成方法,該方法引入擴散模型,將環境地圖和描述多組代理行為的通用腳本作為輸入,再利用大語言模型將腳本規范化為結構化句子,后將每個結構化句子輸入至潛在擴散模型,以預測用于導航代理組的速度場,從而從高級文本描述生成多智能體導航場景。

長遠而言,未來群體動畫的模擬將出現以生成式模型為框架的實時自動生成方法,單一智能體(Agent)的行為和群體行為將會集成在一個框架中,越來越多的可交互編輯方法將出現在未來研究中,以加速虛擬攝制、動畫和游戲的生產。

1.3 三維資產重建與生成

3D頭像制作領域,目前的關注熱點包括基于多幅照片的3D肖像重建與基于文本驅動的3D頭像生成。該領域目前面對的挑戰有優化生成網格模型過飽和、過度平滑等問題。在重建方法中,Wu等[6]提出一種基于神經渲染的3D肖像生成器。該方法采用新穎的金字塔三網格3D表示(Pyramid Tri?grid 3D Representation)以減輕“網格狀”偽影,并通過學習360°肖像分布作為方法框架的穩健先驗。此外,該方法通過擴散模型的指導生成高質量、視圖一致、逼真且規范的3D肖像。與該方法類似的還有Liu等[7]提出的可直接通過文本引導生成特定幾何形狀和紋理的數字資產的HeadArtist框架。具體而言,該方法將生成過程分解為幾何生成和紋理生成,其分別引入DMTet網格[8]和 Magic3D[9]用于表達幾何信息和構建紋理空間,通過基于標記點引導的ControlNet網絡構造自評分蒸餾器(Self Score Distillation),并優化參數化 3D 頭部模型。該方法能保持生成3D頭像的多樣性,同時避免過飽和與過度平滑的問題,可使3D頭像數字資產形狀合理、無偽影且富有更逼真的紋理,可編輯性也顯著增強。此外,Jang等[10]基于StyleGAN框架提出一種三維面部卡通風格化方法,通過輸入真實人物面部圖像,可輸出具有明顯卡通風格的三維面部數據。該方法支持基于生成式對抗網絡(GAN)的3D面部表情編輯,因此可在二維GAN的潛在空間中直接對3D面部進行創意構建與編輯,可應用于動畫電影、數字人等人物角色制作流程,以提高生產效率。

通過語音合成帶有微表情且細節豐富的三維面部動畫,不僅是影視特效、三維動畫制作中所需的重要技術儲備,也是未來虛擬數字人突破恐怖谷(Uncanny Valley)效應的技術路徑。已有基于生成式模型的能力過于依賴大規模、高質量的訓練數據,且數據缺乏情感變化和性格特征多樣性。Zhao等[11]提出一種具有細粒度面部表情和頭部姿勢的通用神經表示以及多身份4D面部掃描數據,基于上述神經表示提出可生成高質量口型同步的擴散模型,從而生成可表達文本、圖像甚至音樂中微妙人類情感的面部動畫。該方法的輸入數據包括對話、音樂、演講等不同音頻源,也包括文本、圖片等。在此方法的幫助下,數字人和生成式影像可具有更豐富的情感表達,并在情緒安撫、情感治療等功能上邁出重要一步。

特殊圖像生成是一種人工智能生成內容(AIGC)的創意應用,其指生成利用視覺錯位形成的圖像,比如狗的頭像旋轉180°后變成了樹懶。在創意探索過程中,Burgert等[12]利用擴散模型提出視覺錯位圖像生成框架,名為“擴散錯覺” (Diffusion Illusions)。該框架將圖像的錯覺形式轉化為通過翻轉、旋轉或隱藏等方式產生的不同畫面內容,利用特定的損失函數為生成圖像提供合適的對齊信號。該方法為非線性電影帶來啟發,比如將該方法從圖像維度提升至視頻維度,用戶可將該方法生成的視頻畫面進行旋轉、疊加,從而形成新的畫面內容或語義符號,最終形成非線性敘事結構。未來該類方法能夠為交互式電影和電影游戲化領域理論和實踐提供基礎。

2生成質量穩定性與可靠性優化

在電影領域相關應用中,生成式AI的穩定性主要表現在生成內容的精確性、連貫性及高效性。當前的研究已從初步模型提出和驗證逐步進入模型優化和應用階段。研究者們在提高模型效率、生成質量、連貫性、一致性、魯棒性、多模態生成能力,節省計算資源和訓練時間等方面取得了顯著進展,這也為生成式AI在電影領域的應用推廣奠定了基礎。

2.1 精確性優化

生成內容的精確性是指AI能夠生成高質量、細節準確的內容,滿足影視制作的預期標準,這是AI生成質量穩定性的重要體現。盡管基于擴散的文本到圖像(T2I)模型在近期取得了重要突破,但目前方法仍難以確保生成圖像與文本提示高度一致,尤其在涉及具有不同屬性(例如不同形狀、大小和顏色)的多個對象生成時,內容生成的完整性仍存在挑戰,如提示詞為“一個戴著皇冠的獅子”,其在實現智能生成獅子的同時,很難生成一個皇冠。Bao等[13]分析上述問題原因,發現其可能由于擴散模型中注意力激活分數(Attention Activation Scores)對于某些注意力有明顯較低的情況,或對應于不同對象的注意力遮罩存在大量重疊。為解決該問題,該方法通過結合分離損失和增強損失兩個損失函數提出了一種組合微調策略,從而實現更高的文本圖像對齊成功率和更真實的圖像生成效果,更好地生成多對象畫面內容,允許用戶通過自然語言更精確地控制畫面內容。同樣,Ma等[14]提出名為“Subject?Diffusion”的開放域個性化圖形生成擴散模型,僅使用一張參考圖像即可生成高保真主題驅動的圖像,測試時無需微調。換言之,利用該模型可通過提示詞對輸入的參考圖片進行修改,使其加入更多如類型、風格、場景等個性化主題。

電影影像中通常包含大量的人物角色近景或特寫肖像畫面,這些畫面通過表情和動作細節傳遞信息和情感,這要求生成式人工智能在計算上述畫面時具有更穩定的畫面和更精確的控制。為了解決上述問題,Xie等[15]提出X?Portrait這一新穎的零樣本(Zero Shot)學習框架,其利用圖像擴散先驗來實現富有表現力的頭像動畫,通過關于局部面部運動的引導運動注意力(Guided Motion Attention)增強對微妙面部表情的解釋。該方法展示出感知質量、運動豐富性、身份一致性和領域泛化等能力,實現了對微妙、極端面部表情(例如撅嘴和單眼眨眼)和大范圍頭部平移、旋轉的準確表達,即使在夸張的風格化角色頭像生成過程中依然具有良好魯棒性。該方法很好地解決了電影(包括動畫電影)中大量正反打對話鏡頭的高效生成,在實現情感有效傳遞的同時提高了電影生產效率。

2.2 連貫性優化

生成內容的一致性與連貫性對敘事效果、角色形象、觀影體驗具有至關重要的影響,此前保持一致性的方法通常依賴于目標角色的多個預存圖像或繁瑣的人工干預過程。Avrahami等[16]提出一種全自動解決方案,該方法首先根據提供的提示詞生成圖像庫并使用預訓練的特征提取器將它們嵌入歐幾里得空間中,隨后對這類嵌入進行聚類并選擇最合適的一類作為提取一致身份的個性化方法輸入,之后使用生成的模型完成下一個圖像庫的生成,該圖像應表現出更高一致性,同時仍然描述輸入提示,并重復迭代這個過程直到收斂。該方法最大的特點是無需目標角色的任何圖像作為輸入,且畫面一致性效果突出。基于該方法,生成的角色在各種背景畫面中均能保持一致性,配合使用ControlNet模型,可基本實現虛擬角色的生成、表演與舞臺調度。Guo等[17]提出一個輕量化基于文本煙道的圖生視頻解決方案I2V?Adapter。該方法保留了預訓練模型的先驗知識,使模型顯著減少新任務訓練時間,有助于模型微調,提高了生成視頻的泛化能力。此外,其通過引入一種新穎的幀相似性先驗(Frame Similarity Prior)來平衡生成視頻的穩定性和運動幅度,同時增強了模型可控性和生成視頻的多樣性。從實驗結果可以看出,該方法生成的視頻具有較強連貫性,保證了角色等圖像身份方面的一致性,在生成具有運動范圍視頻時效果更好且扭曲誤差低,使其能夠在確保足夠運動精度的前提下生成帶有更多動態效果的視頻。上述特征充分說明該方法在畫面質量和生產效率上得到了進化。在可見的未來,該方法有望結合幀插值和空間超分辨率模塊生成更長持續時間、更穩定連貫、更高分辨率的視頻。Zhao等[18]對3D頭像生成中提高保真度和效率發起挑戰,他們提出了能夠融合多個輸入,且無需額外優化的重建框架。該方法引入了可動畫3D GAN先驗以及創新的神經紋理編碼器,旨在更好地保留重建頭像的細節,恢復被遮擋的面部區域以及準確地對動態特征進行建模,這對電影制作過程中保持頭像的身份一致性有很大幫助。

2.3 高效性優化

生成內容的高效性涉及生成內容的速度和計算資源的使用效率。穩定的生成式AI不僅在生成高質量內容時表現穩定,還能高效地完成生成任務,優化計算資源的使用,提高整體制作效率。Gu等[19]提出一種引導濾波器(Filter?Guided Diffusion)框架,通過根據示例圖像的結構調節圖像擴散,從而向生成圖像的擴散模型添加高質量引導。該框架所實現的速度和多樣性,使其能在比現有零樣本方法更短的時間內生成更高質量的結果。擴散模型實質存在一個產生噪聲和去除噪聲的過程,針對上述過程的優化,Huang等[20]討論了相關噪聲和訓練圖像之間的相關性對生成擴散模型的影響,并將具有時變噪聲的確定性擴散過程引入擴散模型框架中,該方法生成的圖像更自然,細節更豐富,偽影更少。

3生成內容可控性與創作自由度提升

在AI輔助電影生產的過程中,生成式AI技術的可控性直接影響了生產者對內容的把控以及藝術家創作的自由度,其包括對畫面內容的控制、風格形式的控制、鏡頭語言的控制等。在本次會議中,多個研究者從創作者角度探索了針對數字資產細節的人機交互控制方法,提升了AI輔助電影創作的能力以及電影生產的人機協同效率,同時也能保留藝術家對藝術表達的獨特性和個性化特征。

3.1 視頻生成的可控性

利用生成式AI生成視頻技術直接影響影視行業生產流程、成本資源和觀眾體驗等方面。隨著Sora、可靈、Luma等基于Diffusion Transformers(DiT)框架的文生視頻大模型出現,畫面質量、內容長度均得到大幅提升,利用AI創作影像將會變成主流創作方式。然而作為生產力工具,其還存在可控性不足的問題,比如影像畫面的運動通常包含了畫面中對象的運動和攝影機運動,且這兩種運動通常會同時出現,由于先前的方法通常缺乏對影像對象和攝影機運動同時進行控制,導致專業影像制作者的創作可操作性大大降低,為此Yang等[21]提出了Direct?a?Video系統,其通過解耦算法控制物體和相機運動,從而允許用戶像導演一樣在生成影像過程中獨立指定多個對象的運動并控制攝影機的平移和縮放運動,顯著提升了對生成畫面的可控性。針對影像中物體運動的控制,團隊提出使用模型固有先驗的空間交叉注意力調制實現;針對相機運動,團隊引入了新的時間交叉注意層,以解釋定量的相機運動參數,該方法優勢在于可通過自我監督和輕量級訓練方法學習相機運動。相反,在推理過程中,可采用免訓練方法來控制對象運動,避免了對運動注釋和視頻基礎數據集的密集收集需要。此外,該方法在精確控制方面也有諸多優勢,比如可同時對相機的平移和縮放進行控制,增加了相機可調參數,以及更容易控制多個對象的運動,能避免語義的混合和缺失。未來,在該方法基礎上可延伸出基于草圖的相機精確運動調節,使通過故事板直接生產影像的可能性進一步增加。

基于交互方式進行可控性內容修改的相關研究大多針對圖像展開,例如拖動修改圖像生成技術[22]和特定區域修改技術[23],但生成視頻的交互內容修改技術仍存在技術空缺。在本次會議中Shi等[24]提出一種用于一致且可控的文本引導圖像到視頻生成 (I2V) 的新穎框架,將困難的圖像到視頻生成任務分解為兩個階段:第一階段訓練一個基于擴散的運動場預測器,重點是推導合理的運動;第二階段則完成視頻渲染,為有效擴大時間感受野,該方法提出通過運動引導時間注意力。該框架能避免具有較大視點變化的相機運動、非剛性運動情況下的失幀,使視頻生成功能更為準確且魯棒。最值得討論的是該方法支持用戶使用稀疏軌跡和運動畫筆更精確地控制影像的運動軌跡和動畫區域,其運動筆刷(Motion Brush)功能可控制影像中的區域運動,例如讓影像中角色頭發更加飄逸且整體畫面沒有違和感,而運動拖拽功能(Motion Drag)則可通過繪制路徑精確控制畫面中的對象運動,例如可讓影像中的貓根據繪制路徑進行轉頭。對于電影技術而言,該方法嘗試使用可交互方式對影像進行控制,盡管仍存在復雜運動或多對象交互情況下失幀的現象,但在生成影像可控性探索方面邁出了一大步。

在影像制作過程中,畫面構圖對于增強敘事、引導注意力、體現影片風格等方面起著積極作用。在引導圖像生成過程中,用戶常常使用景深信息約束畫面構圖,這一過程需要用戶提供深度圖作為輸入,然而提供這種深度信息對于用戶而言本身就是一個挑戰。Bhat等[25]為此提出一個基于深度的快速引導圖像生成方法LooseControl,并提供兩種交互式編輯模式,即場景邊界控制(Scene Boundary Control)和三維盒控制(3D Box Control)。在該創意生成和編輯的新模式下,用戶能夠以更有效和漸進的方式探索構圖設計空間。

3.2 圖像生成的可控性

針對靜態圖像中的對象生成,除了控制畫面整體風格,另一類方法是控制形象的視覺外觀。Alaluf等[26]提出基于外觀遷移的視覺外觀控制,將概念的視覺外觀從一個圖像轉移到另一個圖像中存在的概念,例如將第一張圖中斑馬的外觀轉移到第二張圖的長頸鹿圖像上。該方法首先需要輸入外觀圖像和結構圖像,如斑馬和長頸鹿,然后將圖像反轉到文生圖預訓練擴散模型的潛在空間中。之后在去噪過程的每個時間步驟,通過將結構圖像對應的查詢與外觀圖像的鍵值相乘以計算修改后的自注意力圖。該方法的優勢在于零樣本學習,不需要優化或訓練,適用于科幻電影形象概念設計,尤其適合推理構建物種融合等硬科幻世界觀。若該方法能擴展到時間維度,在生成影像中直接融合或遷移外觀,讓科幻形象的運動遵循物理規律,可使塑造的角色運動更真實。

影像中的照明和材質是關鍵藝術元素,其不僅有助于觀眾看清畫面內容,更是創造氛圍、傳達情感、塑造角色形象以及推動故事情節發展的重要工具,因此控制生成畫面中的光線效果也是AI影像藝術生成的重要基礎。然而現有方法很難通過文本提示詞來詳細描述和控制光環境的參數。為解決此問題,Zeng等[27]提出基于擴散模型的圖像光線控制方法。該方法首先生成臨時圖片并對其進行前后景分割,之后通過將目標光照傳遞到名為DiLightNet的細化擴散模型,通過推斷前景對象的粗略形狀計算出輻射度提示,重新修改和細化生成圖像中的前景對象,最終重新合成與前景物體上光照一致的背景。簡言之,該方法同時考慮了提示詞和畫面主題對象的形狀,從而讓合成的圖像更具有物理真實感。將該方法應用于電影制作中將提升后期特效合成環節的效率,通過背景重繪來控制整個畫面的燈光效果,也增強了工具的可控性。此類照明控制方法未來有望直接應用于文生視頻的模型中。此外,Luo等[28]利用生成式AI對圖像進行內蘊屬性分解,例如反照率(Albedo)、著色(Shading)、法線(Normal)等圖形學概念。該方法創新性地將內蘊屬性形式化分解為利用預先訓練的文生圖模型的條件生成問題,并提出新穎的ControlNet架構,將不同數據源與不通過聯合學習框架同類型的注釋相結合,聯合預測多種內蘊屬性。與之類似的方法還有Zeng等[29]提出的RGB→X 擴散模型,該方法可僅指定應遵循的某些內蘊屬性,來引導模型推理其余畫面的合理版本。利用上述方法可對輸入的圖像進行重新照明和設置紋理材質,將圖形學渲染的基本元素與生成式AI框架相結合,使得對圖像的生成控制可以像圖形學渲染邏輯一樣進行處理。

3.3 三維生成的可控性

在三維數字資產方面,為提高三維內容生成的可控性,Liu等[30]將草圖交互方式引入文生三維內容生成框架中,提出基于草圖的多視圖圖像生成擴散模型,能夠在生成高質量三維對象的同時允許可控的神經輻射場(NeRF)編輯。為進一步支持本地修改編輯,該方法開發了從粗到細的編輯框架:粗略階段生成初始結果以更好地標記編輯區域,而精細階段則通過局部渲染策略生成高質量的編輯結果,該方法在三維內容的可控生成上取得了顯著提升。編輯紋理是三維內容創建流程的另一重要組成部分。Guerrero-Viu等[31]操縱(Constrastive Language?Image Pre?training,CLIP)圖像嵌入來調節擴散生成從而編輯紋理內容。該方法使用簡單文本提示(例如,“老化木材”到“新木材”)定義編輯方向,并使用紋理先驗將其映射到CLIP圖像嵌入空間,為進一步改進一致性保留,其將這些方向投影至CLIP子空間,以最大限度地減少由糾纏紋理屬性引發的一致性變化。最終方法可僅使用自然語言提示創建任意滑塊用以動態編輯紋理材質。

4總結與展望

從技術發展角度,傳統圖形學先后融合深度學習方法、生成式框架,其渲染圖片的方式和人工智能生成圖像的方式也將逐漸融合,從以生成式框架方法生產資產加以傳統圖形學控制畫面的方式進行協作,形成新的研究領域和應用工具,讓智能延伸到圖形底層邏輯,如幾何表達、光照著色等。基于生成式AI框架的技術迭代,DiT框架等前沿方法彌補了以往技術在內容生成過程中的不足,如基于回歸的方法多樣性、生動性不足;GAN較難訓練,依賴精確且冗余的參數調節等缺陷。經過技術迭代,近期研究則聚焦如何提升技術泛化性、穩定性與可控性,以及如何將上述特征與垂直領域應用相結合,這將驅使未來畫面內容的每一個像素逐漸依賴于生成式AI技術的處理與渲染。然而這一轉變也伴隨著新的挑戰且需進一步探索的領域,如數據管理、計算資源的優化和模型可解釋性等。未來,不管是模型的個性化訓練與微調,還是模型推理階段的復雜計算,算力需求仍是限制條件,如何在不損失生成質量的情況下有效應用這些技術依然是關注熱點。

從電影生產角度而言,由于生成式AI技術泛化性、穩定性與可控性的提升,其將正式成為電影生產過程中主流的輔助工具,且這一趨勢預計將長期持續。由于生成式AI技術逐漸與傳統圖形學主題結合,通過利用自身的跨模態泛化能力滲透到電影制作領域更深的工作流程中,如鏡頭語言表達、燈光色彩編輯等,為虛擬攝制、后期特效、游戲開發、數智人等工具集中填充了更多輔助功能。從本次SIGGRAPH會議成果來看,研究方向即以確保AI能夠提供高質量、連貫和高效的生成結果為主導,這也是AI作為電影生產輔助工具的基本要求。更重要的是,越來越多的研究從創作者角度出發,結合影像內容創作流程需求,對可控性、交互性、可編輯性等方向進行技術探索。新的輔助工具也必將催生新的生成模式和工作流程,比如借助跨模態生成能力,目前的內容生成方法已模糊了二維與三維數字資產生產模式的邊界,對于電影理論而言,由技術瑕疵導致的AI風格“缺陷美”將逐漸改善,AI影像審美將回歸傳統,AI影像評判依然要遵從敘事結構、情感傳遞、創作意圖、受眾體驗等因素。

從電影產業角度來看,目前的生成式AI技術聚焦生產效率的優化,而減少從電影本身著手改變。在無法保證影像生成質量的情況下,AI生成的成本效益或許會先波及“短平快”的自媒體和網絡劇。就像2009年的《阿凡達》電影,與動作捕捉技術一樣,越來越多的AI輔助部門出現在電影演職員表中,基于AI實時捕捉和渲染的硬件與解決方案也會出現在電影市場中,生成式AI技術在電影中的發展也取決于導演和制片的“膽識”。

未來,生成式AI技術除了作為輔助工具外,也會催生新的影像表達形式,如非線性敘事AI影像、基于生理數據AI影像、具身感知AI影像等。生成式AI是幫助未來影像跨越維度的通道,這一維度跨越體現在可交互性、可定制化等。通過生成式AI技術,影像創作能夠突破傳統的敘事和表達限制,探索更多創新形式和可能性。盡管我們在技術革新帶來的興奮中不斷前行,但我們必須銘記,電影的核心依然在于敘事內容和情感表達。

參考文獻

(向下滑動閱讀)

[1] Sun H, Zheng R, Huang H B, et al. LGTM: Local?to?Global Text?Driven Human Motion Diffusion Model[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?9.

[2] Chen R, Shi M, Huang S, et al. Taming Diffusion Probabilistic Models for Character Control[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?10.

[3] Zhang Z, Liu R, Hanocka R, et al. TEDi: Temporally?Entangled Diffusion for Long?Term Motion Synthesis[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.

[4] Cohan S, Tevet G, Reda D, et al. Flexible Motion In?betweening with Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?9.

[5] Ji X, Pan Z, Gao X, et al. Text?Guided Synthesis of Crowd Animation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.

[6] Wu Y, Xu H, Tang X, et al. Portrait3D: Text?Guided High?Quality 3D Portrait Generation Using Pyramid Representation and GANs Prior[J]. ACM Transactions on Graphics.2024,43(4): 1?12.

[7] Liu H, Wang X, Wan Z, et al. HeadArtist: Text?conditioned 3D Head Generation with Self Score Distillation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.

[8] Shen T, Gao J, Yin K, et al Deep Marching Tetrahedra: a Hybrid Representation for High?Resolution 3D Shape Synthesis[C]//Advances in Neural Information Processing Systems: Volume 34. Curran Associates, Inc,2021: 6087?6101.

[9] Lin C H, Gao J, Tang L, et al. Magic3D: High?Resolution Text?to?3D Content Creation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023:300?309.

[10] Jang W, Jung Y, Kim H, et al. Toonify3D: StyleGAN?based 3D Stylized Face Generator[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.

[11] Zhao Q, Long P, Zhang Q, et al. Media2Face: Co?speech Facial Animation Generation With Multi?Modality Guidance[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?13.

[12] Burgert R, Li X, Leite A, et al. Diffusion Illusions: Hiding Images in Plain Sight[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.

[13] Bao Z, Li Y, Singh K K, et al. Separate?and?Enhance: Compositional Finetuning for Text?to?Image Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?10.

[14] Ma J, Liang J, Chen C, et al. Subject?Diffusion: Open Domain Personalized Text?to?Image Generation without Test?time Fine?tuning[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.

[15] Xie Y, Xu H, Song G, et al. X?Portrait: Expressive Portrait Animation with Hierarchical Motion Attention[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.

[16] Avrahami O, Hertz A, Vinker Y, et al. The Chosen One: Consistent Characters in Text?to?Image Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.

[17] Guo X, Zheng M, Hou L, et al. I2V?Adapter: A General Image?to?Video Adapter for Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.

[18] Zhao X, Sun J, Wang L, et al. InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?10.

[19] Gu Z, Yang E, Davis A. Filter?Guided Diffusion for Controllable Image Generation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?10.

[20] Huang X, Salaun C, Vasconcelos C, et al. Blue noise for diffusion models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.

[21] Yang S, Hou L, Huang H, et al. Direct?a?Video: Customized Video Generation with User?Directed Camera Movement and Object Motion[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.

[22] Mou C, Wang X, Song J, et al. DiffEditor: Boosting Accuracy and Flexibility on Diffusion?based Image Editing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024:8488?8497.

[23] Li Y, Zhou P, Sun J, et al. Multi?Region Text?Driven Manipulation of Diffusion Imagery[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2024,38(4): 3261?3269.

[24] Shi X, Huang Z, Wang F Y, et al. Motion?I2V: Consistent and Controllable Image?to?Video Generation with Explicit Motion Modeling[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.

[25] Bhat S F, Mitra N, Wonka P. LOOSECONTROL: Lifting ControlNet for Generalized Depth Conditioning[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.

[26] Alaluf Y, Garibi D, Patashnik O, et al. Cross?Image Attention for Zero?Shot Appearance Transfer[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.

[27] Zeng C, Dong Y, Peers P, et al. DiLightNet: Fine?grained Lighting Control for Diffusion?based Image Generation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.

[28] Luo J, Ceylan D, Yoon J S, et al. IntrinsicDiffusion: Joint Intrinsic Layers from Latent Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.

[29] Zeng Z, Deschaintre V, Georgiev I, et al. RGB?X: Image decomposition and synthesis using material? and lighting?aware diffusion models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.

[30] Liu F L, Fu H, Lai Y K, et al. SketchDream: Sketch?based Text?To?3D Generation and Editing[J]. ACM Trans. Graph, 2024, 43(4): 44:1?44:13.

[31] Guerrero-Viu J, Hasan M, Roullier A, et al. TexSliders: Diffusion?Based Texture Editing in CLIP Space[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.

【本文項目信息】中國博士后科學基金第75批面上資助“基于AI agent的智能敘事模型研究”(2024M750215)的成果。



主管單位:國家電影局

主辦單位:電影技術質量檢測所

標準國際刊號:ISSN 1673-3215

國內統一刊號:CN 11-5336/TB

投稿系統:ampt.crifst.ac.cn

官方網站:www.crifst.ac.cn

期刊發行:010-63245081

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
德國80年來首次在俄邊境部署軍隊,默茨又表態了

德國80年來首次在俄邊境部署軍隊,默茨又表態了

山河路口
2025-05-23 20:23:44
在哈佛的中國學者:“我很高興,能在此時離開美國”

在哈佛的中國學者:“我很高興,能在此時離開美國”

環球網資訊
2025-05-23 21:22:24
52歲鞏俐直言“每周四次”,70歲米歇爾體檢證明自己:我跟得上

52歲鞏俐直言“每周四次”,70歲米歇爾體檢證明自己:我跟得上

柴叔帶你看電影
2024-11-28 15:31:16
越南總理急了!砸錢搶建中越鐵路,東南亞要變天?

越南總理急了!砸錢搶建中越鐵路,東南亞要變天?

墜入二次元的海洋
2025-05-24 14:12:26
A-史密斯:為啥錫伯杜只讓唐斯打28分鐘 米羅在場時分差在變大啊

A-史密斯:為啥錫伯杜只讓唐斯打28分鐘 米羅在場時分差在變大啊

直播吧
2025-05-24 12:03:06
5月24日俄烏:俄羅斯提新條件了

5月24日俄烏:俄羅斯提新條件了

山河路口
2025-05-24 17:53:34
李亞鵬不再隱瞞!坦言地產公司賣了70多億,破產或與王菲有關系

李亞鵬不再隱瞞!坦言地產公司賣了70多億,破產或與王菲有關系

興史興談
2025-05-24 12:34:28
5月24日,中央5臺直播乒乓時間表:王楚欽孫穎莎王曼昱均賽2場

5月24日,中央5臺直播乒乓時間表:王楚欽孫穎莎王曼昱均賽2場

曉風說
2025-05-24 11:03:28
中南大學美女教授楊雨,我和李清照一樣:“好酒、好賭,還好色”

中南大學美女教授楊雨,我和李清照一樣:“好酒、好賭,還好色”

扶蘇聊歷史
2025-05-17 11:37:32
世乒賽!奧運冠軍0-4慘敗,國乒鎖定第一金,孫穎莎沖擊雙冠王

世乒賽!奧運冠軍0-4慘敗,國乒鎖定第一金,孫穎莎沖擊雙冠王

知軒體育
2025-05-24 18:47:55
李維嘉新加坡度假,背7000元薯片包好有錢,終于胖回來了顏值回春

李維嘉新加坡度假,背7000元薯片包好有錢,終于胖回來了顏值回春

八怪娛
2025-05-23 19:43:51
官方:麥克托米奈當選2024/25賽季意甲最佳球員

官方:麥克托米奈當選2024/25賽季意甲最佳球員

懂球帝
2025-05-24 05:19:19
世乒賽最新戰報!王楚欽第2局3分險勝,1-1,名將救2局點仍輸球!

世乒賽最新戰報!王楚欽第2局3分險勝,1-1,名將救2局點仍輸球!

劉姚堯的文字城堡
2025-05-24 17:26:05
黃楊鈿甜事件:劇情反轉比川劇變臉還快!反腐在路上,任重而道遠

黃楊鈿甜事件:劇情反轉比川劇變臉還快!反腐在路上,任重而道遠

劍鳴濤聲
2025-05-23 17:45:37
無緣意甲冠軍!未出場的勞塔羅坐在替補席掩面哭泣

無緣意甲冠軍!未出場的勞塔羅坐在替補席掩面哭泣

直播吧
2025-05-24 06:32:14
孔夫子舊書網賣假翡翠,顧客要求“退一賠三”遭拒

孔夫子舊書網賣假翡翠,顧客要求“退一賠三”遭拒

揚子晚報
2025-05-24 18:30:57
殺瘋了!比亞迪再放大招!

殺瘋了!比亞迪再放大招!

電動知家
2025-05-23 10:32:42
街頭現海底撈路邊攤!官方證實:不是冒牌!

街頭現海底撈路邊攤!官方證實:不是冒牌!

FM93浙江交通之聲
2025-05-23 08:56:00
朱媛媛患的啥癌?抗癌五年不掉發不消瘦拍戲逛街,黃曉明發文炸了

朱媛媛患的啥癌?抗癌五年不掉發不消瘦拍戲逛街,黃曉明發文炸了

紀中百大事
2025-05-24 10:30:03
嚇人!南京一線江景房小區從6萬降到2.5萬,一套房市值縮水300萬

嚇人!南京一線江景房小區從6萬降到2.5萬,一套房市值縮水300萬

火山詩話
2025-05-24 13:28:37
2025-05-24 19:24:49
電影技術微刊 incentive-icons
電影技術微刊
電影技術微刊
565文章數 208關注度
往期回顧 全部

科技要聞

不止蘋果?特朗普:三星不在美國造 也加稅

頭條要聞

美國白宮數十人突然被裁 有人當場哭了

頭條要聞

美國白宮數十人突然被裁 有人當場哭了

體育要聞

NBA最被高估球隊,“突然”有了冠軍相?

娛樂要聞

歌手2025第二期排名:居然是他淘汰了

財經要聞

不得不說,特朗普殺瘋了

汽車要聞

一見傾心!東風全新SUV定妝圖曝光,顏值氣場并存

態度原創

教育
游戲
健康
親子
軍事航空

教育要聞

2025年高考試題分析暨高考命題能力與備考策略研討會(西安、無錫、沈陽)

《空洞騎士:絲之歌》Xbox頁面再被挖出神秘蛛絲馬跡

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

國家出手了!教育部明令禁止,事關所有幼兒園,6月1日起施行

軍事要聞

普京:俄羅斯仍位列五大武器出口國之列

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 北宁市| 精河县| 开阳县| 彰化县| 昭通市| 运城市| 台州市| 苏尼特左旗| 温宿县| 桐柏县| 永仁县| 东方市| 余江县| 敦化市| 宝山区| 朔州市| 台北市| 白朗县| 徐闻县| 永修县| 乌审旗| 哈巴河县| 承德市| 砀山县| 锡林郭勒盟| 灯塔市| 崇州市| 麻阳| 淮安市| 即墨市| 萍乡市| 桃江县| 涞源县| 岑巩县| 遵化市| 玉溪市| 新沂市| 防城港市| 荔浦县| 兴安县| 房产|