本文刊發(fā)于《現(xiàn)代電影技術(shù)》2025年第5期
專家點評
近年來,人工智能生成內(nèi)容(AIGC)技術(shù)在影視創(chuàng)制領(lǐng)域的應(yīng)用正從概念驗證逐步走向系統(tǒng)集成與流程優(yōu)化。尤其是在影視前期的分鏡制作環(huán)節(jié),基于擴散模型的圖像生成、多模態(tài)驅(qū)動的角色動畫、語音驅(qū)動的面部表情合成等關(guān)鍵技術(shù)不斷實現(xiàn)新突破,為傳統(tǒng)依賴手繪與人工剪輯的流程注入了高效、可控的創(chuàng)新方案。《AIGC技術(shù)在影視動態(tài)分鏡智能生成中的創(chuàng)新應(yīng)用與實踐》一文聚焦影視動態(tài)分鏡智能生成任務(wù),提出“角色/場景生成-分鏡合成-動態(tài)分鏡生成”三階段創(chuàng)制流程,是對AIGC技術(shù)從靜態(tài)圖像生成向時序視頻建模拓展的積極探索與實踐。其在建模細節(jié)方面對LoRA微調(diào)、草圖幾何約束、圖像和諧化算法與語音驅(qū)動動畫方法進行了工程化集成,尤其在人臉屬性控制、人物服飾還原及面部動畫真實感等方面表現(xiàn)出清晰明確的技術(shù)路徑,展示了AIGC從視覺生成向角色表演理解過渡的潛力。本文語言通俗而不失技術(shù)深度,邏輯清晰,相關(guān)案例很好地契合了影視分鏡創(chuàng)作的實際流程,兼具技術(shù)傳播性與視覺呈現(xiàn)力,具有較高的借鑒意義和閱讀價值。
——王嵐君
天津大學新媒體與傳播學院研究員
博士生導(dǎo)師
作 者 簡 介
黃東晉
上海大學上海電影學院、上海電影特效工程技術(shù)研究中心副教授、博士生導(dǎo)師,主要研究方向:虛擬現(xiàn)實、人工智能、數(shù)字影視技術(shù)等。
上海大學上海電影學院碩士研究生在讀,主要研究方向:深度學習、生成式模型等。
湯譯翔
黃 琦
上海大學上海電影學院碩士研究生在讀,主要研究方向:圖形圖像處理。
上海大學上海電影學院碩士研究生在讀,主要研究方向:圖形圖像處理。
皮祎恒
于 冰
上海大學上海電影學院、上海電影特效工程技術(shù)研究中心講師,主要研究方向:電影修復(fù)、深度學習。
摘要
人工智能生成內(nèi)容(AIGC)與影視行業(yè)的深度融合已成為行業(yè)重要發(fā)展趨勢,尤其在影視創(chuàng)作的前期階段,可為創(chuàng)意表達與內(nèi)容多樣化提供強大的技術(shù)支持。本文聚焦AIGC技術(shù)在影視動態(tài)分鏡智能生成中的創(chuàng)新應(yīng)用,提出基于LoRA微調(diào)、人臉交換、草圖幾何約束、和諧化算法、多模態(tài)驅(qū)動角色動畫等技術(shù)的“角色/場景生成-分鏡合成-動態(tài)分鏡生成”智能創(chuàng)制管線,并利用自主構(gòu)建的唐代人物形象數(shù)據(jù)集,實現(xiàn)了唐代仕女從靜態(tài)形象到動態(tài)表演的智能生成,驗證了該管線的可行性。實驗結(jié)果表明,本文提出的智能創(chuàng)制管線,可實現(xiàn)高質(zhì)量動態(tài)分鏡的智能生成,顯著提升影視創(chuàng)制效率,能有效輔助導(dǎo)演的創(chuàng)作決策,實現(xiàn)影視分鏡制作的降本增效。
關(guān)鍵詞
AIGC;動態(tài)分鏡生成;角色-場景融合;角色動畫;多模態(tài)技術(shù)
1引言
分鏡設(shè)計是影視創(chuàng)作的核心環(huán)節(jié),其通過視覺化的方式將劇本轉(zhuǎn)化為連續(xù)的鏡頭語言,直接影響影片的敘事節(jié)奏、視覺風格和創(chuàng)制效率[1]。傳統(tǒng)分鏡制作高度依賴人工手繪,不僅耗時費力,且修改成本高昂。尤其在復(fù)雜場景或特效鏡頭中,分鏡師需反復(fù)調(diào)整構(gòu)圖、運鏡和角色表演,嚴重制約了創(chuàng)作迭代的速度。近年來,隨著擴散模型(Diffusion Model)[2]、神經(jīng)渲染[3]、高斯?jié)姙R[4]等先進技術(shù)的快速發(fā)展,人工智能生成內(nèi)容(AIGC)技術(shù)為影視創(chuàng)制帶來了革命性影響。特別在分鏡設(shè)計領(lǐng)域,通過文生圖(T2I)、文生視頻(T2V)、圖生視頻(I2V)等生成式模型,AIGC能快速生成多樣化的角色造型、場景布局與鏡頭序列,顯著提升前期視覺開發(fā)的效率與質(zhì)量。
本文圍繞AIGC技術(shù)在影視動態(tài)分鏡智能生成中的創(chuàng)新應(yīng)用,構(gòu)建“角色/場景生成-分鏡合成-動態(tài)分鏡生成”的自動化創(chuàng)制管線,實現(xiàn)高質(zhì)量動態(tài)分鏡智能生成。本研究可為前期影視創(chuàng)作者的創(chuàng)意表達提供一套切實可行的動態(tài)分鏡視頻智能化、自動化制作方案,為導(dǎo)演提供更多可視化的創(chuàng)作參考。
2研究背景
AIGC技術(shù)在影視創(chuàng)制領(lǐng)域展現(xiàn)出顛覆性潛力,在國內(nèi)外影視行業(yè)引起高度關(guān)注,影視制作流程正在經(jīng)歷革命性改變。第一,AIGC技術(shù)通過文本輸入即可完成從概念設(shè)計到成片的一站式創(chuàng)作生產(chǎn)。該技術(shù)兼具強大的風格適應(yīng)性,無論是歷史復(fù)原、科幻未來還是藝術(shù)化表達,都能通過調(diào)整算法參數(shù)快速實現(xiàn)。第二,AIGC技術(shù)具備全流程動態(tài)可調(diào)的優(yōu)勢,AIGC的“生成-編輯-迭代”工作流,可實現(xiàn)真正意義上的非線性創(chuàng)作自由。第三,AIGC在降本增效方面表現(xiàn)突出,能將影視制作中耗時較長的前期分鏡設(shè)計環(huán)節(jié)效率大幅度縮短,顯著降低影視的開發(fā)成本。
目前,AIGC技術(shù)在影視動態(tài)分鏡創(chuàng)作中尚未形成成熟確定的制作流程。本文重點研究基于AIGC技術(shù)的影視動態(tài)分鏡生成與應(yīng)用,主要涉及角色/場景生成、分鏡合成、動態(tài)分鏡生成等關(guān)鍵技術(shù)。
(1)角色/場景生成
角色設(shè)計作為構(gòu)建敘事體系和視覺風格的核心環(huán)節(jié),其質(zhì)量直接影響作品的藝術(shù)表現(xiàn)力。近年來,在跨模態(tài)生成任務(wù)中,文本與圖像聯(lián)合驅(qū)動的圖像生成已成為重要研究方向。目前主流的生成模型框架包括 Stable Diffusion 1.5[5]、Stable Diffusion XL[6]、Midjourney[7]以及Flux 模型[8]。雖然這些模型/工具能生成高質(zhì)量的人物角色圖像,但往往存在身份一致性、歷史時代特征偏差等問題。
場景設(shè)計則通過空間布局、光影氛圍和細節(jié)還原,為敘事提供視覺支點,其真實性與藝術(shù)性共同決定了影片的沉浸深度與美學高度。在影視場景設(shè)計領(lǐng)域,文生圖和圖生圖(I2I)技術(shù)正逐漸成為概念設(shè)計、環(huán)境構(gòu)建和風格化表達的重要工具。雖然文生圖技術(shù)能快速輸出概念草圖,但復(fù)雜場景的結(jié)構(gòu)合理性、細節(jié)精準度仍不穩(wěn)定。圖生圖技術(shù)常用于場景迭代和風格統(tǒng)一,但通過參考圖生成的場景視覺內(nèi)容,在物理合理性(如陰影方向、透視關(guān)系)上仍需后期干預(yù)。
(2)分鏡合成
分鏡合成任務(wù)是將前景角色與背景場景進行無縫融合,主要涉及圖像和諧化技術(shù)。通過調(diào)整顏色、光照等前景元素的視覺特征,以實現(xiàn)與背景圖像的高質(zhì)量合成,從而增強合成圖像的真實感和視覺一致性。近年來,深度學習(DL)技術(shù)被廣泛應(yīng)用于圖像和諧化領(lǐng)域,目前主流的模型框架主要包括DoveNet[9] 、RainNet[10]、Harmonizer[11]及AICT[12]等。其中AICT方法是目前圖像和諧化領(lǐng)域的SOTA方法,其通過預(yù)測逐像素顏色變換,并自適應(yīng)調(diào)整采樣間隔以建模高分辨率下顏色變換的局部非線性特征,顯著提升處理效率與質(zhì)量,實現(xiàn)保持視覺一致的高分辨率圖像合成。
(3)動態(tài)分鏡生成
動態(tài)分鏡生成主要涉及人體動畫生成技術(shù)與面部動畫生成技術(shù)。人體動畫生成旨在基于靜態(tài)圖像以及特定的輸入(如姿態(tài)序列、音頻、文本等),生成連貫、逼真的動態(tài)人物視頻。當前技術(shù)主要分為基于生成式對抗網(wǎng)絡(luò)(GAN)和基于擴散模型兩類方法。基于GAN的方法通過生成器和判別器的對抗訓練生成人體動畫序列,然而這類方法在時序一致性、多樣性等方面仍存在較多局限。而基于擴散模型的方法(如DreamPose[13]、Champ[14]、UniAnimate[15]等)憑借其漸進式生成機制和強大的建模能力,在人體動畫生成領(lǐng)域展現(xiàn)出顯著優(yōu)勢,正逐漸成為主流技術(shù)。
語音驅(qū)動面部動畫技術(shù)通過深度分析語音的聲學特征、韻律和情感信息,利用機器學習(ML)算法自動生成與語音同步的逼真面部表情、精準口型和自然頭部動作,為數(shù)字角色賦予生命力。近年來,深度學習技術(shù)的引入為語音驅(qū)動面部動畫技術(shù)帶來了重大突破。與傳統(tǒng)的GAN方法相比,基于擴散模型的方法(如DiffTalk[16]、FaceDiffuser[17]等)在訓練過程中更加穩(wěn)定,生成的圖像細節(jié)更加豐富,因此在語音驅(qū)動面部動畫任務(wù)中展現(xiàn)出巨大潛力。然而,該技術(shù)仍面臨時序連貫性不足、唇音異步以及生成效率低等關(guān)鍵瓶頸,制約了其在實時應(yīng)用中的表現(xiàn)。
3基于AIGC技術(shù)的動態(tài)分鏡制作流程與實踐
本文構(gòu)建“角色/場景生成-分鏡合成-動態(tài)分鏡生成”的智能化、自動化創(chuàng)制管線,實現(xiàn)高質(zhì)量動態(tài)分鏡生成。如圖1所示,該流程主要包括三個步驟:首先,通過基于LoRA[18]微調(diào)的Flux模型,快速生成高質(zhì)量的人物角色,并通過人臉交換技術(shù)實現(xiàn)角色面部屬性編輯。然后,采用草圖引導(dǎo)的背景生成技術(shù),通過幾何約束Flux模型精準生成布局合理的電影場景,并通過圖像和諧化技術(shù),將生成的前景角色與背景場景無縫融合。最后,采用動作驅(qū)動與語音驅(qū)動技術(shù)實現(xiàn)角色人體圖像動畫生成和面部表情動畫生成,進而通過視頻生成大模型生成符合電影運鏡規(guī)范的鏡頭序列。
圖1 基于AIGC技術(shù)的動態(tài)分鏡制作流程
3.1 角色智能生成與編輯
在角色設(shè)計制作流程中,重點突破兩項關(guān)鍵技術(shù):(1)提出基于LoRA微調(diào)的服飾生成技術(shù),實現(xiàn)符合歷史時代特征的角色形象生成;(2)提出人臉屬性編輯方法GPSwap[19],支持高分辨率下身份特征與表情的解耦控制。
3.1.1 角色智能生成
本節(jié)以唐代人物角色生成為例,基于自主構(gòu)建的微調(diào)數(shù)據(jù)集,通過LoRA微調(diào)的Flux文生圖大模型,實現(xiàn)面向?qū)憣嶏L格的角色生成。
在數(shù)據(jù)集構(gòu)建方面,本文構(gòu)建了唐代人物形象數(shù)據(jù)集,用于文生圖大模型微調(diào)。數(shù)據(jù)來源于兩個渠道:(1)中國古代服飾三維數(shù)據(jù)庫中的多視角渲染圖像[20];(2)經(jīng)過篩選的符合歷史風貌的互聯(lián)網(wǎng)素材。在數(shù)據(jù)質(zhì)量控制方面,通過專業(yè)圖像處理手段去除了字幕、遮擋物等信息,并進行了背景修復(fù)處理。最終形成包含227張高分辨率圖像的數(shù)據(jù)集(圖2),其中162張為完整服飾展示的全身圖像,65張為妝容細節(jié)特寫圖像。為增強模型語義解析能力,本文借助WD14?Tagger自動標注工具[21],構(gòu)建了包含服飾形制、首飾特征、妝容樣式、人物類別及風格屬性的多維度標準化標注方法,有效實現(xiàn)了圖像語義特征的精細化描述。
圖2 人物角色數(shù)據(jù)集
在模型研制方面,通過LoRA微調(diào)技術(shù),對預(yù)訓練的文生圖模型Flux進行個性化調(diào)整,使其能夠更好適應(yīng)特定領(lǐng)域的文生圖任務(wù),生成高質(zhì)量寫實風格的唐代仕女圖像。具體地,以flux1?dev.sft預(yù)訓練模型[22]為基礎(chǔ)架構(gòu),并集成ae.sft變分自編碼器[23]進行特征提取。訓練數(shù)據(jù)由高分辨率的唐代服飾人像組成,采用高效且穩(wěn)定的PagedAdamW優(yōu)化器[24],通過調(diào)節(jié)LoRA權(quán)重系數(shù)(0.2~1.0),有效控制不同風格的角色生成。
本文角色生成的結(jié)果如圖3所示。模型對復(fù)雜紋樣的處理尤為出色,聯(lián)珠紋、團花紋等唐代典型紋飾均得到較為準確的還原。生成圖像在細節(jié)表現(xiàn)方面,如紗羅面料的半透明性、錦緞的反光等都得到了真實呈現(xiàn)。同時,額黃、斜紅等唐代特有妝容元素也清晰可辨。
圖3 角色生成圖像
3.1.2 人臉屬性編輯
人臉交換技術(shù)作為影視制作領(lǐng)域的重要創(chuàng)新,通過分析源人臉和目標人臉的特征,精準遷移五官輪廓、皮膚紋理等面部特征,同時保留目標人臉的表情、姿態(tài)和外部光照,實現(xiàn)智能化面部特征遷移,可較好解決角色身份一致性問題。
本文采用筆者團隊提出的人臉交換方法GPSwap[19],該方法創(chuàng)新性地利用StyleGAN的潛在空間特性,通過雙模塊協(xié)同架構(gòu)實現(xiàn)高質(zhì)量的人臉交換。該方法主要由面部特征重組(FFR)網(wǎng)絡(luò)和圖像重建(IR)模塊組成,在保持高分辨率輸出的同時,有效解決現(xiàn)有技術(shù)在特征解耦、訓練穩(wěn)定性和背景融合等方面存在的問題。FFR網(wǎng)絡(luò)通過雙路編碼器架構(gòu)實現(xiàn)身份特征與屬性特征的完全解耦,IR模塊則通過擴展?jié)撛诳臻g和自適應(yīng)融合算法確保生成質(zhì)量,共同解決了傳統(tǒng)方法中特征混淆和訓練不穩(wěn)定的技術(shù)難題。
如圖4所示,圖4(a)為源人臉,提供眼睛、鼻子等身份特征;圖4(b)為目標人臉,提供表情、姿態(tài)等屬性特征;圖4(c)為生成的交換人臉圖,該圖像包含了源人臉的身份特征和目標人臉的屬性特征。本方法生成的圖像在保持身份特征一致性和圖像自然度方面均表現(xiàn)出色,能夠?qū)崿F(xiàn)高精度的面部特征轉(zhuǎn)換和背景融合。需要說明的是,由于人臉數(shù)據(jù)涉及隱私和版權(quán)問題,本文所有實驗均采用AI生成的虛擬人臉進行演示。在實際應(yīng)用中,這項技術(shù)可廣泛應(yīng)用于影視制作領(lǐng)域。例如當演員無法完成特定鏡頭拍攝時,可通過AI換臉技術(shù)將其面部特征無縫移植到替身演員臉上,也可在歷史題材影片中還原已故演員的形象,或為跨國合拍片快速生成不同語言版本的演員面部表情等。
圖4 人臉交換實驗結(jié)果
3.2 場景智能生成
本節(jié)圍繞場景智能生成的核心技術(shù)展開,重點探討兩項關(guān)鍵技術(shù):(1)提出一種多模態(tài)驅(qū)動的背景生成框架,通過手繪草圖等圖像引導(dǎo)實現(xiàn)背景的高質(zhì)量生成;(2)針對合成圖像的真實性問題,設(shè)計了粗合成-和諧化的兩階段處理流程,實現(xiàn)前景與背景融合的高質(zhì)量分鏡合成。
3.2.1 文本/草圖生成背景圖像
本文采用的方法是基于Flux?dev模型,結(jié)合ControlNet[25]和LoRA,通過手繪草稿圖、線稿圖或參考圖等三種不同輸入方式實現(xiàn)生成高質(zhì)量背景圖。具體流程如圖5所示,首先,輸入引導(dǎo)圖片,并搭配文本提示詞(如“傳統(tǒng)中式庭院場景,日落時分,木質(zhì)建筑,飛檐,紅燈籠懸掛在墻上,大型陶瓷花瓶,石階,溫暖的陽光投下長長的影子”);之后,利用Flux?dev 模型的自注意力機制融合文本語義與圖像結(jié)構(gòu)信息,并結(jié)合 ControlNet 提供結(jié)構(gòu)約束(如 Canny 線稿圖或 Depth 布局)和 LoRA 增強背景建筑風格;最終,生成布局合理的高質(zhì)量背景圖像。
圖5 文本/草圖生成背景圖像技術(shù)流程
圖6 文本/草圖驅(qū)動背景圖像生成結(jié)果
具體方式上,第一種是通過輸入手繪草稿圖生成,先繪制詳細草稿圖并輸入 Flux,若效果偏卡通風格則轉(zhuǎn)為 Canny 線稿圖,結(jié)合 ControlNet 指導(dǎo)生成更清晰的圖像〔圖6(a)〕;第二種通過輸入Canny 線稿圖生成,從手繪草稿圖或參考圖提取線稿圖,搭配文本提示輸入 Flux,生成結(jié)構(gòu)更準確的圖像〔圖6(b)〕;第三種通過輸入?yún)⒖紙D生成,先找或用 Photoshop 拼接參考圖(如調(diào)整墻面顏色、添加石獅),若分辨率不足可通過 Flux?fill 擴圖,再結(jié)合 ControlNet 和文本提示生成,效果更穩(wěn)定且易于定制,適用于快速生成符合預(yù)期的背景圖像〔圖6(c)〕。
3.2.2 分鏡合成
本文采用粗合成-和諧化兩階段處理,實現(xiàn)前景-背景融合的高質(zhì)量分鏡合成。
在粗合成階段中,通過Photoshop軟件完成角色與場景的初步合成(圖7)。初步合成的圖像存在光照不一致、陰影錯位、色調(diào)失衡及邊緣生硬等問題,導(dǎo)致畫面真實感弱且空間層次割裂。為使合成圖像達到更加逼真、自然的效果,本文采用基于深度學習(DL)的和諧化算法,對光照、色調(diào)、色彩與邊緣細節(jié)進行統(tǒng)一處理,以確保合成圖像在視覺上能高度還原真實場景,滿足高質(zhì)量圖像制作的要求。
圖7 前景-背景粗合成結(jié)果
在和諧化處理階段中,針對現(xiàn)有高分辨率圖像協(xié)調(diào)方法存在的局部色彩不協(xié)調(diào)問題,本文采用了一種基于自適應(yīng)間隔顏色變換的AICT圖像和諧化方法[12]。本方法將色彩變換建模為逐像素操作,采用局部自適應(yīng)的方式提升色彩協(xié)調(diào)的精細度。通過設(shè)計可生成位置敏感的3D查找表(LUT)網(wǎng)絡(luò),將像素坐標與RGB值共同作為輸入,實現(xiàn)空間感知的逐像素顏色映射。采用雙LUT級聯(lián)結(jié)構(gòu)實現(xiàn)色彩空間非均勻采樣,前級LUT負責粗粒度調(diào)整,后級LUT進行細粒度補償,自適應(yīng)增強局部非線性表達能力。引入圖像級權(quán)重學習模塊,利用全局信息對各局部變換結(jié)果進行動態(tài)融合,保證局部調(diào)整與整體視覺的和諧統(tǒng)一,從而實現(xiàn)保持視覺一致性的高效圖像和諧化。經(jīng)本方法處理的結(jié)果如圖8所示。
圖8 圖像和諧化后的結(jié)果
3.3 動作語音驅(qū)動的角色動畫生成
本節(jié)聚焦多模態(tài)驅(qū)動技術(shù),通過動作與語音兩類核心輸入實現(xiàn)真實感角色動畫生成:(1)探討基于UniAnimate[15]框架的動作驅(qū)動生成方案,通過參考圖像、文本提示、音頻節(jié)奏及動作序列的多模態(tài)輸入,生成時序連貫的人體圖像動畫;(2)采用Diffused Heads模型[26]構(gòu)建語音頻譜到面部動作的智能映射系統(tǒng),實現(xiàn)身份一致、唇音精準的高保真面部動畫生成。
3.3.1 動作驅(qū)動人體圖像動畫生成
本文基于UniAnimate方法實現(xiàn)高質(zhì)量人體動畫生成。該方法提出統(tǒng)一的視頻擴散模型架構(gòu)和基于Mamba的時序建模技術(shù)[27],通過共享特征空間映射機制將參考圖像與目標姿態(tài)序列統(tǒng)一編碼,并利用狀態(tài)空間模型的線性計算復(fù)雜度優(yōu)勢處理長序列,顯著提升了生成視頻的時序一致性和長度,在跨域生成任務(wù)中展現(xiàn)了優(yōu)異的泛化能力。
如圖9所示,輸入的是一張古裝少女的參考分鏡圖像,該圖像是通過前景角色和背景場景圖像合成。之后搭配文本提示詞、音頻資源、動作序列,生成連貫的、時序一致的角色動畫視頻。
圖9 動作驅(qū)動人體圖像動畫生成
3.3.2 語音驅(qū)動面部動畫生成
本文采用一種基于擴散模型的語音驅(qū)動面部動畫生成方法Diffused Heads[26],能高效逐幀生成逼真的角色面部動畫視頻。本方法通過一張靜態(tài)的身份幀和一段語音錄音,生成與語音同步的面部動畫。為提升生成結(jié)果的流暢性和表現(xiàn)力,引入運動幀和音頻嵌入,分別提供過去幀的運動信息和未來表情的預(yù)測信息。此外,還通過嘴型同步損失強制關(guān)注嘴部區(qū)域細節(jié),確保嘴型與語音的高度同步。
如圖10所示,輸入一段語音音頻和一張靜態(tài)角色圖片,生成視頻中的古裝仕女在保持身份特征一致性、表情自然度和唇音同步精度等方面均表現(xiàn)出色,實現(xiàn)了高保真的語音驅(qū)動面部動畫生成。
圖10 語音驅(qū)動面部動畫生成
3.4 基于大模型的動態(tài)分鏡生成
3.4.1 視頻生成技術(shù)流程
本文采用的視頻生成大模型是由騰訊開發(fā)的混元圖生視頻模型HunyuanVideo?I2V[28,29]。這是騰訊團隊于2025年3月6日新發(fā)布的圖生視頻模型,該模型采用標記替換技術(shù),將參考圖像的信息融入視頻生成過程。與HunyuanVideo相同,HunyuanVideo?I2V使用了一個預(yù)訓練的多模態(tài)大語言模型(Multi?modal Large Language Models, MLLM)作為文本編碼器,采用僅解碼器結(jié)構(gòu)來提升模型對輸入圖像語義內(nèi)容的理解能力,并整合圖像及其相關(guān)描述中的信息。輸入的圖像先經(jīng)過MLLM處理生成語義圖像token,然后將這些token與video latent token進行拼接,從而能夠在整合后的數(shù)據(jù)上進行全面的全注意力計算。
在整體的工作流程(圖11)上,輸入的文本描述會先經(jīng)過一個CLIP?Large模型進行編碼,再經(jīng)過一個多層感知機進行處理,處理后的文本信息編碼會與一個正弦編碼結(jié)合,正弦編碼用于引入時間步信息,表示視頻幀的順序;輸入的圖像會通過一個MLLM進行編碼,編碼后的圖像信息通過一個Token Refiner進行進一步處理,以增強圖像特征的表達能力;噪聲輸入通過Patchify和Linear層處理,生成初始的潛在表示;接下來,這三部分信息會經(jīng)過一個雙流 DiT 塊和一個單流 DiT 塊,其中雙流 DiT 塊分別處理圖像和文本特征,使每種模態(tài)能夠?qū)W習其適當?shù)恼{(diào)制機制,而互不干擾,在單流階段,圖像和文本特征被連接起來,并輸入到后續(xù)的 DiT 塊中,以實現(xiàn)有效的多模態(tài)信息融合;最終經(jīng)過 DiT 塊處理后的特征通過一個Modulation層進行調(diào)整,以生成最終的輸出潛在表示,再經(jīng)過一個Linear層和Unpatchify層將潛在表示轉(zhuǎn)換回圖像空間,最終輸出完整的視頻幀。
圖11 HunyuanVideo?I2V的工作流程
3.4.2 應(yīng)用案例
本文以古裝影視劇的分鏡制作為例,采用基于ComfyUI的工作流生成動態(tài)分鏡視頻[30]。本文將微調(diào)后的Flux模型所生成的唐代仕女圖、文本描述“Keeping the background the same, the girl smiles”作為輸入,在ComfyUI中使用HunyuanVideo?I2V模型輸出了一段視頻,關(guān)鍵序列幀如圖12所示。生成的視頻再現(xiàn)了唐代服飾的褶皺變化與唐代仕女微笑時的優(yōu)雅姿態(tài),視頻中仕女的動作自然流暢,齊胸襦裙保持飄逸美感,為古裝影視創(chuàng)作提供了高效的數(shù)字角色解決方案。
圖12 生成視頻關(guān)鍵幀序列
通過與傳統(tǒng)影視制作流程的深度融合,制作唐代仕女從靜態(tài)形象到動態(tài)表演的完整數(shù)字資產(chǎn)所需的時間和成本顯著降低(例如,生成5 s內(nèi)24 FPS的視頻平均所需時間小于5 s),為古裝劇的分鏡制作開辟了全新可能性。
4總結(jié)與展望
本文通過構(gòu)建基于AIGC技術(shù)的影視動態(tài)分鏡智能生成方法,驗證了“角色/場景生成-分鏡合成-動態(tài)分鏡生成”的智能化、自動化創(chuàng)制管線的可行性。實驗結(jié)果證明,基于LoRA微調(diào)的Flux模型在保證生成質(zhì)量的前提下實現(xiàn)了角色造型與服飾的多樣性控制,采用Flux多模態(tài)條件生成技術(shù)有效解決了場景構(gòu)建中空間布局與藝術(shù)風格的平衡問題,通過和諧化融合技術(shù)有效提高了分鏡圖像質(zhì)量,應(yīng)用動作驅(qū)動的人體圖像動畫與語音同步的面部動畫技術(shù)顯著提升了角色動畫的真實性,以及通過大模型生成高質(zhì)量的動態(tài)分鏡鏡頭。
本文工作為影視創(chuàng)作者的創(chuàng)意表達提供了一種創(chuàng)新技術(shù)范式,通過驗證AIGC技術(shù)在影視分鏡制作流程中的應(yīng)用可行性,為行業(yè)智能化轉(zhuǎn)型提供了重要參考。未來,隨著AIGC技術(shù)與影視創(chuàng)制全流程的深度融合,影視制作流程將進一步簡化,影視創(chuàng)作者得以更專注于藝術(shù)表達與創(chuàng)意構(gòu)思,為內(nèi)容創(chuàng)作帶來更多可能性,推動AIGC技術(shù)在影視領(lǐng)域的規(guī)模化應(yīng)用。
參考文獻
(向下滑動閱讀)
[1] BLOCK B. The visual story: creating the visual structure of film, TV, and digital media[M]. New York: Routledge, 2020.
[2] KINGMA D P, WELLING M. Auto?encoding variational bayes[EB/OL]. [2025?04?17]. https://arxiv.org/abs/1312.6114.
[3] MILDENHALL B, SRINIVASAN P P, TANCK M, et al. NeRF: Representing scenes as neural radiance fields for view synthesis[EB/OL]. [2025?04?17]. https://arxiv.org/abs/2003.08934.
[4] KERBL B, KOPONEN D M, LAINE S, et al. 3D Gaussian splatting for real?time radiance field rendering[EB/OL]. [2025?04?17]. https://arxiv.org/abs/2308.04079.
[5] ROMBACH R, BLATTMANN A, LORENZ D, et al. High?resolution image synthesis with latent diffusion models[C]//Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 10684?10695.
[6] PODELL D, ENGLISH Z, LACEY K, et al. SDXL: improving latent diffusion models for high?resolution image synthesis[EB/OL]. [2025?04?17]. https://arxiv.org/abs/2307.01952.
[7] TSYDILO I M, SENA C E. Artificial intelligence as a methodological innovation in the training of future designers: Midjourney tools[J]. Information Technologies and Learning Tools, 2023, 97(5): 203.
[8] Flux AI. Flux AI官方網(wǎng)站[EB/OL]. [2025?04?17]. https://flux-ai.io/cn/.
[9] CONG W, ZHANG J, NIU L, et al. DoveNet: deep image harmonization via domain verification[C]//Proceedings of the 2020 IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2020: 8394?8403.
[10] LING J, XUE H, SONG L, et al. Region?aware adaptive instance normalization for image harmonization[C]//Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2021: 9361?9370.
[11] KE Z, SUN C, ZHU L, et al. Harmonizer: learning to perform white?box image and video harmonization[C]//Proceedings of the 2022 European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 690?706.
[12] MENG Q, LI Q, ZHANG L, et al. High?Resolution Image Harmonization with Adaptive?Interval Color Transformation[J]. Advances in Neural Information Processing Systems, 2024, 37: 13769?13793.
[13] KARRAS J, HOLYNSKI A, WANG T C, et al. DreamPose: Fashion image?to?video synthesis via stable diffusion[C]//Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2023: 22623?22633.
[14] ZHU S, CHEN J L, DAI Z, et al. Champ: Controllable and consistent human image animation with 3D parametric guidance[C]//Proceedings of the 2024 European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024: 145?162.
[15] WANG X, ZHANG S, GAO C, et al. UniAnimate: taming unified video diffusion models for consistent human image animation[EB/OL]. (2024?06?03)[2025?04?17]. https://arxiv.org/abs/2406.01188.
[16] SHEN S, ZHAO W, MENG Z, et al. DiffTalk: Crafting diffusion models for generalized audio?driven portraits animation[C]//Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2023: 1982?1991.
[17] STAN S, HAQUE K I, YUMAK Z. FaceDiffuser: Speech?driven 3D facial animation synthesis using diffusion[C]//Proceedings of the 16th ACM SIGGRAPH Conference on Motion, Interaction and Games. New York: ACM, 2023: 1?11.
[18] HU E J, SHEN Y, WALLIS P, et al. LoRA: low?rank adaptation of large language models[C]//Proceedings of the 10th International Conference on Learning Representations. Virtual: ICLR, 2022: 1?13.
[19] HUANG D, LIU C, LIU J. GPSwap: High‐resolution face swapping based on StyleGAN prior[J]. Computer Animation and Virtual Worlds, 2024, 35(4): e2238.
[20] 中國服飾文化數(shù)據(jù)庫. 中國歷代服飾數(shù)據(jù)集[EB/OL]. [2025?04?17]. http://fushi.bowuyunzhan.com/data.html.
[21] pythongosssss. ComfyUI?WD14?Tagger: WD14 Tagger extension for ComfyUI[EB/OL].[2025?04?17]. https://github.com/pythongosssss/ComfyUI-WD14-Tagger.
[22] BLACK?FOREST?LABS. FLUX?1?dev擴散模型技術(shù)文檔[EB/OL]. (2023?05?15) [2025?04?17]. https://huggingface.co/black-forest-labs/FLUX.1-dev.
[23] cocktailpeanut. xulf?dev/ae.sft: 穩(wěn)定擴散微調(diào)的自編碼器模型[EB/OL]. [2025?04?17]. https://huggingface.co/cocktailpeanut/xulf-dev/blob/main/ae.sft.
[24] HuggingFace. bitsandbytes: AdamW optimizer implementation[EB/OL]. [2025?04?17]. https://huggingface.co/docs/bitsandbytes/main/reference/optim/adamw.
[25] ZHANG L, RAO A, AGRAWALA M. Adding conditional control to text?to?image diffusion models[C]//Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2023: 3836?3847.
[26] STYPU?KOWSKI M, VOUGIOUKAS K, HE S, et al. Diffused Heads: diffusion models beat GANs on talking?face generation[C]//Proceedings of the 2024 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2024: 5091?5100.
[27] HU V T, BAUMANN S A, GUI M, et al. Zigma: a DIT?style zigzag mamba diffusion model[C]//Proceedings of the 2024 European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024: 148?166.
[28] KONG W, TIAN Q, ZHANG Z, et al. Hunyuanvideo: a systematic framework for large video generative models[EB/OL]. [2025?04?17]. https://arxiv.org/abs/2412.03603.
[29] 騰訊. HunyuanVideo?I2V: 騰訊混元視頻生成模型開源項目[EB/OL]. [2025?03?06]. https://github.com/Tencent/HunyuanVideo-I2V.
[30] ComfyUI Documentation Team. Hunyuan Video: related models manual installation[EB/OL]. [2025?03?06]. https://docs.comfy.org/advanced/hunyuan-video-related-models-manual-installation.
【項目信息】國家檔案局科技項目“基于知識圖譜的影像檔案結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)研究”(2023?X?036);上海市人才發(fā)展資金資助項目(2021016);上海市教委AI賦能科研計劃項目“面向影視的文本驅(qū)動3D超寫實虛擬演員智能生成關(guān)鍵技術(shù)研究”(99?0307?24?102)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.