99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

《現代電影技術》|面向AIGC的文生視頻應用進展與對比分析

0
分享至


本文刊發(fā)于《現代電影技術》2024年第6期

專家點評

在當下影視及內容創(chuàng)意產業(yè),人工智能生成內容(AIGC)已經逐步參與到生產制作的諸多環(huán)節(jié),帶來了前所未有的機遇和挑戰(zhàn)。《面向AIGC的文生視頻應用進展與對比分析》一文,選取了極具代表性的文生視頻這一關鍵技術作為研究對象,梳理了實際應用的發(fā)展現狀及相關進展,分析了其作為AIGC工具賦能影視制作的潛力和前景。作者結合影視實踐經驗,評估了各類AIGC工具的特性、性能、生成質量及效果,深入探討了提示詞設計、制作流程分析及畫面參數管理等實際應用問題。本文的研究和建議對于從事視頻創(chuàng)作的專業(yè)人士和研究人員具有重要的參考價值,有助于推動AIGC技術在影視制作中的廣泛應用和發(fā)展。縱觀影視技術發(fā)展歷程,新技術的突破無不推動著影視產業(yè)革新,從Sora到Vidu,生成式人工智能不斷提升著生成內容的鏡頭語言和敘事性。盡管目前在內容一致性、連續(xù)性、可編輯性以及與影視工業(yè)流程的適配性上,AIGC仍有較大的發(fā)展空間,相信隨著技術的不斷進步,未來必將為影視制作和內容創(chuàng)作行業(yè)帶來視覺藝術生產范式革新,并將產生重要和深遠的影響。

——王嵐君

天津大學新媒體與傳播學院研究員、博士生導師

作 者 簡 介

趙可傲

北京電影學院中國電影高新技術研究院2022級碩士研究生,主要研究方向:數字電影技術。

北京電影學院影視技術系講師、碩士生導師,主要研究方向:人工智能、虛擬現實技術。

韓菲琳

摘要

隨著人工智能生成內容(AIGC)技術的快速發(fā)展與應用,視頻生成領域逐漸成為研究焦點,并成為未來視頻內容創(chuàng)作的重要探索方向。本文通過分析視頻生成技術的發(fā)展現狀與應用進展,對比評估不同方法的生成格式與質量。通過視頻評估工具對不同生成方法產生的視頻進行了評分,并呈現了生成畫面的效果。此外,研究探討了構建提示詞和設計制作流程的策略,以探索實現視頻生成領域新的創(chuàng)作可能性。

關鍵詞

AIGC;文生視頻技術;生成式人工智能;視頻生成技術

1引言

人工智能生成內容(Artificial Intelligence Generated Content, AIGC)涵蓋領域廣泛,包括文本、圖像、聲音、視頻、三維模型等多種內容的生成。各類智能化和自動化工具的陸續(xù)出現,不僅降低了視頻制作門檻,也預示著AI在未來短片和電影制作中將扮演更加關鍵的角色。

視頻生成技術主要包括內容生成、視頻理解和視頻編輯三大類別[1]。與靜態(tài)圖像生成相比,視頻生成面臨的挑戰(zhàn)更為復雜,不僅需確保視頻內容的連貫流暢,還要維持視覺與邏輯的一致性,以及保證物理現象與動作的真實性。本文將圍繞當前視頻生成技術的發(fā)展狀況,簡述不同算法模型的技術要點,探討與對比視頻生成技術的生成效果與制作流程。

2視頻生成技術

自Stable Diffusion推出以來,文生圖(Text?to?Image)技術取得了顯著進步,為創(chuàng)作者提供了全新的創(chuàng)作方式,引起了一系列AI創(chuàng)作熱潮。隨著時間推移與技術進步,視頻生成領域也迎來了革命性變化,視頻生成平臺及產品不斷涌現,極大豐富了創(chuàng)作手段,提升了創(chuàng)作效率。

2023年4月,Corridor Digital發(fā)布了AI動畫短片《石頭剪刀布》,探索了通過文生圖模型生成視頻的制作流程,包括微調Stable Diffusion模型以生成穩(wěn)定的動畫形象,通過虛幻引擎(Unreal Engine)5渲染背景等。漫威劇集《秘密入侵》的片頭即采用Stable Diffusion技術,創(chuàng)意性地利用AI生成的不穩(wěn)定特征增強畫面神秘感與不確定性。在商業(yè)廣告和預告片中,Runway與Pika也已被廣泛運用。電影《瞬息全宇宙》使用Runway公司的視頻技術實現畫面的快速摳像與風格化轉換,大大提升了制作效率,從而憑借小規(guī)模團隊完成了整部影片的視效制作。Our T2 Remake成為了全球首部完全由AI制作的長篇電影。這部電影背后是一個由50位AI藝術家組成的團隊,他們利用Midjourney、Runway、Pika等AIGC工具進行協(xié)同創(chuàng)作,展示了AI在藝術創(chuàng)作中的潛力和可能性。

2024年2月推出的Sora將AI生成視頻的質量推向了新高度,其示例短片的質量與真實感遠超目前其他生成方法與應用。2024年4月,OpenAI公布了由Sora生成的劇情短片Air Head等作品。盡管這些作品在畫面一致性和細節(jié)處理上仍有改進空間,但它們展現出AI在視頻制作領域的巨大潛力。此外,一些電影節(jié)已為AI視頻作品設立了專門單元,如第十四屆北京國際電影節(jié)[2];知名AIGC公司Runway于2022年冬季舉辦了AI電影節(jié),鼓勵創(chuàng)作者用各類AI工具創(chuàng)作1~4分鐘的短片。這一趨勢不僅凸顯了AI視頻生成技術的飛速進步,而且為電影和視頻創(chuàng)作領域注入了新的藝術表達方式,拓展了創(chuàng)作可能性。

3視頻生成技術發(fā)展現狀

相較于圖像生成,視頻生成面臨著諸多挑戰(zhàn)。

(1)在感知上,人類對動態(tài)影像的流暢與否更加敏感,這要求視頻的生成過程需要考慮更多細節(jié)。

(2)算法方面,視頻生成需要考慮幀序列的時空連續(xù)性,增加了神經網絡(Neural Network)學習的復雜度。由于擴散模型(Diffusion Model)在生成過程中的不穩(wěn)定性,逐幀生成圖像時會產生畫面閃爍,難以保證視頻首幀與尾幀中人物與畫面的一致性,給視頻生成的連貫性帶來了挑戰(zhàn)。

(3)視頻需正確還原自然世界中的物理法則與邏輯合理性,模擬出物體與環(huán)境相互作用下動態(tài)行為的真實物理規(guī)律,如重力、慣性、碰撞和流體動力學效應等。若運用到實際生產中,維持鏡頭之間場景角色的一致性與合理性也將是一項艱巨的任務。

隨著視頻生成領域研究的不斷深入,行業(yè)涌現出眾多技術路線與方法(圖1),如通過文本驅動的視頻生成、圖片驅動的視頻生成、深度或動作驅動的視頻生成等。運用于實際制作流程中的視頻生成方式主要為兩類:一是基于開源的Stable Diffusion等文生圖工具逐幀生成畫面;二是基于商業(yè)化應用,如Runway、Pika等平臺。


圖1 視頻生成代表性方法發(fā)展時間軸

3.1 視頻生成方法概述

文本到視頻的算法設計理念與圖像生成領域有著緊密聯(lián)系。在視頻生成技術的早期發(fā)展中,方法主要依托于生成式對抗網絡(GAN)、自回歸模型(Autoregressive Model)、變分量化自動編碼器(VQ?VAE)等基礎架構,標志著視頻生成領域早期的重要進展。然而,這些初期方法存在模式崩潰和低圖像質量等問題,限制了實際應用潛力。

本節(jié)將根據技術類別與發(fā)展順序,對目前熱門視頻生成技術進行簡述。

(1) 文本驅動的視頻生成方法

隨著擴散模型在圖像生成領域的成功,視頻生成領域也開始使用擴散模型作為基礎架構。Ho等提出的VDM[3](Video Diffusion Model)首次將擴散模型運用于文生視頻領域中,實現了穩(wěn)定且較為寫實的64FPS 64×64分辨率圖像。Make?A?Video[4]方法通過無標記視頻素材進行訓練,并集成了文生圖模型生成的多樣性。該方法可以直接輸出16FPS的64×64分辨率圖像,通過后處理階段的超分辨率步驟,最終輸出的分辨率可達768×768。Stable Video Diffusion[5](SVD)是2023年11月由Stability AI 提出的開源方法。該方法基于預訓練圖像生成模型Stable Diffusion 2.1,可在ComfyUI平臺上通過類似文生圖方法的節(jié)點工作流進行視頻生成。

(2)結合Transformer架構的視頻生成方法

Transformer是基于自注意力的框架模型,常用于大語言模型(LLM)中,隨著技術發(fā)展,不斷有研究者將此基礎框架用于生成模型領域。如:Google公司提出的VideoPoet[6]基于Transformer架構和大語言模型,引入了多模態(tài)學習,從而在實現文生視頻外,還可結合圖片、深度信息、遮罩等方式生成視頻結果,并能額外進行視頻編輯、風格化、圖像擴展(Outpainting)等功能。

Sora[7]是由OpenAI發(fā)布的新一代視頻生成工具,該模型采用結合擴散模型的Transformer架構,與早期僅能生成固定長寬比視頻的方法相比,Sora將視覺數據以視頻補丁 (Video Patch)的形式轉換成統(tǒng)一表示,以類似于大語言模型處理文本標記的方式,輸入至Transformer網絡中進行學習。在視頻生成階段,Sora利用擴散模型逐步去除帶噪聲的補丁,實現了分辨率和寬高比的靈活調整,從而生成適合各種平臺和設備的內容。此外,Sora模型應用了在DALL·E 3 中引入的重新描述技術,并結合GPT技術對提示文本進行擴展描述,以進一步提升生成質量[8]。得益于龐大的參數量,Sora能生成高質量、時長最長達一分鐘的視頻片段,遠超其他視頻生成方法與工具。在其生成的視頻中,人物和場景在動態(tài)運動過程中表現出一致性,且背景紋理保持穩(wěn)定不扭曲。

Sora發(fā)布之后,類似結合擴散模型和Transformer框架的研究迅速受到多項近期工作的青睞。Open?Sora[9]作為一項開源復現項目,向所有用戶開放了模型、工具和技術細節(jié)的全面訪問,至今已取得顯著的技術突破,可生成最高720p分辨率、長達15秒、支持任意長寬比的視頻,并推出了包含剪輯、字幕生成等功能的完整視頻處理流程,簡化了視頻制作步驟。

此外,由中國團隊在2024年4月推出的Vidu,是一項基于結合Transformer的U?ViT技術的視頻生成技術,可根據簡單文本提示詞生成長達16秒、1080p高清分辨率視頻。Vidu的視頻生成不僅遵循正確的物理規(guī)律,還可實現基本的鏡頭語言運用,在多機位鏡頭的生成中能夠保證場景與主體的高度一致,接近實際項目的制作需求。

(3)基于Stable Diffusion的視頻生成方法

這類生成方法基于開源的圖片生成模型(如Stable Diffusion),通過生成連貫一致的序列幀達成視頻生成目的。得益于Stable Diffusion豐富的生態(tài)和組件,創(chuàng)作者能夠制作具個性化風格、指定人物形象的視頻內容,同時還能精確控制物體運動和鏡頭變化,以適應復雜的敘事需求。為了進一步提升生成的精確度和可控性,視頻生成也可使用多種插件對內容進行控制,通過引入條件生成的概念[10],允許根據特定條件控制圖片的生成過程(如深度、輪廓、姿態(tài)等),從而在連續(xù)視頻序列中實現動作流暢性和角色形象穩(wěn)定性。例如,AnimateDiff[11]采用運動模型嵌入方法,將現有個性化文生圖模型轉化為能夠生成短時長動畫片段的生成器。

3.2 針對視頻生成算法的優(yōu)化

與圖像生成相比,視頻生成算法的設計通常采用兩種主要改進策略:一是在模型中融合時空注意力機制,以有效捕捉和學習視頻幀之間的時序關系;二是對圖像生成模型中的卷積層進行擴展,增加時間維度的處理能力。

AnimateDiff在訓練階段,模型學習視頻幀與幀之間的運動先驗知識。生成階段,模塊被插入個性化文生圖模型中,使模型可輸出連續(xù)序列幀,并保持幀之間的邏輯正確與自然運動。在執(zhí)行生成操作時,各幀的去噪處理是同步進行的,而不是按順序單獨生成每一幀,這雖有利于視頻幀之間的流程過渡,但由于同時占用GPU顯存空間,導致生成內容的時長存在一定限制。在生成長度與速度的優(yōu)化上,潛在一致性模型(Latent Consistency Model, LCM)[12]及 LCM?LoRA[13]使擴散模型的迭代次數顯著降低,采樣次數從原本數十次下降到個位數。同時其生成速度大幅度提高,GPU內存占用量減小,結合AnimateDiff等技術,可在相同算力下獲得更快的生成速度以及更長的視頻長度,甚至完成視頻實時渲染工作。

3.3 視頻生成應用

除了開源的研究型工作外,目前已有大量平臺為用戶視頻生成提供了商業(yè)化解決方案。能使用文本或圖像提示生成短時長視頻,并提供一定的視頻編輯功能。Runway[14]是面向個人用戶的AI視頻商業(yè)應用生成平臺,目前技術成果已迭代兩代:Runway Gen?1于2023年2月發(fā)布,允許用戶輸入圖像與文本,實現視頻風格遷移,輸出如素描、油畫、剪紙、水彩等不同效果視頻;Runway Gen?2于2023年6月正式發(fā)布,允許用戶通過參考圖片或文本提示生成短時長、4K分辨率的視頻,同時在物理真實性上實現一定擬真,如流水效果、火焰效果,并支持小幅度的鏡頭運動。其生成結果無明顯抖動,但是在人物細節(jié)生成上仍不甚理想。Pika 1.0[15]支持用戶通過文本、圖像提示生成3~4秒視頻,其對語義的理解更為優(yōu)秀。

當前,國內在前沿的AIGC視頻生成技術方面取得了顯著進展,其中PixVerse[16]和Dreamina[17]兩款應用已經實現了商業(yè)化。這兩款應用都部署在網頁端,允許用戶通過文本提示生成視頻內容。PixVerse以其卓越的畫面質量和動作的流暢性脫穎而出,而Dreamina則以其對中文支持和快速生成能力受到用戶的青睞,能夠一次性生成幀率為8FPS、時長3秒的視頻。盡管Dreamina在實現大幅度的鏡頭和角色運動方面表現出色,但在畫面穩(wěn)定性方面還有待提高。此外,基于Transformer架構的視頻生成應用,如Vidu和可靈,仍處于內部測試階段。這些應用有望在不久的將來為視頻生成領域帶來新的突破。

4視頻生成方法對比

AnimateDiff、Runway Gen?2、Pika 1.0等方法與工具在現階段被運用于AI視頻的實際創(chuàng)作中。而在選擇合適的視頻生成方法時,需考慮多個因素,包括生成視頻的質量、速度、可控性和成本等。例如,文本驅動的視頻生成方法VDM和Make?A?Video等多為開源模型,但最終畫面質量有所欠缺。基于文生圖模型的視頻生成方法如EbSynth[18]與AnimateDiff等,雖可使用個性化模型生成任意畫風AI視頻,但需通過實拍或CG源素材進行約束與轉繪。Runway和Pika等商業(yè)應用,為用戶提供了友好的界面和功能,更適合非專業(yè)用戶使用,但在生成時長和個性化程度上有所限制。

4.1 性能參數對比

本文從生成格式、制作流程、可控性與生成方式特點等角度分析當下各類熱門生成方式,探討其實際制作效益,具體對比如表1所示。

表1 不同視頻生成模型特性對比


其中,AnimateDiff (Stable Diffusion v1.5)的訓練基于 512 × 512 分辨率,16 FPS的數據集。盡管通過調整文生圖模型的參數可輸出不同分辨率視頻,但在視覺效果上可能不及在訓練過程中設定的推薦分辨率。這是因為模型最初針對特定分辨率和幀速率進行優(yōu)化,改變這些核心參數可能會影響最終視頻細節(jié)表現和整體質感。

由于Runway和Pika用戶無需深入了解復雜技術參數,只需輸入簡短文本提示或上傳一張參考圖片,即可迅速生成視覺效果豐富、鏡頭運動緩慢的視頻內容,這意味著即便用戶沒有經過專門的訓練也能輕松制作高品質視頻作品。然而,這些平臺在一定程度上限制了用戶對視頻細節(jié)的完全控制,例如無法精確指揮角色的具體動作或調整復雜的鏡頭移動,并且視頻一旦生成,后續(xù)調整空間也相對有限。

使用文生圖模型的方式則在創(chuàng)作過程中提供了更多自由度和多樣性。AnimateDiff推薦使用正方形畫幅比例,但用戶可以利用文生圖模型來生成各種不同尺寸比例的圖像。通過微調模型或定制角色的個性化LoRA(Low?Rank Adaption),創(chuàng)作者能夠保持一致的藝術風格并且創(chuàng)作出具有相似特征的角色。此外,用戶還能選用更復雜的ControlNet,利用OpenPose來精準控制肢體動作,或可通過SoftEdge和Lineart處理器來約束角色輪廓,從而在視頻制作中實現對細節(jié)的精準控制。

4.2 生成質量對比

生成結果與質量方面,本文借鑒Huang等[19]提出的VBench工具評估使用不同方式的AI生成視頻質量。相較于常規(guī)的IS(Inception Score)與FID(Fréchet Inception Distance)視頻質量指標,VBench是一個全面的人工智能視頻評估框架,涵蓋了多個評估維度,設計時充分考慮了人類觀看偏好,能夠平衡不同視頻生成模型在能力維度上的表現,并揭示這些模型在特定內容生成方面的潛力。

使用提示詞“a young woman waving her hand”運用Runway Gen?2、Pika 1.0、Moonvalley[20]、LVDM[21]、PixVerse、AnimateDiff生成方法生成長度為4秒的視頻,其中Runway Gen?2、Pika 1.0、PixVerse、Moonvalley均使用首幀圖片與文字作為提示詞,AnimateDiff使用圖片作為IP?Adapter參考幀,配合OpenPose對角色肢體動作進行控制。生成視頻的內容與通過模型評價的結果如圖2、表2所示。


圖2 不同生成方式在“a young woman waving her hand”提示詞下的效果對比

表2 生成結果質量對比


由表2可知使用Runway Gen?2生成視頻畫面質量更為優(yōu)秀且寫實,在面部、頭發(fā)等細節(jié)處理上較為精細,接近真實拍攝水準,雖然在背景運動上能做到自然效果,但其無法通過簡單文字提示控制主體人物的大幅度動作。Pika 1.0與PixVerse可正確生成揮手動畫,但在動作與背景的穩(wěn)定性以及畫面細節(jié)上有所欠缺。Moonvalley雖能生成正確的揮手動畫,但其無法受到圖片約束。通過個性化的文生圖模型與OpenPose控制下的視頻生成,可實現自然的、大幅度的運動,但在單張圖片作為畫面風格提示的情況下,無法正確理解并生成合適的背景內容,且在畫面質量上有所欠缺。

4.3 提示詞設計對比

提示詞的設計具有順序邏輯,需要創(chuàng)作者在有限個數的提示詞下,盡可能詳細描述畫面細節(jié)。相較于圖片生成,視頻提示詞選擇與控制更為復雜。除了需要通過文字描述畫面場景外,需對畫面中角色的肢體、表情、物體、鏡頭等運動進行額外描述。圖3為不同平臺下的提示詞設計流程。


圖3 不同應用下的提示詞設計流程

在使用基于文本生成圖像的視頻生成方法(如AnimateDiff),提示詞將經過凍結的CLIP(Contrastive Language?Image Pre?training)模型編碼后嵌入生成過程中。在進行提示詞設計時,每段提示需為英文單詞或詞組,并使用逗號隔開。提示詞整體包含三個部分:前綴(畫質、鏡頭、風格等)、主體(描述人物或物體)、場景與背景描述。在進行鏡頭運動描述時,受生成算法原理所限,模型不能在無圖片約束條件下直接通過提示詞描述鏡頭運動。Stable Video Diffusion、AnimateDiff等提出了Motion LoRA方法,通過嵌入微調模型來實現簡單的鏡頭移動與特殊畫面效果(如煙塵、粉碎等)。若畫面內容有大幅度變化,可使用Prompt Travel功能,對不同幀區(qū)間的內容設置對應的提示詞,以實現更好的穩(wěn)定性和連續(xù)性。

商業(yè)化視頻生成平臺通常使用自然語言描述畫面。通常而言,建議創(chuàng)作者用一句話描述主體內容,并輔以若干描述相機角度、畫面細節(jié)、畫面質量的單詞。主體內容描述應當遵循英文簡單句語序(如:主語+謂語+賓語+賓語補語),以便模型理解提示詞。在鏡頭運動與畫面風格方面,不同應用的解決方案有所區(qū)別,如 Runway Gen?2提供了可視化模塊控制攝像機運動軌跡,并內置了十余種畫面風格供用戶選擇;而Moonvalley只能通過提示詞描述鏡頭運動與幅度。

4.4 制作流程對比

基于文生圖模型的視頻生成使創(chuàng)作者在計劃制作流程時擁有更大自由度,能夠依據自身創(chuàng)作意圖和具體需求進行相應調整。通常來說,用戶首先需選擇或訓練合適的模型來指定畫面風格。其次,在生成復雜運動畫面時,創(chuàng)作者需提供原始素材,通過摳像處理分離畫面主體與背景,分別使用ControlNet技術提取輪廓與人物動作,從而精確控制視頻畫面,最終通過合成步驟輸出完整視頻畫面。此外,用戶可以利用自定義節(jié)點實現更豐富和個性化的視覺效果,如加入Segment Anything節(jié)點,在生成過程中額外輸出簡單的視頻遮罩,以便于后期的制作(圖4)。


圖4 基于Stable Diffusion方法的視頻生成工作流概覽

商業(yè)化的生成方法常使用端到端的生成模式,僅需通過圖片和文字引導便能直接制作出最終視頻,省去了上述素材準備、后期視效和顏色校正等步驟,只需對生成素材進行剪輯即可產出成片。然而,這種端到端方法也給創(chuàng)作流程帶來了挑戰(zhàn):鑒于現有生成過程仍然會產生一系列細節(jié)錯誤,如生成時人物手部和面部扭曲及畫面中文字生成錯誤等,需要創(chuàng)作者對素材進行額外的修正;而商業(yè)化平臺直接輸出最終成果的方式使后續(xù)修改面臨困難。

4.5 畫面生成參數管理對比

畫面生成參數的管理通常未能受到創(chuàng)作者的重視,尤其是在對畫面和角色一致性要求較高的劇情短片制作項目中。通過管理生成參數,不僅可提升不同生成內容的準確度,還有助于后續(xù)追蹤和版本控制。Runway和Pika的商業(yè)化平臺提供了在線素材庫功能,用戶能夠保存生成過程中使用的各種參數和提示圖片等重要參數,為后續(xù)項目版本迭代和素材選擇提供了便捷參考和追蹤途徑,從而可確保不同版本間的連貫性和一致性,同時也為未來創(chuàng)作提供了豐富的素材資源和歷史記錄。

使用ComfyUI或Stable Diffusion WebUI等工具會在生成的單幀圖像中嵌入JSON文件以保留生成時所用的提示詞、節(jié)點設計、采樣方法等數據。將這些單幀圖片重新導入到工具中,可復現生成時使用的節(jié)點和參數,極大地提高了創(chuàng)作過程的靈活性和可控性。創(chuàng)作者快速追溯生成過程的節(jié)點設計,并可以輕松地對生成圖像進行修改、重繪或補充,而無需從頭開始重新配置復雜參數。

5 總結與展望

AIGC技術在影視行業(yè)的發(fā)展正受到廣泛關注,其生成的視頻作品充分展示了這項技術的應用潛力和可能性。Runway和Pika等平臺提供了用戶友好的交互界面,使無AI操作經驗的用戶也能快速制作出具有真實感和簡單鏡頭運動的短時長視頻。基于Stable Diffusion的視頻生成技術,為專業(yè)用戶提供了更定制化的工作流程,使他們能夠生成多樣化風格的視頻內容。Sora和Vidu的視頻生成質量已達到令人難以辨別真?zhèn)蔚某潭龋脩魞H需提供文字提示便能生成長時間、物理特性準確的逼真畫面。

然而,當前技術仍存在一些局限性,包括但不限于:生成畫面中物理現象和空間邏輯的錯誤;鏡頭長度的限制和幀與幀之間的連續(xù)性不足;快速移動鏡頭中的畫面崩潰現象;以及在不同鏡頭間保持人物與場景一致性的困難等。目前,大多數生成結果在精細程度和過程可控性方面還未達到工業(yè)級標準,其與傳統(tǒng)電影制作流程的融合也存在一定難度。

AI視頻生成技術無疑將對內容創(chuàng)作領域產生重大而深遠的影響。作為電影動態(tài)預演工具,其能夠根據文字劇本和氛圍圖快速產生分鏡的動態(tài)預覽,極大地提高預演制作的效率與效果。作為短片生成平臺,AI視頻生成技術可以根據創(chuàng)作者的簡單描述或概念,生成具有高度創(chuàng)意的視頻短片,釋放創(chuàng)作者的想象力,并為他們提供一個實驗和探索新想法的平臺。此外,通過人工智能算法對數據的學習與融合,視頻生成技術甚至能夠生成現實世界不存在的物體與組合,創(chuàng)造出完全虛構的場景和角色。

AI視頻生成技術仍在不斷進步和發(fā)展。隨著算法的不斷優(yōu)化、數據的持續(xù)積累以及硬件計算能力的逐步提升,未來這項技術有望實現更加復雜的視頻內容生成,在質量和流程控制方面實現質的飛躍,與影視制作的傳統(tǒng)流程實現更緊密的融合。屆時,AI視頻生成技術既可以為影視合成提供豐富的素材,也可以作為風格轉換工具,賦予影片獨特的視覺風格,并將以更低的成本和更高的效率,為個人創(chuàng)作者提供更多的機會,對電影制作行業(yè)帶來革命性影響。

參考文獻

(向下滑動閱讀)

[1] Xing Z, Feng Q, Chen H, et al. A survey on video diffusion models[EB/OL].(2023?10?16)[2024?04?30].https://arxiv.org/pdf/2310.10647.

[2] 北京國際電影節(jié).AIGC單元[EB/OL].[2024?04?30].https://www.bjiff.com/xghd/jjdlllt_18698/

[3] Ho J, Salimans T, Gritsenko A, et al. Video diffusion models[J]. Advances in Neural Information Processing Systems, 2022, 35: 8633?8646.

[4] Singer U, Polyak A, Hayes T, et al. Make?A?Video: Text?to?Video Generation without Text?Video Data[EB/OL].(2022?09?29)[2024?04?30].https://arxiv.org/pdf/2209.14792.

[5] Stability AI. Stable Video Diffusion[EB/OL]. [2024?04?30]. https://stability.ai/stable-video.

[6] Kondratyuk D, Yu L, Gu X, et al. Videopoet: A large language model for zero?shot video generation[EB/OL].(2024?03?22)[2024?04?30].https://arxiv.org/pdf/2312.14125.

[7] OpenAI. Sora[EB/OL].[2024?04?30].https://openai.com/index/sora.

[8] Liu Y, Zhang K, Li Y, et al. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models[EB/OL].(2024?04?17)[2024?04?30].https://arxiv.org/pdf/2402.17177.

[9] Open?Sora.Open?Sora: Democratizing Efficient Video Production for All[EB/OL].[2024?05?29].https://github.com/hpcaitech/Open-Sora

[10] Zhang L, Rao A, Agrawala M. Adding conditional control to text?to?image diffusion models[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 3836?3847.

[11] Guo Y, Yang C, Rao A, et al. Animatediff: Animate your personalized text?to?image diffusion models without specific tuning[EB/OL].(2024?02?08)[2024?04?30].https://arxiv.org/pdf/2307.04725.

[12] Luo S, Tan Y, Huang L, et al. Latent consistency models: Synthesizing high?resolution images with few?step inference[EB/OL].(2023?10?06)[2024?04?30].https://arxiv.org/pdf/2310.04378.

[13] Luo S, Tan Y, Patil S, et al. LCM?LoRA: A Universal Stable?Diffusion Acceleration Module[EB/OL].(2023?11?09)[2024?04?30].https://arxiv.org/pdf/2311.05556.

[14] Runway[EB/OL].[2024?04?30].https://runwayml.com/.

[15] Pika[EB/OL].[2024?04?30].https://pika.art/.

[16] PixVerse[EB/OL].[2024?04?30].https://pixverse.ai/.

[17] Dreamina[EB/OL].[2024?04?30].https://dreamina.jianying.com/ai?tool/home.

[18] EbSynth[EB/OL].[2024?04?30].https://ebsynth.com/.

[19] Huang Z, He Y, Yu J, et al. Bench: Comprehensive Benchmark Suite for Video Generative Models[EB/OL].(2023?11?29)[2024?04?30].https://arxiv.org/pdf/2311.17982.

[20] Moonvalley[EB/OL].[2024?04?30].https://moonvalley.ai/.

[21] He Y, Yang T, Zhang Y, et al. Latent video diffusion models for highfidelity long video generation[EB/OL].(2023?03?20)[2024?04?30].https://arxiv.org/pdf/2211.13221.

主管單位:國家電影局

主辦單位:電影技術質量檢測所

標準國際刊號:ISSN 1673-3215

國內統(tǒng)一刊號:CN 11-5336/TB

投稿系統(tǒng):ampt.crifst.ac.cn

官方網站:www.crifst.ac.cn

期刊發(fā)行:010-63245081

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
亞朵,擠滿了偷偷開房的中年女人

亞朵,擠滿了偷偷開房的中年女人

快刀財經
2025-05-20 22:21:25
布倫森麻了!尼克斯10分逆轉失敗,因一人多打了5分25秒!

布倫森麻了!尼克斯10分逆轉失敗,因一人多打了5分25秒!

運籌帷幄的籃球
2025-05-24 18:28:48
特朗普還未登機訪華,王毅在京接見另一美國貴客,美國12個州結盟

特朗普還未登機訪華,王毅在京接見另一美國貴客,美國12個州結盟

知鑒明史
2025-05-23 18:01:53
黃楊鈿甜家黑歷史被挖出,父親考公單科不及格,弟弟是父母

黃楊鈿甜家黑歷史被挖出,父親考公單科不及格,弟弟是父母

花哥扒娛樂
2025-05-21 21:27:45
外媒:根據目前的軌跡,中國很可能將完全主導全球高端制造業(yè)

外媒:根據目前的軌跡,中國很可能將完全主導全球高端制造業(yè)

曉風說
2025-05-24 09:30:10
消滅中產,只留貧富

消滅中產,只留貧富

求實處
2025-05-24 00:43:14
恭喜張維迎!

恭喜張維迎!

尚曦讀史
2025-05-24 06:40:02
高盛和摩根士丹利剛剛買進了4個可控核聚變龍頭,買進十大股東

高盛和摩根士丹利剛剛買進了4個可控核聚變龍頭,買進十大股東

鵬哥投研
2025-05-24 14:53:04
婚房被糞水浸泡!業(yè)主崩潰:全屋都是,無法接受

婚房被糞水浸泡!業(yè)主崩潰:全屋都是,無法接受

環(huán)球網資訊
2025-05-24 09:36:05
貼近實戰(zhàn)!山東艦最新演練現場→

貼近實戰(zhàn)!山東艦最新演練現場→

蓬勃新聞
2025-05-24 15:45:40
這3個國家最不歡迎中國人,滿臉都是嫌棄,卻總有國人上趕著去

這3個國家最不歡迎中國人,滿臉都是嫌棄,卻總有國人上趕著去

博覽歷史
2025-05-23 11:08:28
鯨魚:西卡能力遠在小卡之上 布倫森在打路人王哈利才是團戰(zhàn)領袖

鯨魚:西卡能力遠在小卡之上 布倫森在打路人王哈利才是團戰(zhàn)領袖

直播吧
2025-05-24 10:59:06
香港科技大學宣布:向哈佛學子敞開教研大門 應對全球學術變局

香港科技大學宣布:向哈佛學子敞開教研大門 應對全球學術變局

每日經濟新聞
2025-05-23 19:04:00
丹麥將退休年齡提高至全球最高水平 更多國家或將逐步跟進

丹麥將退休年齡提高至全球最高水平 更多國家或將逐步跟進

財聯(lián)社
2025-05-24 01:12:06
從500萬跌至240萬賣不出去!蘇州一小區(qū)一套房,僅2年市值縮水52%

從500萬跌至240萬賣不出去!蘇州一小區(qū)一套房,僅2年市值縮水52%

火山詩話
2025-05-23 08:39:48
第一次見香港35㎡的房子,居然有3室2廳,輕松住下一家4口,曬曬

第一次見香港35㎡的房子,居然有3室2廳,輕松住下一家4口,曬曬

家居設計師宅哥
2025-05-21 19:31:15
5000噸驅逐艦沉了,英國公布最新衛(wèi)星圖,朝高層震怒,這事不簡單

5000噸驅逐艦沉了,英國公布最新衛(wèi)星圖,朝高層震怒,這事不簡單

說天說地說實事
2025-05-22 17:29:43
中國駐以色列使館發(fā)布緊急提醒:盡快撤離!傳遞什么信號?

中國駐以色列使館發(fā)布緊急提醒:盡快撤離!傳遞什么信號?

歷史求知所
2025-05-23 17:25:03
千萬不要相信網上的毒雞湯,有研究生學歷已經超過大多數普通人

千萬不要相信網上的毒雞湯,有研究生學歷已經超過大多數普通人

曉風說
2025-05-24 14:35:52
榴蓮暴跌背后:你以為撿便宜,其實正在毀掉整個行業(yè)?

榴蓮暴跌背后:你以為撿便宜,其實正在毀掉整個行業(yè)?

阿萊美食匯
2025-05-24 12:18:02
2025-05-24 19:27:00
電影技術微刊 incentive-icons
電影技術微刊
電影技術微刊
565文章數 208關注度
往期回顧 全部

科技要聞

不止蘋果?特朗普:三星不在美國造 也加稅

頭條要聞

美國白宮數十人突然被裁 有人當場哭了

頭條要聞

美國白宮數十人突然被裁 有人當場哭了

體育要聞

NBA最被高估球隊,“突然”有了冠軍相?

娛樂要聞

歌手2025第二期排名:居然是他淘汰了

財經要聞

不得不說,特朗普殺瘋了

汽車要聞

一見傾心!東風全新SUV定妝圖曝光,顏值氣場并存

態(tài)度原創(chuàng)

本地
房產
家居
親子
公開課

本地新聞

巴黎沒有倍兒甜,但天津巧克力腦袋倍兒多

房產要聞

連續(xù)17次提前交付!海口這座頂流紅盤,業(yè)主贏麻了!

家居要聞

輕奢品質 開闊的三口之家

親子要聞

國家出手了!教育部明令禁止,事關所有幼兒園,6月1日起施行

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 米易县| 甘泉县| 炎陵县| 滁州市| 邢台县| 松潘县| 任丘市| 福贡县| 赣州市| 洪雅县| 乐至县| 信丰县| 洪泽县| 尉氏县| 营山县| 昌宁县| 竹北市| 龙川县| 灵石县| 余干县| 兴宁市| 资中县| 加查县| 二连浩特市| 刚察县| 涿鹿县| 高阳县| 遵化市| 壶关县| 安新县| 遵义县| 防城港市| 遂溪县| 新河县| 拉萨市| 新绛县| 行唐县| 苍溪县| 镇沅| 广丰县| 绥棱县|