99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

視頻擴散模型全景解析:從生成到編輯再到理解的AI視頻革命

0
分享至

在人工智能生成內容(AIGC)的浪潮中,擴散模型正悄然改變著我們與視頻內容的交互方式。從文本到視頻的轉換,到精細的視頻編輯,再到深入的視頻理解—視頻擴散模型正在重新定義創(chuàng)作的邊界。想象一下,只需一句簡單的文字描述,便能生成一段栩栩如生的動畫;只需幾個簡單操作,便能將靜態(tài)圖像轉變?yōu)閯討B(tài)視頻;甚至能讓AI理解視頻內容并作出智能反應。這不再是科幻電影中的場景,而是當下技術發(fā)展的現實。本文將揭開視頻擴散模型的神秘面紗,帶您一窺這場視覺革命背后的技術原理與未來潛力。


擴散原理探秘

擴散模型,這個近年來在計算機視覺領域異軍突起的技術,正逐步取代生成對抗網絡(GANs)和自回歸Transformer模型,成為圖像生成和編輯的主導力量。那么,這種模型到底是如何工作的呢?

想象一下水滴在墨水中擴散的過程——開始時,墨水集中在一點,隨著時間推移,它逐漸擴散開來,最終均勻分布在整個水中。擴散模型的原理與此類似,但方向相反。它學習如何從一個混亂的、隨機的狀態(tài)(類似于均勻分布的墨水),逐步恢復到有結構的數據(如一張清晰的圖片或一段連貫的視頻)。

目前主流的擴散模型主要有三種形式:去噪擴散概率模型(DDPMs)、基于分數的生成模型(SGMs)和隨機微分方程(Score SDEs)。雖然表達形式不同,但核心思想相通——都是通過逐步去除噪聲來生成數據。

在DDPM中,過程分為兩個階段:前向過程將數據逐步加入噪聲,直到完全變成隨機噪聲;反向過程則學習如何從噪聲逐步恢復原始數據。當模型訓練好后,只需從簡單的高斯分布中采樣一個隨機向量,然后通過學習到的反向過程,就能生成全新的、逼真的數據。

從圖像擴散模型發(fā)展到視頻擴散模型并非易事。與圖像不同,視頻是一系列時間上連續(xù)的幀,需要模型不僅能夠生成視覺上逼真的單幀,還要保持跨幀的時間連貫性。早期的視頻生成模型VDM開創(chuàng)性地將圖像擴散U-Net架構擴展到3D U-Net結構,并采用圖像和視頻的聯合訓練。通過條件采樣技術,它能生成質量更高、時長更長的視頻。

隨著研究深入,視頻擴散模型形成了三大核心應用領域:視頻生成、視頻編輯和視頻理解。視頻生成包括文本到視頻(T2V)生成、條件視頻生成和無條件視頻生成;視頻編輯涵蓋保持原始視頻結構的同時修改內容;視頻理解則利用擴散模型的生成能力輔助傳統視頻分析任務。這三個領域各有特點,又相互關聯,共同推動視頻擴散技術的全面發(fā)展。

視頻生成新突破

隨著擴散模型技術的快速發(fā)展,視頻生成領域取得了令人矚目的進步。從最初簡單的文本到視頻轉換,到如今能夠融合多種模態(tài)條件的復雜生成系統,視頻擴散模型正在不斷拓寬我們對視頻創(chuàng)作的認知邊界。


文本引導的視頻生成是最受關注的研究方向,占據了視頻擴散研究的半壁江山。在這一領域,Make-A-Video開創(chuàng)了一種創(chuàng)新方法,它通過從成對的圖像-文本數據中學習視覺-文本關聯,并從無標注的視頻數據中捕捉運動信息。這種方法減少了對數據收集的依賴,能生成多樣化且逼真的視頻。而ImagenVideo則將成熟的文本到圖像模型Imagen擴展到視頻生成任務,采用級聯視頻擴散模型,由七個子模型組成:一個用于基本視頻生成,三個用于空間超分辨率,三個用于時間超分辨率。

時間建模是視頻生成的關鍵挑戰(zhàn)。MagicVideo和LVDM都采用了潛在擴散模型(LDM)作為骨架,在較低維度的潛在空間中應用擴散模型,顯著降低計算復雜度,加快處理速度。VideoFusion則考慮了不同幀之間的內容冗余和時間相關性,通過兩個共同訓練的網絡實現噪聲分解,確保生成幀運動的一致性。

不同于依賴大規(guī)模訓練的方法,一些研究者正在探索無需訓練的文本到視頻生成方法。Text2Video-Zero利用預訓練的文本到圖像模型Stable Diffusion進行視頻合成,通過對各幀和第一幀之間執(zhí)行Cross-Attention機制來保持不同幀之間的一致性。DirecT2V和Free-Bloom則引入大型語言模型,根據單個抽象用戶提示生成逐幀描述,并采用了一系列反向過程增強技術,包括聯合噪聲采樣、步驟感知注意力偏移和雙路徑插值,這些修改提高了零樣本視頻生成能力。

除了文本,視頻生成還可以由其他多種模態(tài)條件引導,如姿態(tài)、運動、聲音等。Follow Your Pose提出了一個由姿態(tài)和文本控制的視頻生成模型,采用兩階段訓練過程,利用圖像-姿態(tài)對和無姿態(tài)標簽的視頻。MCDiff則開創(chuàng)性地將運動作為控制視頻合成的條件,提供視頻的第一幀和一系列描邊運動,利用流完成模型預測基于稀疏描邊運動控制的密集視頻運動。AADiff引入了同時使用音頻和文本作為視頻合成條件的概念,分別用專用編碼器對文本和音頻進行編碼,計算文本和音頻嵌入之間的相似性,并選擇相似性最高的文本標記。

視頻補全技術,包括增強、修復與預測,也是視頻生成的重要組成部分。CaDM引入了一種新型神經增強視頻流范式,旨在顯著降低流媒體傳輸比特率,同時保持遠高于現有方法的修復能力。Seer專注于探索文本引導的視頻預測任務,使用潛在擴散模型作為基礎骨架,通過在自回歸框架中集成時空注意力以及實現幀序列文本分解器模塊,將文本到圖像模型的知識先驗轉移到視頻預測領域。

各種視頻生成方法在不同基準數據集上的表現也各有特色。在零樣本T2V生成任務中,依賴ChatGPT或其他輸入條件的方法比其他方法具有顯著優(yōu)勢,使用額外數據通常能帶來更好的性能。在微調視頻生成任務中,基于擴散的方法相比傳統的GANs和自回歸Transformer方法展現出明顯優(yōu)勢,大規(guī)模預訓練或類別條件引導往往能進一步提升性能。


隨著視頻擴散模型的不斷發(fā)展,我們可以預見未來會有更多創(chuàng)新的視頻生成應用出現,包括更長時間、更高清晰度、更符合語義的視頻生成,以及跨多模態(tài)的復雜視頻合成系統。這些進步不僅會改變視頻創(chuàng)作的方式,還將為影視制作、教育培訓、虛擬現實等領域帶來革命性的變革。

編輯魔法揭秘

視頻編輯技術正經歷一場由擴散模型引領的革命性變革。傳統視頻編輯通常需要復雜的專業(yè)軟件和精湛的技術,而基于擴散模型的視頻編輯則打開了一扇通向簡易創(chuàng)作的大門,讓復雜的視頻修改變得簡單直觀。

文本引導的視頻編輯是目前研究最為活躍的方向。在這類方法中,用戶只需提供一段原始視頻和描述期望修改的文本提示,就能實現視頻的智能化編輯。比如,你可以輸入"將視頻中的小狗變成一只貓",系統就能自動完成這一轉換。這些方法大致可分為三類:基于訓練的方法、免訓練方法和單次微調方法。

基于訓練的方法通常在大規(guī)模視頻-文本數據集上進行訓練,形成通用的視頻編輯模型。例如,GEN-1模型提出了一種結構和內容感知的框架,能夠完全控制視頻的時間、內容和結構一致性。它將時間層引入預訓練的文本到圖像模型,并在圖像和視頻上聯合訓練,實現了對時間一致性的實時控制。Dreamix的高保真度源于兩項主要創(chuàng)新:使用原始視頻的低分辨率版本初始化生成過程,以及在原始視頻上微調生成模型。

免訓練方法則利用預訓練的文本到圖像或文本到視頻模型,以零樣本方式適應視頻編輯任務。相比訓練基礎的方法,免訓練方法無需昂貴的訓練成本。不過,這些方法也面臨一些潛在缺點,如零樣本編輯的視頻可能產生空間-時間失真和不一致,且使用文本到視頻模型的方法仍可能產生高昂的訓練和推理成本。

TokenFlow證明了通過在擴散特征空間中強制一致性,可以實現編輯視頻的一致性。具體來說,這是通過采樣關鍵幀、聯合編輯它們,并基于原始視頻特征提供的對應關系,將關鍵幀的特征傳播到所有其他幀來實現的。這一過程明確地維持一致性和原始視頻特征的細粒度共享表示。VidEdit結合了基于圖集的方法和預訓練的文本到圖像模型,不僅展現出高度的時間一致性,還提供了對視頻內容外觀的對象級控制。

單次微調方法涉及使用特定視頻實例微調預訓練的文本到圖像模型,使其能夠生成具有相似運動或內容的視頻。雖然這需要額外的訓練費用,但這些方法比免訓練方法提供了更大的編輯靈活性。SinFusion開創(chuàng)了基于單次微調的擴散模型,它可以從僅僅幾幀中學習單個輸入視頻的運動。其骨干是一個完全卷積的DDPM網絡,因此可以用于生成任何大小的圖像。

除了文本引導外,視頻編輯還可由其他模態(tài)引導,如指令、聲音和運動等。指令引導的視頻編輯旨在根據給定的輸入視頻和指令生成視頻。由于缺乏視頻-指令數據集,InstructVid2Vid利用ChatGPT、BLIP和Tune-A-Video的組合,以相對較低的成本獲取輸入視頻、指令和編輯視頻的三元組。


聲音引導的視頻編輯的目標是使視覺變化與目標區(qū)域的聲音保持一致。為了實現這一目標,Soundini提出了用于擴散采樣的局部聲音引導和光流引導。具體來說,音頻編碼器使聲音潛在表示在語義上與潛在圖像表示保持一致。

針對特定領域的視頻編輯也是一個熱門研究方向。視頻重著色涉及推斷灰度幀的合理且時間上一致的顏色,這需要同時考慮時間、空間和語義一致性以及色彩豐富度和忠實度。基于預訓練的文本到圖像模型,ColorDiffuser提出了兩種新穎技術:顏色傳播注意力作為光流的替代品,以及交替采樣策略以捕獲相鄰幀之間的時空關系。

人類視頻編輯也得到了廣泛關注。Diffusion Video Autoencoders提出了一種擴散視頻自編碼器,它從給定的以人為中心的視頻中提取單個時不變特征(身份)和每幀時變特征(運動和背景),并進一步操作單個不變特征以獲得所需屬性,從而實現時間一致的編輯和高效計算。

智能理解前瞻

擴散模型不僅在視頻生成和編輯領域大放異彩,在視頻理解任務中也展現了巨大潛力。視頻理解涵蓋了一系列基礎任務,如動作檢測、異常檢測、文本-視頻檢索等,這些任務對于構建智能視頻分析系統至關重要。

在時間動作檢測與分割領域,DiffTAD探索了擴散模型在時間動作檢測任務中的應用。該方法擴散長視頻的真實提案,并通過在DETR架構中引入專門的時間位置查詢來學習去噪過程。該方法在ActivityNet和THUMOS等基準測試中取得了最先進的性能結果。類似地,DiffAct利用相似的方法處理時間動作分割任務,在GTEA、50Salads和Breakfast等廣泛使用的基準測試中驗證了該方法的有效性。

視頻異常檢測是另一個重要的理解任務。Diff-VAD和CMR利用擴散模型的重建能力來識別異常視頻,因為高重建誤差通常表明異常。在兩個大規(guī)模基準測試中進行的實驗證明了這種范式的有效性,與之前的研究相比顯著提高了性能。MoCoDAD則專注于基于骨架的視頻異常檢測,該方法應用擴散模型根據個體過去的動作生成多樣且合理的未來動作。通過統計聚合未來模式,當生成的一組動作偏離實際未來趨勢時,就會檢測到異常。


文本-視頻檢索任務也從擴散模型中受益。DiffusionRet將檢索任務形式化為一個從噪聲逐漸生成聯合分布p(candidates, query)的過程。在訓練過程中,生成器使用生成損失進行優(yōu)化,而特征提取器使用對比損失進行訓練。通過這種方式,DiffusionRet巧妙地結合了生成方法和判別方法的優(yōu)勢,在開放域場景中表現出色,展示了其泛化能力。MomentDiff和DiffusionVMR則解決了視頻時刻檢索任務,旨在識別與給定文本描述相對應的視頻中的特定時間間隔。

在其他視頻理解任務中,RSFD研究了視頻字幕中常被忽視的長尾問題,提出了一種新的頻率擴散精細語義增強方法,通過不斷識別低頻令牌的語言表示來改善字幕生成。Pix2Seq-D將全景分割重新定義為離散數據生成問題,利用基于模擬位的擴散模型對全景掩碼進行建模,能夠通過合并前一幀的預測來模擬視頻,從而實現對象實例跟蹤和視頻對象分割的自動學習。


盡管視頻擴散模型取得了顯著進展,但仍面臨著一些關鍵挑戰(zhàn)。收集大規(guī)模視頻-文本數據集是一項艱巨任務,目前廣泛使用的WebVid數據集僅包含1000萬個實例,且存在視覺質量有限、分辨率低(360P)和存在水印偽影等顯著缺點。雖然獲取數據集的新方法正在探索中,但在數據集規(guī)模、注釋準確性和視頻質量方面仍需要改進。

與T2V模型相關的高昂訓練成本也是一個重大挑戰(zhàn),一些任務需要使用數百個GPU。盡管SimDA等方法試圖減輕訓練費用,但數據集規(guī)模和時間復雜性仍然是關鍵問題。因此,探索更高效的模型訓練策略和減少推理時間是未來研究的重要方向。

雖然開放域視頻生成存在基準測試和評估方法,如MSRVTT和UCF-101數據集以及FVD和IS等指標,但它們在范圍上相對有限。由于文本到視頻生成中生成視頻沒有真實參考,現有指標如FVD和IS主要強調生成視頻與真實視頻分布之間的差異,這使得難以獲得全面反映視頻生成質量的綜合評估指標。目前,用戶AB測試和主觀評分仍被廣泛使用,但這些方法費時費力且可能因主觀性而產生偏差。構建更加量身定制的評估基準和指標是未來研究的另一個有意義的方向。

現有方法盡管展示了顯著進步,但由于模型能力不足仍存在諸多限制。例如,視頻編輯方法在某些情況下經常遇到時間一致性失敗,如將人物形象替換為動物。為了追求高保真度,許多當前基于文本到圖像的模型使用原始視頻的關鍵幀。然而,由于現成圖像生成模型的固有限制,在保持結構和時間一致性的同時注入額外對象仍然是一個未解決的問題。解決這些限制需要進一步的研究和改進。

參考資料

  1. Xing, Z., Feng, Q., Chen, H., Dai, Q., Hu, H., Xu, H., Wu, Z., &; Jiang, Y. (2023). A Survey on Video Diffusion Models. arXiv:2310.10647.

  2. Ho, J., Jain, A., &; Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems.

  3. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., &; Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. CVPR.

  4. Singer, U., Polyak, A., Hayes, T., Yin, X., An, J., Zhang, S., Hu, Q., Yang, H., Ashual, O., Gafni, O., et al. (2022). Make-a-video: Text-to-video generation without text-video data. ICLR.

  5. Ho, J., Salimans, T., Gritsenko, A., Chan, W., Norouzi, M., &; Fleet, D. J. (2022). Video diffusion models. arXiv preprint arXiv:2204.03458.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
胖成球!廣東舊將發(fā)福明顯 轉戰(zhàn)NBL 朱芳雨放棄他沒錯

胖成球!廣東舊將發(fā)福明顯 轉戰(zhàn)NBL 朱芳雨放棄他沒錯

胖子噴球
2025-06-02 20:50:39
李大雙狂曬兒子,祭拜奶奶拜佛像,透露離婚隱情,諷刺李琳不生育

李大雙狂曬兒子,祭拜奶奶拜佛像,透露離婚隱情,諷刺李琳不生育

陳意小可愛
2025-06-02 17:52:16
金主下場!沙媒:沙特PIF基金已介入C羅續(xù)約,滿足其財務競技要求

金主下場!沙媒:沙特PIF基金已介入C羅續(xù)約,滿足其財務競技要求

直播吧
2025-06-02 19:42:08
辛納連續(xù)52周世界第一,是第5位首次登頂后就持續(xù)至少一年的球員

辛納連續(xù)52周世界第一,是第5位首次登頂后就持續(xù)至少一年的球員

直播吧
2025-06-02 20:05:24
成龍新片中美票房相差165倍!北美首日破五千萬,內地預售才27萬

成龍新片中美票房相差165倍!北美首日破五千萬,內地預售才27萬

萌神木木
2025-06-01 18:33:14
1439架軍機被擊落!俄發(fā)起斬首行動,北約32國施壓

1439架軍機被擊落!俄發(fā)起斬首行動,北約32國施壓

揚子的故事屋
2025-06-02 11:39:49
S家人拼命掩飾一個事實:大S跟汪小菲離婚后,徐家運勢一再暴跌!

S家人拼命掩飾一個事實:大S跟汪小菲離婚后,徐家運勢一再暴跌!

情感大頭說說
2025-06-02 21:06:59
對門7年每天往我家大門潑水,我不理會,搬家那天他懵了:給你的

對門7年每天往我家大門潑水,我不理會,搬家那天他懵了:給你的

無名講堂
2025-05-30 17:44:34
馬斯克從白宮卷鋪蓋走人,于心不忍的特朗普,給了他最后一點體面

馬斯克從白宮卷鋪蓋走人,于心不忍的特朗普,給了他最后一點體面

風華講史
2025-06-02 08:11:51
研究發(fā)現:夏季還堅持穿襪子的人,用不了多久,身體或會有6改善

研究發(fā)現:夏季還堅持穿襪子的人,用不了多久,身體或會有6改善

荷蘭豆愛健康
2025-05-30 16:30:53
這樣的哈佛大學,死了也罷!

這樣的哈佛大學,死了也罷!

難得君
2025-06-01 14:21:27
杜蘭特最新下家賠率:森林狼超越火箭升至第一 獨行俠馬刺也在列

杜蘭特最新下家賠率:森林狼超越火箭升至第一 獨行俠馬刺也在列

羅說NBA
2025-06-02 06:59:16
刑警別尬演!看了張百喬才知,《三大隊》張譯的影帝含金量有多高

刑警別尬演!看了張百喬才知,《三大隊》張譯的影帝含金量有多高

明月聊史
2025-06-02 17:20:17
暴雨大暴雨!福州啟動應急響應!明天最高氣溫直降10℃!

暴雨大暴雨!福州啟動應急響應!明天最高氣溫直降10℃!

福州晚報
2025-06-02 20:57:45
英國一家3口第2次落地中國被拒絕入境!滯留機場23小時,自食惡果

英國一家3口第2次落地中國被拒絕入境!滯留機場23小時,自食惡果

嫹筆牂牂
2025-06-02 10:40:07
賽季雙冠!沙特媒體:本澤馬僅用15天,就在冠軍數之爭上超越C羅

賽季雙冠!沙特媒體:本澤馬僅用15天,就在冠軍數之爭上超越C羅

直播吧
2025-06-02 14:00:15
1-2,超級大冷!NO.361制造神話進8強!法網女單3號種子轟然出局

1-2,超級大冷!NO.361制造神話進8強!法網女單3號種子轟然出局

大秦壁虎白話體育
2025-06-02 21:41:17
最后24小時,有人宣布退選,李在明再戰(zhàn)江湖,韓國大選出現新變數

最后24小時,有人宣布退選,李在明再戰(zhàn)江湖,韓國大選出現新變數

掌青說歷史
2025-06-02 17:13:53
2:1絕殺,世俱杯32隊全部誕生!分組差距明顯,8強或變成“歐冠”

2:1絕殺,世俱杯32隊全部誕生!分組差距明顯,8強或變成“歐冠”

阿超他的體育圈
2025-06-02 06:25:03
盧克文確認“神仙工作室”系本家,員工月入6萬屬實

盧克文確認“神仙工作室”系本家,員工月入6萬屬實

楊哥歷史
2025-06-02 09:51:55
2025-06-02 22:32:49
寄史言志 incentive-icons
寄史言志
作有深度的歷史解讀
219文章數 1596關注度
往期回顧 全部

科技要聞

下周的WWDC,蘋果AI依舊不會有“驚喜”

頭條要聞

"華爾街一哥"從中國返回后 向美方傳遞一重要信息

頭條要聞

"華爾街一哥"從中國返回后 向美方傳遞一重要信息

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

大S女兒來北京!馬筱梅帶她喝下午茶

財經要聞

近期大火的"穩(wěn)定幣、RWA"是什么?誰將受益?

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態(tài)度原創(chuàng)

健康
手機
房產
公開課
軍事航空

唇皰疹和口腔潰瘍是"同伙"嗎?

手機要聞

小米16 Pro影像浮出水面:雙定制鏡頭,或重塑旗艦攝影新標桿

房產要聞

金地華南落子海南自貿港22萬㎡標桿項目,夯實代建行業(yè)領軍者地位

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中國記者拿著美菲勾結證據對質 菲律賓防長當場急了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宿迁市| 东宁县| 宣武区| 乐昌市| 盐山县| 睢宁县| 承德县| 阳泉市| 吴桥县| 屏边| 长子县| 满洲里市| 临汾市| 鄂尔多斯市| 仁化县| 常山县| 台安县| 柯坪县| 正安县| 潼关县| 正宁县| 布拖县| 韶关市| 五原县| 榆林市| 新津县| 延津县| 如东县| 黔西| 延长县| 平度市| 海城市| 汉源县| 上饶县| 忻州市| 钟祥市| 和龙市| 伊宁县| 浦北县| 鸡西市| 韩城市|