數(shù)字化時代,視頻內(nèi)容的創(chuàng)作與編輯需求日益增長。從電影制作到社交媒體,高質(zhì)量的視頻編輯技術(shù)成為了行業(yè)的核心競爭力之一。然而,視頻重打光(video relighting)—— 即對視頻中的光照條件進行調(diào)整和優(yōu)化,一直是這一領(lǐng)域的技術(shù)瓶頸。傳統(tǒng)的視頻重打光方法面臨著高昂的訓練成本和數(shù)據(jù)稀缺的雙重挑戰(zhàn),導致其難以廣泛應用。
如今,這一難題終于迎來了突破 —— 由上海交通大學以及上海人工智能實驗室聯(lián)合研發(fā)的 Light-A-Video 技術(shù),為視頻重打光帶來了全新的解決方案。
論文標題: Light-A-Video: Training-free Video Relighting via Progressive Light Fusion 論文地址: https://arxiv.org/abs/2502.08590 項目主頁: https://bujiazi.github.io/light-a-video.github.io/ 代碼地址: https://github.com/bcmi/Light-A-Video
一、無需訓練,零樣本實現(xiàn)視頻重打光
Light-A-Video 是一種無需訓練的視頻重打光方法,能夠在沒有任何訓練或優(yōu)化的情況下,生成高質(zhì)量、時序一致的重打光視頻。這一技術(shù)的核心在于充分利用預訓練的圖像重打光模型(如 IC-Light)和視頻擴散模型(如 AnimateDiff 和 CogVideoX),通過創(chuàng)新的 Consistent Light Attention(CLA)模塊和 Progressive Light Fusion(PLF)策略,針對視頻內(nèi)容的光照變化進行了一致性的優(yōu)化,實現(xiàn)了對視頻序列的零樣本(zero-shot)光照控制。
其優(yōu)勢在于:
無需訓練,高效實現(xiàn)視頻重打光:Light-A-Video 是首個無需訓練的視頻重打光模型,能夠直接利用預訓練的圖像重打光模型(如 IC-Light)的能力,生成高質(zhì)量且時間連貫的重打光視頻。這種方法避免了傳統(tǒng)視頻重打光方法中高昂的訓練成本和數(shù)據(jù)稀缺的問題,顯著提高了視頻重打光的效率和擴展性。
創(chuàng)新的端到端流程,確保光照穩(wěn)定性與時序一致性:CLA 模塊通過增強跨幀交互,穩(wěn)定背景光源的生成,減少因光照不一致導致的閃爍問題。PLF 通過漸進式光照融合策略,逐步注入光照信息,確保生成視頻外觀的時間連貫性。
廣泛的適用性與靈活性:Light-A-Video 不僅支持對完整輸入視頻的重打光,還可以對輸入的前景序列進行重打光,并生成與文字描述相符的背景。而且不依賴于特定的視頻擴散模型,因此與多種流行的視頻生成框架(如 AnimateDiff、CogVideoX 和 LTX-Video)具有高度的兼容性。
二、CLA + PLF確保光照一致性與穩(wěn)定性
Light-A-Video 核心技術(shù)包括兩個關(guān)鍵模塊:Consistent Light Attention 和 Progressive Light Fusion。CLA 模塊通過增強自注意力層中的跨幀交互,穩(wěn)定背景光照源的生成。它引入了一種雙重注意力融合策略,一方面保留原始幀的高頻細節(jié),另一方面通過時間維度的平均處理,減少光照源的高頻抖動,從而實現(xiàn)穩(wěn)定的光照效果。實驗表明,CLA 模塊顯著提高了視頻重打光的穩(wěn)定性,減少了因光照不一致導致的閃爍問題。
PLF 策略則進一步提升了視頻外觀的穩(wěn)定性。它基于光傳輸理論的光照線性融合特性,通過逐步混合的方式,將重打光外觀與原始視頻外觀進行融合。在視頻擴散模型的去噪過程中,PLF 策略逐步引導視頻向目標光照方向過渡,確保了時間連貫性。這種漸進式的光照融合方法不僅保留了原始視頻的細節(jié),還實現(xiàn)了平滑的光照過渡。
三、Light-A-Video 整體架構(gòu)設(shè)計
1. 利用視頻擴散模型的時序先驗,將原始視頻加噪到對應的步數(shù)后進行去噪。在每一步的去噪過程中,提取其預測的原始去噪目標 并添加上對應的視頻細節(jié)補償項作為當前步的一致性目標
2. 將 輸入圖片重打光模型(IC-Light),并利用 CLA 的雙流注意力模塊進行逐幀重打光,實現(xiàn)穩(wěn)定的背景光源生成,作為當前步的重打光的目標 。
3. 在預測下一步的 時,先利用 VAE 編解碼器將 和 從潛層編碼空間解碼到視頻像素層面。然后通過引入一個漸進式隨時間步下降的參數(shù) 將兩個目標進行線性外觀混合后,重新編碼到潛層編碼空間獲取混合目標 。即 PLF 策略利用混合目標 引導生成單步的重打光結(jié)果 。
當視頻完全去噪后,Light-A-Video 能夠獲得時序穩(wěn)定且光照一致的重打光視頻。
四、高質(zhì)量、時間連貫的重光照效果
為了驗證 Light-A-Video 的有效性,研究團隊基于 DAVIS 和 Pixabay 公開數(shù)據(jù)集上構(gòu)建了其測試數(shù)據(jù)集。實驗結(jié)果表明,Light-A-Video 在多個評估指標上均優(yōu)于現(xiàn)有的基準方法,尤其在動作保留方面,該方法在保證原視頻外觀內(nèi)容的基礎(chǔ)上實現(xiàn)了高質(zhì)量的重打光效果。
另外,Light-A-Video 能夠在僅提供前景序列的情況下,實現(xiàn)背景生成和重打光的并行處理。
五、未來展望:動態(tài)光照與更廣泛應用
之后,Light-A-Video 將致力于有效地處理動態(tài)光照條件,進一步提升視頻重打光的靈活性與適應性。這一創(chuàng)新技術(shù)的出現(xiàn),已然為視頻編輯領(lǐng)域注入了全新思路。隨著技術(shù)的持續(xù)發(fā)展與優(yōu)化,我們有理由相信,Light-A-Video 必將在更廣泛的領(lǐng)域大放異彩,為視頻內(nèi)容創(chuàng)作開辟更多可能性。
作者:周彧杰 來源:公眾號【機器之心 】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計劃
TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)(
www.techbeat.net) 。 社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務和體驗,加速并陪伴其成長。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標明作者信息。
我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關(guān)于我“門”
將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu),也是北京市標桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。
將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務,歡迎發(fā)送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.