來自華中科技大學、南洋理工大學和大灣區大學的研究團隊聯合提出了一種全新的4D場景生成框架 ——Free4D。該方法可從一張靜態圖像或一段文本描述出發,借助現有多視圖擴散模型的先驗能力,生成具有空間與時間一致性的4D(動態3D)場景。與以往主要聚焦于單一物體生成的方法不同,Free4D實現了復雜場景級別的4D合成,并通過無需微調(tuning-free)的策略,繞過了4D數據稀缺與模型優化開銷大這兩大瓶頸,為高質量、低成本的4D場景生成開辟了全新路徑。
論文題目: Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency 項目主頁: https://free4d.github.io/ 論文鏈接: https://arxiv.org/abs/2503.20785 代碼鏈接: https://github.com/TQTQliu/Free4D
一、動機
Free4D能夠從圖輸入中生成場景級別的4D表征
4D內容生成技術在虛擬現實、游戲制作、影視特效等領域擁有廣闊的應用前景。早期的相關研究主要聚焦于單一物體的建模與運動模擬,而對復雜場景中背景元素及其動態變化的建模關注較少,表達能力受到限制。近年來,學界逐漸將目光轉向場景級別的4D生成。然而,要訓練一個具備多視角一致性與時間連貫性的高質量4D場景生成模型,往往需要依賴大規模且精細標注的4D數據集。但此類數據資源目前極為稀缺,且缺乏可擴展的采集與構建手段,成為限制該方向進一步發展的關鍵瓶頸。另一條研究路徑則嘗試采用Score Distillation Sampling(SDS)方法,從預訓練擴散模型中蒸餾生成監督信號以優化4D表示。雖然這一方法在一定程度上緩解了對真實4D數據的依賴,但仍存在優化過程耗時、顏色過飽和、結果缺乏多樣性等問題。
基于上述挑戰,作者們提出了Free4D,一種無需微調、無需4D數據的新型4D場景生成框架。該方法以單張圖像或文本描述為輸入,融合現有多視圖擴散模型的強大先驗,能夠高效生成空間與時間一致的動態場景表示,為高質量、通用化、低成本的4D內容生成開辟了全新的技術路徑。
二、方法
給定一張輸入圖像或文本描述,Free4D 首先通過視頻生成模型合成單視角視頻,并利用 MonST3R 估計動態點云,構建初始4D幾何結構。隨后,在點云引導下,通過多視圖擴散模型生成多視角動態視頻,并結合多種一致性策略提升空間與時間的一致性。最終,通過兩階段優化構建出可實時渲染的一致的4D高斯表征
為了實現從單張圖像生成空間和時間一致的4D場景,Free4D使用了一條直觀而高效的路徑:先從單圖生成多視角動態視頻,再基于這些視圖優化得到完整的4D場景表示。然而,這一思路面臨兩個核心挑戰:
挑戰一:如何生成空間與時間一致的多視角視頻?
這項任務需要同時保持視角間的幾何一致性和視頻幀間時序上的動態連貫性。為此,Free4D采用了4D幾何結構初始化 + 時空視圖生成的策略,并從空間一致性與時間一致性兩個層面提出關鍵設計。
- 4D幾何結構初始化
Free4D首先使用動態重建方法,比如MonST3R,從輸入視頻(由輸入的單圖或者文本生成的視頻)中提取動態點云,構建具有幾何一致性的動態點云結構。同時引入漸進式背景點云聚合策略,在保證點云覆蓋完整場景的同時有效壓縮點云數量,從而減小存儲和后續計算開銷。
- 時空視圖生成
在動態點云引導下,Free4D使用多視圖擴散模型生成一致的多視角視,并從空間一致性與時序一致性兩個維度提出了關鍵改進策略。在空間一致性方面,提出自適應CFG策略(Adaptive CFG),根據點云可見性動態調整生成引導,兼顧一致性與保真度。同時引入點云引導去噪(Point Cloud Guided Denoising),通過點云投影視圖增強模型對幾何結構的感知,緩解動態漂移問題。在時序一致性方面, Free4D提出參考潛變量替換策略(Reference Latent Replacement),利用參考幀中的潛變量對當前幀不可見區域進行顯式對齊,解決時序上閃爍的問題。
直接使用生成的多視角視頻作為監督信號來優化4D場景表征,往往會引入其中由于生成隨機性導致的不一致的信息,得到次優的4D表征。為此,Free4D 提出了一種兩階段的4D表征優化策略,并引入了一種基于調制信號的細化機制(Modulation-Based Refinement)。
- 粗糙4D表征優化
在第一階段,Free4D選取與輸入圖像同一視角或同一時間戳的生成的圖像來優化一個粗略的4D高斯表示(4D-Gaussian Splatting)。這是由于這些圖像都受到輸入圖像的約束,因此他們之間的一致性是相對更可靠的。
- 基于調制信號的細化
為了進一步融合多視角生成結果、補充第一階段中缺失的內容信息,Free4D在第二階段引入了基于調制信號的細化。具體而言,Free4D不直接使用生成圖像作為監督目標,而是將這些圖像作為一種調制信號,引導擴散模型的refine過程。這一策略既避免了直接監督帶來的不一致性問題,同時又將生成內容的信息融入到了最終的4D表示中,實現了信息融合與一致性的平衡。
Free4D主要與當前主流的 Text-to-4D 和 Image-to-4D 方法進行了對比評估。Free4D采用了 VBench 提出的多項評估指標,包括 Text Alignment(文本對齊度)、Consistency(一致性)、Dynamic(動態性)和 Aesthetic(審美體驗),以全面衡量各方法在不同維度的綜合性能。此外,還進行了用戶調查(User Study),邀請受試者從以上維度對不同方法生成的視頻進行評價。Free4D 在多個維度上均明顯優于現有方法,表現出更好的4D生成效果。作者們還提供了一個可交互的4D查看器來試玩創建的4D表征。
在 VBench 上的定量結果對比用戶調查結果
Text-to-4D方法的視頻對比
Text-to-4D方法的視頻對比
Text-to-4D方法的視頻對比
四、總結和展望
本文介紹了 Free4D,這是首個無需微調即可從單張圖像生成空間-時間一致的4D場景的生成框架。該方法通過4D幾何結構初始化,結合基于點云的多視圖生成模型,實現了高質量的多視角視頻構建。為了提升生成結果的一致性,Free4D 引入了自適應 Classifier-Free Guidance 與點云引導的去噪策略,有效增強了多視角之間的空間一致性;同時,設計了參考潛變量替換機制(Reference Latent Replacement),顯著改善了在時間維度上的連貫性。隨后,Free4D使用一種基于調制信號的精細優化策略(Modulation-Based Refinement),將生成的視頻進一步提升為一致、高保真的4D場景表示。作者們希望Free4D能夠給4D場景生成領域帶來新的啟發,推動該方向的進一步研究與發展。目前,項目代碼已開源,歡迎大家下載試用、交流探討!
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.