Scene Splatter團隊 投稿
量子位 | 公眾號 QbitAI
三維場景是構建世界模型、具身智能等前沿科技的關鍵環節之一。
盡管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型已在三維生成領域取得顯著進展,但其往往聚焦在物體級別內容生成,難以實現復雜三維場景的構建。
清華大學聯合騰訊提出Scene Splatter——從一張圖像出發,基于自定義的相機軌跡探索三維場景。
基于視頻擴散模型,創新性地從動量的視角出發,引導視頻擴散模型生成滿足三維一致性的視頻片段,大幅提升三維場景生成效果。
視頻生成模型的困境
基于單張圖片恢復三維場景是一個病態(ill-posed)問題。
傳統三維重建方法依賴多視角圖像的匹配與計算,而在單張圖片的條件下,缺少幾何約束,使得重建的場景存在結構扭曲、缺失和飄浮等問題。
為了解決這一問題,引入視頻擴散模型強大的生成先驗為場景補充多視角的信息,再利用成熟的多視角重建技術恢復三維場景,成為一條前景可觀的道路。
然而,受到視頻生成模型能力的制約,其生成內容難以保持充分的三維一致性。
Flash3D為重建方法,未引入生成信息,存在失真和遮擋的問題。
而CogVideo和ViewCrafter雖然具備生成能力,但會改變場景的顏色風格和內容。
動量引導的視頻生成
由于現有方法普遍存在視頻長度受限和場景一致性差的問題,后續重建的過程中容易出現偽影與失真。
Scene Splatter受到動量算法的啟發,構建了級聯式的動量引導視頻生成:
第一級是從原始特征中構建噪聲樣本,作為動量添加到去噪得到的特征中,通過自適應的參數來控制動量強度,以增強視頻細節并保持場景的一致性。
然而,再感知范圍覆蓋已知與未知區域的潛在特征中,這種基于潛空間的動量會限制擴散模型再未知區域的生成能力。
因此,第二級進一步引入上述一致性強的視頻作為像素級動量,將其與不含動量直接生成的視頻融合,以更好地恢復未知區域信息。
通過這種級聯式動量機制,Scene Splatter能夠引導視頻擴散模型生成具有高保真度和一致性的多視角新視頻。
△Scene Splatter流程圖。
Scene Splatter首先利用高斯預測模型進行場景初始化,隨后根據自定義的相機軌跡進行渲染,并使用動量引導的視頻模型生成高質量視頻,基于視頻的多視角信息進行重建。
得到多視角新視頻后,對全局高斯表示進行微調,利用增強的視頻幀來優化高斯表示,并在新視角進行渲染,以支持后續的動量更新。
通過逐步迭代,Scene Splatter可以實現對三維場景的逐步恢復,突破視頻生成模型再長度上的限制。
性能展示
△Scene Splatter在補全場景的同時保持三維一致性。
通過在不同圖像風格和相機軌跡上的實驗,可以發現。Flash3D從單輸入中無法獲得明確的幾何線索,導致第1行第2列中的桌子和椅子出現變形。此外,它也無法恢復未見區域,這在第4行第2列的縮放設置中很明顯。
ViewCrafte和CogVideoX可以增強輸入幀,但存在場景不一致的問題,這導致進一步重建時出現沖突。例如,第1行中CogVideoX生成的椅子與輸入圖像不同,第3行中ViewCrafter改變了場景的顏色風格。
而Scene Splatter可以在保持場景一致性的同時提供高質量的觀察結果。從卡通到真實圖像,從室內到室外場景的各種輸入風格,均可以很好地平衡模型的生成能力與一致性。
△Scene Splatter支持任意相機軌跡的場景探索。
此外,模型能夠很好地泛化到不同的相機軌跡中,支持任意視角軌跡的三維探索。
△Scene Splatter消融研究的可視化結果。
通過消融實驗,可以看出,在沒有任何生成先驗知識的情況下,Scene Splatter會退化為Flash3D,其中第5列的渲染結果在幾何形狀上存在扭曲,因為在單目設置下深度估計并非完全監督。這個問題導致PSNR降低了3.67dB,SSIM降低了0.126。
第3列顯示,缺乏潛在層動量會導致現有組件發生變化,表明潛在層動量能夠保持場景一致性。
移除Scene Splatter的像素級動量,發現缺乏像素級動量限制了擴散模型的生成能力,導致PSNR降低了3.5dB,SSIM降低了0.111。
論文:https://arxiv.org/abs/2504.02764
代碼:https://github.com/shengjun-zhang/Scene-Splatter
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.