V2M4團隊 投稿
量子位 | 公眾號 QbitAI
只需一段視頻,就可以直接生成可用的4D網格動畫?!
來自KAUST的研究團隊提出全新方法V2M4,能夠實現從單目視頻直接生成高質量、顯式的4D網格動畫資源。這意味著無需NeRF/高斯點后處理,可直接導入游戲/圖形引擎。
該方法構建了一個系統化的多階段流程,涵蓋相機軌跡恢復、外觀優化、拓撲統一、紋理合成等關鍵步驟,讓視頻“秒變模型”,大幅提升動畫與游戲內容的生成效率與可用性。
論文已被ICCV 2025正式接收。
結果顯示,其生成的外觀和結構高度還原,平均每幀僅需約60秒處理,比現有方法顯著提速;而且還支持「長視頻」,在300幀時長的視頻上依然表現優異
視頻生成4D動畫模型有多難?
從一段視頻生成連續動畫網格資產,一直是視覺計算長期未解的問題:傳統動畫制作需依賴多攝像頭、動捕設備、人工建模等高成本手段。隱式方法如NeRF雖能復現外觀,卻難以直接輸出拓撲一致的顯式網格。
而近期的原生3D生成模型能夠重建出高質量的3D網格,但常常存在姿態錯位、拓撲不一致、紋理閃爍等問題。
在該工作中,V2M4首次展示了利用原生3D生成模型,從單目視頻生成可用4D網格動畫資產的可能性,并展現了其視覺效果與實用性。
V2M4提出一套系統化的五階段方法,直接從單目視頻構建可編輯的4D網格動畫資產。該方法以“生成高質量顯式網格+拓撲一致+紋理統一”為目標,從結構、外觀、拓撲和時序角度逐步優化模型,輸出可直接用于圖形/游戲引擎的4D動畫文件。
相機軌跡恢復與網格重定位
由于原生3D生成模型輸出的每幀網格常處于標準坐標系中心并且朝向固定,因此直接采用原生3D模型生成視頻幀對應的3D網格會導致真實的平移和旋轉信息的丟失,進而使得動畫無法還原物體在視頻中的真實運動。
為解決該問題,V2M4設計了三階段相機估計策略,通過重建每幀視頻的相機視角,進而將“相機運動”轉化為“網格運動”。
- 候選相機采樣+DreamSim評分:在物體周圍均勻采樣多個視角,渲染并與真實幀對比,挑選相似度最高的相機姿態。
- DUSt3R點云輔助估計:引入幾何基礎模型DUSt3R,通過預測點云來推算出更穩定的相機位姿,再與采樣結果融合。
- 粒子群優化+梯度下降精調:用PSO算法避免局部最優,再以渲染出的掩模差異為優化目標,通過gradient descent精細調整最終相機參數。
最終,將估計得到的相機軌跡反向應用于每一幀3D網格,從而將網格從標準姿態中“還原”回視頻中的真實空間位置,實現真實的動態建模。
外觀一致性優化:條件嵌入微調
即使完成空間對齊,初始生成的網格外觀往往與輸入視頻存在一定外觀差異。為此,V2M4借鑒圖像編輯中的null text optimization策略,對生成網絡的條件嵌入進行微調,以DreamSim、LPIPS、MSE等指標衡量渲染結果與參考視頻幀的相似度,從而優化嵌入向量,使生成的網格外觀更加貼合原視頻,實現更高質量的外觀一致性。
拓撲對齊與結構一致性:幀間對齊+局部約束
由于現有3D生成模型在每幀輸出中存在隨機性,相鄰幀的網格往往在拓撲結構上存在差異,例如頂點數量、邊的連接方式或面片組織均不一致。這類結構差異會嚴重阻礙動畫的連續性與可編輯性。為解決此問題,V2M4引入了逐幀配準與拓撲統一機制:以首幀網格為標準形態(rest pose),通過全局剛體變換和局部形變優化,逐步將其拓撲結構傳遞給所有后續幀。在配準過程中,該方法結合Chamfer距離、可微渲染損失與ARAP剛性形變約束,實現對整體姿態和局部結構的精準調整。最終,所有幀網格不僅在形狀上保持高度連續性,更在拓撲層面實現完全一致,從而為后續紋理生成與時間插值奠定穩定基礎。
跨幀紋理一致性優化:共享UV提圖,消除閃爍與斷裂
為了確保動畫過程中外觀的一致性,V2M4為所有幀構建了一張共享的全局紋理貼圖,避免了逐幀獨立紋理所帶來的色彩跳變與貼圖斷裂問題。由于前述拓撲統一后,各幀網格的結構保持一致,該方法以第一幀網格的UV展開作為所有幀的紋理基準,并基于多視角渲染優化貼圖細節。為提升與原視頻匹配的局部質量,該方法引入視角加權機制,對應視頻幀的相機視圖被賦予更高權重。最終,實現外觀一致、幀間平滑的動畫體驗。
網格插幀與4D動畫導出:輕量封裝,一鍵部署
為了提升動畫的時間連續性與軟件適配性,V2M4對生成的網格序列進行時間插幀與結構封裝。具體而言,該方法對關鍵幀網格的頂點位置進行線性插值,生成時序上更平滑的動畫序列,并進一步將其表示為:單個靜態網格,加上一組隨時間變化的頂點位移張量。最終結果被導出為符合GLTF標準的動畫文件,包含統一拓撲結構、共享紋理貼圖與頂點時序變形,可直接導入Blender等主流圖形與游戲引擎進行編輯與復用。由此,該方法實現了從視頻到4D網格動畫資產的完整轉換路徑,具備可視化、可編輯與實際應用兼容性。
效果驗證與評估
為系統評估 V2M4 的性能,該工作在比以往更具挑戰性的視頻數據上開展實驗,結合定量與定性對比,驗證其在重建質量、運行效率與泛化能力上的全面優勢。
定量對比:性能全面領先
該方法基于CLIP、LPIPS、FVD和DreamSim等主流指標,從語義一致性、視覺細節與時序流暢性等維度,評估輸入視頻與重建網格渲染之間的匹配度,更貼近真實用戶感知。
與DreamMesh4D和Naive TRELLIS等方法相比,V2M4在Simple(輕微動作)及Complex(復雜動作)兩個數據集上各項指標均實現領先。同時,依托高效的插幀與紋理共享機制,平均每幀僅需約60秒即可完成重建,大幅優于現有方法。
視覺對比:結構更清晰、外觀更真實
在視覺效果方面,V2M4生成的網格在渲染細節、法線結構與跨幀一致性上表現更出色,不僅還原度高、拓撲完整,更能穩定生成連續、流暢的動畫,展現出優異的實用性與泛化能力。
論文鏈接:
https://arxiv.org/abs/2503.09631
項目主頁:
https://windvchen.github.io/V2M4
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.