99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成

0
分享至



本文主要作者是 Bytedance Pico 北美高級研究員胡濤博士,近年來研究領域包括3D 重建與 4D 場景和視頻生成,致力于得到一種最佳的物理世界表示模型。其他作者均為 Pico MR 團隊核心成員。

去年一年來,Sora、可靈、Veo等模型掀起了視頻生成領域的革新。而在構建更逼近真實的世界模型征程中,相機可控的視頻生成技術堪稱核心拼圖 —— 它讓視頻生成模型不再是單向的 “世界模擬器”,而是能被用戶自由探索的 “平行宇宙”,為沉浸式 3D 電影等顛覆性應用奠定基礎!

然而,從單視角視頻,生成其對應的極端視角(比如方位角在 ±90° 改變)新視頻仍是行業難題。現有的開源方法或依賴多視角相機 - 視頻數據集訓練 [4,5],或受困于遮擋區域表示的局限 [1,2],難以跨越 “視角自由” 與 “物理真實” 的雙重鴻溝。

對此,PICO-MR 團隊提出了一個破局方案:EX-4D,可以從任意單目視頻生成其對應的新視角視頻。EX-4D:

  • 一致性更強:EX-4D 在 FID、FVD 等指標上超越了最新的開源方法,支持生成高物理一致性的新視角視頻。
  • 視角跨度更大:得益于新幾何先驗格式,EX-4D 能支持極端視角下的高質量視頻生成。
  • 綜合效果更好:輕量級 LoRA Adapter 能充分利用 WAN-2.1 基座模型的強大生成能力,生成細節、質量更好的視頻。



  • Arxiv 鏈接: https://arxiv.org/abs/2506.05554
  • 項目主頁鏈接: https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
  • 代碼鏈接: https://github.com/tau-yihouxiang/EX-4D

現有方法的困境

目前相機可控的視頻生成方法可分為 2 種主要思路。一類方法直接利用相機外參作為條件控制視角生成。這種方法需要自行構建多個視角下的相機 - 視頻數據對,并且難以控制不同數據分布下的相機的位移尺度,在未知分布的視頻輸入上可能出現嚴重的視角偏移。第二類方法則直接將像素點投影成點云作為額外的先驗信息。這些點云投影無法保留物體之間的遮擋關系,在物體的交界部分非常依賴基座模型本身的能力。這種不可控性容易導致錯誤的幾何關系。

EX-4D 的三大核心設計

EX-4D 的核心目標是實現一個泛用的,從單目視頻生成新視角下視頻的模型。其總體框架如下圖所示:



為了充分利用豐富的各類視頻數據,同時保證生成視頻滿足高質量和高物理一致性,EX-4D 提出了如下三個關鍵設計。

  • 深度密閉網格(DW-Mesh)實現遮擋面提取:DW-Mesh 表示是 EX-4D 框架的核心。它突破了點云的局限,首次提出使用一個全密閉網格結構,同時記錄可見 / 隱面片,無需多視角監督就能統一處理場景拓撲。EX-4D 利用最新的預訓練深度預測出每幀深度圖,從而將像素點投影到 3D 空間形成網格頂點,并從相鄰頂點中構建出網格面片。



EX-4D 根據幾何關系標記遮擋面片。通過設置當面片最小角度小于指定閾值,或者跨度大于指定閾值時,可以提取出前景與背景之間的遮擋面。



生成的 DW-Mesh 表達能為每一幀提供連續的遮擋 mask,以此確保極端視角下的生成視頻的物理一致性。

  • 模擬 mask 生成策略構建數據集:為解決多視角訓練數據缺乏的問題,EX-4D 提出了 2 種模擬 mask 生成策略。



  • 渲染 mask 關注模擬視角移動下的物體間的遮擋關系。EX-4D 利用 DW-Mesh 表示來模擬新視角下的遮擋關系。通過構建輸入視角的 DW-Mesh,并在給定相機軌跡下渲染來獲得不可見區域的 mask。形態學膨脹可以進一步去除噪聲,滿足更真實的遮擋邏輯。
  • 跟蹤 mask 的則關注保持可見區域的邊緣像素一致,以更貼近推理階段視頻下的真實 mask。EX-4D 使用Cotracker3[3] 模型,通過跟蹤錨點來確保幀間的可見部分一致性,讓訓練數據無限逼近真實場景。

借助這兩種生成策略,無需昂貴多視角采集,僅憑單目視頻就能 “腦補” 全視角數據,破解世界模型訓練的數據困局!

  • 輕量級 LoRA Adapter:EX-4D 基于預訓練的 WAN-2.1 模型,引入 LoRA-based Adapter,來完成 mask video inpainting 任務。基于 LoRA 的 adapter 架構將 DW-Mesh 的幾何先驗信息融入視頻生成過程,在保持計算需求可控的同時,保證了補全視頻的幾何一致性和幀間一致性。

實驗結果:EX-4D 如何定義「極致」

為了展示 EX-4D 在新視角生成的巨大潛力,EX-4D 使用包含 150 個網絡視頻的數據集,并使用 FID、FVD 和VBench[6] 等指標評估模型性能。



在各種視角跨度范圍之內,EX-4D 均全面超越了現有的開源可控視角生成方法。值得關注的是,新輸入視角角度越極端(越偏向 90°),EX-4D 性能優勢越明顯,充分展示了 DW-Mesh 表示在物理一致性保持上的潛力。在 VBench 指標上,EX-4D 在絕大多數指標上取得最高分,進一步展現了強大的綜合生成能力。

此外,EX-4D 還邀請了 50 位志愿者對 EX-4D 和其他開源方法的生成效果進行評分。70.70% 的參與者認為 EX-4D 方法在極端視角下的物理一致性斷層領先。



當已有的開源方法在劇烈視角變化中 “露破綻”(物體穿幫、遮擋錯亂),EX-4D 卻能精確保留高一致性的物體細節。



針對 EX-4D 的充分消融實驗充分論證 EX-4D 中每種策略的有效性。其中 DW-Mesh 表示對性能的提升最大。兩種針對訓練數據的 mask 生成策略對于模型的訓練都至關重要。而 EX-4D 采用的 16 rank 輕量級 LoRA-based Adapter 效率已經足夠高,增加 rank 僅帶來輕微性能提升。



總結與未來展望

定性和定量實驗說明,EX-4D 方法能夠生成高物理一致性、高質量的視頻結果,并且可以廣泛用于小角度偏移到極端視角的各種場景,提升了新視角預測的自由度。后續的視頻可控生成之中,EX-4D 將著眼于提高深度預測的精度,并提高模型推理速度,向更快、更好的可控視頻生成進發,為世界模型助力。

參考文獻

[1] Mark YU, Wenbo Hu, Jinbo Xing, and Ying Shan. Trajectorycrafter: Redirecting camera trajectory for monocular videos via diffusion models, 2025.

[2] Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, and Xingang Pan. Trajectoryattention for fine-grained video motion control. In The Thirteenth International Conference on Learning Representations, 2025.

[3] Nikita Karaev, Iurii Makarov, Jianyuan Wang, Natalia Neverova, Andrea Vedaldi, and Christian Rupprecht. Cotracker3: Simpler and better point tracking by pseudo-labelling real videos. In Proc. arXiv:2410.11831, 2024.

[4] Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, and Ceyuan Yang. Cameractrl: Enabling camera control for text-to-video generation. arXiv preprint arXiv:2404.02101, 2024.

[5] Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, and Di Zhang. Recammaster: Camera-controlled generative rendering from a single video, 2025.

[6] Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, Xinyuan Chen, Limin Wang, Dahua Lin, Yu Qiao, and Ziwei Liu. VBench: Comprehensive benchmark suite for video generative models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
6月20日,以色列宣布對伊朗行動結束,雙方表態強硬留下隱患

6月20日,以色列宣布對伊朗行動結束,雙方表態強硬留下隱患

興史興談
2025-06-21 11:51:21
車企承諾60天賬期背后:零部件企業應收賬款周轉天數平均101天,僅一家車企符合要求

車企承諾60天賬期背后:零部件企業應收賬款周轉天數平均101天,僅一家車企符合要求

時代投研
2025-06-20 22:34:13
特斯拉重大宣布:計劃再投資超500億元!大行警告......

特斯拉重大宣布:計劃再投資超500億元!大行警告......

每日經濟新聞
2025-06-21 14:29:07
“三伏熱不熱,就看夏至”,今日夏至,今年三伏天期間會很熱嗎?

“三伏熱不熱,就看夏至”,今日夏至,今年三伏天期間會很熱嗎?

涵豆說娛
2025-06-21 10:36:23
侯森經驗老道,張玉寧打破點球魔咒,國安U35別用了,塞帥險翻車

侯森經驗老道,張玉寧打破點球魔咒,國安U35別用了,塞帥險翻車

替補席看球
2025-06-21 22:20:37
“如果江蘇對上以色列,誰的贏面更大?”一個神回復火了

“如果江蘇對上以色列,誰的贏面更大?”一個神回復火了

戰爭史
2025-06-21 13:12:33
軍隊禁購徐工警示:軍工血脈企業需筑牢國家利益防線

軍隊禁購徐工警示:軍工血脈企業需筑牢國家利益防線

Ck的蜜糖
2025-06-16 12:35:58
江蘇警官學院2025年本科招生計劃

江蘇警官學院2025年本科招生計劃

江蘇警方
2025-06-21 21:23:29
《馬大帥》演員吳迪去世,開播21年,已有4位演員離我們而去

《馬大帥》演員吳迪去世,開播21年,已有4位演員離我們而去

娛慧
2025-06-21 21:03:52
央視取消播出易建聯專訪

央視取消播出易建聯專訪

新京報
2025-06-21 13:52:44
全球沒先例還敢干?中國為啥非要花40億鑿穿秦嶺?

全球沒先例還敢干?中國為啥非要花40億鑿穿秦嶺?

一家說
2025-06-21 17:36:14
真實的趙麗穎沒有網上說的這么漂亮,臉上就有溝溝坎坎,肌肉松垮

真實的趙麗穎沒有網上說的這么漂亮,臉上就有溝溝坎坎,肌肉松垮

鄉野小珥
2025-06-08 17:14:24
俗語“過了夏至節,夫妻各自歇”,是什么意思?聽聽老祖宗的忠告

俗語“過了夏至節,夫妻各自歇”,是什么意思?聽聽老祖宗的忠告

金沛的國學筆記
2025-06-21 17:44:44
易建聯專題片突然消失并不意外,此前已有三點征兆

易建聯專題片突然消失并不意外,此前已有三點征兆

姜大叔侃球
2025-06-21 21:51:07
三大汽車集團開始重組

三大汽車集團開始重組

后視鏡里de未來
2025-06-20 14:12:04
1.53-2.50!王欣瑜1-2爆冷輸球?請大家不要罵她

1.53-2.50!王欣瑜1-2爆冷輸球?請大家不要罵她

體育就你秀
2025-06-21 18:00:03
從夏至到三伏天,每天吃2勺它,腿腳有勁氣色好,精神飽滿過夏天

從夏至到三伏天,每天吃2勺它,腿腳有勁氣色好,精神飽滿過夏天

阿龍美食記
2025-06-21 17:24:32
“任何侵犯中國領空的外國飛機,直接擊落!”中方通報全球

“任何侵犯中國領空的外國飛機,直接擊落!”中方通報全球

科技處長
2025-06-20 22:14:57
李夢離隊最大受益者!鄭薇一分鐘都不給,卻在宮魯鳴手下打成核心

李夢離隊最大受益者!鄭薇一分鐘都不給,卻在宮魯鳴手下打成核心

弄月公子
2025-06-21 13:22:37
同為數學天才,為何“韋神”只是助理教授,而王虹已經是副教授?

同為數學天才,為何“韋神”只是助理教授,而王虹已經是副教授?

阿器談史
2025-06-21 03:46:37
2025-06-22 00:04:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

健康
游戲
親子
數碼
軍事航空

呼吸科專家破解呼吸道九大謠言!

韓國虛幻5重磅動作新作來了!上架多平臺 2026發售

親子要聞

孕期缺乏這種元素,可能發生性別逆轉?

數碼要聞

電視“鴻蒙”時刻?疑似搭載旗艦手機芯片,革新百年電視產業!

軍事要聞

伊朗展示破壞力最強導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 定安县| 九龙坡区| 上饶市| 武安市| 左云县| 牙克石市| 沁阳市| 库尔勒市| 芜湖县| 义马市| 双峰县| 陆丰市| 增城市| 凤凰县| 启东市| 于都县| 湖口县| 台前县| 青岛市| 玉屏| 绥滨县| 塔河县| 星座| 英吉沙县| 保靖县| 康平县| 威宁| 郸城县| 武功县| 鹤庆县| 安陆市| 苏尼特左旗| 米脂县| 咸丰县| 磴口县| 太保市| 马山县| 柳林县| 措美县| 西平县| 江川县|