99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成

0
分享至



本文主要作者是 Bytedance Pico 北美高級研究員胡濤博士,近年來研究領域包括3D 重建與 4D 場景和視頻生成,致力于得到一種最佳的物理世界表示模型。其他作者均為 Pico MR 團隊核心成員。

去年一年來,Sora、可靈、Veo等模型掀起了視頻生成領域的革新。而在構建更逼近真實的世界模型征程中,相機可控的視頻生成技術堪稱核心拼圖 —— 它讓視頻生成模型不再是單向的 “世界模擬器”,而是能被用戶自由探索的 “平行宇宙”,為沉浸式 3D 電影等顛覆性應用奠定基礎!

然而,從單視角視頻,生成其對應的極端視角(比如方位角在 ±90° 改變)新視頻仍是行業難題。現有的開源方法或依賴多視角相機 - 視頻數據集訓練 [4,5],或受困于遮擋區域表示的局限 [1,2],難以跨越 “視角自由” 與 “物理真實” 的雙重鴻溝。

對此,PICO-MR 團隊提出了一個破局方案:EX-4D,可以從任意單目視頻生成其對應的新視角視頻。EX-4D:

  • 一致性更強:EX-4D 在 FID、FVD 等指標上超越了最新的開源方法,支持生成高物理一致性的新視角視頻。
  • 視角跨度更大:得益于新幾何先驗格式,EX-4D 能支持極端視角下的高質量視頻生成。
  • 綜合效果更好:輕量級 LoRA Adapter 能充分利用 WAN-2.1 基座模型的強大生成能力,生成細節、質量更好的視頻。



  • Arxiv 鏈接: https://arxiv.org/abs/2506.05554
  • 項目主頁鏈接: https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
  • 代碼鏈接: https://github.com/tau-yihouxiang/EX-4D

現有方法的困境

目前相機可控的視頻生成方法可分為 2 種主要思路。一類方法直接利用相機外參作為條件控制視角生成。這種方法需要自行構建多個視角下的相機 - 視頻數據對,并且難以控制不同數據分布下的相機的位移尺度,在未知分布的視頻輸入上可能出現嚴重的視角偏移。第二類方法則直接將像素點投影成點云作為額外的先驗信息。這些點云投影無法保留物體之間的遮擋關系,在物體的交界部分非常依賴基座模型本身的能力。這種不可控性容易導致錯誤的幾何關系。

EX-4D 的三大核心設計

EX-4D 的核心目標是實現一個泛用的,從單目視頻生成新視角下視頻的模型。其總體框架如下圖所示:



為了充分利用豐富的各類視頻數據,同時保證生成視頻滿足高質量和高物理一致性,EX-4D 提出了如下三個關鍵設計。

  • 深度密閉網格(DW-Mesh)實現遮擋面提取:DW-Mesh 表示是 EX-4D 框架的核心。它突破了點云的局限,首次提出使用一個全密閉網格結構,同時記錄可見 / 隱面片,無需多視角監督就能統一處理場景拓撲。EX-4D 利用最新的預訓練深度預測出每幀深度圖,從而將像素點投影到 3D 空間形成網格頂點,并從相鄰頂點中構建出網格面片。



EX-4D 根據幾何關系標記遮擋面片。通過設置當面片最小角度小于指定閾值,或者跨度大于指定閾值時,可以提取出前景與背景之間的遮擋面。



生成的 DW-Mesh 表達能為每一幀提供連續的遮擋 mask,以此確保極端視角下的生成視頻的物理一致性。

  • 模擬 mask 生成策略構建數據集:為解決多視角訓練數據缺乏的問題,EX-4D 提出了 2 種模擬 mask 生成策略。



  • 渲染 mask 關注模擬視角移動下的物體間的遮擋關系。EX-4D 利用 DW-Mesh 表示來模擬新視角下的遮擋關系。通過構建輸入視角的 DW-Mesh,并在給定相機軌跡下渲染來獲得不可見區域的 mask。形態學膨脹可以進一步去除噪聲,滿足更真實的遮擋邏輯。
  • 跟蹤 mask 的則關注保持可見區域的邊緣像素一致,以更貼近推理階段視頻下的真實 mask。EX-4D 使用Cotracker3[3] 模型,通過跟蹤錨點來確保幀間的可見部分一致性,讓訓練數據無限逼近真實場景。

借助這兩種生成策略,無需昂貴多視角采集,僅憑單目視頻就能 “腦補” 全視角數據,破解世界模型訓練的數據困局!

  • 輕量級 LoRA Adapter:EX-4D 基于預訓練的 WAN-2.1 模型,引入 LoRA-based Adapter,來完成 mask video inpainting 任務。基于 LoRA 的 adapter 架構將 DW-Mesh 的幾何先驗信息融入視頻生成過程,在保持計算需求可控的同時,保證了補全視頻的幾何一致性和幀間一致性。

實驗結果:EX-4D 如何定義「極致」

為了展示 EX-4D 在新視角生成的巨大潛力,EX-4D 使用包含 150 個網絡視頻的數據集,并使用 FID、FVD 和VBench[6] 等指標評估模型性能。



在各種視角跨度范圍之內,EX-4D 均全面超越了現有的開源可控視角生成方法。值得關注的是,新輸入視角角度越極端(越偏向 90°),EX-4D 性能優勢越明顯,充分展示了 DW-Mesh 表示在物理一致性保持上的潛力。在 VBench 指標上,EX-4D 在絕大多數指標上取得最高分,進一步展現了強大的綜合生成能力。

此外,EX-4D 還邀請了 50 位志愿者對 EX-4D 和其他開源方法的生成效果進行評分。70.70% 的參與者認為 EX-4D 方法在極端視角下的物理一致性斷層領先。



當已有的開源方法在劇烈視角變化中 “露破綻”(物體穿幫、遮擋錯亂),EX-4D 卻能精確保留高一致性的物體細節。



針對 EX-4D 的充分消融實驗充分論證 EX-4D 中每種策略的有效性。其中 DW-Mesh 表示對性能的提升最大。兩種針對訓練數據的 mask 生成策略對于模型的訓練都至關重要。而 EX-4D 采用的 16 rank 輕量級 LoRA-based Adapter 效率已經足夠高,增加 rank 僅帶來輕微性能提升。



總結與未來展望

定性和定量實驗說明,EX-4D 方法能夠生成高物理一致性、高質量的視頻結果,并且可以廣泛用于小角度偏移到極端視角的各種場景,提升了新視角預測的自由度。后續的視頻可控生成之中,EX-4D 將著眼于提高深度預測的精度,并提高模型推理速度,向更快、更好的可控視頻生成進發,為世界模型助力。

參考文獻

[1] Mark YU, Wenbo Hu, Jinbo Xing, and Ying Shan. Trajectorycrafter: Redirecting camera trajectory for monocular videos via diffusion models, 2025.

[2] Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, and Xingang Pan. Trajectoryattention for fine-grained video motion control. In The Thirteenth International Conference on Learning Representations, 2025.

[3] Nikita Karaev, Iurii Makarov, Jianyuan Wang, Natalia Neverova, Andrea Vedaldi, and Christian Rupprecht. Cotracker3: Simpler and better point tracking by pseudo-labelling real videos. In Proc. arXiv:2410.11831, 2024.

[4] Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, and Ceyuan Yang. Cameractrl: Enabling camera control for text-to-video generation. arXiv preprint arXiv:2404.02101, 2024.

[5] Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, and Di Zhang. Recammaster: Camera-controlled generative rendering from a single video, 2025.

[6] Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, Xinyuan Chen, Limin Wang, Dahua Lin, Yu Qiao, and Ziwei Liu. VBench: Comprehensive benchmark suite for video generative models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊以沖突或步入長期,伊朗方面三大底氣,以色列并不具備

伊以沖突或步入長期,伊朗方面三大底氣,以色列并不具備

李紹先觀察
2025-06-18 14:10:45
特朗普要求伊朗無條件投降,外交部:對當前形勢發展深感擔憂

特朗普要求伊朗無條件投降,外交部:對當前形勢發展深感擔憂

澎湃新聞
2025-06-18 15:44:32
“把套子戴上吧”,考研女孩一句禮貌提醒,卻變成現實版農夫與蛇

“把套子戴上吧”,考研女孩一句禮貌提醒,卻變成現實版農夫與蛇

熙熙說教
2025-06-18 19:43:25
馬莜梅評價汪小菲兩個孩子,稱:他們家孩子都很早熟,不習慣北京

馬莜梅評價汪小菲兩個孩子,稱:他們家孩子都很早熟,不習慣北京

娛樂看阿敞
2025-06-18 15:14:30
老男人玩女人的手段,?讓女人上癮不斷

老男人玩女人的手段,?讓女人上癮不斷

五月的書房
2025-06-19 00:44:05
61歲李國慶被曝將二婚,女方長相優雅漂亮,和前夫育有兩個女兒!

61歲李國慶被曝將二婚,女方長相優雅漂亮,和前夫育有兩個女兒!

古希臘掌管松餅的神
2025-06-18 13:20:52
別誤讀禁酒令!人民網發聲,公職人員正常吃飯喝酒不受限

別誤讀禁酒令!人民網發聲,公職人員正常吃飯喝酒不受限

小嵩
2025-06-18 18:14:11
重磅!史無前例的教育改革終于來了,信息量巨大

重磅!史無前例的教育改革終于來了,信息量巨大

天行艦
2025-06-18 09:59:05
又一勢力痛擊以色列,不到24小時高層遭到暗殺,是誰走漏了風聲?

又一勢力痛擊以色列,不到24小時高層遭到暗殺,是誰走漏了風聲?

博覽歷史
2025-06-17 16:03:51
突發!兩架伊朗政府飛機已離開伊朗,機上人員尚未可知

突發!兩架伊朗政府飛機已離開伊朗,機上人員尚未可知

不掉線電波
2025-06-18 23:08:54
從今天起,可以永遠忘掉618了

從今天起,可以永遠忘掉618了

基本常識
2025-06-18 23:48:16
離婚第三年,李國慶高調再婚,藏著對前妻最狠的報復

離婚第三年,李國慶高調再婚,藏著對前妻最狠的報復

我是愈姑娘
2025-06-18 16:27:48
軍統唯一女將軍:清秀佳人享年 98 歲,孫女成頂流女星家喻戶曉

軍統唯一女將軍:清秀佳人享年 98 歲,孫女成頂流女星家喻戶曉

貓眼觀史
2025-06-18 01:01:29
德國總理驚人發言:“這是以色列為我們所有人在干的臟活兒”

德國總理驚人發言:“這是以色列為我們所有人在干的臟活兒”

參考消息
2025-06-18 12:55:14
建議所有人:做好提前準備!2025年7月起,中國將迎來4個變局

建議所有人:做好提前準備!2025年7月起,中國將迎來4個變局

小談食刻美食
2025-06-18 17:17:40
“與中國劃清界限”,越南通報全球,給美送上三份“重禮”

“與中國劃清界限”,越南通報全球,給美送上三份“重禮”

一個有靈魂的作者
2025-06-18 14:49:22
王毅:以色列無視國際法和國際規則的行徑,造成中東局勢驟然緊張

王毅:以色列無視國際法和國際規則的行徑,造成中東局勢驟然緊張

新京報
2025-06-18 22:18:03
軍事介入還是外交解決?白宮戰情室結束討論,特朗普或48小時內做選擇

軍事介入還是外交解決?白宮戰情室結束討論,特朗普或48小時內做選擇

紅星新聞
2025-06-18 16:04:50
618當天部分商品不降價反漲價,大促從狂歡走向博弈

618當天部分商品不降價反漲價,大促從狂歡走向博弈

第一財經資訊
2025-06-18 20:03:10
中國女子遠嫁伊朗,沖突升級連夜回國,黑歷史卻被扒,曾詆毀同胞

中國女子遠嫁伊朗,沖突升級連夜回國,黑歷史卻被扒,曾詆毀同胞

阿纂看事
2025-06-18 15:30:15
2025-06-19 03:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10671文章數 142339關注度
往期回顧 全部

科技要聞

別叫我互聯網公司,京東的野心藏不住了

頭條要聞

男子4S店買法拉利3年提不了車 店方:想退款先幫忙賣車

頭條要聞

男子4S店買法拉利3年提不了車 店方:想退款先幫忙賣車

體育要聞

36歲鄧卓翔率隊9輪拿17分 從墊底升第9

娛樂要聞

前老板舉報李雪琴欠190萬轉移公司財產

財經要聞

被爆添加毒原料后相宜本草高管先后出走

汽車要聞

燈光技術升級還有插混版本 全新奧迪Q3預計明年國產

態度原創

親子
家居
數碼
旅游
教育

親子要聞

爸爸問3歲兒子:你長大想當什么?孩子的回答真搞笑

家居要聞

溫暖明亮 三代同堂之家

數碼要聞

盧偉冰:期待將來和海爾、美的成為大家電頭部企業,共推行業發展

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

AI填志愿神器來了!輕松打破信息差,填出你的專屬完美志愿

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 崇礼县| 永清县| 泸西县| 定远县| 富裕县| 金华市| 姜堰市| 唐山市| 密云县| 建宁县| 陵川县| 盐源县| 中宁县| 博白县| 临汾市| 安义县| 蕉岭县| 定日县| 北川| 河北省| 余江县| 达州市| 榆中县| 屏边| 柳河县| 云和县| 景德镇市| 竹山县| 陆川县| 鹤峰县| 读书| 西藏| 页游| 潼关县| 安龙县| 龙川县| 宁化县| 汽车| 乐都县| 理塘县| 峨眉山市|