文/ YZX&WSQ
引言:最近什么讓VR圈沸騰?不是Vision Pro上新,也不是Meta的元宇宙裁員潮,而是“體積視頻技術”讓大眾看到了元宇宙的曙光。一秒穿越!留住時空的技術已經來了?
當Meta用天價堆砌「元宇宙」卻困在卡通畫風,當Vision Pro用戶為3-DoF的“電子櫥窗”眩暈買單,當影視巨頭砸千萬搭建穹頂攝影棚卻只能產出“人像手辦”……我們猛然發現——沒有高保真體積視頻的元宇宙,不過是高清版的《我的世界》。
今天為大家帶來清華大學-咪咕團隊發表于CVPR 2025的最新工作《ImViD:ImmersiveVolumetric Videosfor Enhanced VR Engagement》。作者用360°真實光場+多模態6-DoF自由漫游,將VR體驗從“隔著玻璃看展”推向“穿越時空的在場感”。
背景與挑戰:我們距離高逼真的數字世界還有多遠?
隨著Meta Quest和Apple Vision Pro等VR頭顯的興起,人們對沉浸式體驗的需求愈發強烈。然而,傳統2D視頻或靜態3D模型始終難以突破“真實感”的桎梏,最新的技術也面臨著“形似神離”的困境:
●2019年Google提出沉浸式光場(Immersive Light Field),雖支持6-DoF交互,但受限于固定機位的拍攝方式,僅覆蓋場景的正面視角,交互范圍有限,且缺乏多模態數據;
●2022年 Apple提出沉浸式視頻(Immersive Video),雖以高分辨率和環繞式立體聲著稱,但僅提供3-DoF的觀看體驗,缺少空間位置的交互自由度。此外,這種呈現方式無法提供真實場景的深度感知,導致視覺系統與前庭感知的沖突,用戶在長時間觀看后易產生眩暈和疲勞;
●2024年 Infinite Reality推出的空間捕獲技術(Spatial Capture),通過穹頂式“由外向內(Outside-looking-in)”的采集方案實現了高分辨率、高真實感的動態場景建模。然而,受限于封閉式硬件架構,僅能針對狹小空間內以人或物體為中心的局部場景進行捕捉,缺乏復雜背景細節與自然光照,且設備部署復雜、成本高昂,難以拓展至開放環境或大規模商業應用。
沉浸式媒體形式的分類及發展方向示意圖:體積視頻是順應時代信息升維的產物,有望成為未來的主流媒體形式。
如何打破瓶頸?
清華-咪咕團隊聯合推出“沉浸式體積視頻(Immersive Volumetric Video)”概念,從四個維度突破傳統體積視頻的局限:
1.全視角:360°真實場景。團隊實現動態前景+復雜背景完整覆蓋,突破固定空間拍攝限制;
2.大空間:大范圍6-DoF交互。可移動拍攝車擴大采集范圍,支持用戶六自由度自由探索每一處細節;
3.多模態:光聲同步采集。5K@60FPS視頻+同步音頻采集,高保真光聲場融合重建,視聽反饋隨動無延遲;
4.長時長:長時間高幀率內容。1-5分鐘高清動態光場內容告別“片段式”體驗!
該工作構建了一套完整的生產管線:從系統搭建、采集策略設計、光/聲場融合重建,到最終高保真實時渲染交互。為下一代 VR 沉浸內容提供基準數據與方法參考。
相關成果發表于國際計算機視覺頂級會議IEEE CVPR 2025并入選為Highlight(亮點工作)。
[CVPR 2025 Highlight] ImViD:Immersive Volumetric Videos for Enhanced VR Engagement
核心貢獻:ImViD——沉浸式體積視頻全流程制作管線
ImViD沉浸式體積視頻構建方法總覽:采集 - 預處理 - 光場重建 -
團隊推出全球首個面向大空間的多模態體積視頻數據集ImViD以支持用戶可自由移動的完全沉浸式體驗,為體積視頻的研究和應用提供了新的路徑:
●硬件革新:自搭建46臺GoPro相機陣列+可移動拍攝車,模擬人類視角的觀看習慣,高效高密度覆蓋采集空間;
●數據規模:7大開放世界真實室內外場景(歌劇、會議、教學等),5K分辨率+60FPS,總時長超38分鐘,13萬幀;
●動態捕捉:支持靜態定點與動態移動雙模式拍攝,首次實現“邊走邊拍”的多視角高密度時空光場采集;
●開放挑戰:所有動態場景數據公開,推動沉浸式體積視頻算法與應用突破!
ImViD系統搭建與數據采集
團隊設計并搭建了一個可遠程控制的移動式平臺,搭載 46 臺GoPro 攝像機同步觸發,可實現高效光、聲場采集:
數據采集方案:可移動式平臺 + 多種拍攝模式
- 多視角同步音視頻采集(分辨率 5312×2988, 60FPS, 1-5 min);
- 定點采集 + 移動軌跡拍攝模式(支持背景重建與動態前景追蹤);
- 毫米級相機陣列時間同步機制。
數據集內容與參數指標展示
數據集中包括了各式各樣的生活常見室內外動態場景,具有豐富的前背景,涵蓋了慢速運動和快速運動的內容,對當前重建算法提出了更高的要求,能進一步挖掘算法的瓶頸,促進社區的進步。
ImViD光聲場融合重建
動態光場重建:
作者在 Spacetime Gaussian (STG) 的基礎上,提出了時空一致性更強的改進方法 STG++,解決了原方法在動態場景下的漂移與色差問題。
為了消除多相機之間的色彩差異,STG++ 為每個相機引入仿射顏色變換:
該變換在渲染損失中被聯合優化,以確保多視角顏色對齊。此外,作者還在重建過程中對時間維度執行了致密化操作,讓高斯在時間維度上也可控。
自由聲場重建:
作者提出一種不依賴神經網絡訓練的幾何驅動聲場建模方法,基于 HRTF(頭相關傳遞函數)和 RIR(房間脈沖響應)進行空間音頻渲染。具體步驟如下:
(1)聲源定位:通過麥克風陣列獲取聲源位置與用戶耳朵位置;
(2)距離衰減建模:計算聲源到用戶耳朵的距離衰減;
(3)空間音頻渲染:基于 HRTF 和 RIR 進行空間音頻渲染。
從多個同步相機采集的音視頻數據構建聲場的方案在國內外鮮有團隊嘗試,但這類采集方式非常貼近人們日常拍攝生活場景的習慣,因此該團隊提出的方案具有極大的推廣價值。
實驗結果:STG++領跑,聲場融合,沉浸感拉滿!
●光場重建:改進算法STG++以31.24 PSNR、110 FPS刷新性能,解決色彩閃爍與運動斷層難題;
論文結果展示(一)
●聲場合成:用戶研究顯示,61.9%專家認為空間音頻感知“優秀”,90%認可沉浸感;
論文結果展示(二)
●實時交互:單卡3090實現6-DoF多模態VR體驗,60FPS絲滑渲染,視聽反饋隨動無延遲!
論文結果展示(三)
未來展望:打開數字孿生與元宇宙的大門
ImViD不僅為學術界提供全新基準,更在影視、教育、醫療等領域展現潛力:
●動態光場重建:推動長時復雜場景的高效建模;
●聲場合成:無需訓練數據,支持移動聲源定位,非常適合日常記錄(Causal Capture);
●產業落地:助力智慧醫療、教育、遠程協作,智慧文旅如虛擬演唱會、景點游覽等應用場景。同時將支持移動端交互渲染,讓4D視頻具有更多可能。
項目主頁:
https://yzxqh.github.io/ImViD/
論文地址:
https://arxiv.org/pdf/2503.14359
論文/代碼/數據:全面開源,歡迎挑戰!(持續更新中)
致謝:本研究獲國家重點研發計劃、國家自然科學基金、清華-咪咕智能光場與交互技術聯合研究中心和北京市光場共性技術平臺支持。
*聲明:企業通稿非VR陀螺官方稿,法律問題一律與VR陀螺無關。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.