在構建通用人工智能、世界模型、具身智能等關鍵技術的競賽中,一個能力正變得愈發核心 ——高質量的 3D 場景生成。過去三年,該領域的研究呈指數級增長,每年論文數量幾乎翻倍,反映出其在多模態理解、機器人、自動駕駛乃至虛擬現實系統中的關鍵地位。
注:圖中 2025 年的數據截至 4 月底
來自南洋理工大學 S-Lab 的研究者們全面調研了該領域最前沿的研究方法,發表了綜述《3D Scene Generation: A Survey》,對 300+ 篇代表性論文進行了系統歸納,將現有方法劃分為四大類:程序化方法、基于神經網絡的 3D 表示生成、圖像驅動生成,以及視頻驅動生成。該綜述還總結了 3D 場景生成在多個關鍵下游任務中的應用,包括 3D 場景編輯、人-場景交互、具身智能、機器人、自動駕駛等,并深入探討了挑戰與未來方向。
- 論文標題:3D Scene Generation: A Survey
- 論文鏈接:https://arxiv.org/abs/2505.05474
- 精選列表:https://github.com/hzxie/Awesome-3D-Scene-Generation
技術路線
四大生成范式全面解析
早期的 3D 場景生成工作主要通過程序化生成實現。自 2021 年以來,隨著生成式模型(尤其是擴散模型)的崛起,以及 NeRF、3D Gaussians 等新型 3D 表征的提出,該領域進入爆發式增長階段。方法日益多元,場景建模能力持續提升,也推動了研究論文數量的快速上升。這一趨勢凸顯出對對該領域進行系統化梳理與全面評估的迫切需求。
在本綜述中,研究團隊構建了一套系統的技術分類體系,將現有 3D 場景生成方法劃分為四大主流范式,每類方法均結合代表性工作進行了深入梳理。
這四大范式為 3D 場景生成構建了清晰的技術路線,研究者還進一步對比了它們在多個維度下的性能指標,包括真實感、多樣性、視角一致性、語義一致性、效率、可控性以及物理真實性。揭示了不同方法在可控性、真實性、效率與一致性之間的權衡。
程序化場景生成(Procedural Generation)
這類方法通過預定義的規則、物理或空間約束或借助大語言模型(LLMs)的先驗知識,自動構建復雜的三維環境,如地形、建筑、道路、房間乃至整座城市。由于其良好的空間一致性,程序生成方法廣泛應用于游戲和圖形引擎中。根據具體范式,該類方法可進一步細分為:
- 基于規則的生成:通過預定義的算法或模擬過程進行生成;常用于地形或自然環境的生成;
- 基于約束優化的生成:通過物理規則、場景設計規則等約束設計目標函數,優化得到場景;常用于室內場景的生成;
- 大語言模型輔助生成:借助 LLM 生成場景布局,或作為智能體生成代碼,控制程序化生成工具(如 Blender)進行生成。
基于神經網絡的 3D 表征生成(Neural 3D-based Generation)
此類方法直接在三維空間中進行建模,生成 3D 場景的結構化布局(場景圖、場景參數)或直接生成 3D 表征(點云、體素、網格、NeRF、3D 高斯等),具備強大的三維理解與表達能力。根據場景布局,可將其進一步分為:
- 參數控制:通過顯式場景參數(如物體位置、方向、大小、幾何 Embedding)控制場景布局,通過物體提取或物體生成完善細節;
- 圖結構表示:使用場景圖表達實體及其關系,通過物體提取或物體生成完善細節;
- 語義布局:通過二維或三維語義圖提供布局,控制生成;
- 隱式布局:通過隱式布局控制場景布局,端到端學習生成空間結構和外觀。
基于圖像的生成(Image-based Generation)
圖像生成技術的迅猛發展為 3D 場景建模帶來了新的可能。該類方法以 2D 圖像生成模型為基礎,生成多視角圖像后重建出場景的三維結構。它主要包括兩種策略:
- 整體生成:一次性生成完整場景視圖,通常表現為全景圖。
- 迭代生成:逐步擴展場景視野,生成圖像序列。通常通過深度估計方法獲取顯式 3D 表征來保證一致性。
基于視頻的生成(Video-based Generation)
將 3D 場景視為時間序列展開的圖像序列,視頻生成范式融合了空間建模與時間一致性。借助視頻擴散模型等新技術,這類方法能夠合成帶有視角移動或動態演化的沉浸式場景。根據生成流程的不同,可劃分為:
- 一階段方法:端到端生成視頻,聯合建模時間與空間信息。
- 兩階段方法:通過兩階段進行視頻生成,分別控制場景的時間連續性與空間一致性。
當前面臨的四大挑戰
盡管 3D 場景生成取得了令人矚目的進展,但距離真正 “可控、高保真、物理真實” 的三維世界建模仍有不小的鴻溝。
- 生成能力仍不均衡:目前不同方法各有擅長,程序化生成與神經 3D 方法擅長結構建模與空間控制,但難以實現真實的紋理與光照;圖像和視頻生成技術視覺效果逼真,但在保持空間一致性方面往往表現不佳,容易出現幾何扭曲等問題。
- 3D 表征仍待改善:3D 表征形式持續演化,但在表達力、效率等方面各有短板。近年來,3D Gaussians 等新表征形式在效率方面取得進展,但不具備良好的物理支撐。如何構建既緊湊、高效,又具備物理意義和視覺真實感的場景級 3D 表征,仍是當前亟待突破的難題。
- 高質量數據仍是瓶頸:現有數據集兩極分化,合成數據標注精細但缺乏多樣性與真實感;真實世界掃描數據逼真卻缺乏準確的結構語義信息。此外,現有數據很少包含物理屬性、材質屬性或交互信息,難以支撐物理真實的場景生成,進而支持機器人學習、具身智能等任務需求。
- 評估缺乏統一標準:目前評價指標分散,常依賴各自定義的視覺或幾何指標,缺乏統一且兼具主觀與客觀的評估體系。近期出現的 Benchmark 主要關注圖像或視頻的評估,缺乏直接的對 3D 屬性的評估,而如 Eval3D 等 3D Benchmark 局限于物體級建模,對完整場景的評估支持有限。
未來的四大發展方向
- 更高保真的生成:未來的 3D 生成模型應能同時在幾何、紋理、光照和多視角一致性上做到協調統一,包括同時關注結構與外觀,提升材質與光照建模質量、提升空間一致性、捕捉陰影、遮擋等細節場景要素。真正的場景級高保真還要求局部細節與全局空間和語義布局緊密協同,生成高真實度與沉浸感的 3D 場景。
- 引入物理約束:盡管目前的生成方法在視覺效果上已有顯著進展,但往往忽略了物理真實性,例如物體的擺放、移動是否符合真實世界的物理規律。未來的研究應將物理先驗、約束或模擬機制引入生成過程,以保證結果在結構、語義和物理行為上的一致性。例如,可借助可微分物理模擬器等手段引入物理反饋。這一方向對于需要在物理一致的環境中進行決策與控制的應用尤為關鍵,如具身智能和機器人等。
- 支持交互的場景生成:隨著 4D 場景生成的發展,當前方法已經能夠生成帶有可移動物體的動態環境。然而目前的大多數場景生成仍缺乏響應能力,無法根據用戶輸入或環境變化做出反饋。交互式場景生成不僅要求實現 “被動式” 的動態,更能在物理交互、用戶指令或環境條件變化下作出合理響應。這將要求模型具備理解物體可用性、因果關系以及多智能體之間的交互邏輯。
- 感知-生成一體化:統一感知與生成能力,是下一代 3D 場景建模體系的一個重要發展方向。分割、重建、生成等任務本質上都依賴相同的空間與語義先驗信息,未來可通過統一架構實現雙向能力:既利用感知能力提升生成的準確性,也通過生成能力增強對場景的理解。這類模型可作為通用的 “感知-生成” 主干網絡,為具身智能體提供一體化的視覺、語言與 3D 空間推理能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.