99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

零訓練實現3D場景生成SOTA:英偉達&康奈爾提出文本驅動新流程

0
分享至



本文第一作者顧澤琪是康奈爾大學計算機科學四年級博士生,導師為 Abe Davis 教授和 Noah Snavely 教授,研究方向專注于生成式 AI 與多模態大模型。本項目為作者在英偉達實習期間完成的工作。

想象一下,你是一位游戲設計師,正在為一個奇幻 RPG 游戲搭建場景。你需要創建一個 "精靈族樹屋村落"—— 參天古木和樹屋、發光的蘑菇路燈、半透明的紗幔帳篷... 傳統工作流程中,這可能需要數周時間:先手工建模每個 3D 資產,再逐個調整位置和材質,最后反復測試光照效果…… 總之就是一個字,難。

這種困境正是當前 3D 內容創作領域的縮影。傳統 3D 設計軟件如 Blender、Maya 雖然功能強大,但學習曲線陡峭。近年來興起的文本生成 3D 技術讓用戶可以通過文字描述生成 3D 內容,但這些方法要么依賴有限的 3D 訓練數據,遇到新場景類型或風格就容易翻車,要么在預測完場景中的物體信息后,要從特定的 3D 模型池中尋找并調用出與預測特征最相近的,因此最后的場景質量非常依賴于模型池中到底有什么,很容易導致風格不統一。

與此同時,文本生成 2D 圖像技術(如 GPT-4o、Flux)卻突飛猛進。這些模型通過海量互聯網圖像訓練,已經能生成布局合理、風格統一的復雜場景圖。這引發了一個關鍵思考:能否讓 2D 圖像充當 "中間商",先把用戶輸入文字轉化為高質量場景圖,再從中提取 3D 信息?NVIDIA 與康奈爾大學聯合團隊的最新研究 ArtiScene,正是基于這一 insight 提出的全新解決方案。



  • 文章鏈接:https://arxiv.org/abs/2506.00742
  • 文章網站:https://artiscene-cvpr.github.io/(代碼即將開源)
  • 英偉達網站:https://research.nvidia.com/labs/dir/artiscene/



圖一:ArtiScene 生成的 3D 結果。從左到右的文字輸入分別是,第一行:(1) a Barbie-styled clinic room, (2) a space-styled bedroom, (3) a teenager-styled bathroom。第二行:(1) a cute living room, (2) a garage, (3) a operating room.

核心貢獻:無需訓練的智能 3D 場景工廠

ArtiScene 的核心創新在于構建了一個完全無需額外訓練的自動化流水線,將文本生成圖像的前沿能力與 3D 重建技術巧妙結合。它一共包含五步:

1. 2D 圖像作為 "設計藍圖"

系統首先用擴散模型生成等軸測視角的場景圖。這種視角常用于建筑設計示意圖,因為它能同時呈現物體的長、寬、高信息,且不受場景位置影響。相比直接生成 3D,這種方法能利用更成熟的 2D 生成技術確保布局合理性和視覺美感。



圖二:和其他任意的相機視角(左二、三)比,讓文生圖模型輸出等軸測圖(左一)更可靠,因為等軸測圖默認相機參數是固定的,且沒有透視形變。

2. 物體檢測與修復

采用兩階段檢測策略:先用 GroundedDINO 識別場景中的家具和裝飾品,對遮擋部分用補全修復(Remove Anything 模型),再次檢測確保完整性,最后得到每個物品的分割掩碼。

3. 3D 空間定位

通過 Depth-Anything-2 模型估計深度信息,配合自定義投影公式將 2D 坐標轉換為 3D 位置。團隊發現傳統相機投影公式需要調整,于是采用去除深度縮放影響后的公式。

4. 模塊化 3D 資產生成

傳統方法通常從現有數據庫檢索 3D 模型,導致美觀度受限。ArtiScene 則對場景圖中的每個物體分別生成定制化 3D 模型:在得到分割物體圖像后,讓 ChatGPT 描述其幾何特征,再輸入單視圖 3D 生成模型,為每件家具、裝飾品單獨建模。

5. 場景組裝

通過單目深度估計,系統將 2D 邊界框轉換為 3D 空間坐標。并使用 "渲染 - 比對" 的姿勢估測機制,生成 8 個旋轉角度的物體渲染圖,用 Stable Diffusion+DINO-v2 融合模型提取特征,選擇與原始場景圖最匹配的姿勢。后處理階段還會自動修正物體重疊,確保物理上足夠合理,比如椅子不會嵌進餐桌里,花瓶能穩穩立在柜子上。



圖三:系統流程圖

這種設計帶來三個顯著優勢:

零訓練成本:完全利用現成模型,無需針對新場景類型微調

風格無限:每個物體都按需生成,不受預制模型庫限制

可編輯性強:單獨修改某個物體不會影響整體場景

實驗結果:全面超越現有方案

團隊在三個維度進行了系統評估:

1. 布局合理性測試

對比當時最強的 LayoutGPT,在臥室和客廳場景中:

  • 物體重疊率降低 6-10 倍(臥室 6.48% vs 37.26%)
  • 用戶調研顯示,72.58% 的參與者更青睞 ArtiScene 的布局
  • 生成家具數量更多(臥室平均 6.97 件 vs 4.30 件),且分布更自然

2. 風格一致性測試

相比當時效果最好的文生 3D 場景方法 Holodeck,在包含 29 種場景種類和風格的測試集中:

  • CLIP 分數提高 10%(29.45 vs 26.73)
  • GPT-4 評估中,95.46% 案例認為 ArtiScene 更符合描述
  • 用戶調研顯示,82.96% 認為風格還原更準確



圖四:和之前的 SOTA Holodeck 的比較。

3. 應用靈活性展示

系統支持多種實用功能:

  • 物體編輯:單獨修改某個模型(如把普通汽車變成黃色保時捷)
  • 多場景適配:通過調整參數支持戶外場景生成
  • 人工引導:允許直接輸入手繪設計圖替代 AI 生成場景圖



圖五:左:物體編輯;右:跳過最開始的文生圖環節,直接用人工畫的圖生成場景。

展望

對于更復雜的多房間場景(如整個博物館、醫院),或者要求特定家具間的位置關系和個數等用戶輸入,由于文生圖模型在訓練時就缺乏相關數據,ArtiScene 在最開始就會受限于不夠優質的二維圖像。然而,這一模塊是可更換的,ArtiScene 不依賴于某一特定模型,未來如果有性能更好的同功能模型,我們也可以很容易把它們替換進來。

本項目創新地采用二維圖像來引導三維場景生成,并用 LLM、VLM 等大模型構成了一個魯棒的系統,在生成結果的美觀度、多樣性和物理合理性上都遠超之前的同類型方法。作者希望他們的工作可以啟發未來更多關于具身智能、AR/VR、室內 / 室外設計的思考。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
前利物浦球員卡里烏斯妻子在世俱杯大放異彩,并采訪因凡蒂諾

前利物浦球員卡里烏斯妻子在世俱杯大放異彩,并采訪因凡蒂諾

懂球帝
2025-06-15 18:54:15
現場火藥味十足!網傳武漢一車主將車停在鄰居門口,被用砌磚圍住

現場火藥味十足!網傳武漢一車主將車停在鄰居門口,被用砌磚圍住

火山詩話
2025-06-15 18:24:29
伊朗重創特拉維夫,以色列國防軍表示:世界不能對此保持沉默

伊朗重創特拉維夫,以色列國防軍表示:世界不能對此保持沉默

三叔的裝備空間
2025-06-14 13:14:13
全美震驚!明尼蘇達州眾議員遭暗殺滅門,幾天前剛投票取消非法移民免費醫保

全美震驚!明尼蘇達州眾議員遭暗殺滅門,幾天前剛投票取消非法移民免費醫保

大洛杉磯LA
2025-06-15 02:26:16
99.75%的超高贊成率同意修改越南憲法

99.75%的超高贊成率同意修改越南憲法

李東海評論
2025-06-15 00:06:32
萬萬沒想到!讓代駕失業的竟然是禁酒令,還是受傷最嚴重的那一個

萬萬沒想到!讓代駕失業的竟然是禁酒令,還是受傷最嚴重的那一個

火山詩話
2025-06-14 17:10:25
國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

小嵩
2025-06-14 08:49:51
江蘇女子嫁非洲16年沒回家,母親退休后去看望,見到女婿后愣在原地

江蘇女子嫁非洲16年沒回家,母親退休后去看望,見到女婿后愣在原地

黃家湖的憂傷
2025-06-10 17:46:33
Shams:灰熊將貝恩送至魔術,得到科爾-安東尼+波普+四首輪一互換

Shams:灰熊將貝恩送至魔術,得到科爾-安東尼+波普+四首輪一互換

懂球帝
2025-06-15 23:43:23
新聞圖直出的美貌…

新聞圖直出的美貌…

阿廢冷眼觀察所
2025-06-14 01:19:01
美國閱兵成全球笑柄:特朗普面癱指揮,士兵比天氣還陰沉

美國閱兵成全球笑柄:特朗普面癱指揮,士兵比天氣還陰沉

文雅筆墨
2025-06-15 17:05:57
李曉霞一家近照,退役越來越美,在大學當教授,嫁普通人幸福美滿

李曉霞一家近照,退役越來越美,在大學當教授,嫁普通人幸福美滿

大西體育
2025-06-13 15:47:45
爾冬升女友曬全家福被罵!破防刪評惹群嘲,一家三口同框像三代人

爾冬升女友曬全家福被罵!破防刪評惹群嘲,一家三口同框像三代人

萌神木木
2025-06-15 15:15:20
伊朗出賣過孟晚舟,拖欠過數億倉儲費,還要硬搶中國四千億美元

伊朗出賣過孟晚舟,拖欠過數億倉儲費,還要硬搶中國四千億美元

老土歷史
2025-06-15 17:04:24
浙江一家公司上市失敗,員工超4000人,年營收超22億元!

浙江一家公司上市失敗,員工超4000人,年營收超22億元!

胡華成
2025-06-15 16:25:11
絕了,想去利物浦復仇曼城!德布勞內不裝了,瓜帥無情,不愿和解

絕了,想去利物浦復仇曼城!德布勞內不裝了,瓜帥無情,不愿和解

阿泰希特
2025-06-15 11:26:32
19天套現13.7萬!多地國補緊急叫停,萬億補貼究竟肥了誰?

19天套現13.7萬!多地國補緊急叫停,萬億補貼究竟肥了誰?

任紀煙
2025-06-14 21:28:20
馬筱梅聽勸,父親節出游穿衣打扮顯樸素,與玥兒箖箖同框顯溫馨

馬筱梅聽勸,父親節出游穿衣打扮顯樸素,與玥兒箖箖同框顯溫馨

深析古今
2025-06-15 20:44:46
58歲109天,三浦知良今日再次刷新日本職業足壇登場記錄

58歲109天,三浦知良今日再次刷新日本職業足壇登場記錄

懂球帝
2025-06-15 17:08:08
剛剛!中東,集體暴跌!重大金融政策,將發布!國常會,最新定調!央行重要操作……影響一周市場的十大消息

剛剛!中東,集體暴跌!重大金融政策,將發布!國常會,最新定調!央行重要操作……影響一周市場的十大消息

證券時報
2025-06-15 19:04:13
2025-06-15 23:55:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142339關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

女洞穴潛水員失聯23天遺體被找到 其潛友送醫后身亡

頭條要聞

女洞穴潛水員失聯23天遺體被找到 其潛友送醫后身亡

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網友

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

一汽豐田bZ5:試圖掀桌的“合資新力量”王牌

態度原創

健康
本地
藝術
時尚
手機

呼吸科專家破解呼吸道九大謠言!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

林徽因嫁給梁思成,一半原因在他?

手機要聞

羅巍建議榮耀400系列手機用戶不貼鏡頭膜:影響拍照效果,還會導致雜音

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 泉州市| 红河县| 临朐县| 阜城县| 拉萨市| 宁蒗| 衡南县| 山阳县| 汤原县| 扎赉特旗| 莲花县| 清丰县| 信宜市| 汾阳市| 隆尧县| 沙田区| 杂多县| 西乌珠穆沁旗| 康保县| 白山市| 环江| 曲阳县| 阿瓦提县| 宜兰县| 平昌县| 昌乐县| 石景山区| 二手房| 海口市| 合肥市| 张家口市| 晴隆县| 阳信县| 文安县| 榆社县| 临澧县| 饶阳县| 邹城市| 铜陵市| 若羌县| 平舆县|