這項(xiàng)由地平線機(jī)器人公司聯(lián)合GigaAI、3D-Robotics、上海交通大學(xué)和南開(kāi)大學(xué)多家機(jī)構(gòu)的研究團(tuán)隊(duì)共同完成的突破性研究,發(fā)表于2025年6月12日的arXiv平臺(tái)(論文編號(hào):arXiv:2506.10600v1)。有興趣深入了解的讀者可以通過(guò)https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html訪問(wèn)完整的研究成果和開(kāi)源代碼。
想象一下,如果我們能像搭積木一樣輕松地創(chuàng)建一個(gè)完整的3D虛擬世界,讓機(jī)器人在其中自由學(xué)習(xí)和訓(xùn)練,這會(huì)是什么樣的體驗(yàn)?過(guò)去,為機(jī)器人創(chuàng)建訓(xùn)練環(huán)境就像手工雕刻藝術(shù)品一樣費(fèi)時(shí)費(fèi)力,每一個(gè)物體、每一個(gè)場(chǎng)景都需要專(zhuān)業(yè)的3D建模師花費(fèi)大量時(shí)間精心制作。這種傳統(tǒng)方式不僅成本高昂,而且創(chuàng)造出的虛擬世界往往缺乏真實(shí)感,就像是用紙板搭建的電影布景,看起來(lái)華麗卻經(jīng)不起推敲。
研究團(tuán)隊(duì)深知這個(gè)痛點(diǎn),他們意識(shí)到機(jī)器人要想在真實(shí)世界中表現(xiàn)出色,就必須在足夠逼真的虛擬環(huán)境中接受訓(xùn)練。這就像飛行員需要在精密的飛行模擬器中練習(xí)一樣,虛擬訓(xùn)練環(huán)境的真實(shí)程度直接影響著機(jī)器人在現(xiàn)實(shí)世界中的表現(xiàn)。因此,他們開(kāi)發(fā)出了一套名為"EmbodiedGen"的革命性工具包,這個(gè)工具包就像是為機(jī)器人世界量身定制的"造物主工具箱"。
EmbodiedGen的神奇之處在于,它能夠像變魔術(shù)一樣,僅憑一張照片或一段文字描述,就生成出具有真實(shí)物理屬性的3D物體和完整場(chǎng)景。這些生成的3D資產(chǎn)不僅外觀逼真,更重要的是它們具備了準(zhǔn)確的物理特性——重量、摩擦系數(shù)、真實(shí)尺寸等一應(yīng)俱全,就像是將現(xiàn)實(shí)世界的物體完美復(fù)制到了虛擬空間中。研究團(tuán)隊(duì)特別注重這些虛擬物體的"水密性",也就是說(shuō)生成的3D模型在幾何結(jié)構(gòu)上完全閉合,沒(méi)有任何縫隙或漏洞,這樣在物理仿真時(shí)才能產(chǎn)生準(zhǔn)確的碰撞檢測(cè)和交互效果。
這項(xiàng)研究的創(chuàng)新性體現(xiàn)在它的全方位覆蓋能力上。EmbodiedGen不僅能生成靜態(tài)物體,還能創(chuàng)造出可活動(dòng)的關(guān)節(jié)物體,比如可以開(kāi)關(guān)的抽屜、可以轉(zhuǎn)動(dòng)的門(mén)把手等等。這些關(guān)節(jié)物體在機(jī)器人學(xué)習(xí)抓取和操作技能時(shí)至關(guān)重要,就像人類(lèi)學(xué)習(xí)使用工具時(shí)需要了解工具的運(yùn)作機(jī)制一樣。更令人驚喜的是,這套工具還能生成風(fēng)格多樣的背景場(chǎng)景,從溫馨的客廳到現(xiàn)代化的廚房,從辦公室到戶(hù)外環(huán)境,為機(jī)器人提供了豐富多樣的訓(xùn)練場(chǎng)所。
在紋理生成方面,EmbodiedGen表現(xiàn)得尤為出色。它不僅能為3D物體添加逼真的表面材質(zhì),還能根據(jù)用戶(hù)需求進(jìn)行個(gè)性化編輯。想象一下,你可以輕松地將一個(gè)普通的機(jī)器人模型換上不同顏色的外殼,或者給它添加各種標(biāo)識(shí)和圖案,這種靈活性為機(jī)器人訓(xùn)練提供了無(wú)限可能。
研究團(tuán)隊(duì)還特別考慮到了實(shí)用性問(wèn)題。生成的所有3D資產(chǎn)都采用了統(tǒng)一機(jī)器人描述格式(URDF),這意味著它們可以無(wú)縫導(dǎo)入到各種主流物理仿真引擎中,包括OpenAI Gym、Isaac Lab、MuJoCo和SAPIEN等。這就像是為不同品牌的游戲機(jī)開(kāi)發(fā)了通用的游戲卡帶,確保兼容性和易用性。
一、從圖片到3D世界:讓靜止的照片活起來(lái)
當(dāng)我們看到一張桌子的照片時(shí),大腦會(huì)自動(dòng)補(bǔ)全我們看不到的背面、估算它的重量、想象它的材質(zhì)觸感。EmbodiedGen的圖片轉(zhuǎn)3D模塊就具備了類(lèi)似的"想象力",但它的表現(xiàn)甚至超越了人類(lèi)的直覺(jué)判斷。
這個(gè)過(guò)程就像是一位經(jīng)驗(yàn)豐富的古董鑒定師,僅憑一張照片就能準(zhǔn)確判斷出古董的年代、材質(zhì)、價(jià)值,甚至能描述出照片中看不到的細(xì)節(jié)。研究團(tuán)隊(duì)選擇了Trellis模型作為核心引擎,這個(gè)模型在3D幾何生成方面表現(xiàn)卓越,能夠同時(shí)產(chǎn)生網(wǎng)格格式和3D高斯點(diǎn)云格式的雙重表示。
然而,直接使用現(xiàn)有模型會(huì)遇到一些"水土不服"的問(wèn)題。原始的Trellis模型雖然在幾何重建方面表現(xiàn)優(yōu)異,但生成的紋理質(zhì)量卻差強(qiáng)人意,特別是存在過(guò)度高光的問(wèn)題,就像是在強(qiáng)烈陽(yáng)光下拍攝的照片,到處都是刺眼的反光。更關(guān)鍵的是,這些生成的3D模型缺乏真實(shí)世界的物理屬性,就像是精美的塑料模型,雖然好看但無(wú)法用于實(shí)際的物理仿真。
為了解決這些問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一套完整的"數(shù)字孿生"流水線。這個(gè)流水線的第一步是物理屬性恢復(fù),就像是為虛擬物體注入"靈魂"。他們使用GPT-4o和Qwen等大型語(yǔ)言模型構(gòu)建了一個(gè)"物理專(zhuān)家代理",這個(gè)AI專(zhuān)家就像是一位博學(xué)的物理學(xué)家,能夠通過(guò)觀察物體的外觀來(lái)推斷其物理特性。
具體來(lái)說(shuō),這個(gè)物理專(zhuān)家首先會(huì)估算物體的真實(shí)高度。它通過(guò)渲染物體的正面視圖,結(jié)合文字提示的約束條件,來(lái)判斷物體在現(xiàn)實(shí)世界中的實(shí)際尺寸。由于物體的長(zhǎng)、寬、高是相互關(guān)聯(lián)的,一旦確定了高度,就能準(zhǔn)確恢復(fù)整個(gè)3D模型的真實(shí)尺寸。對(duì)于那些尺寸存在歧義的物體,比如一只老虎(可能是玩具老虎,也可能是真正的老虎),系統(tǒng)提供了文字引導(dǎo)的物理屬性恢復(fù)接口,用戶(hù)可以通過(guò)添加上下文信息來(lái)獲得更準(zhǔn)確的尺寸預(yù)測(cè)。
在獲得四個(gè)正交視圖的渲染圖像后,物理專(zhuān)家代理還能進(jìn)一步估算物體的摩擦系數(shù)和質(zhì)量,為其關(guān)聯(lián)語(yǔ)義描述,并進(jìn)行合適的分類(lèi)。這就像是一位經(jīng)驗(yàn)豐富的工程師,能夠通過(guò)觀察就判斷出材料的特性和用途。
二、質(zhì)量把關(guān):讓AI成為挑剔的藝術(shù)評(píng)論家
為了確保生成的3D資產(chǎn)達(dá)到實(shí)用標(biāo)準(zhǔn),研究團(tuán)隊(duì)開(kāi)發(fā)了一套自動(dòng)化質(zhì)量檢測(cè)系統(tǒng),這套系統(tǒng)就像是三位嚴(yán)格的質(zhì)檢員,從不同角度對(duì)每個(gè)生成的3D模型進(jìn)行全面評(píng)估。
第一位質(zhì)檢員是"美學(xué)檢查員"(AestheticChecker),它專(zhuān)門(mén)負(fù)責(zé)評(píng)估紋理的視覺(jué)質(zhì)量。這位檢查員就像是一位專(zhuān)業(yè)的藝術(shù)評(píng)論家,能夠準(zhǔn)確判斷紋理的豐富程度和美觀度。研究發(fā)現(xiàn),美學(xué)分?jǐn)?shù)與紋理細(xì)節(jié)的豐富程度存在明顯的正相關(guān)關(guān)系,分?jǐn)?shù)越高的資產(chǎn)往往具有更豐富、更逼真的表面細(xì)節(jié)。
第二位質(zhì)檢員是"分割檢查員"(ImageSegChecker),它使用GPT-4o來(lái)評(píng)估前景提取的質(zhì)量。這位檢查員的任務(wù)至關(guān)重要,因?yàn)榍熬胺指畹馁|(zhì)量直接影響最終3D資產(chǎn)的生成效果。就像攝影師在拍攝人像時(shí)需要確保主體清晰、背景干凈一樣,良好的前景分割是生成高質(zhì)量3D模型的基礎(chǔ)。為了應(yīng)對(duì)不同類(lèi)型圖像的挑戰(zhàn),系統(tǒng)提供了三種不同的前景分割模型:SAM、REMBG和RMBG14,當(dāng)一種方法檢測(cè)失敗時(shí),系統(tǒng)會(huì)自動(dòng)切換到替代方案進(jìn)行重試。
第三位質(zhì)檢員是"幾何檢查員"(MeshGeoChecker),它通過(guò)渲染四個(gè)正交視圖來(lái)評(píng)估幾何完整性和合理性。這位檢查員就像是一位嚴(yán)謹(jǐn)?shù)墓こ處煟瑫?huì)仔細(xì)檢查生成的3D模型是否存在幾何缺陷、是否符合物理常理。比如,一把椅子是否有穩(wěn)定的支撐結(jié)構(gòu),一個(gè)杯子是否具有合理的開(kāi)口等等。
通過(guò)這套三重質(zhì)檢體系,系統(tǒng)能夠自動(dòng)識(shí)別并過(guò)濾掉不合格的3D資產(chǎn)。對(duì)于未通過(guò)質(zhì)檢的模型,系統(tǒng)會(huì)自動(dòng)調(diào)整參數(shù)和隨機(jī)種子,重新進(jìn)行生成,直到獲得滿(mǎn)意的結(jié)果。這種自動(dòng)化的質(zhì)量保證機(jī)制大大降低了人工篩選的工作量,同時(shí)確保了最終輸出的可靠性。
三、紋理優(yōu)化:讓虛擬世界告別"塑料感"
傳統(tǒng)3D生成方法的一個(gè)通病是生成的物體看起來(lái)像廉價(jià)的塑料玩具,缺乏真實(shí)材質(zhì)的質(zhì)感。研究團(tuán)隊(duì)針對(duì)這個(gè)問(wèn)題開(kāi)發(fā)了一套創(chuàng)新的紋理回投影優(yōu)化算法,這套算法就像是一位經(jīng)驗(yàn)豐富的后期制作師,能夠?qū)⒋植诘脑妓夭拇蚰コ删赖淖罱K作品。
這個(gè)優(yōu)化過(guò)程的核心思想是將多視角的RGB圖像重新投影回3D空間,但與傳統(tǒng)方法不同的是,研究團(tuán)隊(duì)采用了基于幾何的確定性投影方案,結(jié)合視圖法線信息進(jìn)行融合。在重新投影紋理之前,系統(tǒng)會(huì)對(duì)RGB圖像進(jìn)行全局高光移除和超分辨率處理,從而獲得高質(zhì)量的2K分辨率紋理UV貼圖。
具體來(lái)說(shuō),系統(tǒng)首先使用去光照模型來(lái)移除多視角紋理中的光照效果,同時(shí)保持各個(gè)視角之間的風(fēng)格和亮度一致性。這個(gè)過(guò)程就像是給過(guò)度曝光的照片調(diào)整曝光度,讓各個(gè)部分的亮度達(dá)到自然平衡。接下來(lái),系統(tǒng)對(duì)每個(gè)視角獨(dú)立進(jìn)行4倍超分辨率處理,將分辨率提升到2048×2048像素。令人驚喜的是,實(shí)驗(yàn)表明對(duì)每個(gè)視角獨(dú)立進(jìn)行超分辨率處理并不會(huì)損害最終3D資產(chǎn)紋理的一致性或質(zhì)量。
這套紋理優(yōu)化算法的設(shè)計(jì)十分巧妙。系統(tǒng)會(huì)計(jì)算每個(gè)像素點(diǎn)的視角置信度,優(yōu)先采用那些垂直于表面的視角信息,因?yàn)檫@些視角能夠提供最準(zhǔn)確的紋理細(xì)節(jié)。同時(shí),系統(tǒng)會(huì)排除邊緣像素和大角度視角的信息,避免引入失真。最終,所有視角的紋理信息通過(guò)置信度加權(quán)的方式進(jìn)行融合,生成高質(zhì)量的最終紋理。
經(jīng)過(guò)這套優(yōu)化流程處理的3D模型,不僅在視覺(jué)上更加逼真,紋理細(xì)節(jié)也更加豐富。物體表面的材質(zhì)質(zhì)感得到了顯著提升,金屬的光澤、木材的紋理、布料的質(zhì)感都能得到準(zhǔn)確的呈現(xiàn),徹底告別了以往那種廉價(jià)的"塑料感"。
四、文字創(chuàng)造3D:用語(yǔ)言描繪三維世界
如果說(shuō)從圖片生成3D模型是"照貓畫(huà)虎",那么從文字描述生成3D資產(chǎn)就是"無(wú)中生有"的創(chuàng)造過(guò)程。EmbodiedGen的文字轉(zhuǎn)3D模塊展現(xiàn)了AI在創(chuàng)造力方面的驚人潛力,它能夠理解抽象的文字描述,并將其轉(zhuǎn)化為具體的三維物體。
研究團(tuán)隊(duì)采用了分階段的設(shè)計(jì)策略,將文字到3D的任務(wù)分解為兩個(gè)步驟:文字到圖像,然后圖像到3D。這種分解策略帶來(lái)了多重優(yōu)勢(shì)。首先,它支持早期階段的自動(dòng)化質(zhì)量檢測(cè),系統(tǒng)能夠在投入大量計(jì)算資源進(jìn)行3D生成之前,就對(duì)中間生成的圖像進(jìn)行前景分割檢查和語(yǔ)義一致性驗(yàn)證,及時(shí)過(guò)濾掉不符合要求的樣本。其次,這種模塊化設(shè)計(jì)提高了迭代的靈活性,降低了維護(hù)成本,同時(shí)能夠充分受益于文字到圖像和圖像到3D社區(qū)的持續(xù)進(jìn)步,支持生成能力、可控性和擴(kuò)展性的不斷提升。
在具體實(shí)現(xiàn)上,研究團(tuán)隊(duì)選擇了Kolors作為文字到圖像的生成模型,因?yàn)樗С种杏⑽碾p語(yǔ)的高質(zhì)量圖像生成。對(duì)于圖像到3D階段,系統(tǒng)維持統(tǒng)一的EmbodiedGen圖像到3D服務(wù),簡(jiǎn)化了系統(tǒng)復(fù)雜性。實(shí)驗(yàn)結(jié)果顯示,相比于端到端的文字到3D模型Trellis-text-xlarge,這種兩階段設(shè)計(jì)在可控性和生成質(zhì)量方面都有顯著提升,同時(shí)大大降低了與端到端文字到3D模型相關(guān)的維護(hù)成本。
為了驗(yàn)證大規(guī)模3D資產(chǎn)生成中自動(dòng)化質(zhì)量檢測(cè)模塊的效率,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的評(píng)估實(shí)驗(yàn)。他們生成了150個(gè)杯子3D資產(chǎn)并進(jìn)行人工標(biāo)注,其中107個(gè)被標(biāo)記為可用,43個(gè)被標(biāo)記為不可用。自動(dòng)化質(zhì)量檢測(cè)系統(tǒng)實(shí)現(xiàn)了68.7%的精確度和76.7%的召回率。雖然這些指標(biāo)還未達(dá)到90%以上,但當(dāng)前系統(tǒng)已經(jīng)大大減少了資產(chǎn)篩選所需的人工工作量。更重要的是,隨著多模態(tài)大型模型的進(jìn)步,這套流水線的自動(dòng)化質(zhì)量評(píng)估能力還將持續(xù)改善。
在大規(guī)模資產(chǎn)生成方面,系統(tǒng)展現(xiàn)出了強(qiáng)大的批量處理能力。用戶(hù)可以通過(guò)提示詞生成器將需求分解為針對(duì)不同資產(chǎn)風(fēng)格的提示詞,比如生成100種不同風(fēng)格的杯子。整個(gè)流水線依次通過(guò)文字到圖像和圖像到3D階段,每個(gè)階段都配備了自動(dòng)化質(zhì)量檢測(cè)和重試機(jī)制,最終輸出具有完整幾何、真實(shí)尺寸和物理屬性的URDF資產(chǎn)并持久化存儲(chǔ)。
五、關(guān)節(jié)物體生成:讓靜態(tài)世界動(dòng)起來(lái)
在真實(shí)世界中,我們接觸到的許多物體都不是完全靜態(tài)的。柜子有可以開(kāi)關(guān)的門(mén),抽屜可以拉出推入,電器有各種按鈕和開(kāi)關(guān)。這些具有活動(dòng)部件的關(guān)節(jié)物體對(duì)于機(jī)器人學(xué)習(xí)操作技能至關(guān)重要,就像人類(lèi)學(xué)習(xí)使用工具時(shí)需要理解工具的運(yùn)作機(jī)制一樣。
傳統(tǒng)的3D建模方法在創(chuàng)建關(guān)節(jié)物體時(shí)面臨巨大挑戰(zhàn),不僅需要準(zhǔn)確建模幾何結(jié)構(gòu),還要理解運(yùn)動(dòng)行為和部件連接關(guān)系。EmbodiedGen的關(guān)節(jié)物體生成模塊巧妙地解決了這個(gè)難題,它使用DIPO框架,這是一種可控的生成框架,能夠從雙狀態(tài)圖像對(duì)構(gòu)建關(guān)節(jié)3D物體。
這種雙狀態(tài)輸入格式的設(shè)計(jì)非常巧妙。一張圖像顯示物體的靜止?fàn)顟B(tài),另一張圖像顯示其關(guān)節(jié)活動(dòng)狀態(tài)。比如,一張圖像顯示關(guān)閉的抽屜,另一張顯示打開(kāi)的抽屜。這種輸入格式同時(shí)編碼了結(jié)構(gòu)信息和運(yùn)動(dòng)信息,使模型能夠更好地解析運(yùn)動(dòng)歧義并預(yù)測(cè)關(guān)節(jié)行為。
生成過(guò)程基于擴(kuò)散變換器,在每一層都集成了專(zhuān)門(mén)的雙狀態(tài)注入模塊來(lái)處理這兩張圖像。DIPO還包含一個(gè)基于思維鏈的圖推理器,能夠推斷各個(gè)部件之間的連接關(guān)系。生成的關(guān)節(jié)圖作為注意力先驗(yàn)來(lái)增強(qiáng)生成的一致性和合理性。
為了提高復(fù)雜關(guān)節(jié)物體生成的泛化能力,研究團(tuán)隊(duì)還開(kāi)發(fā)了自動(dòng)化關(guān)節(jié)物體數(shù)據(jù)增強(qiáng)流水線。這個(gè)流水線能夠使用基于網(wǎng)格的空間推理和從現(xiàn)有3D數(shù)據(jù)集中檢索部件的方法,從自然語(yǔ)言提示中綜合關(guān)節(jié)物體布局。最終得到的PM-X數(shù)據(jù)集包含600個(gè)結(jié)構(gòu)多樣的關(guān)節(jié)物體,每個(gè)都標(biāo)注了渲染圖像和物理屬性。
這種關(guān)節(jié)物體生成能力為機(jī)器人訓(xùn)練開(kāi)辟了全新的可能性。機(jī)器人可以在虛擬環(huán)境中學(xué)習(xí)如何操作各種復(fù)雜的關(guān)節(jié)物體,從簡(jiǎn)單的開(kāi)關(guān)門(mén)窗到復(fù)雜的多抽屜儲(chǔ)物柜,這些訓(xùn)練經(jīng)驗(yàn)?zāi)軌蚝芎玫剡w移到真實(shí)世界的操作任務(wù)中。
六、紋理魔法師:讓3D世界換裝如換衣
想象一下,如果你能像換衣服一樣輕松地為3D物體更換外觀,給機(jī)器人換上不同的涂裝,或者為家具更換不同的材質(zhì),這會(huì)是多么有趣的體驗(yàn)。EmbodiedGen的紋理生成模塊就實(shí)現(xiàn)了這樣的"魔法",它能夠?yàn)?D網(wǎng)格模型生成和編輯多風(fēng)格的紋理。
與訓(xùn)練全新的多視角擴(kuò)散模型相比,研究團(tuán)隊(duì)選擇了一種更加巧妙的方法。他們?cè)O(shè)計(jì)了一個(gè)即插即用的可擴(kuò)展模塊,能夠充分利用現(xiàn)有的2D文字到圖像基礎(chǔ)模型,將其能力擴(kuò)展到3D領(lǐng)域。這種設(shè)計(jì)范式使得系統(tǒng)能夠從社區(qū)基礎(chǔ)模型的持續(xù)改進(jìn)中受益,以成本效益高且可擴(kuò)展的方式生成視角一致的多樣化高質(zhì)量紋理,同時(shí)最小化重訓(xùn)練工作量。
這個(gè)模塊被稱(chēng)為GeoLifter,它是一個(gè)輕量級(jí)模塊,通過(guò)交叉注意力機(jī)制將幾何控制注入到基礎(chǔ)擴(kuò)散模型中,實(shí)現(xiàn)基于3D幾何的視角一致紋理生成。研究團(tuán)隊(duì)采用Kolors文字到圖像模型作為基礎(chǔ)擴(kuò)散模型。與ControlNet等方法復(fù)制并訓(xùn)練基礎(chǔ)模型U-Net的獨(dú)立編碼器分支不同,GeoLifter保持輕量級(jí)和高度可擴(kuò)展性,其參數(shù)大小不會(huì)隨著基礎(chǔ)模型深度的增長(zhǎng)而增長(zhǎng),使其更加高效且易于與不斷演進(jìn)的擴(kuò)散架構(gòu)集成。
在處理輸入網(wǎng)格時(shí),系統(tǒng)從六個(gè)預(yù)定義的相機(jī)視角渲染法線貼圖、位置貼圖和二值掩碼。這些幾何條件信息被隱式編碼為特征嵌入,通過(guò)交叉注意力逐步注入到擴(kuò)散模型的去噪過(guò)程中,利用零卷積確保訓(xùn)練開(kāi)始時(shí)對(duì)基礎(chǔ)模型解碼器的干擾最小。
紋理生成支持正負(fù)提示詞,接受包括中英文在內(nèi)的多語(yǔ)言輸入,用于指定期望的紋理風(fēng)格和外觀。除了文字提示外,用戶(hù)還可以選擇性地提供RGB圖像作為參考風(fēng)格,作為語(yǔ)言輸入的補(bǔ)充控制信號(hào)。用戶(hù)可以?xún)H提供文字提示,僅提供參考圖像,或者同時(shí)提供兩者,這種設(shè)計(jì)通過(guò)聯(lián)合利用語(yǔ)義指導(dǎo)和視覺(jué)風(fēng)格線索,實(shí)現(xiàn)了高度可控和富有表現(xiàn)力的紋理生成。
在損失函數(shù)設(shè)計(jì)上,除了潛在擴(kuò)散模型中使用的原始損失,研究團(tuán)隊(duì)還引入了空間損失作為潛在空間中的幾何一致性約束。這個(gè)約束鼓勵(lì)對(duì)應(yīng)于同一3D點(diǎn)的像素的潛在特征在跨多個(gè)視角投影時(shí)保持接近,從而增強(qiáng)跨視角連貫性。
實(shí)驗(yàn)結(jié)果顯示,GeoLifter在保持輕量級(jí)幾何條件設(shè)計(jì)的同時(shí),有效保持了底層基礎(chǔ)模型的紋理生成能力,同時(shí)顯著改善了跨視角的空間和幾何一致性。在多視角紋理生成之后,系統(tǒng)應(yīng)用光照去除和超分辨率技術(shù),并將優(yōu)化后的紋理投射回3D空間,獲得配備高分辨率2K UV貼圖的最終紋理網(wǎng)格。
七、場(chǎng)景魔術(shù)師:構(gòu)建多樣化的虛擬世界
除了3D物體資產(chǎn)生成,場(chǎng)景多樣性作為背景上下文同樣發(fā)揮著至關(guān)重要的作用。想象一下,如果機(jī)器人只在單調(diào)的白色房間中接受訓(xùn)練,它們很難適應(yīng)真實(shí)世界的復(fù)雜環(huán)境。EmbodiedGen的3D場(chǎng)景生成模塊就像是一位經(jīng)驗(yàn)豐富的布景師,能夠創(chuàng)造出風(fēng)格迥異、細(xì)節(jié)豐富的虛擬環(huán)境。
這個(gè)場(chǎng)景生成框架采用模塊化流水線設(shè)計(jì),能夠?qū)⒍嗄B(tài)輸入轉(zhuǎn)換為全景圖像,然后用于生成具有一致真實(shí)世界尺度的3D場(chǎng)景。整個(gè)框架包含三個(gè)主要階段:全景圖像生成、從全景圖生成3DGS和網(wǎng)格表示的3D場(chǎng)景生成,以及尺度對(duì)齊和標(biāo)準(zhǔn)化輸出。
在全景圖像生成階段,系統(tǒng)支持文字、圖像或兩者結(jié)合的輸入模式,實(shí)現(xiàn)高質(zhì)量全景圖像的靈活高效生成。對(duì)于文字驅(qū)動(dòng)生成,用戶(hù)提供的場(chǎng)景描述通過(guò)Diffusion360模型轉(zhuǎn)換為全景視圖,該模型在這項(xiàng)任務(wù)上表現(xiàn)出色。對(duì)于圖像驅(qū)動(dòng)生成,系統(tǒng)使用Qwen從輸入圖像中提取語(yǔ)義描述,然后圖像及其對(duì)應(yīng)的文字描述由全景生成模型聯(lián)合處理,生成語(yǔ)義對(duì)齊的全景圖。
為了確保質(zhì)量和可靠性,研究團(tuán)隊(duì)引入了PanoSelector模塊,這是基于Qwen構(gòu)建的自動(dòng)評(píng)估和過(guò)濾器,根據(jù)結(jié)構(gòu)質(zhì)量指標(biāo)(如地板和墻壁一致性)自動(dòng)評(píng)估和過(guò)濾生成的全景圖。這確保了只有高質(zhì)量的輸出才會(huì)傳遞到幾何生成階段。
在獲得高質(zhì)量全景圖后,系統(tǒng)基于Pano2Room生成相應(yīng)的3DGS和網(wǎng)格3D表示。首先從全景輸入生成初始網(wǎng)格,然后通過(guò)網(wǎng)格優(yōu)化進(jìn)一步細(xì)化,提高幾何精度和重建能力。優(yōu)化后的網(wǎng)格隨后轉(zhuǎn)換為3DGS表示。為了增強(qiáng)視覺(jué)保真度,從優(yōu)化網(wǎng)格渲染的視圖被轉(zhuǎn)換為立方體貼圖并通過(guò)超分辨率模型處理。超分辨率圖像然后用于進(jìn)一步細(xì)化初始3DGS,有效提升最終3DGS輸出的細(xì)節(jié)質(zhì)量。
八、物理世界的精確映射:讓虛擬與現(xiàn)實(shí)無(wú)縫對(duì)接
為了產(chǎn)生真實(shí)且度量一致的3D場(chǎng)景,系統(tǒng)還需要進(jìn)行物理屬性恢復(fù)。這個(gè)過(guò)程就像是一位精密的測(cè)量師,通過(guò)觀察全景圖和語(yǔ)義描述來(lái)推斷建筑物高度等真實(shí)世界尺寸,從而實(shí)現(xiàn)網(wǎng)格和3DGS的無(wú)損重新縮放。
這個(gè)尺度估計(jì)模塊基于Qwen模型構(gòu)建,能夠推斷這些尺度因子,實(shí)現(xiàn)網(wǎng)格和3DGS表示的無(wú)損重新縮放。此外,坐標(biāo)系會(huì)重新以場(chǎng)景地面為中心,軸向根據(jù)輸入圖像的相機(jī)方向或文字描述暗示的方向進(jìn)行對(duì)齊。最終輸出是一個(gè)尺度對(duì)齊的高保真3D場(chǎng)景資產(chǎn),可直接用于虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和機(jī)器人技術(shù)的下游應(yīng)用。
在風(fēng)格控制方面,系統(tǒng)支持通過(guò)風(fēng)格提示來(lái)指導(dǎo)全景圖生成,這種風(fēng)格感知提示能夠產(chǎn)生更連貫的紋理和更好的跨場(chǎng)景風(fēng)格對(duì)齊效果。實(shí)驗(yàn)對(duì)比顯示,使用風(fēng)格提示的結(jié)果在紋理一致性和風(fēng)格統(tǒng)一性方面明顯優(yōu)于沒(méi)有明確風(fēng)格指導(dǎo)的版本。
與現(xiàn)有方法如WorldGen的對(duì)比實(shí)驗(yàn)表明,EmbodiedGen在文字和圖像輸入設(shè)置下都能產(chǎn)生更詳細(xì)的紋理和更完整的幾何結(jié)構(gòu)。生成的場(chǎng)景不僅視覺(jué)效果更佳,在幾何完整性和細(xì)節(jié)豐富度方面也有顯著優(yōu)勢(shì)。
通過(guò)超分辨率技術(shù)的應(yīng)用,生成的3D場(chǎng)景展現(xiàn)出更加銳利和高頻詳細(xì)的效果。這種技術(shù)能夠顯著提升最終輸出的視覺(jué)質(zhì)量,使虛擬場(chǎng)景在細(xì)節(jié)表現(xiàn)上更加接近真實(shí)環(huán)境。
九、實(shí)際應(yīng)用:從虛擬訓(xùn)練到現(xiàn)實(shí)部署
EmbodiedGen的真正價(jià)值體現(xiàn)在其廣泛的實(shí)際應(yīng)用中,這些應(yīng)用展示了從虛擬訓(xùn)練到現(xiàn)實(shí)部署的完整流程。
在大規(guī)模3D資產(chǎn)生成方面,EmbodiedGen的文字轉(zhuǎn)3D模塊展現(xiàn)出了強(qiáng)大的批量生成能力,能夠?yàn)闄C(jī)器人智能任務(wù)生產(chǎn)大量水密且風(fēng)格多樣的網(wǎng)格,這些網(wǎng)格與文字描述高度一致。這種能力為仿真和下游訓(xùn)練評(píng)估提供了低成本的交互式3D資產(chǎn)增強(qiáng)方案。
在3D網(wǎng)格視覺(jué)外觀編輯方面,EmbodiedGen的紋理生成模塊能夠生成和編輯具有豐富視覺(jué)細(xì)節(jié)的真實(shí)感紋理。這些編輯后的3D資產(chǎn)可用于訓(xùn)練數(shù)據(jù)增強(qiáng),增強(qiáng)模型在視覺(jué)外觀理解方面的泛化能力。研究展示了各種鞋類(lèi)產(chǎn)品的紋理編輯效果,從簡(jiǎn)約的白色運(yùn)動(dòng)鞋到復(fù)雜圖案的時(shí)尚鞋款,都能實(shí)現(xiàn)高質(zhì)量的紋理變換。
在真實(shí)到仿真的數(shù)字孿生創(chuàng)建方面,EmbodiedGen圖像轉(zhuǎn)3D模塊的能力通過(guò)Isaac Lab環(huán)境中的閉環(huán)仿真評(píng)估得到了驗(yàn)證。系統(tǒng)能夠從單張真實(shí)世界圖像創(chuàng)建數(shù)字孿生,然后在物理仿真環(huán)境中進(jìn)行機(jī)器人操作任務(wù)的訓(xùn)練和測(cè)試。這種能力對(duì)于快速構(gòu)建訓(xùn)練環(huán)境、驗(yàn)證算法性能具有重要意義。
特別值得一提的是RoboSplatter的創(chuàng)新應(yīng)用。現(xiàn)有的仿真器通常基于傳統(tǒng)的OpenGL渲染技術(shù),涉及復(fù)雜的環(huán)境建模、光照設(shè)置和基于射線的渲染計(jì)算,這些方法往往計(jì)算成本高且真實(shí)感有限。隨著3DGS技術(shù)的快速發(fā)展,更逼真高效的渲染解決方案成為可能。研究團(tuán)隊(duì)將3DGS渲染與MuJoCo和Isaac Lab等成熟物理仿真器集成,實(shí)現(xiàn)了視覺(jué)豐富且物理精確的仿真。
RoboSplatter是一個(gè)專(zhuān)為機(jī)器人仿真定制的基于3DGS的仿真渲染框架,它與MuJoCo無(wú)縫協(xié)作,仿真機(jī)器人操作任務(wù)如機(jī)器人手臂抓取,同時(shí)提供3DGS技術(shù)支持的高視覺(jué)保真度。這種集成為機(jī)器人訓(xùn)練提供了前所未有的視覺(jué)真實(shí)感,同時(shí)保持了物理仿真的準(zhǔn)確性。
在多樣化交互式3D世界構(gòu)建方面,EmbodiedGen使得構(gòu)建各種交互式3D世界變得輕而易舉,支持在不同虛擬環(huán)境中進(jìn)行操作和導(dǎo)航等機(jī)器人智能任務(wù)的仿真和評(píng)估。系統(tǒng)生成的資產(chǎn)已成功應(yīng)用于雙臂抓鞋任務(wù)的仿真評(píng)估,以及四足機(jī)器人在復(fù)雜環(huán)境中的導(dǎo)航避障任務(wù)。
研究團(tuán)隊(duì)還展示了EmbodiedGen在OpenAI Gym環(huán)境中的應(yīng)用效果。通過(guò)文字轉(zhuǎn)3D生成的物體資產(chǎn)被成功導(dǎo)入到四足機(jī)器人導(dǎo)航仿真中,機(jī)器人需要在包含各種障礙物的環(huán)境中規(guī)劃路徑并避免碰撞。這種應(yīng)用驗(yàn)證了生成資產(chǎn)在復(fù)雜機(jī)器人任務(wù)中的實(shí)用性和可靠性。
說(shuō)到底,EmbodiedGen代表了機(jī)器人智能訓(xùn)練方式的一次革命性突破。它讓我們告別了傳統(tǒng)手工建模的繁瑣過(guò)程,迎來(lái)了AI驅(qū)動(dòng)的智能化3D世界生成時(shí)代。就像從手工制作到工業(yè)化生產(chǎn)的轉(zhuǎn)變一樣,這種技術(shù)進(jìn)步將大大降低機(jī)器人訓(xùn)練的門(mén)檻和成本,讓更多研究者和開(kāi)發(fā)者能夠參與到機(jī)器人智能的發(fā)展中來(lái)。
更重要的是,EmbodiedGen生成的高質(zhì)量虛擬環(huán)境為機(jī)器人提供了更加逼真的訓(xùn)練場(chǎng)所,這意味著機(jī)器人在虛擬世界中學(xué)到的技能能夠更好地遷移到現(xiàn)實(shí)世界中。這就像是為機(jī)器人提供了一個(gè)"夢(mèng)境訓(xùn)練營(yíng)",讓它們?cè)趬?mèng)中練就十八般武藝,醒來(lái)后就能在現(xiàn)實(shí)世界中大顯身手。
隨著這項(xiàng)技術(shù)的開(kāi)源發(fā)布,我們有理由相信,未來(lái)的機(jī)器人將變得更加智能、更加適應(yīng)復(fù)雜的現(xiàn)實(shí)環(huán)境。從家庭服務(wù)機(jī)器人到工業(yè)自動(dòng)化設(shè)備,從醫(yī)療輔助機(jī)器人到探索機(jī)器人,它們都將從這種先進(jìn)的虛擬訓(xùn)練技術(shù)中受益。歸根結(jié)底,EmbodiedGen不僅僅是一個(gè)技術(shù)工具,更是通向智能機(jī)器人時(shí)代的一座重要橋梁。對(duì)于那些希望深入了解這項(xiàng)技術(shù)細(xì)節(jié)的讀者,強(qiáng)烈建議訪問(wèn)研究團(tuán)隊(duì)提供的開(kāi)源代碼和詳細(xì)文檔,相信這將為機(jī)器人智能領(lǐng)域的發(fā)展注入新的活力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.