克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
騰訊混元3D模型,又又又上新了!
這次帶來的是藝術(shù)級3D生成模型Hunyuan3D-PolyGen,支持生成面數(shù)上萬的復(fù)雜幾何模型。
而且這個模型可以把3D模型變成資產(chǎn),鵝廠自己的游戲開發(fā)工作室用上之后,美術(shù)師建模效率提升了超70%。
有網(wǎng)友表示,AI已經(jīng)學(xué)會了拓?fù)洌约阂呀?jīng)很久沒有對AI生成3D感到如此興奮了。
目前,模型的拓?fù)涔δ芤言诨煸?D工作臺上線,與其他功能共享每天20次的免費使用額度。
實測“藝術(shù)級”3D生成模型
美術(shù)級的模型生成和一般的3D建模,區(qū)別主要有這幾個方面:
- 面數(shù):需要滿足游戲?qū)崟r加載與渲染的需求,美術(shù)Mesh相對于一般的3D生成Mesh面數(shù)更少;
- 布線質(zhì)量:后續(xù)還需要進行UV展開、骨骼綁定等環(huán)節(jié),需要高效、規(guī)整的布線;
- 組件式結(jié)構(gòu):美術(shù)師需要對模型進行后期編輯,需要將生成的模型拆分成組件以便后期操作。
那么,混元3D的表現(xiàn)如何呢?來看量子位的實測。
模型的入口是混元3D平臺(鏈接見文末)的“3D智能拓?fù)洹惫δ埽С治淖稚梢约皢螐埢蜃疃嗨膹垍⒖紙D。
目前,該功能支持以三角形或四邊形兩種形式對模型進行拓?fù)洹?/p>
第一個測試樣品,是一架波音747飛機,我們選擇三角面拓?fù)洹?/p>
先看大致輪廓,生成的結(jié)果是這樣的:
像發(fā)動機等細(xì)節(jié)部位,也進行了工整、精細(xì)的劃分。
第二道題,是一個毛絨玩具,這里直接拿線稿來試驗。
拓?fù)洳僮骱螅粌H原有細(xì)節(jié)得到了保留,混元3D還對物體的表面進行了更為細(xì)致的拓?fù)浠?/p>
另外,智能拓?fù)湟仓С謱ΜF(xiàn)有的模型進行調(diào)整,轉(zhuǎn)化成面數(shù)更低、布線更規(guī)整的“藝術(shù)級模型”。
比如這輛奔馳小轎車,原來的模型轉(zhuǎn)換成白模之后是這樣的:
經(jīng)過拓?fù)涮幚碇螅粌H結(jié)構(gòu)完整,線條分布整齊、疏密布局合理,車內(nèi)的方向盤、座椅等內(nèi)飾也都能完整呈現(xiàn)。
總的來說,混元3D-PolyGen在基本保留物體細(xì)節(jié)特征的情況下,確實能夠?qū)崿F(xiàn)生成面數(shù)適當(dāng)、布線整潔的“藝術(shù)級”3D模型。
并且根據(jù)混元3D團隊發(fā)布的報告,混元3D-PolyGen相比競品的重拓?fù)?AI拓?fù)浞椒ǎ梢岳酶偷拿鏀?shù)實現(xiàn)更好的細(xì)節(jié)。
那么,混元3D-PolyGen是如何實現(xiàn)的呢?
解決復(fù)雜物體建模和穩(wěn)定性
目前混元3D團隊還未發(fā)布混元3D-PolyGen的完整技術(shù)報告,但對其核心的原理和技術(shù)進行了簡要介紹。
★自回歸生成框架
整體上,Hunyuan3D-PolyGen采用了自回歸網(wǎng)格生成框架,通過頂點與面片建模進行空間推理。
具體來說,這個框架包括了三個核心環(huán)節(jié)——先把網(wǎng)格變成Tokens,然后交給自回歸模型處理,最后再變回網(wǎng)格。
在正式的自回歸建模開始之前,Hunyuan3D-PolyGen會用點云編碼器對網(wǎng)格進行序列化,也就是將網(wǎng)格的頂點和面片轉(zhuǎn)化為Token序列,用以表示Mesh結(jié)構(gòu)。
所謂Mesh結(jié)構(gòu)就是用來表示三維物體表面的多邊形網(wǎng)格,包含了頂點、邊、面、法線等信息。
完成轉(zhuǎn)換之后,Hunyuan3D-PolyGen以點云作為輸入Prompt,利用自回歸模型生成以Token序列形式表示的Mesh結(jié)構(gòu)。
完成生成之后就是對這個Tokens序列進行解碼,還原成Mesh結(jié)構(gòu),構(gòu)建出3D網(wǎng)格。
★壓縮mesh結(jié)構(gòu),解決復(fù)雜物體建模
為了解決復(fù)雜物體的建模問題,混元3D技術(shù)團隊自研了高壓縮率mesh表征BPT。
在現(xiàn)有的mesh自回歸建模方式當(dāng)中,mesh表達(dá)的冗余程度較高,僅一個面就需要用9個Token(3個頂點×3維坐標(biāo))。
而自回歸模型的上下文窗口有限,對兩千個面以下的簡單模型還可以進行建模,但對于面數(shù)更多的模型就無法建模了。
混元3D團隊的思路是對mesh結(jié)構(gòu)進行壓縮,于是設(shè)計了高壓縮率mesh表征BPT(Blocked and Patchified Tokenization),減少表達(dá)相同mesh所需的token數(shù)量。
具體來說,這項技術(shù)包括block索引和patch壓縮兩個核心環(huán)節(jié)。
block索引是指將網(wǎng)格空間分成多個block,頂點的表征由(x,y,z)空間坐標(biāo)轉(zhuǎn)化為(block, offset)索引坐標(biāo),這樣三維坐標(biāo)就變成了二維,token數(shù)量可以減少三分之一。
patch壓縮則是將相鄰面片組成patch(一個中心頂點和邊緣頂點),減少相鄰面片之間共用頂點的冗余,結(jié)合共享block等技巧,token數(shù)量可進一步降低約41%。
結(jié)合block索引和patch壓縮,表征mesh結(jié)構(gòu)的token數(shù)量可減少74%,表征一個面需要的token數(shù)量從9個減少到了平均2.3個。
所以,在相同的上下文窗口下,模型的可建模面數(shù)大幅提升,可建模的模型更加復(fù)雜(可達(dá)2w+面)、細(xì)節(jié)更多。
★強化學(xué)習(xí)后訓(xùn)練,提高生成穩(wěn)定性
由于表示mesh結(jié)構(gòu)的token序列很長且容錯率低,造成了建模的穩(wěn)定性不足,也就是同一個模型的多次生成結(jié)果可能存在很大差異。
所以,混元3D團隊研發(fā)了mesh自回歸的強化學(xué)習(xí)后訓(xùn)練框架。
該框架在預(yù)訓(xùn)練模型的基礎(chǔ)上進行后訓(xùn)練,將布線規(guī)整度、幾何一致性、面片破損率等美術(shù)規(guī)范作為獎勵指標(biāo),引導(dǎo)模型生成更好的結(jié)果。
結(jié)果,混元3D-PolyGen在生成的穩(wěn)定性、細(xì)節(jié)、布線質(zhì)量等方面均優(yōu)于目前SOTA模型。
參考鏈接:
https://mp.weixin.qq.com/s/l12y2IPExhvz2fvUJPm-tw
體驗地址:
https://3d.hunyuan.tencent.com/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.