克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
騰訊混元3D模型,又又又上新了!
這次帶來的是藝術級3D生成模型Hunyuan3D-PolyGen,支持生成面數上萬的復雜幾何模型。
而且這個模型可以把3D模型變成資產,鵝廠自己的游戲開發工作室用上之后,美術師建模效率提升了超70%。
有網友表示,AI已經學會了拓撲,自己已經很久沒有對AI生成3D感到如此興奮了。
目前,模型的拓撲功能已在混元3D工作臺上線,與其他功能共享每天20次的免費使用額度。
實測“藝術級”3D生成模型
美術級的模型生成和一般的3D建模,區別主要有這幾個方面:
- 面數:需要滿足游戲實時加載與渲染的需求,美術Mesh相對于一般的3D生成Mesh面數更少;
- 布線質量:后續還需要進行UV展開、骨骼綁定等環節,需要高效、規整的布線;
- 組件式結構:美術師需要對模型進行后期編輯,需要將生成的模型拆分成組件以便后期操作。
那么,混元3D的表現如何呢?來看量子位的實測。
模型的入口是混元3D平臺(鏈接見文末)的“3D智能拓撲”功能,支持文字生成以及單張或最多四張參考圖。
目前,該功能支持以三角形或四邊形兩種形式對模型進行拓撲。
第一個測試樣品,是一架波音747飛機,我們選擇三角面拓撲。
先看大致輪廓,生成的結果是這樣的:
像發動機等細節部位,也進行了工整、精細的劃分。
第二道題,是一個毛絨玩具,這里直接拿線稿來試驗。
拓撲操作后,不僅原有細節得到了保留,混元3D還對物體的表面進行了更為細致的拓撲化。
另外,智能拓撲也支持對現有的模型進行調整,轉化成面數更低、布線更規整的“藝術級模型”。
比如這輛奔馳小轎車,原來的模型轉換成白模之后是這樣的:
經過拓撲處理之后,不僅結構完整,線條分布整齊、疏密布局合理,車內的方向盤、座椅等內飾也都能完整呈現。
總的來說,混元3D-PolyGen在基本保留物體細節特征的情況下,確實能夠實現生成面數適當、布線整潔的“藝術級”3D模型。
并且根據混元3D團隊發布的報告,混元3D-PolyGen相比競品的重拓撲/AI拓撲方法,可以利用更低的面數實現更好的細節。
那么,混元3D-PolyGen是如何實現的呢?
解決復雜物體建模和穩定性
目前混元3D團隊還未發布混元3D-PolyGen的完整技術報告,但對其核心的原理和技術進行了簡要介紹。
★自回歸生成框架
整體上,Hunyuan3D-PolyGen采用了自回歸網格生成框架,通過頂點與面片建模進行空間推理。
具體來說,這個框架包括了三個核心環節——先把網格變成Tokens,然后交給自回歸模型處理,最后再變回網格。
在正式的自回歸建模開始之前,Hunyuan3D-PolyGen會用點云編碼器對網格進行序列化,也就是將網格的頂點和面片轉化為Token序列,用以表示Mesh結構。
所謂Mesh結構就是用來表示三維物體表面的多邊形網格,包含了頂點、邊、面、法線等信息。
完成轉換之后,Hunyuan3D-PolyGen以點云作為輸入Prompt,利用自回歸模型生成以Token序列形式表示的Mesh結構。
完成生成之后就是對這個Tokens序列進行解碼,還原成Mesh結構,構建出3D網格。
★壓縮mesh結構,解決復雜物體建模
為了解決復雜物體的建模問題,混元3D技術團隊自研了高壓縮率mesh表征BPT。
在現有的mesh自回歸建模方式當中,mesh表達的冗余程度較高,僅一個面就需要用9個Token(3個頂點×3維坐標)。
而自回歸模型的上下文窗口有限,對兩千個面以下的簡單模型還可以進行建模,但對于面數更多的模型就無法建模了。
混元3D團隊的思路是對mesh結構進行壓縮,于是設計了高壓縮率mesh表征BPT(Blocked and Patchified Tokenization),減少表達相同mesh所需的token數量。
具體來說,這項技術包括block索引和patch壓縮兩個核心環節。
block索引是指將網格空間分成多個block,頂點的表征由(x,y,z)空間坐標轉化為(block, offset)索引坐標,這樣三維坐標就變成了二維,token數量可以減少三分之一。
patch壓縮則是將相鄰面片組成patch(一個中心頂點和邊緣頂點),減少相鄰面片之間共用頂點的冗余,結合共享block等技巧,token數量可進一步降低約41%。
結合block索引和patch壓縮,表征mesh結構的token數量可減少74%,表征一個面需要的token數量從9個減少到了平均2.3個。
所以,在相同的上下文窗口下,模型的可建模面數大幅提升,可建模的模型更加復雜(可達2w+面)、細節更多。
★強化學習后訓練,提高生成穩定性
由于表示mesh結構的token序列很長且容錯率低,造成了建模的穩定性不足,也就是同一個模型的多次生成結果可能存在很大差異。
所以,混元3D團隊研發了mesh自回歸的強化學習后訓練框架。
該框架在預訓練模型的基礎上進行后訓練,將布線規整度、幾何一致性、面片破損率等美術規范作為獎勵指標,引導模型生成更好的結果。
結果,混元3D-PolyGen在生成的穩定性、細節、布線質量等方面均優于目前SOTA模型。
參考鏈接:
https://mp.weixin.qq.com/s/l12y2IPExhvz2fvUJPm-tw
體驗地址:
https://3d.hunyuan.tencent.com/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.