智東西AI前瞻(公眾號:zhidxcomAI)
作者 江宇
編輯 漠影
智東西AI前瞻7月27日報道,今日,騰訊混元正式發布3D世界模型1.0,并同步開源模型能力。
這是騰訊首次將3D內容生成從“物體級”擴展至“世界級”,用戶只需一句話或一張圖,即可生成一個360度沉浸式、可漫游、可編輯的三維虛擬世界。
騰訊混元3D團隊在接受智東西等媒體采訪時稱,世界模型1.0兼顧生成質量與工業應用可落地性,也初步應用于游戲開發、具身智能仿真、XR內容制作等場景。近日,該模型也被AI設計Agent平臺Lovart等正式接入。
體驗指路:https://3d.hunyuan.tencent.com/sceneTo3D
Github項目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
項目主頁:https://3d-models.hunyuan.tencent.com/world/
Hugging Face、模型地址:https://huggingface.co/tencent/HunyuanWorld-1
一、從資產到世界,3D生成拓展到“可漫游空間”
混元3D世界模型1.0是騰訊首次將AI生成能力從單個3D物體,擴展至整套可編輯、可導出的360度虛擬世界構建流程。
▲效果圖(圖源:混元官方)
該模型支持文本與圖像輸入,用戶只需一句描述或一張參考圖,即可生成一個具備空間一致性、支持自由漫游的3D場景。
與傳統2D全景生成或靜態3D模型不同,混元3D世界模型具備“能走、能用、能改”的三重特點:
1、生成內容為完整封閉場景,用戶不僅可原地環視,還能通過鍵盤控制視角、方向,在空間中自由行走、漫游。
2、生成結果支持標準3D Mesh格式輸出,兼容Unity、Unreal、Blender等主流引擎,可直接用于游戲原型驗證、動畫制作或仿真建模。
▲效果圖(圖源:混元官方)
3、該模型基于自研的語義層次化算法,將場景結構拆解為前景物體、地形地貌與天空貼圖等模塊,用戶可對局部元素進行結構級修改。
▲混元世界模型1.0方法流程圖(圖源:混元官方)
二、從一張圖到一個空間,混元怎么把世界“拼”出來?
混元團隊在架構設計上引入了3D與2D融合方案:前景采用高保真3D建模,中景通過多視角補齊完成空間閉合,遠景與天空則以圖像方式渲染,實現兼顧細節質量與生成效率的折中。
為了提升模型的泛化能力與穩定性,該系統目前僅支持風格化圖片、簡潔構圖、平視視角等輸入,能夠在有限樣本下準確解析語義意圖。
此外,混元還對模型的生成質量進行了定量評估,在紋理細節、美學水準、指令遵循等維度全面超越當前SOTA開源模型。
▲(圖源:混元官方)
目前,該系統已支持初步的漫游交互與局部模型編輯,后續將拓展動作層建模能力,引入更強的物理仿真模塊與跨平臺輸出標準。
三、體驗:全景能看,場景能走,還能動手改
1、360度全景圖:快速生成,初具細節
- 文生場景
在不包含人物的前提下,智東西點擊系統內“隨機”按鈕,系統生成如下指令:“硅基樹木與熒光植物,浮空孢子囊飄散,生物朋克生態,阿凡達電影概念藝術,紫藍漸變色調。”
效果如下:
模型基本契合設定場景風格,尤其在近景處理上表現出一定細節感,如地表草根清晰可辨。不過,整體細節仍略顯空泛,若未來支持對話式增補,有望進一步提升沉浸感與編輯靈活性。
- 圖生場景
▲圖片由AI生成。
智東西上傳一張風格相近的參考圖后,系統在理解與還原方面的表現顯著提升,色彩、構圖和場景一致性均優于文生模式。
2、漫游場景:可操作,可導出
- 文生場景
智東西編寫了一段靈感源自“塞爾達傳說”的復雜指令,要求構建一個融合火山、古樹與漂浮島嶼的幻想高原。
系統生成的場景除還原度高,還具備“可編輯場景”能力。用戶可通過GLB/PLY格式圖層,對局部模型進行拖拽、旋轉與縮放,并導出源文件供后續使用。
- 圖生場景
在“圖生場景”的功能體驗中,智東西上傳一張偏古風的游戲場景圖進行生成。
▲圖片由AI生成。
系統生成畫面整體符合原圖風格,但由于參考圖中元素密集,AI在切分圖層時準確度有限,影響后續編輯體驗。
當前版本已初步支持基礎漫游操作與模型局部編輯,仍存在部分角度生成不全、邊界穿透等問題。若未來支持“以圖續圖”及生成鏈路簡化,整體的可探索性與用戶體驗將顯著提升。
結語:3D世界邁向關鍵一步,可用性已具雛形
就當前版本而言,混元3D世界模型1.0在空間細節密度、圖層結構解析與交互完整性方面仍存在一定優化空間,特別是在處理復雜參考圖和動態交互時,生成結果尚未完全穩定。
但與此同時,其在生成效率、結構分層、資產導出等核心能力上已具備較強可用性。無論是快速搭建虛擬場景,還是輸出可編輯資產用于后續開發,混元模型初步打通了“從生成到應用”的關鍵環節。
更為重要的是,模型開源為開發者與內容創作者提供了真實可用的工具鏈入口,降低了3D建模與交互空間構建的技術門檻。
未來,若在可控性、物理仿真、跨平臺兼容等方面持續推進,該模型或將成為AIGC三維內容生態的重要基礎工具。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.