網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

昆侖萬維發(fā)布中國首款“空間智能大模型”，融合3D世界和可交互視頻生成｜甲子光年

2025-02-14 12:41:30　來源: 甲子光年

北京舉報

分享至

一個比Sora更懂物理世界的世界模型。

作者｜趙健??

近期，DeepSeek R1與OpenAI o3帶火了推理模型，全世界都在惡補強化學(xué)習(xí)。

不過，無論是DeepSeek還是OpenAI，當(dāng)前的推理模型仍集中于文本領(lǐng)域，而文本之外的其他模態(tài)的AI進展也同樣不容忽視。

常見的多模態(tài)生成任務(wù)包括文本、圖像與視頻生成。AI生成可交互3D場景作為一種新興的多模態(tài)任務(wù)，也被稱為“空間智能”的領(lǐng)域，在國內(nèi)有了一項新突破。

這就是昆侖萬維今天剛剛發(fā)布的空間智能大模型Matrix-Zero。輸入一張圖片，Matrix-Zero既可以生成可自由探索的真實合理的3D場景，也可以生成可交互的視頻內(nèi)容。該模型預(yù)計在4月份上線。

空間智能領(lǐng)域有不少AI創(chuàng)業(yè)公司與大廠在布局，比較知名的有“AI教母”李飛飛成立的首家創(chuàng)業(yè)公司W(wǎng)orld Labs，以及谷歌DeepMind發(fā)布的“世界模型”Genie。

Matrix-Zero就是昆侖萬維發(fā)布的“世界模型”。昆侖萬維成為國內(nèi)第一家同時推出“3D場景生成+可交互視頻生成模型”的探索空間智能的AI公司。

空間智能技術(shù)對于游戲開發(fā)、具身智能等行業(yè)的發(fā)展具有重要價值，而昆侖萬維在空間智能這一細分領(lǐng)域走在了行業(yè)探索的最前列。

1.為什么要關(guān)注空間智能？

空間智能為什么值得關(guān)注？因為大多數(shù)通用AIGC工具生成的是2D內(nèi)容，如圖像或視頻，而以3D形式生成的內(nèi)容則提高了控制和一致性，這將改變行業(yè)制作電影、游戲、模擬器以及其他數(shù)字形式的物理世界的方式。

李飛飛曾提到：“空間智能讓機器脫離數(shù)據(jù)中心，進入現(xiàn)實世界，理解豐富的三維、四維世界”，并總結(jié)為“I see，I move，I think，so I am”（我看、我動、我思，故我在），突出視覺、運動與認知的融合。

在過去，由于傳統(tǒng)AI模型集中于語言和數(shù)值數(shù)據(jù)，難以理解雜亂無章、結(jié)構(gòu)不定且不斷變化的真實物理世界，所以空間智能的發(fā)展存在重重挑戰(zhàn)。直到最近兩年生成式AI爆發(fā)，讓機器來理解三維物理世界的技術(shù)越發(fā)成熟，空間智能成為一個炙手可熱的創(chuàng)新領(lǐng)域。

英偉達高級研究科學(xué)家Jim Fan曾用一句話總結(jié)了AI內(nèi)容進化史：“Stable Diffusion是2D縮影；Sora是2D+時間維度的縮影；而World Labs是3D、沉浸式的縮影”。

大部分2D AIGC產(chǎn)品，比如圖像模型與視頻模型，雖然發(fā)展迅猛，但受制于像素空間和3D空間的差異，往往存在生成結(jié)果不一致、物理不合理等問題。

3D AIGC生成工具又可以分為兩種場景，一是TripoAI、Meshy、騰訊混元等主要關(guān)注在單個物體模型的生成，一般支持文生3D與圖生3D；二是World Labs、谷歌Genie等，主要關(guān)注在3D場景的生成，以圖生3D場景為主。如果用游戲舉例，前者聚焦在形形色色的人物角色生成，后者聚焦在人物角色所處的環(huán)境、背景的生成。

Matrix-Zero世界模型采用了與World Labs與Genie不完全相同的技術(shù)路線。Matrix-Zero包含了兩款子模型：3D場景生成大模型和可交互視頻生成大模型，可以將3D場景生成與可交互視頻生成進行融合，是一條獨具特色的路線。

2.3D場景生成+可交互視頻Matrix-Zero的兩大特色

Matrix-Zero既是一個可自由探索的真實合理的3D場景生成模型，也是一個可交互的視頻生成模型。

Matrix-Zero的第一個子模型是3D場景生成大模型，支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實合理的3D場景，其最大亮點功能是“全局一致性”，同時比李飛飛Worlds Labs實現(xiàn)更大范圍的自由探索，而且包括動態(tài)物理效果。

全局一致性是指圖像、視頻與3D等AIGC工具在生成內(nèi)容上保持邏輯、風(fēng)格、情節(jié)的連貫性與一致性。以視頻為例，如果上一秒的主角穿著藍色外套，下一秒的主角卻變成了紅色外套，這樣是無法真正具備生產(chǎn)力價值的。

Matrix-Zero旗下3D場景生成大模型包含兩個核心模塊：場景布局生成模塊和紋理生成模塊。布局模塊通過可微渲染和擴散模型生成與輸入圖片一致的3D布局；紋理模塊基于圖片和視頻模型訓(xùn)練，生成符合布局的精準(zhǔn)視頻。兩者結(jié)合經(jīng)3D Gaussian Splatting進行端到端優(yōu)化即可得到初始場景。當(dāng)用戶移動時，模型會自動補全缺失區(qū)域，確保場景始終合理且一致。

比如，Matrix-Zero可以生成在360度環(huán)視下前后一致的3D場景：

也可以生成在360度俯視下前后一致的3D場景：

在自由度探索上，World Labs發(fā)布的Demo只能實現(xiàn)“左右前后”四個方向的小范圍移動。相比之下，Matrix-Zero支持在場景中進行任意方向的長距離、大范圍的探索，比如環(huán)視、先環(huán)視再前進、后退、前進后右轉(zhuǎn)、360度俯視、180度回頭、持續(xù)左轉(zhuǎn)等自由度。在3D場景的空間自由探索上，Matrix-Zero做到了行業(yè)領(lǐng)先的水平。

在場景風(fēng)格上，無論輸入圖片是卡通風(fēng)格或?qū)憣嶏L(fēng)格，Matrix-Zero均可生成合理的3D場景。

而且，Matrix-Zero還支持風(fēng)格遷移，對同一張輸入圖片，支持不同風(fēng)格的場景生成。比如輸入寫實風(fēng)格的圖片，能生成卡通風(fēng)格的3D場景。

此外，Matrix-Zero不僅支持靜態(tài)場景生成，其生成的3D場景中還可包含動態(tài)物體，且動態(tài)符合物理規(guī)律，如光照效果，水花動態(tài)、云霧動態(tài)等。

Matrix-Zero的第二個子模型，是“可交互”的視頻大模型，提供以用戶輸入為核心驅(qū)動的可交互空間智能視頻生成方案，這與World Labs所采取的純3D場景生成路線不一樣，與基于提示詞的圖像生成視頻功能也不一樣。

當(dāng)用戶上傳一張圖片，Matrix-Zero不僅可以生成清晰、穩(wěn)定、符合物理邏輯的視頻，還可以根據(jù)用戶的實時交互操作做出響應(yīng)，具備更精準(zhǔn)控制的action model。常見的圖像視頻功能是基于提示詞而生成，而Matrix-Zero的可交互視頻則可以接受用戶任意的鍵盤移動方向控制、鼠標(biāo)移動，包括前后左右的移動和視角移動。

如何從3D場景渲染出視頻？首先在3D場景中放置一個攝像機（下圖左橘紅色線框所示）并指定其運動軌跡，每一個時刻都可以根據(jù)相機位置和朝向?qū)?D場景渲染為視頻圖片，將這些圖片拼接即可得到視頻。

比如Matrix-Zero基于一張城市街頭圖片生成可交互視頻，用戶可以操控視角選擇任意向左側(cè)轉(zhuǎn)向與走動。

Matrix-Zero基于一張沙漠圖片生成的可交互視頻中，視頻會跟隨用戶視角先向左橫移，再小步后退，再猛然轉(zhuǎn)向右側(cè)橫移，做大范圍的自由探索。

之所以能夠做到如此高自由度的可交互視頻，在于Matrix-Zero包含的兩個系統(tǒng)。最核心的是基礎(chǔ)視頻生成模型，負責(zé)根據(jù)初始視頻幀生成連貫的視頻內(nèi)容。

在此基礎(chǔ)上，昆侖萬維自研了一個“用戶輸入交互系統(tǒng)”，包含離散運動控制模塊、連續(xù)視角控制模塊、3D場景位置追蹤模塊、滑動窗口機制等關(guān)鍵部分，負責(zé)解析用戶輸入并轉(zhuǎn)化為視頻調(diào)整信號，確保視頻內(nèi)容準(zhǔn)確響應(yīng)用戶操作。

該模型不僅支持開放領(lǐng)域的視頻生成，還能精確控制視頻中的視角移動，滿足用戶的交互需求，從而拓展在虛擬環(huán)境、交互式應(yīng)用以及沉浸式體驗中的應(yīng)用場景。

3.智能空間時代已來臨，一鍵開啟未來之門

2024年11月，昆侖萬維創(chuàng)始人周亞輝曾發(fā)朋友圈表示，對昆侖萬維2024年的AI戰(zhàn)略打滿分，原因是足夠差異化，找到了自己小而大美的空間。

昆侖萬維從2020年開始進入AI領(lǐng)域，目前已經(jīng)完成了“算力基礎(chǔ)設(shè)施——大模型算法——AI應(yīng)用”的全產(chǎn)業(yè)鏈布局，并構(gòu)建了多元化的AI業(yè)務(wù)矩陣。

在算力基礎(chǔ)設(shè)施層，昆侖萬維2024年就有近萬卡的訓(xùn)練資源，足夠支撐訓(xùn)練基于多模態(tài)的MoE大模型以及視頻生成大模型。

在基座大模型上，昆侖萬維先后發(fā)布了文本大模型天工4.0、音樂大模型天工SkyMusic、推理大模型天工4.0 o1版以及現(xiàn)在的空間智能Matrix-Zero世界模型等。到目前為止，昆侖萬維在語言大模型、語音大模型、音樂大模型、3D大模型等方向具備強有力的核心競爭力，這些技術(shù)的研發(fā)積累為其前瞻、自主、積極地探索空間智能奠定了堅實的基礎(chǔ)。

同時，在AI應(yīng)用層，昆侖萬維的業(yè)務(wù)覆蓋AI搜索、AI音樂、AI視頻、AI社交、AI游戲等領(lǐng)域，先后推出了AI搜索產(chǎn)品天工AI搜索、AI社交平臺Linky、AI短劇平臺SkyReels等，并在國內(nèi)外市場均占有一席之地。

至此，昆侖萬維成為國內(nèi)少數(shù)在AI領(lǐng)域全產(chǎn)業(yè)鏈布局的互聯(lián)網(wǎng)大廠。

昆侖萬維在AI上的全產(chǎn)業(yè)鏈布局與其對商業(yè)模式的思考息息相關(guān)。昆侖萬維董事長兼CEO方漢曾表示，AI帶來一個很重要的機會是文化平權(quán)和多語言帶來的藍海。中國企業(yè)在產(chǎn)品優(yōu)化上、在模式創(chuàng)新上會涌現(xiàn)出更多的結(jié)果。如果想成為下一代的互聯(lián)網(wǎng)AI巨頭，一定要在C端產(chǎn)品上做出創(chuàng)新。

此次，昆侖萬維發(fā)布的空間智能Matrix-Zero世界模型，不僅革新了用戶與數(shù)字生成環(huán)境之間的互動方式，為智能體的研發(fā)搭建了虛擬化的基礎(chǔ)平臺，更為昆侖萬維的AI矩陣業(yè)務(wù)帶來全新的助力。而昆侖萬維成為中國首家發(fā)布3D場景生成、可交互視頻生成模型的探索空間智能的企業(yè)，正是公司堅持持續(xù)技術(shù)創(chuàng)新和提前布局AI的結(jié)果。

不積跬步，無以至千里。Matrix-Zero的發(fā)布只是昆侖萬維邁向AGI的一小步，但昆侖萬維的每一步都邁得很踏實，小而大美的能量將會在AI時代厚積薄發(fā)。

（正文圖片與封面圖來自昆侖萬維）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.