一個比Sora更懂物理世界的世界模型。
作者|趙健??
近期,DeepSeek R1與OpenAI o3帶火了推理模型,全世界都在惡補強化學(xué)習(xí)。
不過,無論是DeepSeek還是OpenAI,當(dāng)前的推理模型仍集中于文本領(lǐng)域,而文本之外的其他模態(tài)的AI進展也同樣不容忽視。
常見的多模態(tài)生成任務(wù)包括文本、圖像與視頻生成。AI生成可交互3D場景作為一種新興的多模態(tài)任務(wù),也被稱為“空間智能”的領(lǐng)域,在國內(nèi)有了一項新突破。
這就是昆侖萬維今天剛剛發(fā)布的空間智能大模型Matrix-Zero。輸入一張圖片,Matrix-Zero既可以生成可自由探索的真實合理的3D場景,也可以生成可交互的視頻內(nèi)容。該模型預(yù)計在4月份上線。
空間智能領(lǐng)域有不少AI創(chuàng)業(yè)公司與大廠在布局,比較知名的有“AI教母”李飛飛成立的首家創(chuàng)業(yè)公司W(wǎng)orld Labs,以及谷歌DeepMind發(fā)布的“世界模型”Genie。
Matrix-Zero就是昆侖萬維發(fā)布的“世界模型”。昆侖萬維成為國內(nèi)第一家同時推出“3D場景生成+可交互視頻生成模型”的探索空間智能的AI公司。
空間智能技術(shù)對于游戲開發(fā)、具身智能等行業(yè)的發(fā)展具有重要價值,而昆侖萬維在空間智能這一細分領(lǐng)域走在了行業(yè)探索的最前列。
1.為什么要關(guān)注空間智能?
空間智能為什么值得關(guān)注?因為大多數(shù)通用AIGC工具生成的是2D內(nèi)容,如圖像或視頻,而以3D形式生成的內(nèi)容則提高了控制和一致性,這將改變行業(yè)制作電影、游戲、模擬器以及其他數(shù)字形式的物理世界的方式。
李飛飛曾提到:“空間智能讓機器脫離數(shù)據(jù)中心,進入現(xiàn)實世界,理解豐富的三維、四維世界”,并總結(jié)為“I see,I move,I think,so I am”(我看、我動、我思,故我在),突出視覺、運動與認知的融合。
在過去,由于傳統(tǒng)AI模型集中于語言和數(shù)值數(shù)據(jù),難以理解雜亂無章、結(jié)構(gòu)不定且不斷變化的真實物理世界,所以空間智能的發(fā)展存在重重挑戰(zhàn)。直到最近兩年生成式AI爆發(fā),讓機器來理解三維物理世界的技術(shù)越發(fā)成熟,空間智能成為一個炙手可熱的創(chuàng)新領(lǐng)域。
英偉達高級研究科學(xué)家Jim Fan曾用一句話總結(jié)了AI內(nèi)容進化史:“Stable Diffusion是2D縮影;Sora是2D+時間維度的縮影;而World Labs是3D、沉浸式的縮影”。
大部分2D AIGC產(chǎn)品,比如圖像模型與視頻模型,雖然發(fā)展迅猛,但受制于像素空間和3D空間的差異,往往存在生成結(jié)果不一致、物理不合理等問題。
3D AIGC生成工具又可以分為兩種場景,一是TripoAI、Meshy、騰訊混元等主要關(guān)注在單個物體模型的生成,一般支持文生3D與圖生3D;二是World Labs、谷歌Genie等,主要關(guān)注在3D場景的生成,以圖生3D場景為主。如果用游戲舉例,前者聚焦在形形色色的人物角色生成,后者聚焦在人物角色所處的環(huán)境、背景的生成。
Matrix-Zero世界模型采用了與World Labs與Genie不完全相同的技術(shù)路線。Matrix-Zero包含了兩款子模型:3D場景生成大模型和可交互視頻生成大模型,可以將3D場景生成與可交互視頻生成進行融合,是一條獨具特色的路線。
2.3D場景生成+可交互視頻Matrix-Zero的兩大特色
Matrix-Zero既是一個可自由探索的真實合理的3D場景生成模型,也是一個可交互的視頻生成模型。
Matrix-Zero的第一個子模型是3D場景生成大模型,支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實合理的3D場景,其最大亮點功能是“全局一致性”,同時比李飛飛Worlds Labs實現(xiàn)更大范圍的自由探索,而且包括動態(tài)物理效果。
全局一致性是指圖像、視頻與3D等AIGC工具在生成內(nèi)容上保持邏輯、風(fēng)格、情節(jié)的連貫性與一致性。以視頻為例,如果上一秒的主角穿著藍色外套,下一秒的主角卻變成了紅色外套,這樣是無法真正具備生產(chǎn)力價值的。
Matrix-Zero旗下3D場景生成大模型包含兩個核心模塊:場景布局生成模塊和紋理生成模塊。布局模塊通過可微渲染和擴散模型生成與輸入圖片一致的3D布局;紋理模塊基于圖片和視頻模型訓(xùn)練,生成符合布局的精準(zhǔn)視頻。兩者結(jié)合經(jīng)3D Gaussian Splatting進行端到端優(yōu)化即可得到初始場景。當(dāng)用戶移動時,模型會自動補全缺失區(qū)域,確保場景始終合理且一致。
比如,Matrix-Zero可以生成在360度環(huán)視下前后一致的3D場景:
也可以生成在360度俯視下前后一致的3D場景:
在自由度探索上,World Labs發(fā)布的Demo只能實現(xiàn)“左右前后”四個方向的小范圍移動。相比之下,Matrix-Zero支持在場景中進行任意方向的長距離、大范圍的探索,比如環(huán)視、先環(huán)視再前進、后退、前進后右轉(zhuǎn)、360度俯視、180度回頭、持續(xù)左轉(zhuǎn)等自由度。在3D場景的空間自由探索上,Matrix-Zero做到了行業(yè)領(lǐng)先的水平。
在場景風(fēng)格上,無論輸入圖片是卡通風(fēng)格或?qū)憣嶏L(fēng)格,Matrix-Zero均可生成合理的3D場景。
而且,Matrix-Zero還支持風(fēng)格遷移,對同一張輸入圖片,支持不同風(fēng)格的場景生成。比如輸入寫實風(fēng)格的圖片,能生成卡通風(fēng)格的3D場景。
此外,Matrix-Zero不僅支持靜態(tài)場景生成,其生成的3D場景中還可包含動態(tài)物體,且動態(tài)符合物理規(guī)律,如光照效果,水花動態(tài)、云霧動態(tài)等。
Matrix-Zero的第二個子模型,是“可交互”的視頻大模型,提供以用戶輸入為核心驅(qū)動的可交互空間智能視頻生成方案,這與World Labs所采取的純3D場景生成路線不一樣,與基于提示詞的圖像生成視頻功能也不一樣。
當(dāng)用戶上傳一張圖片,Matrix-Zero不僅可以生成清晰、穩(wěn)定、符合物理邏輯的視頻,還可以根據(jù)用戶的實時交互操作做出響應(yīng),具備更精準(zhǔn)控制的action model。常見的圖像視頻功能是基于提示詞而生成,而Matrix-Zero的可交互視頻則可以接受用戶任意的鍵盤移動方向控制、鼠標(biāo)移動,包括前后左右的移動和視角移動。
如何從3D場景渲染出視頻?首先在3D場景中放置一個攝像機(下圖左橘紅色線框所示)并指定其運動軌跡,每一個時刻都可以根據(jù)相機位置和朝向?qū)?D場景渲染為視頻圖片,將這些圖片拼接即可得到視頻。
比如Matrix-Zero基于一張城市街頭圖片生成可交互視頻,用戶可以操控視角選擇任意向左側(cè)轉(zhuǎn)向與走動。
Matrix-Zero基于一張沙漠圖片生成的可交互視頻中,視頻會跟隨用戶視角先向左橫移,再小步后退,再猛然轉(zhuǎn)向右側(cè)橫移,做大范圍的自由探索。
之所以能夠做到如此高自由度的可交互視頻,在于Matrix-Zero包含的兩個系統(tǒng)。最核心的是基礎(chǔ)視頻生成模型,負責(zé)根據(jù)初始視頻幀生成連貫的視頻內(nèi)容。
在此基礎(chǔ)上,昆侖萬維自研了一個“用戶輸入交互系統(tǒng)”,包含離散運動控制模塊、連續(xù)視角控制模塊、3D場景位置追蹤模塊、滑動窗口機制等關(guān)鍵部分,負責(zé)解析用戶輸入并轉(zhuǎn)化為視頻調(diào)整信號,確保視頻內(nèi)容準(zhǔn)確響應(yīng)用戶操作。
該模型不僅支持開放領(lǐng)域的視頻生成,還能精確控制視頻中的視角移動,滿足用戶的交互需求,從而拓展在虛擬環(huán)境、交互式應(yīng)用以及沉浸式體驗中的應(yīng)用場景。
3.智能空間時代已來臨,一鍵開啟未來之門
2024年11月,昆侖萬維創(chuàng)始人周亞輝曾發(fā)朋友圈表示,對昆侖萬維2024年的AI戰(zhàn)略打滿分,原因是足夠差異化,找到了自己小而大美的空間。
昆侖萬維從2020年開始進入AI領(lǐng)域,目前已經(jīng)完成了“算力基礎(chǔ)設(shè)施——大模型算法——AI應(yīng)用”的全產(chǎn)業(yè)鏈布局,并構(gòu)建了多元化的AI業(yè)務(wù)矩陣。
在算力基礎(chǔ)設(shè)施層,昆侖萬維2024年就有近萬卡的訓(xùn)練資源,足夠支撐訓(xùn)練基于多模態(tài)的MoE大模型以及視頻生成大模型。
在基座大模型上,昆侖萬維先后發(fā)布了文本大模型天工4.0、音樂大模型天工SkyMusic、推理大模型天工4.0 o1版以及現(xiàn)在的空間智能Matrix-Zero世界模型等。到目前為止,昆侖萬維在語言大模型、語音大模型、音樂大模型、3D大模型等方向具備強有力的核心競爭力,這些技術(shù)的研發(fā)積累為其前瞻、自主、積極地探索空間智能奠定了堅實的基礎(chǔ)。
同時,在AI應(yīng)用層,昆侖萬維的業(yè)務(wù)覆蓋AI搜索、AI音樂、AI視頻、AI社交、AI游戲等領(lǐng)域,先后推出了AI搜索產(chǎn)品天工AI搜索、AI社交平臺Linky、AI短劇平臺SkyReels等,并在國內(nèi)外市場均占有一席之地。
至此,昆侖萬維成為國內(nèi)少數(shù)在AI領(lǐng)域全產(chǎn)業(yè)鏈布局的互聯(lián)網(wǎng)大廠。
昆侖萬維在AI上的全產(chǎn)業(yè)鏈布局與其對商業(yè)模式的思考息息相關(guān)。昆侖萬維董事長兼CEO方漢曾表示,AI帶來一個很重要的機會是文化平權(quán)和多語言帶來的藍海。中國企業(yè)在產(chǎn)品優(yōu)化上、在模式創(chuàng)新上會涌現(xiàn)出更多的結(jié)果。如果想成為下一代的互聯(lián)網(wǎng)AI巨頭,一定要在C端產(chǎn)品上做出創(chuàng)新。
此次,昆侖萬維發(fā)布的空間智能Matrix-Zero世界模型,不僅革新了用戶與數(shù)字生成環(huán)境之間的互動方式,為智能體的研發(fā)搭建了虛擬化的基礎(chǔ)平臺,更為昆侖萬維的AI矩陣業(yè)務(wù)帶來全新的助力。而昆侖萬維成為中國首家發(fā)布3D場景生成、可交互視頻生成模型的探索空間智能的企業(yè),正是公司堅持持續(xù)技術(shù)創(chuàng)新和提前布局AI的結(jié)果。
不積跬步,無以至千里。Matrix-Zero的發(fā)布只是昆侖萬維邁向AGI的一小步,但昆侖萬維的每一步都邁得很踏實,小而大美的能量將會在AI時代厚積薄發(fā)。
(正文圖片與封面圖來自昆侖萬維)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.