99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

昆侖萬維發(fā)布中國首款“空間智能大模型”,融合3D世界和可交互視頻生成|甲子光年

0
分享至



一個比Sora更懂物理世界的世界模型。

作者|趙健??

近期,DeepSeek R1與OpenAI o3帶火了推理模型,全世界都在惡補強化學(xué)習(xí)。

不過,無論是DeepSeek還是OpenAI,當(dāng)前的推理模型仍集中于文本領(lǐng)域,而文本之外的其他模態(tài)的AI進展也同樣不容忽視。

常見的多模態(tài)生成任務(wù)包括文本、圖像與視頻生成。AI生成可交互3D場景作為一種新興的多模態(tài)任務(wù),也被稱為“空間智能”的領(lǐng)域,在國內(nèi)有了一項新突破。

這就是昆侖萬維今天剛剛發(fā)布的空間智能大模型Matrix-Zero輸入一張圖片,Matrix-Zero既可以生成可自由探索的真實合理的3D場景,也可以生成可交互的視頻內(nèi)容。該模型預(yù)計在4月份上線。

空間智能領(lǐng)域有不少AI創(chuàng)業(yè)公司與大廠在布局,比較知名的有“AI教母”李飛飛成立的首家創(chuàng)業(yè)公司W(wǎng)orld Labs,以及谷歌DeepMind發(fā)布的“世界模型”Genie。

Matrix-Zero就是昆侖萬維發(fā)布的“世界模型”。昆侖萬維成為國內(nèi)第一家同時推出“3D場景生成+可交互視頻生成模型”的探索空間智能的AI公司

空間智能技術(shù)對于游戲開發(fā)、具身智能等行業(yè)的發(fā)展具有重要價值,而昆侖萬維在空間智能這一細分領(lǐng)域走在了行業(yè)探索的最前列。


1.為什么要關(guān)注空間智能?

空間智能為什么值得關(guān)注?因為大多數(shù)通用AIGC工具生成的是2D內(nèi)容,如圖像或視頻,而以3D形式生成的內(nèi)容則提高了控制和一致性,這將改變行業(yè)制作電影、游戲、模擬器以及其他數(shù)字形式的物理世界的方式。

李飛飛曾提到:“空間智能讓機器脫離數(shù)據(jù)中心,進入現(xiàn)實世界,理解豐富的三維、四維世界”,并總結(jié)為“I see,I move,I think,so I am”(我看、我動、我思,故我在),突出視覺、運動與認知的融合。

在過去,由于傳統(tǒng)AI模型集中于語言和數(shù)值數(shù)據(jù),難以理解雜亂無章、結(jié)構(gòu)不定且不斷變化的真實物理世界,所以空間智能的發(fā)展存在重重挑戰(zhàn)。直到最近兩年生成式AI爆發(fā),讓機器來理解三維物理世界的技術(shù)越發(fā)成熟,空間智能成為一個炙手可熱的創(chuàng)新領(lǐng)域。

英偉達高級研究科學(xué)家Jim Fan曾用一句話總結(jié)了AI內(nèi)容進化史:“Stable Diffusion是2D縮影;Sora是2D+時間維度的縮影;而World Labs是3D、沉浸式的縮影”。

大部分2D AIGC產(chǎn)品,比如圖像模型與視頻模型,雖然發(fā)展迅猛,但受制于像素空間和3D空間的差異,往往存在生成結(jié)果不一致、物理不合理等問題。

3D AIGC生成工具又可以分為兩種場景,一是TripoAI、Meshy、騰訊混元等主要關(guān)注在單個物體模型的生成,一般支持文生3D與圖生3D;二是World Labs、谷歌Genie等,主要關(guān)注在3D場景的生成,以圖生3D場景為主。如果用游戲舉例,前者聚焦在形形色色的人物角色生成,后者聚焦在人物角色所處的環(huán)境、背景的生成。

Matrix-Zero世界模型采用了與World Labs與Genie不完全相同的技術(shù)路線。Matrix-Zero包含了兩款子模型:3D場景生成大模型和可交互視頻生成大模型,可以將3D場景生成與可交互視頻生成進行融合,是一條獨具特色的路線。

2.3D場景生成+可交互視頻Matrix-Zero的兩大特色

Matrix-Zero既是一個可自由探索的真實合理的3D場景生成模型,也是一個可交互的視頻生成模型。

Matrix-Zero的第一個子模型是3D場景生成大模型,支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實合理的3D場景,其最大亮點功能是“全局一致性”,同時比李飛飛Worlds Labs實現(xiàn)更大范圍的自由探索,而且包括動態(tài)物理效果

全局一致性是指圖像、視頻與3D等AIGC工具在生成內(nèi)容上保持邏輯、風(fēng)格、情節(jié)的連貫性與一致性。以視頻為例,如果上一秒的主角穿著藍色外套,下一秒的主角卻變成了紅色外套,這樣是無法真正具備生產(chǎn)力價值的。

Matrix-Zero旗下3D場景生成大模型包含兩個核心模塊:場景布局生成模塊和紋理生成模塊。布局模塊通過可微渲染和擴散模型生成與輸入圖片一致的3D布局;紋理模塊基于圖片和視頻模型訓(xùn)練,生成符合布局的精準(zhǔn)視頻。兩者結(jié)合經(jīng)3D Gaussian Splatting進行端到端優(yōu)化即可得到初始場景。當(dāng)用戶移動時,模型會自動補全缺失區(qū)域,確保場景始終合理且一致。

比如,Matrix-Zero可以生成在360度環(huán)視下前后一致的3D場景:

也可以生成在360度俯視下前后一致的3D場景:


在自由度探索上,World Labs發(fā)布的Demo只能實現(xiàn)“左右前后”四個方向的小范圍移動。相比之下,Matrix-Zero支持在場景中進行任意方向的長距離、大范圍的探索,比如環(huán)視、先環(huán)視再前進、后退、前進后右轉(zhuǎn)、360度俯視、180度回頭、持續(xù)左轉(zhuǎn)等自由度。在3D場景的空間自由探索上,Matrix-Zero做到了行業(yè)領(lǐng)先的水平。

在場景風(fēng)格上,無論輸入圖片是卡通風(fēng)格或?qū)憣嶏L(fēng)格,Matrix-Zero均可生成合理的3D場景。


而且,Matrix-Zero還支持風(fēng)格遷移,對同一張輸入圖片,支持不同風(fēng)格的場景生成。比如輸入寫實風(fēng)格的圖片,能生成卡通風(fēng)格的3D場景。

此外,Matrix-Zero不僅支持靜態(tài)場景生成,其生成的3D場景中還可包含動態(tài)物體,且動態(tài)符合物理規(guī)律,如光照效果,水花動態(tài)、云霧動態(tài)等。

Matrix-Zero的第二個子模型,是“可交互”的視頻大模型提供以用戶輸入為核心驅(qū)動的可交互空間智能視頻生成方案,這與World Labs所采取的純3D場景生成路線不一樣,與基于提示詞的圖像生成視頻功能也不一樣。

當(dāng)用戶上傳一張圖片,Matrix-Zero不僅可以生成清晰、穩(wěn)定、符合物理邏輯的視頻,還可以根據(jù)用戶的實時交互操作做出響應(yīng),具備更精準(zhǔn)控制的action model。常見的圖像視頻功能是基于提示詞而生成,而Matrix-Zero的可交互視頻則可以接受用戶任意的鍵盤移動方向控制、鼠標(biāo)移動,包括前后左右的移動和視角移動。

如何從3D場景渲染出視頻?首先在3D場景中放置一個攝像機(下圖左橘紅色線框所示)并指定其運動軌跡,每一個時刻都可以根據(jù)相機位置和朝向?qū)?D場景渲染為視頻圖片,將這些圖片拼接即可得到視頻。

比如Matrix-Zero基于一張城市街頭圖片生成可交互視頻,用戶可以操控視角選擇任意向左側(cè)轉(zhuǎn)向與走動。


Matrix-Zero基于一張沙漠圖片生成的可交互視頻中,視頻會跟隨用戶視角先向左橫移,再小步后退,再猛然轉(zhuǎn)向右側(cè)橫移,做大范圍的自由探索。


之所以能夠做到如此高自由度的可交互視頻,在于Matrix-Zero包含的兩個系統(tǒng)。核心的是基礎(chǔ)視頻生成模型,負責(zé)根據(jù)初始視頻幀生成連貫的視頻內(nèi)容。

在此基礎(chǔ)上,昆侖萬維自研了一個“用戶輸入交互系統(tǒng)”,包含離散運動控制模塊、連續(xù)視角控制模塊、3D場景位置追蹤模塊、滑動窗口機制等關(guān)鍵部分,負責(zé)解析用戶輸入并轉(zhuǎn)化為視頻調(diào)整信號,確保視頻內(nèi)容準(zhǔn)確響應(yīng)用戶操作。

該模型不僅支持開放領(lǐng)域的視頻生成,還能精確控制視頻中的視角移動,滿足用戶的交互需求,從而拓展在虛擬環(huán)境、交互式應(yīng)用以及沉浸式體驗中的應(yīng)用場景。

3.智能空間時代已來臨,一鍵開啟未來之門

2024年11月,昆侖萬維創(chuàng)始人周亞輝曾發(fā)朋友圈表示,對昆侖萬維2024年的AI戰(zhàn)略打滿分,原因是足夠差異化,找到了自己小而大美的空間。

昆侖萬維從2020年開始進入AI領(lǐng)域,目前已經(jīng)完成了“算力基礎(chǔ)設(shè)施——大模型算法——AI應(yīng)用”的全產(chǎn)業(yè)鏈布局,并構(gòu)建了多元化的AI業(yè)務(wù)矩陣。

在算力基礎(chǔ)設(shè)施層,昆侖萬維2024年就有近萬卡的訓(xùn)練資源,足夠支撐訓(xùn)練基于多模態(tài)的MoE大模型以及視頻生成大模型。

在基座大模型上,昆侖萬維先后發(fā)布了文本大模型天工4.0、音樂大模型天工SkyMusic、推理大模型天工4.0 o1版以及現(xiàn)在的空間智能Matrix-Zero世界模型等。到目前為止,昆侖萬維在語言大模型、語音大模型、音樂大模型、3D大模型等方向具備強有力的核心競爭力,這些技術(shù)的研發(fā)積累為其前瞻、自主、積極地探索空間智能奠定了堅實的基礎(chǔ)。

同時,在AI應(yīng)用層,昆侖萬維的業(yè)務(wù)覆蓋AI搜索、AI音樂、AI視頻、AI社交、AI游戲等領(lǐng)域,先后推出了AI搜索產(chǎn)品天工AI搜索、AI社交平臺Linky、AI短劇平臺SkyReels等,并在國內(nèi)外市場均占有一席之地。

至此,昆侖萬維成為國內(nèi)少數(shù)在AI領(lǐng)域全產(chǎn)業(yè)鏈布局的互聯(lián)網(wǎng)大廠。

昆侖萬維在AI上的全產(chǎn)業(yè)鏈布局與其對商業(yè)模式的思考息息相關(guān)。昆侖萬維董事長兼CEO方漢曾表示,AI帶來一個很重要的機會是文化平權(quán)和多語言帶來的藍海。中國企業(yè)在產(chǎn)品優(yōu)化上、在模式創(chuàng)新上會涌現(xiàn)出更多的結(jié)果。如果想成為下一代的互聯(lián)網(wǎng)AI巨頭,一定要在C端產(chǎn)品上做出創(chuàng)新。

此次,昆侖萬維發(fā)布的空間智能Matrix-Zero世界模型,不僅革新了用戶與數(shù)字生成環(huán)境之間的互動方式,為智能體的研發(fā)搭建了虛擬化的基礎(chǔ)平臺,更為昆侖萬維的AI矩陣業(yè)務(wù)帶來全新的助力。而昆侖萬維成為中國首家發(fā)布3D場景生成、可交互視頻生成模型的探索空間智能的企業(yè),正是公司堅持持續(xù)技術(shù)創(chuàng)新和提前布局AI的結(jié)果。

不積跬步,無以至千里。Matrix-Zero的發(fā)布只是昆侖萬維邁向AGI的一小步,但昆侖萬維的每一步都邁得很踏實,小而大美的能量將會在AI時代厚積薄發(fā)。

(正文圖片與封面圖來自昆侖萬維)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
黃仁勛的子女臉上已經(jīng)沒有華人特征?英偉達帝國接班人之謎

黃仁勛的子女臉上已經(jīng)沒有華人特征?英偉達帝國接班人之謎

近史談
2025-04-27 17:51:21
國家發(fā)改委領(lǐng)導(dǎo)有調(diào)整

國家發(fā)改委領(lǐng)導(dǎo)有調(diào)整

魯中晨報
2025-05-02 07:36:19
中超積分榜:蓉城3連勝隊史首次登頂 申花吞首敗凈勝球劣勢列第二

中超積分榜:蓉城3連勝隊史首次登頂 申花吞首敗凈勝球劣勢列第二

直播吧
2025-05-02 21:45:26
張馨予穿緊身衣,這身材讓人欲罷不能,網(wǎng)友:哪像是生過小孩的人

張馨予穿緊身衣,這身材讓人欲罷不能,網(wǎng)友:哪像是生過小孩的人

說真話的小陳
2025-04-15 10:53:47
馬英九:若大陸統(tǒng)一臺灣的手段不和平,過程不民主,臺灣人不接受

馬英九:若大陸統(tǒng)一臺灣的手段不和平,過程不民主,臺灣人不接受

紅色鑒史官
2025-04-11 20:15:02
俄羅斯專家觀點:遠東歸還我國,領(lǐng)土面積超過600萬平方公里

俄羅斯專家觀點:遠東歸還我國,領(lǐng)土面積超過600萬平方公里

戶外釣魚哥阿旱
2025-04-20 06:57:29
有沒有一種體質(zhì)讓你大開眼界?網(wǎng)友:無語,五十歲了說話還是很嗲

有沒有一種體質(zhì)讓你大開眼界?網(wǎng)友:無語,五十歲了說話還是很嗲

解讀熱點事件
2025-04-27 00:10:02
你發(fā)現(xiàn)沒
?張柏芝哪哪兒都好,就是有一個缺點可能永遠也改不了

你發(fā)現(xiàn)沒 ?張柏芝哪哪兒都好,就是有一個缺點可能永遠也改不了

如安青何
2025-05-01 01:40:24
50歲金巧巧在天津被偶遇,去掉濾鏡都認不出來了,衣品土的掉渣兒

50歲金巧巧在天津被偶遇,去掉濾鏡都認不出來了,衣品土的掉渣兒

小椰的奶奶
2025-05-03 02:53:17
因抱怨裁判染兩黃&被罰下!斯盧茨基:特謝拉肯定會受到相應(yīng)處罰

因抱怨裁判染兩黃&被罰下!斯盧茨基:特謝拉肯定會受到相應(yīng)處罰

直播吧
2025-05-02 22:40:11
在位16年,詭異了16年

在位16年,詭異了16年

我是歷史其實挺有趣
2025-05-02 07:35:12
上海女子扔鼻涕紙后續(xù):官方介入,原來是慣犯,餛飩店主女兒發(fā)聲

上海女子扔鼻涕紙后續(xù):官方介入,原來是慣犯,餛飩店主女兒發(fā)聲

金哥說新能源車
2025-05-02 09:37:22
被抓了:霸占富士山雇人砍了鄰居的23棵樹的中國籍老板,有個雅致的名字……

被抓了:霸占富士山雇人砍了鄰居的23棵樹的中國籍老板,有個雅致的名字……

日本物語
2025-04-30 08:25:00
印度航母太丟人了,剛開到巴基斯坦門口炫耀,就被中國武器嚇跑了

印度航母太丟人了,剛開到巴基斯坦門口炫耀,就被中國武器嚇跑了

起喜電影
2025-05-03 03:51:48
4195元!iPhone16突然再降價,這價格有點刺激啊!

4195元!iPhone16突然再降價,這價格有點刺激啊!

搞機小帝
2025-05-03 00:08:23
汪峰家世曝光,太嚇人了,難怪章子怡40歲心甘情愿給他生孩子

汪峰家世曝光,太嚇人了,難怪章子怡40歲心甘情愿給他生孩子

科學(xué)發(fā)掘
2025-04-30 00:32:21
黑龍江富豪慘遭滅門,保姆裝死逃過一劫,保姆:兇手怎么會是他?

黑龍江富豪慘遭滅門,保姆裝死逃過一劫,保姆:兇手怎么會是他?

林林故事揭秘
2025-04-10 17:37:49
火箭VS勇士G6:為什么火箭隊可以拿下比賽

火箭VS勇士G6:為什么火箭隊可以拿下比賽

隱于山海
2025-05-03 06:08:25
號稱法國的羅納爾多,卻在英超淪為水貨,實力派被教練給耽誤了

號稱法國的羅納爾多,卻在英超淪為水貨,實力派被教練給耽誤了

足壇典故
2025-05-02 19:50:51
美媒放話:中國不還清朝舊債就賴掉8600億美債!中方反擊讓美傻眼

美媒放話:中國不還清朝舊債就賴掉8600億美債!中方反擊讓美傻眼

小晨同學(xué)啊
2025-04-18 14:10:25
2025-05-03 06:47:00
甲子光年
甲子光年
中國科技產(chǎn)業(yè)化前沿智庫
3050文章數(shù) 9237關(guān)注度
往期回顧 全部

科技要聞

微軟CEO和奧特曼失了和,OpenAI被“斷糧”

頭條要聞

美媒:馬斯克不再在白宮辦公后 特朗普演講時"挖苦"他

頭條要聞

美媒:馬斯克不再在白宮辦公后 特朗普演講時"挖苦"他

體育要聞

盧的調(diào)整,雖遲但到

娛樂要聞

趙又廷節(jié)目中高調(diào)撒糖 大贊高圓圓超好

財經(jīng)要聞

黃仁勛在美國又穿西裝表態(tài),怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態(tài)度原創(chuàng)

健康
教育
本地
親子
公開課

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

數(shù)一數(shù),圖中一共有多少個三角形?

本地新聞

春色滿城關(guān)不住 | 花漾千陽!塬上秘境藏幾重詩意?

親子要聞

陪伴孩子一起面對痛苦,生發(fā)其應(yīng)當(dāng)承擔(dān)的責(zé)任

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 池州市| 濮阳县| 康保县| 文昌市| 互助| 河间市| 偃师市| 鄂温| 洪洞县| 遵化市| 正安县| 江安县| 日喀则市| 平湖市| 诏安县| 许昌县| 龙江县| 宁陵县| 东乡县| 台前县| 包头市| 正定县| 离岛区| 瓮安县| 博罗县| 广德县| 荃湾区| 弥勒县| 云梦县| 上栗县| 杭锦旗| 丰都县| 焦作市| 东丰县| 阿合奇县| 嘉义县| 泸州市| 偏关县| 平定县| 武义县| 兰坪|