作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
我們身處一個對數字娛樂體驗的期待被無限拔高的時代。每當一款像《GTA6》預告片那樣的重磅內容釋出,引發全球玩家對虛擬世界真實感、互動性與自由度的熱烈討論時,一個更深層次的渴望便浮出水面:我們對未來游戲的終極幻想,究竟是什么模樣?
《GTA6》預告片截圖
或許,它不再僅僅是開發者預設好一切的精致沙盒,也不是傳統意義上AI扮演的NPC(非玩家角色)或陪玩伙伴。想象一下,如果AI本身就是“創世神”,能夠實時理解你的意圖,動態生成一個鮮活、演進、遵循內在物理邏輯,并且可以被你隨心所欲探索、操控乃至重塑的互動宇宙?在這個世界里,每一次日出、每一片落葉、每一個NPC的反應,都不是預設腳本的重復,而是AI基于對“世界規則”的理解與你的互動而涌現的獨一無二的體驗。
這聽起來像是遙不可及的科幻片段嗎?在過去,或許是的。但今天,隨著人工智能技術的飛速發展,尤其是“世界模型”這一前沿概念的興起,這種由AI主導構建交互式世界的愿景,已吸引了全球眾多前瞻者的目光和投入。
從科技巨頭如英偉達憑借其Cosmos平臺在推動物理AI的普及,谷歌DeepMind集結頂尖人才專攻能夠模擬真實物理環境的世界模型,微軟MineWorld、Oasis項目等項目探索特定場景下的實時交互生成,李飛飛的World Labs聚焦空間智能大型世界模型LWM,都在不斷拓展“世界模型”的邊界。
在這場全球性的技術浪潮中,中國的科技力量同樣在積極布局。昆侖萬維便是其中之一,持續在AGI與AIGC領域進行投入。繼此前推出的Matrix Zero初步探索了AI基于單張圖片生成虛擬世界的能力之后,其最新發布的Matrix-Game,成為首個10B+參數的開源交互式世界模型。對MatrixGame V1的技術細節、開源代碼或在線演示感興趣的讀者,可以通過以下鏈接獲取更多信息:
項目主頁:https://matrix-game-homepage.github.io
技術報告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf
GitHub開源地址:https://github.com/SkyworkAI/Matrix-Game
HuggingFace開源地址:https://huggingface.co/Skywork/Matrix-Game
1
Matrix-Game:構建可交互的“真實”
在對AI驅動的交互式世界充滿期待的背景下,昆侖萬維Matrix系列在空間智能領域的探索再進一步,推出了其在交互式世界生成方向的首次正式落地成果——Matrix-Game,不僅僅是一個全新的模型,背后也是一種面向未來的技術范式和應用潛力。在Demo演示中我們可以直觀的看到Matrix-Game的能力:
在多個經典的《我的世界》風格場景中,Matrix-Game都能夠精確響應用戶的鍵盤與鼠標指令。角色流暢地執行著前進、后退、跳躍、攻擊等基礎動作,視角也隨著用戶的操控自由切換:
Matrix-Game支持自回歸方式生成,在長視頻中,場景依然能夠保持高度的時序一致性和視覺連貫性:
Matrix-Game還初步展示了場景泛化的潛力,能夠生成不同類型虛擬世界:
直觀的演示之后,Matrix-Game的交互生成能力已初見端倪,但其技術基底才是決定能力邊界的關鍵。
Matrix-Game是什么?
Matrix-Game 被定義為一款面向游戲世界建模的交互式世界基礎模型。其核心設計目標,是在可自由探索的開放環境中,實現高質量的內容生成與用戶輸入的精確控制 。通俗地講,Matrix-Game 通過融合視頻生成技術與用戶交互體驗,目標是讓用戶能夠通過簡單直觀的指令(如鍵盤按鍵、鼠標移動),自由地探索、操控,乃至實時創造出細節豐富、且遵循合理物理規則的虛擬世界。這就好比,以前AI可能只是給我們放一段動畫片,我們只能“被動”觀看;現在AI則是給了我們一個巨大的互動游樂場,我們不僅能進去玩,還能動手與AI共同搭建新的游樂設施。
三大技術基石
Matrix-Game構建于其三大核心技術基石之上。首先是Matrix-Game-MC數據集,昆侖萬維為此自主構建了大規模的交互世界數據集,其中包含兩大類關鍵數據:一是大規模的無標簽Minecraft游戲視頻;二是帶有精確鍵盤與鼠標控制信號的Minecraft及Unreal可控視頻數據,這些數據均具備精細的動作注釋 。為保證預訓練數據質量,團隊從高達6000小時的MineDojo(基于《Minecraft》的開源 AI 研究框架)原始數據中,通過畫質與美學、非游戲內容剔除、動態與視角穩定性等多階段過濾機制,篩選出近千小時的高質量720p視頻片段。
而在有標簽的可控監督數據生成上,則混合采用了兩種策略:一方面利用VPT Agent在MineRL環境中進行自動探索,生成包含精確控制信號的大規模Minecraft視頻;另一方面,基于Unreal Engine手動構建結構清晰、標簽精確的模擬交互場景,以獲取高精度、無噪聲的可控標注數據,為高保真的動作-響應建模提供支持 。
系統的核心引擎是Matrix-Game 主模型。這是一個基于先進擴散模型技術開發的“圖像到世界”(Image-to-World)生成框架 。它強調空間智能能力,不依賴復雜的語言提示,僅基于視覺信號來建模空間幾何、物體運動及其物理交互,并以單張參考圖像作為生成交互式視頻的起點 。
該模型能夠根據用戶的鍵盤指令(如上下左右跳躍攻擊,以離散token表達)和鼠標移動(如視角變化,以連續token表達)等輸入,融合GameFactory的控制模塊與多模態Diffusion Transformer架構,并運用CFG技術提升控制魯棒性,直接生成虛擬游戲世界的視頻內容 。
為實現長視頻的連貫生成,模型還支持自回歸方式擴展長度,每次以前一視頻片段的最后5幀作為運動上下文,逐段遞進,同時采用多種策略(如隨機擾動、刪除、CFG引導)緩解時序漂移 。這一17B參數規模的世界基座模型,在空間理解、用戶指令響應及物理交互建模上均取得了明顯的進步 。
最后,為了科學、客觀地評估一個“世界模型”的交互能力和真實性這一行業難題,昆侖萬維提出了GameWorld Score 評測體系,這是專為Minecraft世界建模設計的統一評測框架 ,旨在為交互式世界模型建立一個統一的評估標準,從視覺質量、時間連貫性、動作可控性以及物理規則理解等四個關鍵維度,對模型的綜合性能進行量化評估,這不僅有助于Matrix-Game自身的迭代優化,也為該領域內缺乏系統性評測基準的現狀提供了一個有益的補充。
不只是“又一個”世界模型
審視Matrix-Game的技術細節及其展現出的特性,我們不難發現昆侖萬維在交互式AI世界生成這一前沿賽道上,尋求技術突破與獨特市場定位的努力。
一個核心的亮點是它在讓你和AI世界互動時的控制感,以及這個世界本身的真實感(尤其是物理規律方面)有了很大提升。有些AI可能主要就是把畫面做得漂亮,但Matrix-Game不太一樣,它著力確保其生成的世界具備內在的合理性與連貫性,避免出現違背基本規律與常識的場景。比如,在這個AI世界里,東西真的會往下掉,你操作的角色跳起來、撞到障礙物,都會有比較真實的反應。你能精細地控制角色往前走、跳起來、轉頭看風景,而且AI反應很快,操作起來更順手,這樣體驗起來就感覺更真實,也更容易上手。我們可以把它與其他一些類似的開源方案做一個對比。比如說Decart的公司的Oasis模型,它能做到實時互動,但目前看,Oasis生成的畫面還比較模糊,有時候邏輯也不太連貫,有網友評論說就像是在噩夢一樣,微軟也推出了Mineworld模型,但主要是給研究人員做實驗用的,畫面也比較粗糙,離真正的商業應用還有距離。
油管博主CygnusMC體驗Oasis后評價其為“劣質品AI ”
相較之下,Matrix-Game不僅在細粒度的用戶交互控制上表現出色,模型支持前進、跳躍、攻擊、視角移動等多種細節操作,并能根據用戶輸入做出準確自然的響應。Matrix-Game努力的方向是既要讓用戶能跟它順暢互動,又要保證畫面盡量真實、物理效果靠譜、整個世界也不能bug或者前后矛盾層出不窮。從昆侖萬維的測試的結果來看,MatrixGame在Minecraft世界生成任務的各項指標上(包括視覺質量、時間一致性、動作可控性與物理規則理解)均超越了這兩個模型 。例如,其圖像質量達到0.72,鍵盤控制準確率為0.95,鼠標控制準確率為0.95,3D一致性為0.76,均高于對比組 。在雙盲用戶評估中,Matrix-Game生成的視頻在總體偏好率上達到了96.3%,動作控制偏好達93.76% 。這些數據直觀地反映了其在交互體驗和生成質量上的提升。
更重要的是,因為MatrixGame還學習了Unreal Engine中的內容,所以它能干的活兒更多,更有潛力去搭建各種各樣更復雜、更開放的大世界,而不僅僅是方塊風格的世界。這一點讓它有了面向更廣闊、更多樣化開放世界去發展的潛力。根據其發布的技術報告和演示,模型已初步展示了在多種Minecraft地形、天氣和生物群系中的泛化能力,以及向一些非Minecraft游戲環境遷移的初步效果 。
此外,昆侖萬維還做了 GameWorld Score評分系統,本身是一個挺新的想法,以前大家評價這種AI世界好不好,可能比較模糊,現在有了個更清楚的尺子,來量一量這個世界到底有多“好用”、多“真實”。
繼GameWorld Score評測體系之后,昆侖萬維也將Matrix-Game模型在 Github 和 Hugging Face 上開源 。此舉主要面向游戲行業,同時也保留了其作為通用模型的潛力。對于一家中國企業而言,在交互式AI世界生成這一前沿技術領域選擇開源,體現了其開放的行業姿態與推動生態發展的意愿。通過開放核心技術,Matrix-Game有望降低行業應用門檻,吸引更廣泛的開發者參與共建,從而激發更多創新應用場景的涌現。
1
AI生成世界,然后呢?
當AI真正開始理解并能構建可交互的“真實”,最直接的影響是在游戲行業。傳統的游戲開發流程漫長且成本高昂,而隨著Matrix-Game這樣的交互式世界模型的發展。想象一下,開發者可以借助AI快速生成多樣化的游戲世界原型,甚至讓AI根據預設規則動態生成新的任務、場景和挑戰,極大地豐富游戲內容,降低開發門檻。
玩家也將從被動接受預設內容,轉變為與AI共同創造獨一無二游戲體驗的參與者。AI驅動的NPC不再是只會重復固定對話的“背景板”,而是能夠進行有意義互動、甚至擁有“個性”的智能伙伴。
在教育與仿真領域,這種技術也能催生出高度可控、交互豐富的虛擬學習與訓練平臺,無論是模擬復雜的科學實驗,還是進行高風險的職業技能培訓,都能在安全且低成本的環境下實現。
Matrix-Game的潛力還將輻射到具身智能的訓練與測試。要讓機器人或虛擬智能體在復雜物理世界中高效工作,需要海量、多樣化且可控的訓練環境。Matrix-Game所構建的遵循物理規則、支持細粒度交互的虛擬世界,為智能體的動作規劃、任務執行和環境適應性學習提供了理想的“健身房”。
對于元宇宙內容生產和影視創作而言,Matrix-Game也打開了新的想象空間。無論是快速搭建沉浸式的虛擬社交空間,還是高效生成影視劇中所需的復雜動態場景,AI都將成為強大的生產力工具,讓創作者能更專注于創意本身,而非繁瑣的技術實現。正如Decart聯合創始人Dean Leitersdorf所言,生成式AI有潛力從根本上改變人與計算機互動的方式,創造全新的數字游樂場。
這次Matrix-Game的發布可以看到,昆侖萬維除了在AI應用層面(如AI搜索、AI短劇、AI音樂、AI游戲、AI社交等)的布局,在底層技術(“天工”系列大模型、AI芯片研發)上也在進行持續投入。
世界模型,因其對現實世界的模擬與理解能力,被許多研究者視為通往通用人工智能(AGI)的關鍵路徑之一。當前AI研究者對世界模型的追求,是試圖超越數據,進行反事實推理,回答“what if”問題的能力。一旦世界模型產生突破,AI的決策能力將大幅提升。
盡管世界模型技術仍面臨算力需求、模型幻覺、數據版權等多重挑戰,距離理想中能完美模擬現實的“超級模擬器”也還有漫長的道路要走。但Matrix-Game的發布,像是向未來投下的一顆石子,連同全球范圍內其他先行者的探索,清晰地揭示了這一趨勢:當AI不僅能生成我們眼前的景象,更能賦予這個景象內在的邏輯、鮮活的互動,甚至在其中展現出一定的“創造性”時,數字世界便開始擁有了某種意義上的“靈魂”。
這樣的世界不再僅僅是被動體驗的對象,而是成為我們思想的延伸、創造力的畫布,以及與AI共同書寫未來敘事的廣闊場域。
點個愛心,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.