新智元報道
編輯:定慧 好困
【新智元導讀】剛剛,全球首個AI多人世界模型開源了!只需一臺PC外加1500美元,就能讓兩個AI智能體在同一個世界中感知、互動、協作。這不僅是AI造夢的一小步,更是AGI創造世界模型的一大步。
如果AI能生成一個多人世界,還能一起飆車會怎樣?
今天,來自以色列的Enigma Labs決定創造這個歷史——
他們用第一性原理把「世界模型」拓寬到了多個玩家,并開源了世界首個AI生成多人游戲模型Multiverse!
這不是一個簡單的游戲引擎,而是一個可以模擬兩個AI同時在一個世界中做出「合理動作」和視覺反應的大腦。
更值得一提的是,整套訓練流程只需不到1500美元,而且在你自己的電腦上就能跑!
目前,項目代碼、數據、權重、架構,以及研究成果,已經全面開源。
Hugging Face:https://huggingface.co/Enigma-AI
GitHub:https://github.com/EnigmaLabsAI/multiverse
技術博客:https://enigma-labs.io/
傳統的世界模型(World Model)確實很聰明。它能看著游戲畫面,預測下一個畫面該長什么樣,甚至學會了怎么在「內心」模擬物理、角色、環境等等。比如DeepMind做的Dreamer系列,就能靠想象完成游戲過關。
但問題來了——現實不是只有一個人玩的游戲。
想象一下,你在玩賽車游戲,對手突然一個漂移從你身邊切過去,這時你和對手所看到的場景必須是「同一事件的兩個角度」,不能各玩各的,不然要么撞車的只有你,而他卻穿模消失——這種「視角錯亂」在AI世界里,其實是非常難處理的。
如何讓兩個AI,在同一個世界里「看到同一件事」,并遵循相同物理規律?
這就是Enigma Labs的Multiverse要解決的核心難題。
Multiverse架構詳解
Multiverse多人世界模型的架構
為了幫助理解Multiverse多人世界模型的架構,首先回顧一下單人世界模型中常用的架構:
模型接收一系列視頻幀和用戶的操作信息(如按鍵),并據此預測在當前操作下的下一幀。
它通過三個主要的組件來實現這個「預測」:
動作嵌入模塊:將動作轉換為嵌入向量
去噪網絡:一種基于之前的幀和動作嵌入生成新的幀的擴散模型
上采樣器(可選):另一種擴散模型,它接收由世界模型生成的低分辨率幀,并增加輸出的細節和分辨率。
多人游戲架構
為了構建一個多人世界模型,Multiverse保留了核心組件,但徹底調整了結構,重新連接了輸入和輸出,并從頭開始重新設計了訓練流程,以實現真正的合作游戲體驗:
動作嵌入模塊:接收兩個玩家的動作,并輸出一個代表他們共同動作的嵌入向量
去噪網絡:基于之前的幀和兩個玩家的動作嵌入,同時生成兩個玩家的幀作為一個整體。
上采樣器:與單人游戲版本非常相似,不同的是,這里的上采樣器接收兩個幀(每個玩家一個),并同時計算上采樣版本。
要創建多人游戲體驗,模型需要接收兩個玩家的前幾幀畫面和動作,并為每個玩家都要輸出預測幀。
難點在于:這兩個輸出不僅需要各自看起來不錯,還需要彼此內部一致,簡單地說就是兩個玩家的感受是一致的,是發生在同一個世界中的。
這帶來了真正的挑戰,因為多人游戲依賴于共享的世界狀態。例如,如果一輛車漂移到另一輛車的前面,或者發生碰撞,兩個玩家都應該從各自的角度看到完全相同的事件。
Multivers提出了一種變通的解決方案:將兩個玩家的視角拼接成一個統一的圖像,將他們的輸入混合成一個聯合動作向量,并將整個場景視為一個統一的整體進行處理。
由此產生了一個關鍵問題:將兩個玩家「看到的面面」合并成模型可以處理的單一輸入的最佳方法是什么?
1. 很顯然,最直接的方法是將它們垂直堆疊起來——就像經典的分屏游戲那樣(比如最流行的雙人成行游戲是橫向堆疊)。
2. 另一個更有趣的選擇是沿著通道軸堆疊它們,將兩幀視為一個具有雙倍顏色通道的圖像。(下圖右邊)
Multiverse選擇了第二種方案,即沿著通道軸堆疊幀。
因為Multiverse選擇的擴散模型是一個U-Net結構,主要由卷積和反卷積層構成,前幾層只處理相鄰的像素。
如果將兩個幀垂直堆疊,模型要到中間層才能將它們一起處理(CNN的特點就是無法在一開始將整張圖片的像素一下子關聯起來)。這會降低模型生成幀間一致性的能力。
另一方面,當沿著通道軸堆疊幀時,兩個玩家的視角在網絡的每一層都會被同時處理!
上下文擴展:建模車輛運動學與兩車相對運動
為了準確預測下一幀,模型需要接收玩家的操控指令(如轉向輸入),以及足夠多的幀數,來計算兩輛車相對于道路和彼此的速度。
研究發現8幀(30fps)就可以讓模型學習車輛的運動學,如加速、剎車和轉向。
但兩輛車的相對運動比對道路的運動要慢得多。例如,車輛以約100公里/小時的速度行駛,而超車時的相對速度約為5公里/小時。
為了捕捉這種相對運動,需要將上下文的長度擴展近三倍。但這會導致模型運行速度過慢,無法滿足實時游戲的需求,同時還會增加內存占用,并大幅降低訓練速度。
為了在維持上下文長度的同時,獲取更長的時間跨度信息,Multiverse對之前的幀和操作進行了稀疏采樣。
具體來說,提供最近的4幀,然后從之前的幀中,每隔4幀取1幀,一共取4幀。上下文中最早的幀是20幀之前,也就是0.666秒前的數據,這足以捕捉車輛的相對運動。
此外,這種方法還能幫助模型更好地捕捉車輛相對于道路的速度和加速度,從而進一步優化駕駛體驗。
多人游戲訓練
為了讓模型學會駕駛技術和多人游戲中的互動,模型需要在這些互動場景中進行訓練。
在世界模型中,行走、駕駛和其他常見任務通常只需要較短的預測范圍,例如預測未來0.25秒的情況。
多人游戲中的互動則需要更長的時間跨度。在四分之一秒內,玩家之間的相對運動幾乎可以忽略不計。
因此,為了訓練多人游戲世界模型,需要設置更長的預測范圍。Multiverse將訓練模型進行自回歸預測(以30fps/s)最多可預測到未來15秒。
為了使模型能夠進行如此長時間的預測,Multiverse采用了課程學習,并在訓練過程中將預測時間從0.25秒增加到15秒。
這使得在初始訓練階段能夠高效地訓練模型,此時模型正在學習諸如汽車和賽道幾何形狀等低級特征。一旦模型學會了生成連貫的幀并建模車輛運動學,就會對其進行玩家行為等高級概念的訓練。
在增加預測范圍后,模型的「物理一致性」和幀間一致性顯著提高。
「長畫面預測」訓練
訓練一個模型來預測未來超過100幀的畫面會面臨顯存挑戰。
因為在更大batch下,將這些幀加載到GPU內存中進行自回歸預測變得不可行。為了解決這個內存限制,采用分頁的方式進行自回歸預測。
在訓練開始時,加載第一個batch的數據,并對其進行預測。
然后加載下一頁的數據,并丟棄超出上下文窗口范圍的幀。
GT賽車數據集
Enigma Labs選擇在《Gran Turismo 4》(GT賽車4)上訓練模型,「GT賽車4」中提供了來自80個制造商的700種車型,從最早的1886年的戴姆勒四輪汽車,到Nike未來概念車。
游戲設置和修改
測試用例很簡單:在Tsukuba Circuit賽道上進行第三人稱視角的1v1比賽。Tsukuba Circuit是一條短而簡單的賽道,非常適合訓練。
難點在于:「GT賽車4」不允許以全屏1v1模式在Tsukuba Circuit賽道上進行游戲。游戲只提供1V5或分屏對戰。為了實現想要的設置,Enigma Labs對游戲進行了逆向工程和修改,使其能夠在真正的1v1模式下啟動Tsukuba Circuit賽道。
數據收集
為了從兩名玩家那里收集「第三人稱」視頻數據,Enigma Labs利用了游戲內的回放系統——將每場比賽重放兩次,并從每名玩家的角度進行錄制。
然后將兩個錄像同步,使其與原始雙人比賽對齊,并將它們合并成一個視頻,展示兩名玩家同時進行游戲。
好了畫面有了,那么是如何為數據集捕獲玩家的按鍵輸入呢?特別是當其中一名玩家是游戲內的自動NPC而不是人類時?
幸運的是,游戲在屏幕上顯示了足夠的HUD元素——例如油門、剎車和轉向指示器——可以準確地重建達到每個狀態所需的控制輸入。
使用計算機視覺,逐幀提取這些條形圖并解碼它們背后的控制輸入。
這樣就能夠直接從視頻中重建完整的按鍵操作,從而無需任何直接的輸入日志記錄即可構建整個數據集。
自動數據生成
乍一看,這似乎意味著我們必須坐下來手動玩游戲好幾個小時,并為每場比賽錄制兩個回放——聽著很痛苦,對吧?
但還有一種更具可擴展性的方法:B-Spec模式。在這種「GT賽車」模式中,玩家可以使用手柄或方向盤來指示游戲內的AI駕駛員代表他們參加比賽。
由于B-Spec的控制方式有限且簡單,只需要編寫了一個腳本,向B-Spec發送隨機指令,從而自動觸發比賽。然后,同一個腳本從兩個角度記錄回放鏡頭,以捕獲這些AI驅動比賽的第三人稱視頻。
最后,還嘗試使用了OpenPilot的Supercombo模型來控制車輛,本質上將其變成游戲中的一個自動駕駛AI智能體。
不過最終還是堅持使用B-Spec進行數據生成。
多人世界模型不僅僅是游戲領域的一項突破,更是AI理解「同一個世界」的關鍵一步。
這些模型讓智能體能夠在同一環境中學習、反應和協同適應,從而開啟了無限可能。
說到底,這不只是個讓AI玩游戲的工程項目,它更像是一次嘗試:
讓AI理解「你看到的世界,和我看到的是同一個」。
這對于下一代AGI(通用智能)來說,是關鍵的一步。無論是多智能體系統、AI合作助手,還是未來的模擬訓練平臺,多人世界模型都是一塊至關重要的拼圖。
這個項目受到了很多大佬的「點名表揚」,畢竟多人游戲是AI生成世界中缺失的一環。而且這個項目的訓練成本只有1500美元。
所以,別看Multiverse現在只是「兩輛車」在跑,它很可能就是未來AI生成世界的第一個早期版本,更可能是一扇預告未來虛擬宇宙的窗口。
參考資料:
https://enigma-labs.io/blog
https://x.com/j0nathanj/status/1920516649511244258
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.