網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

兩位自動駕駛大牛創(chuàng)業(yè)世界模型：無需任何游戲引擎，人人免費可玩

2025-05-29 15:28:38　來源: 量子位

北京舉報

分享至

李飛飛押注的世界模型領(lǐng)域，迎來兩位自動駕駛大牛創(chuàng)業(yè)新成果！

無需任何游戲引擎，AI能以40毫秒/幀想象并實時生成視頻。

40毫秒/幀啥概念？

人類眨一次眼都需要100~400毫秒，所以現(xiàn)在AI幾乎可以一瞬間創(chuàng)造視頻了。

而且無需高端顯卡，玩家可以實時觀看，并與AI生成的世界交互了。

就像是在探索一個平行宇宙的感覺~

而除了產(chǎn)品迅速引人關(guān)注，更值得說道的還是其背后研發(fā)公司。

兩位聯(lián)合創(chuàng)始人Oliver Cameron和Jeff Hawke均在自動駕駛領(lǐng)域有著深厚從業(yè)背景，雖然公司成立不到2年，但一亮相就獲得了資本青睞。

迄今為止，Odyssey已從EQT Ventures、谷歌GV和Air Street Capital等投資機構(gòu)籌集了2700萬美元（約合人民幣1.9億），皮克斯創(chuàng)始人/圖靈獎得主Ed Catmull還是其董事會成員。

目前Odyssey發(fā)布即免費可用，網(wǎng)友們已經(jīng)第一時間涌入服務(wù)器（官網(wǎng)始終顯示排隊中）。

那么，新玩家Odyssey究竟有哪些亮點呢？

世界模型≠視頻模型

一上來，Odyssey就在最新官方博客中解釋：世界模型≠視頻模型。

他們認為，乍一看世界模型好像是視頻生成模型的完美應(yīng)用，但后者的架構(gòu)、參數(shù)和數(shù)據(jù)集實際上并不適用于前者。

為此他們還提供了一個對比表格：

背后所反映的，其實是二者工作原理的不同。

視頻模型通過構(gòu)建結(jié)構(gòu)化嵌入一次性生成固定幀，適合視頻剪輯（中間無需更改）但不適合交互；

而世界模型則能夠根據(jù)當前狀態(tài)和用戶動作靈活預(yù)測下一個狀態(tài)，支持實時交互，這對于交互式視頻至關(guān)重要。

以上差異也代表著世界模型的不同發(fā)展階段。

早期階段，大多數(shù)關(guān)于世界模型的研究主要集中在：從類似《我的世界》、《雷神之錘》這樣的游戲中學(xué)習像素和動作。

由于局限于游戲范圍內(nèi)，這為世界模型可能實現(xiàn)的功能劃定了一個“已知低上限”。

而Odyssey相信：

從幾十年的真實生活視頻中學(xué)習像素和動作有望提升這一上限。

由于真實世界的視頻具有更豐富的視覺信息，以及全方位/不受限制的動作類型，因此世界模型能超越傳統(tǒng)游戲邏輯，提升模型的上限。

不過Odyssey也承認，從開放式真實視頻中學(xué)習相當困難，比如視頻內(nèi)容嘈雜多樣、動作連續(xù)且不可預(yù)測等等。

他們表示，與語言、圖像或視頻模型相比，世界模型目前還處于起步階段。

當中最大的挑戰(zhàn)是自回歸建模，即根據(jù)先前狀態(tài)預(yù)測未來狀態(tài)。由于模型生成的輸出會反饋到模型的上下文中，因此會影響后續(xù)的預(yù)測。

在語言模型中，由于狀態(tài)空間相對有限，這種反饋問題不大。但在世界模型中，狀態(tài)空間要復(fù)雜得多，這可能導(dǎo)致模型的不穩(wěn)定性，因為模型可能會偏離其訓(xùn)練數(shù)據(jù)的分布范圍。

尤其對于實時模型來說，這種不穩(wěn)定性更為明顯，因為它們在處理復(fù)雜的潛在動態(tài)時能力較弱。

針對上述問題，Odyssey開發(fā)了一種窄分布模型（narrow distribution model）。

這種模型首先在廣泛的視頻數(shù)據(jù)上進行預(yù)訓(xùn)練，然后在特定地點的密集視頻數(shù)據(jù)上進行后訓(xùn)練。這種后訓(xùn)練方法雖然會犧牲一些模型的通用性，但可以提高模型的穩(wěn)定性和自回歸生成的持久性。

與此同時，為了提高模型的泛化能力，Odyssey爆料他們正在開發(fā)下一代世界模型。

雖然Odyssey自稱當前這個還只是早期預(yù)覽版，“可能相對粗糙”，但網(wǎng)友的第一波實測已經(jīng)證明了其潛力。

提供實測的網(wǎng)友表示，對任何想要體驗的人來說，這很酷！

而且，隨著更大規(guī)模的算力集群支持，Odyssey的視頻傳輸速度還會提升。

據(jù)悉，預(yù)覽版當前由美國和歐盟的H100 GPU集群提供算力支持，傳輸速度為30 FPS，能輸出5分鐘甚至更長時間的連貫視頻。

30 FPS啥概念？

游戲中這一配置仍處于入門階段，屬于相對能“流暢運行”的范疇，一些3A大作可能要求會更高。

不過，鑒于用戶當前能免費體驗（官方稱每小時體驗成本為1~2美元），還要啥自行車(doge）。

由兩位自動駕駛大牛創(chuàng)立

Odyssey成立于2023年，他們創(chuàng)建之初就鐵了心要做世界模型。

這不僅是因為他們將世界模型作為下一個AI前沿，更在于團隊的“自動駕駛血統(tǒng)”在這方面擁有天然優(yōu)勢。

Odyssey官方博客中曾經(jīng)寫道：

事實上，我們90%以上的技術(shù)人員的大部分職業(yè)生涯都是在Cruise、Wayve、Waymo和特斯拉等公司從事自動駕駛汽車的開發(fā)工作。這種經(jīng)歷讓我們對構(gòu)建世界的模型的問題有了獨特的見解。

聯(lián)創(chuàng)兼CEO Oliver Cameron，十幾年職業(yè)生涯都奉獻給了自動駕駛。

2013~2017年，任Udacity實驗室（脫胎于斯坦福）產(chǎn)品與工程副總裁，領(lǐng)導(dǎo)200余人合力打造了一輛開源自動駕駛汽車；
2017~2021年，聯(lián)合創(chuàng)辦了明星自動駕駛公司Voyage，該公司后被通用旗下的自動駕駛子公司Cruise收購；
2021~2023年，跟隨Voyage加入Cruise任產(chǎn)品副總裁。
2023年至今，從自動駕駛轉(zhuǎn)投世界模型。

而且，至今他還是無人駕駛飛行器Skyways的董事會成員。

聯(lián)創(chuàng)兼CTO Jeff Hawke，創(chuàng)辦Odyssey前在另一家明星自動駕駛公司W(wǎng)ayve干了5年。

任職Wayve技術(shù)副總裁時期，帶領(lǐng)團隊打造了業(yè)界首個用于公共道路自動駕駛汽車的學(xué)習型駕駛員系統(tǒng)，即利用深度學(xué)習和計算機視覺進行駕駛學(xué)習。

而在Wayve之前，他的研究更多和“機器人”掛鉤。

從2008年到2017年，什么叉車機器人、醫(yī)療機器人等，通通都研究了個遍，后來還去了牛津機器人研究所讀博。

以上二位這次也親自參與了打造Odyssey預(yù)覽版，其余技術(shù)人員的名單如下：

最后，除了Odyssey這家公司，目前已經(jīng)有超過10家車企和自動駕駛公司提出了世界模型的概念，其中包括特斯拉、蔚來、理想、地平線、商湯、元戎啟行、Momenta等。

可以預(yù)見，仍處于起步階段的世界模型，或許就是下一個兵家必爭之地。

而且自動駕駛車企，已經(jīng)成為孕育世界模型的天然溫床。

那么，你看好這家公司嗎？

在線體驗：
https://experience.odyssey.world/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.