李飛飛押注的世界模型領(lǐng)域,迎來兩位自動駕駛大牛創(chuàng)業(yè)新成果!
無需任何游戲引擎,AI能以40毫秒/幀想象并實時生成視頻。
40毫秒/幀啥概念?
人類眨一次眼都需要100~400毫秒,所以現(xiàn)在AI幾乎可以一瞬間創(chuàng)造視頻了。
而且無需高端顯卡,玩家可以實時觀看,并與AI生成的世界交互了。
就像是在探索一個平行宇宙的感覺~
而除了產(chǎn)品迅速引人關(guān)注,更值得說道的還是其背后研發(fā)公司。
兩位聯(lián)合創(chuàng)始人Oliver Cameron和Jeff Hawke均在自動駕駛領(lǐng)域有著深厚從業(yè)背景,雖然公司成立不到2年,但一亮相就獲得了資本青睞。
迄今為止,Odyssey已從EQT Ventures、谷歌GV和Air Street Capital等投資機構(gòu)籌集了2700萬美元(約合人民幣1.9億),皮克斯創(chuàng)始人/圖靈獎得主Ed Catmull還是其董事會成員。
目前Odyssey發(fā)布即免費可用,網(wǎng)友們已經(jīng)第一時間涌入服務(wù)器(官網(wǎng)始終顯示排隊中)。
那么,新玩家Odyssey究竟有哪些亮點呢?
世界模型≠視頻模型
一上來,Odyssey就在最新官方博客中解釋:世界模型≠視頻模型。
他們認為,乍一看世界模型好像是視頻生成模型的完美應(yīng)用,但后者的架構(gòu)、參數(shù)和數(shù)據(jù)集實際上并不適用于前者。
為此他們還提供了一個對比表格:
背后所反映的,其實是二者工作原理的不同。
視頻模型通過構(gòu)建結(jié)構(gòu)化嵌入一次性生成固定幀,適合視頻剪輯(中間無需更改)但不適合交互;
而世界模型則能夠根據(jù)當前狀態(tài)和用戶動作靈活預(yù)測下一個狀態(tài),支持實時交互,這對于交互式視頻至關(guān)重要。
以上差異也代表著世界模型的不同發(fā)展階段。
早期階段,大多數(shù)關(guān)于世界模型的研究主要集中在:從類似《我的世界》、《雷神之錘》這樣的游戲中學(xué)習像素和動作。
由于局限于游戲范圍內(nèi),這為世界模型可能實現(xiàn)的功能劃定了一個“已知低上限”。
而Odyssey相信:
- 從幾十年的真實生活視頻中學(xué)習像素和動作有望提升這一上限。
由于真實世界的視頻具有更豐富的視覺信息,以及全方位/不受限制的動作類型,因此世界模型能超越傳統(tǒng)游戲邏輯,提升模型的上限。
不過Odyssey也承認,從開放式真實視頻中學(xué)習相當困難,比如視頻內(nèi)容嘈雜多樣、動作連續(xù)且不可預(yù)測等等。
他們表示,與語言、圖像或視頻模型相比,世界模型目前還處于起步階段。
當中最大的挑戰(zhàn)是自回歸建模,即根據(jù)先前狀態(tài)預(yù)測未來狀態(tài)。由于模型生成的輸出會反饋到模型的上下文中,因此會影響后續(xù)的預(yù)測。
在語言模型中,由于狀態(tài)空間相對有限,這種反饋問題不大。但在世界模型中,狀態(tài)空間要復(fù)雜得多,這可能導(dǎo)致模型的不穩(wěn)定性,因為模型可能會偏離其訓(xùn)練數(shù)據(jù)的分布范圍。
尤其對于實時模型來說,這種不穩(wěn)定性更為明顯,因為它們在處理復(fù)雜的潛在動態(tài)時能力較弱。
針對上述問題,Odyssey開發(fā)了一種窄分布模型(narrow distribution model)。
這種模型首先在廣泛的視頻數(shù)據(jù)上進行預(yù)訓(xùn)練,然后在特定地點的密集視頻數(shù)據(jù)上進行后訓(xùn)練。這種后訓(xùn)練方法雖然會犧牲一些模型的通用性,但可以提高模型的穩(wěn)定性和自回歸生成的持久性。
與此同時,為了提高模型的泛化能力,Odyssey爆料他們正在開發(fā)下一代世界模型。
雖然Odyssey自稱當前這個還只是早期預(yù)覽版,“可能相對粗糙”,但網(wǎng)友的第一波實測已經(jīng)證明了其潛力。
提供實測的網(wǎng)友表示,對任何想要體驗的人來說,這很酷!
而且,隨著更大規(guī)模的算力集群支持,Odyssey的視頻傳輸速度還會提升。
據(jù)悉,預(yù)覽版當前由美國和歐盟的H100 GPU集群提供算力支持,傳輸速度為30 FPS,能輸出5分鐘甚至更長時間的連貫視頻。
30 FPS啥概念?
游戲中這一配置仍處于入門階段,屬于相對能“流暢運行”的范疇,一些3A大作可能要求會更高。
不過,鑒于用戶當前能免費體驗(官方稱每小時體驗成本為1~2美元),還要啥自行車(doge)。
由兩位自動駕駛大牛創(chuàng)立
Odyssey成立于2023年,他們創(chuàng)建之初就鐵了心要做世界模型。
這不僅是因為他們將世界模型作為下一個AI前沿,更在于團隊的“自動駕駛血統(tǒng)”在這方面擁有天然優(yōu)勢。
Odyssey官方博客中曾經(jīng)寫道:
- 事實上,我們90%以上的技術(shù)人員的大部分職業(yè)生涯都是在Cruise、Wayve、Waymo和特斯拉等公司從事自動駕駛汽車的開發(fā)工作。這種經(jīng)歷讓我們對構(gòu)建世界的模型的問題有了獨特的見解。
聯(lián)創(chuàng)兼CEO Oliver Cameron,十幾年職業(yè)生涯都奉獻給了自動駕駛。
- 2013~2017年,任Udacity實驗室(脫胎于斯坦福)產(chǎn)品與工程副總裁,領(lǐng)導(dǎo)200余人合力打造了一輛開源自動駕駛汽車;
- 2017~2021年,聯(lián)合創(chuàng)辦了明星自動駕駛公司Voyage,該公司后被通用旗下的自動駕駛子公司Cruise收購;
- 2021~2023年,跟隨Voyage加入Cruise任產(chǎn)品副總裁。
- 2023年至今,從自動駕駛轉(zhuǎn)投世界模型。
而且,至今他還是無人駕駛飛行器Skyways的董事會成員。
聯(lián)創(chuàng)兼CTO Jeff Hawke,創(chuàng)辦Odyssey前在另一家明星自動駕駛公司W(wǎng)ayve干了5年。
任職Wayve技術(shù)副總裁時期,帶領(lǐng)團隊打造了業(yè)界首個用于公共道路自動駕駛汽車的學(xué)習型駕駛員系統(tǒng),即利用深度學(xué)習和計算機視覺進行駕駛學(xué)習。
而在Wayve之前,他的研究更多和“機器人”掛鉤。
從2008年到2017年,什么叉車機器人、醫(yī)療機器人等,通通都研究了個遍,后來還去了牛津機器人研究所讀博。
以上二位這次也親自參與了打造Odyssey預(yù)覽版,其余技術(shù)人員的名單如下:
最后,除了Odyssey這家公司,目前已經(jīng)有超過10家車企和自動駕駛公司提出了世界模型的概念,其中包括特斯拉、蔚來、理想、地平線、商湯、元戎啟行、Momenta等。
可以預(yù)見,仍處于起步階段的世界模型,或許就是下一個兵家必爭之地。
而且自動駕駛車企,已經(jīng)成為孕育世界模型的天然溫床。
那么,你看好這家公司嗎?
在線體驗:
https://experience.odyssey.world/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.