99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

極佳科技毛繼明詳解:世界模型究竟是什么?有啥用?怎么用?

0
分享至

毛繼明簡介 :極佳科技合伙人&副總裁,擁有超過16年的工程研發(fā)與架構(gòu)經(jīng)驗,專注于大規(guī)模分布式系統(tǒng)和自動駕駛仿真技術(shù)。曾任百度Apollo仿真和工程負(fù)責(zé)人,以及百度、贏徹T10級別架構(gòu)師。

毛繼明在極佳科技推動了DriveDreamer系列等世界模型相關(guān)技術(shù)的研發(fā)與商業(yè)化落地,服務(wù)了數(shù)十家自動駕駛及機(jī)器人客戶。



如今,世界模型已經(jīng)成為具身智能實現(xiàn)突破的關(guān)鍵所在,但業(yè)界對于世界模型仍未形成統(tǒng)一的標(biāo)準(zhǔn),也存在不同的觀點。

去年,極佳科技提出了一種名為DriveDreamer4D的框架,旨在利用世界模型的先驗知識來提升4D駕駛場景的重建效果。日前,極佳科技合伙人&副總裁——毛繼明,在由智猩猩、車東西主辦的「第四屆自動駕駛峰會」上,詳細(xì)介紹了世界模型的特點、作用及發(fā)展趨勢。

世界模型的發(fā)展背景

“每一代的智駕算法,對于數(shù)據(jù)數(shù)量及質(zhì)量的需求,都是在瘋狂提升的,這導(dǎo)致行業(yè)也在面臨數(shù)據(jù)缺口的困境。”

他指出,從2023年下半年開始,大家開始嘗試通過生成數(shù)據(jù)來去輔助算法性能的提升,但當(dāng)時還對此存在疑慮。可從2024年下半年開始,世界模型開始收獲更多的信任。

未來,智能駕駛的用戶對于算法的需求會更高,甚至需要其超越人類。毛繼明指出,去年年底,小馬智行CTO樓天城曾在采訪中提出一個觀點:人天然是「雙標(biāo)」的——由于對機(jī)器缺乏信任,所以機(jī)器必須要比人表現(xiàn)得更好才能獲得人類的信任。所以樓天成提出了一種非常形象的解決思路——Learn by practice。



“這里所說的Practice,必須在可交互的環(huán)境中進(jìn)行,這樣才能確保安全和高效。那么要生成這樣的環(huán)境,仍然需要依賴世界模型。”

不管是生成可供訓(xùn)練的數(shù)據(jù),還是生成可交互場景,世界模型都扮演著非常重要的角色。可以說,世界模型是智駕算法進(jìn)入新一代的鑰匙。

毛繼明介紹稱,去年,世界模型的概念被提起的頻率非常高,包括李飛飛的world labs,Google的DeepMind,還有1x和Covariant這兩家具身智能公司,他們機(jī)器人的Foundation model也是用的世界模型的技術(shù)。更別提Tesla和Wayve,他們的智駕方案從2023年就開始應(yīng)用世界模型。



再看國內(nèi),三大造車新勢力,蔚小理從去年下半年開始,也都紛紛提出要基于世界模型去構(gòu)建算法研發(fā)體系。此時,世界模型已經(jīng)不再是一個只存在于實驗室的預(yù)研課題,而是成為了產(chǎn)業(yè)界的共識,已經(jīng)到了應(yīng)用的爆發(fā)期。

2023年9月,極佳科技首次將世界模型與智駕進(jìn)行了結(jié)合,然后發(fā)表了一系列的論文——也就是DriveDreamer系列。

世界模型的三大功能

「世界模型究竟是什么?」這是許多人都會問到的問題,但其實,世界模型至今還沒有一個業(yè)界公認(rèn)的標(biāo)準(zhǔn)化定義。而毛繼明通過對很多不同的世界模型的認(rèn)知,對其中一些內(nèi)核功能進(jìn)行了匯總:?

首先,從宏觀上來看,世界模型可被認(rèn)為是真實世界的投影,至少是一個局部的投影。所以要想建設(shè)一個世界模型,第一步就是要對真實世界建模。所以,建模和關(guān)系抽象,是世界模型的第一個核心功能。



另外,若想讓世界模型發(fā)揮真正的價值,就需要與智能體去進(jìn)行交互,因為前者需要為智能體去提供想象的能力。在這一過程中,智能體會給世界模型提供一個有缺失的觀測,而世界模型會補(bǔ)齊缺失的部分,返回給智能體一個完整的想象。

同時,世界模型也會為智能體提供“What-if”能力,也就是推理和預(yù)測能力。之后,世界模型還會返回一個對結(jié)果的好壞判定。

總結(jié)來看,世界模型一共有三大功能:建模、想象,預(yù)測。這就是傳統(tǒng)的世界模型應(yīng)該具有的能力。

如何搭建世界模型?

極佳提出了一種基于分層的搭建方式,將視頻生成、空間幾何生成和物理引擎:

最底層:視頻生成

2024年上半年之前,幾乎所有的世界模型都是基于視頻生成來構(gòu)建的,其中最經(jīng)典的例子就是Sora。根據(jù)OpenAI發(fā)布的論文,他們認(rèn)為Sora就是一個World Simulator。

毛繼明認(rèn)為,視頻生成有兩個好處:

1、視覺是人們觀測世界最重要的Signal。

2、視頻生成的機(jī)制,天然就具有想象力和推測力。它能夠基于一張圖片去想象出其中的信息,同時又可以將圖片作為起始幀,去推理后邊會發(fā)生什么。也就是說,基于視頻生成模型,可以同時實現(xiàn)實際建模場景的想象和預(yù)測。

第二層:空間幾何生成

在去年下半年,新的觀點產(chǎn)生了——由于世界是具備物理空間的,而視頻生成的基本結(jié)構(gòu)都是基于像素的,所以業(yè)界發(fā)現(xiàn)后者對世界的建模是有缺失的。因此,大家開始集中式地引入了「空間幾何生成」的新維度。

毛繼明表示,在引入空間幾何后,再配合原有的視頻生成,可以說基本能解決世界appearance層面的問題,但其實這仍然不夠。“因為這個世界,最終還是由一些物理規(guī)律所驅(qū)動的。而以當(dāng)下的技術(shù),很難單純地從Observation中學(xué)到物理規(guī)律。

第三層:物理引擎層

所以極佳通過引入新的一層——「物理引擎層」,來驅(qū)動模型在時間緯度上進(jìn)行一些合理的變換。我們稱之為「世界模型中的基礎(chǔ)模型層」,它代表了世界中物質(zhì)的確定性部分。”

例如,黃仁勛在演示Cosmos時,經(jīng)常和Omniverse放在一起去講,后者正是物理引擎與空間幾何這兩層的內(nèi)容。

更進(jìn)一步,毛繼明指出:“除了物質(zhì)的確定性部分,世界模型還應(yīng)該包含不確定性的部分,也就是有人參與的部分。”,這部分可以被稱之為「世界知識層」。



他介紹稱,「世界知識層」的構(gòu)成首先是一些領(lǐng)域約束,例如交規(guī)——大家開車遵守交規(guī),但也有可能不遵守交規(guī)。所以領(lǐng)域約束其實是一種「弱約束」,它并不像物理規(guī)律。其次,是Reward function,世界模型想要呈現(xiàn)它的判定能力的話,就必須由reward function去進(jìn)行評分。第三就是Distributions,它代表人類宏觀傾向性的數(shù)學(xué)化的表達(dá)。

另外,很多世界模型也引入了大語言模型,這是因為模型很難通過Observation完全地重建出來,很多時候還需要輔以大語言模型中的知識。如此,有了Distribution、Reward function和領(lǐng)域約束,世界模型中的世界知識,最終應(yīng)該固化在Long-term memory中,在世界模型架構(gòu)中產(chǎn)生作用。

如何真正落地?

毛繼明稱,要想將世界模型真正落地在具體場景中,還需要一系列對外的組件:包括知識更新的接口、Condition的Adapter,以及Internal的Agents。

他介紹稱,在實際場景中落地時,世界模型最經(jīng)典的一個用法就是「數(shù)據(jù)泛化應(yīng)用」了,也就是通過世界模型的想象能力,在給定一些簡單條件的前提下,就可以還原出世界應(yīng)有的樣子。

“數(shù)據(jù)泛化,激活的是condition和視覺生成這兩層。這也是極佳科技一開始切入到世界模型賽道時,所做的起始工作。包括DriveDreamer和DriveDreamer-2。”

毛繼明表示,在傳統(tǒng)的視頻生成模型基礎(chǔ)上,極佳著重優(yōu)化了「多視角一致」的能力,這也是智駕領(lǐng)域必要的一個Feature。

同時,為了滿足不同客戶的個性化需求,極佳也優(yōu)化了Condition Adapter,這有助于生成可泛化的多樣性數(shù)據(jù),去進(jìn)一步優(yōu)化感知算法的魯棒性。

毛繼明展示了一個案例:給世界模型的一個Condition,即僅僅告訴世界模型車道在哪里,車在哪里,世界模型即可發(fā)揮出想象力,想象出來一個完整的世界。更進(jìn)一步,如果需要更充分的想象力,可以使用文字作為輸入,然后利用它的想象力去生成一個復(fù)雜場景,這就是在DriveDreamer-2中實現(xiàn)的功能。



另外一個業(yè)務(wù)場景,是4D場景重建。這會新增兩個功能區(qū):1、是幾何生成,2、Internal agents。極佳有兩篇論文與之對應(yīng)——Drive Dreamer 4D和Reckon Dreamer,這也是極佳和理想汽車的合作項目。

“它的應(yīng)用場景更適用于數(shù)字孿生,也就是說可以對Identical case進(jìn)行重建,并且在重建的三維世界中完成可交互的反饋式事件。”

根據(jù)極佳重建場景的具體實踐來看,如果接入了自動駕駛算法和控制器,可以實現(xiàn)在這個世界里自由移動,滿足閉環(huán)仿真的需求,實現(xiàn)Learn by practice。

世界模型將會如何發(fā)展?

“我們希望未來的Agent能夠像人一樣思考,所以它應(yīng)該擁有人類大腦中的各種組件,其中最核心的組件就是世界模型。它最終會部署到車端或者是機(jī)器人端,被點亮所有功能。”

毛繼明認(rèn)為,世界模型是現(xiàn)實世界的投影,但是現(xiàn)實世界是非常復(fù)雜的。它被多維度、多類型的規(guī)律共同驅(qū)動、共同影響。

例如:視頻生成,代表的是平面像素級別的變化,它是由真實世界中廣泛存在的在物體上的光的漫反射、鏡面反射等等光學(xué)規(guī)律所驅(qū)動的;

空間幾何,表達(dá)了真實世界中具體存在的宏觀物體,應(yīng)該具有明確的體積屬性、位置屬性;

物理引擎指的是說物體應(yīng)該具有材質(zhì)屬性,以及物體之間相互運動的動力學(xué)表達(dá)。這三種表達(dá)都是在不同的層級上,必須用不同的規(guī)律去驅(qū)動。

“我們?nèi)绻ソㄔO(shè)一個完備的、至少局部完備的世界模型,需要對多種領(lǐng)域有深刻的認(rèn)知,我們需要找到一種辦法,把不同領(lǐng)域的不同規(guī)律融合到一起,這是非常大的挑戰(zhàn)。

接下來他指出,之所以要為世界模型分層,其中一個原因,是能夠注入先驗知識,這樣可以不使用那么多數(shù)據(jù)就可以完成世界模型的建設(shè)。

毛繼明還認(rèn)為,世界模型的這種構(gòu)建邏輯和自動駕駛的發(fā)展類似——伴隨著真實數(shù)據(jù)的積累,以及生成數(shù)據(jù)的反哺,一定會發(fā)生跨層級融合。

就像自動駕駛多模塊架構(gòu)終究會演進(jìn)到單模型端到端架構(gòu)一樣。“我們堅信世界模型會變成一個end toend one model,也就是說世界模型最終會把多層次變成更少的層次,最后融合成為一個統(tǒng)一大模型。”

進(jìn)一步,他表示,在商業(yè)化實踐中,客戶通常要求是,在當(dāng)前的已有客戶數(shù)據(jù)質(zhì)量基礎(chǔ)上,以最低的計算成本、時間成本、GPU資源成本以及存儲成本,達(dá)到世界模型的精度要求。

這需要在:數(shù)據(jù)質(zhì)量、模型精度、成本接受度這三方面,針對每個客戶,滿足他們不同的三維度平衡需求。所以他認(rèn)為,幾乎不太可能有「一種模型包打天下」的情況,而是要構(gòu)建世界模型的分層框架。

“在多個商業(yè)項目落地過程中,一定會沉淀下來很多不同的做法和不同的組件。當(dāng)不同場景的研發(fā)成果沉淀為可部署的組件后,就可以面對多樣化的客戶需求靈活地組織,以最快的方式來達(dá)到要求。”



不過毛繼明也直言,目前,世界模型的性能提升,是個「老大難問題」。如果類比人類大腦的直覺感知來看,現(xiàn)在世界模型的運行方式需要通過非常復(fù)雜的推理機(jī)制,能耗非常高,速度也很慢。

“如果以現(xiàn)在這樣的效率,那世界模型是不可能實現(xiàn)高效部署的。所以我覺得「端側(cè)的世界模型」就是終局,我們終究要探索一些新的世界模型算法范式,這是全行業(yè)共同去探討的一個話題。”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
西漢姆聯(lián)新主場球衣遭球迷痛批:像極了廉價平臺上賣的假貨

西漢姆聯(lián)新主場球衣遭球迷痛批:像極了廉價平臺上賣的假貨

懂球帝
2025-07-05 02:15:07
詹姆斯若離隊下家賠率:騎士高居第1 獨行俠2 勇士3 太陽4

詹姆斯若離隊下家賠率:騎士高居第1 獨行俠2 勇士3 太陽4

直播吧
2025-07-05 14:35:31
被批“不男不女”的畢凌,把父親畢福劍所剩無幾的體面,丟的精光

被批“不男不女”的畢凌,把父親畢福劍所剩無幾的體面,丟的精光

果娛
2025-05-26 12:36:30
鹿晗最新合影曝光,面相變了眼睛快睜不開,小腿淤青仍未戒酒!

鹿晗最新合影曝光,面相變了眼睛快睜不開,小腿淤青仍未戒酒!

古希臘掌管月桂的神
2025-07-05 11:45:43
掘金麻了!準(zhǔn)備退出NBA!這可是約基奇的頭號替補(bǔ)

掘金麻了!準(zhǔn)備退出NBA!這可是約基奇的頭號替補(bǔ)

籃球?qū)崙?zhàn)寶典
2025-07-04 13:03:33
男籃世青賽最慘球隊!73分慘敗后再輸41分:連非洲球隊都打不過了

男籃世青賽最慘球隊!73分慘敗后再輸41分:連非洲球隊都打不過了

籃球快餐車
2025-07-05 06:40:49
兩性關(guān)系:男人年齡過了60歲,大部分男性都會出現(xiàn)哪種狀況?

兩性關(guān)系:男人年齡過了60歲,大部分男性都會出現(xiàn)哪種狀況?

伊人河畔
2025-06-30 22:29:45
林彪去江西休養(yǎng),順路看望賀子珍,他走后賀子珍馬上聯(lián)系省委同志

林彪去江西休養(yǎng),順路看望賀子珍,他走后賀子珍馬上聯(lián)系省委同志

正史筆記
2024-05-30 17:11:48
20億巨資造了個"鞋墊"?深圳新地標(biāo)酷似球鞋,網(wǎng)友:透氣孔亮了!

20億巨資造了個"鞋墊"?深圳新地標(biāo)酷似球鞋,網(wǎng)友:透氣孔亮了!

根基
2025-07-05 00:21:47
簽了!重新加盟湖人!NBA第三個交易否決權(quán)

簽了!重新加盟湖人!NBA第三個交易否決權(quán)

籃球?qū)崙?zhàn)寶典
2025-07-04 15:28:30
9年前八達(dá)嶺老虎傷人后續(xù):母親去世、索賠失敗,幸存者現(xiàn)況如何?

9年前八達(dá)嶺老虎傷人后續(xù):母親去世、索賠失敗,幸存者現(xiàn)況如何?

清游說娛
2025-07-04 15:17:30
比房價下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

比房價下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

小談食刻美食
2025-06-16 16:32:23
網(wǎng)友法國偶遇馬云,乘坐一艘豪華游艇享受陽光時不時拿出手機(jī)拍照

網(wǎng)友法國偶遇馬云,乘坐一艘豪華游艇享受陽光時不時拿出手機(jī)拍照

南南說娛
2025-07-05 10:45:24
“刺痛”威廉王子!梅根在戴安娜生日的行為加劇了王室兄弟的裂痕

“刺痛”威廉王子!梅根在戴安娜生日的行為加劇了王室兄弟的裂痕

小嵩
2025-07-05 14:11:44
女雇主拖欠貧困女大學(xué)生4100元家教費的后續(xù)來了

女雇主拖欠貧困女大學(xué)生4100元家教費的后續(xù)來了

丫頭舫
2025-07-04 10:56:07
河村勇輝,NBA合同沒了!現(xiàn)實就是這么殘酷!

河村勇輝,NBA合同沒了!現(xiàn)實就是這么殘酷!

野球帝
2025-07-04 11:24:47
羅馬大爆炸!“如同地獄”!意總理、羅馬教皇發(fā)聲

羅馬大爆炸!“如同地獄”!意總理、羅馬教皇發(fā)聲

意燴
2025-07-04 18:34:12
淚目!91歲老人被送敬老院,外表淡定滿眼驚恐,她的家不要她了?

淚目!91歲老人被送敬老院,外表淡定滿眼驚恐,她的家不要她了?

瓜哥的動物日記
2025-07-04 16:29:28
“補(bǔ)陽第一名”不是羊肉桂圓,而是它!三伏抓緊吃,健康一整年

“補(bǔ)陽第一名”不是羊肉桂圓,而是它!三伏抓緊吃,健康一整年

平祥生活日志
2025-07-05 04:17:01
女子因熱射病離世,醫(yī)生:寧可在家吹空調(diào)喝冷飲,也別做幾件事!

女子因熱射病離世,醫(yī)生:寧可在家吹空調(diào)喝冷飲,也別做幾件事!

王曉愛體彩
2025-07-04 14:04:34
2025-07-05 15:07:00
RoboX
RoboX
關(guān)注智能汽車、機(jī)器人在內(nèi)的具身智能前沿科技
151文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

馬斯克吹上天的Cybertruck 為何"徹底失敗"

頭條要聞

問界車主開智駕致碰擦要求逾百萬賠償 售后:訴求過高

頭條要聞

問界車主開智駕致碰擦要求逾百萬賠償 售后:訴求過高

體育要聞

史上最真實的F1電影,是怎么拍出來的?

娛樂要聞

汪小菲反擊!曝向具俊曄提出財產(chǎn)追回

財經(jīng)要聞

特朗普簽署 美國萬億減稅支出法來了

汽車要聞

31.6萬元起售 蔚來新ET5/ET5T/EC6冠軍紀(jì)念版上市

態(tài)度原創(chuàng)

藝術(shù)
健康
時尚
數(shù)碼
房產(chǎn)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

李若彤、鄭秀文低能量時期的“處方”!停滯時不妨試試它

數(shù)碼要聞

Apple Watch Ultra 3或?qū)⒂瓉泶蟾拢盒l(wèi)星通信+5G打造最強(qiáng)穿戴設(shè)備?

房產(chǎn)要聞

重磅發(fā)布!海南樓市2025上半年Top10榜單出爐!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 即墨市| 凤冈县| 二连浩特市| 英山县| 萝北县| 大渡口区| 云霄县| 神农架林区| 孟连| 海淀区| 安徽省| 冷水江市| 城步| 阿拉尔市| 神池县| 库伦旗| 武邑县| 和平区| 旅游| 葵青区| 景东| 信宜市| 大埔县| 乳山市| 宾川县| 台南市| 左贡县| 榕江县| 敦煌市| 赤水市| 乌什县| 新巴尔虎右旗| 辉县市| 景德镇市| 海宁市| 泰和县| 丰镇市| 西贡区| 丰宁| 桂东县| 亳州市|