99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

商湯徐立WAIC演講全文:AI十年演進“三級跳”,下一步是跨越虛實天塹

0
分享至


智東西
作者 陳駿達
編輯 心緣

智東西7月26日報道,今天,商湯科技董事長兼CEO徐立在2025世界人工智能大會(WAIC)開幕式上,發表了以《人工智能的十年演進》為題的主旨演講。

徐立認為,過去十年,人工智能經歷了三次跳躍:先是從深度學習驅動的感知智能,由CNN、ResNet等算法和ImageNet的1400萬張標注圖片,開啟了垂直領域的視覺應用

接著2017-2018年,Transformer的出現帶來生成式智能。這些模型采用海量高密度文本信息進行學習,模型泛化能力、通用性不斷提升。再到今天多模態大模型、智能體、具身智能與世界模型依次登場,普羅大眾對AI技術的認知也來到高峰。

在AI不同階段的發展過程中,數據始終是智能的來源:感知時代靠人工標注,“把一個人10年的知識傳給了AI”;生成式階段依賴自然語言,但互聯網上的自然語言數據總有用盡的一天。未來,AI技術需要轉向“真實世界互動數據”,因為只有主動與環境交互才能快速進化。

為跨越虛擬世界與現實世界之間的差距,商湯已經打造了“開悟”世界模型,并于今天推出舉一反千的“開悟”平臺。這一平臺可生成符合3D真實情況、物理規律的多視角視頻,可在自動駕駛等場景中實現AI的自舉與自學。

徐立總結道,人工智能正沿著“感知世界—理解世界—生成世界”的路徑前行,最終將與現實硬件交互,改變我們的世界。

以下是徐立在WAIC開幕式上的完整演講:

一、AI技術三次跳躍,智能從哪里來?

各位朋友大家好,很高興有機會在這里分享一下這個我們關于人工智能演進的一些思考。

題目上我們加了一個人工智能的十年演進,原因是過往的十年,也是我們見證人工智能認知變化最快的十年,另外的原因也是因為我們公司做了十年,如果是各位領導站在這里,那可能可以談人工智能的50年,而我們從過往的十年開始談起。

我們來看過往十年,谷歌的搜索引擎關于人工智能的熱度,你們很容易看見它有三個很明顯的跳躍,也就是在那個時間點上,這個普羅大眾的認知發生了一些規模化的變化。

最開始從感知智能,也就是從深度學習進入到視覺,然后再有各種算法的迭代,CNN、ResNet的發展推動了第一波人工智能行業的發展。到2017-2018年的時候,從Transformer到自然語言的模型發展,我們又進入到生成式智能的階段。

這兩個階段一直推動到現在行業的發展和普羅大眾的認知形成了高峰,從ChatGPT,以至于后ChatGPT的智能體,多模態大模型,甚至是對現實世界改變的具身智能以及世界模型的變化。

很有意思的是,我們一直在思考一個問題,在這個三個不同的階段當中,智能本身從哪里來?當然算法的迭代以及生產力的爆發,包括說GPU的迭代是一個很重要的要素,但是本質上還有一個要素就是AI,機器學習到底學的是什么?

從感知時代開始,其實我們得益于互聯網上大量的數據,對現實世界的拷貝,已經存在了,包括圖片、視頻。所以感知時代,我們是從標注當中去獲取智能,也就是AI其實是從人的標注當中獲取,通過大量的標注之后訓出一個一個模型。我們當時推出的商湯方舟,蘊含一萬多個模型,可以做很多不同垂直領域的任務。

在那個時代,機器的智能來自于學習這些東西,大概是什么樣的一個數量級。在2012年,Hinton帶領團隊第一次在ImageNet上取得冠軍的時候,大概是1400萬張圖片。

如果按一個人的標注來講,這個人的工作大概是10年左右的時間,也就是我們把一個人10年的知識傳給了AI。這個數據看上去好像很大,但實際上想一想,如果只是單人10年的數據,其實做很多的泛化還是受限制。所以在那個階段,人工智能的工具屬性非常明顯,基本上是垂直領域的感知,也就是在很多垂直的方向上面,我們需要做專屬的模型。

二、高密度語言數據催生智能,多模態融合成大趨勢

到了生成式人工智能,或者更加通用的人工智能有什么區別?我覺得一個很有意思的區別,就是通用人工智能是從自然語言開始的,但互聯網上的文本大家想一想,本身就是蘊含知識的,它不需要后加工。

雖然我們看到互聯網上圖片和視頻數量遠大于文本的數量,但是文本的知識密度可能更高。所以如果我們以GPT-3處理7500億token來說,假設這是一個人認認真真作為自然語言創作者來開始寫的話,他大概要寫十萬年。也就是從十年到十萬年一萬倍的數據量差。

自然語言的數據密度非常高,從而使得說我們的模型泛化能力、通用性起來了。這才是推動現在通用人工智能發展的一個基石,有一個很好的底座。那當然,很容易我們就看到說,這些數據都會被用盡,圖片數據標注是需要人來處理的,其實這也是一個人工的工作。

而自然語言,據說在2027~2028年,整個互聯網上的自然語言的數據都會被用盡。實際上,是語言生成的速度遠沒有算力的生長的速度來得快,那這樣顯然形成了一種模型的倒掛差。那能不能從原始的無序的圖像視頻當中獲取更多的知識呢?是有可能的,但是這過程當中需要非常多的工作。

我們也是在這過程當中走一個很自然的路,就是融合我們感知的能力和我們自然語言的能力,形成一種原生的多模態,也就是說我們構造圖和文的連接,把圖和文生成一種更長的思維鏈。然后用這個思維鏈再去不停地去激發模型的能力。

大家知道智能本身應該是激發出來的,很難說在完全沒有基礎設施上面,就能夠長出這個智能。當然現在,剛才大家聽到可以做說遞歸的自學習等等,可以基于現有的模型往前推進。

但是本質意義上我們需要構造一條模型演化的道路。隨著我們加入了很多圖文演示,甚至是更高階的思維鏈的時候,我們發現一個很有意思的現象。這張圖是我們要推出的日日新V6.5,最左邊這張圖特別有意思,我們同一個模型能夠做好音頻的交互能力,多模態的推理能力。但是加入了足夠多、足夠長的多模態的思維鏈之后,我們的文本、純文本的推理能力也有一個很大的提升。

這就是說,其實還有很多的路線,其實能夠把互聯網上其他的模態的數據的知識抽離出來,融合到文本當中,使得文本的對空間的理解,對于物理世界的理解能夠進一步地提升,從而說這樣的一個文本模型也能夠更好地控制生成,甚至是控制圖像和視頻生成。

三、AI技術面臨“數據墻”,如何走進物理世界?

當然了,人類還是會面臨這樣一個缺失的問題,也就是說當窮盡書本和互聯網的知識的時候,更多的智能從哪里來?第一代是標注來,第二代自然語言已經來了,第三代接下來怎么來?

那我們來看看人是怎么來學習的,對不對?人從出生開始,就是跟現實世界來進行各種各樣的探索,他不是先從學語言開始,也不是先從學認識東西開始,他跟世界的交互和探索已經形成了很大的這個智能的增長。這也就是說,大家很自然地想到,在圖像標注互聯網文本之外,大家去采集大量的跟真實世界互動的數據。

為什么我說要大量的呢?是因為你需要探索不同的物理空間,就是比如說你需要有各種各樣的姿勢,各種各樣的角度,所以你的采集量會非常的大。現在很多機器人、具身,我覺得最大的瓶頸還是在素材上面會有很大的需求。

當然,這個也是非常顯然的。1963年有一篇很有意思的文章叫主動貓和被動貓,就是他們做了一個很有意思的實驗,就是一只貓和另外一只貓通過一個軸所相連。然后一只貓是可以動的,另外一只貓不能動,但是它們兩個看到的東西都是一樣的。

也就說同樣的視覺輸入,一只貓是可以跟現實世界互動,另外一只貓不行的情況下,那只會互動的貓顯然成長的速度會非常的快。所以這也是具身的來源,為什么要去做具身智能,就是因為跟現實世界的探索。

但還會面臨問題,因為如果真正通過機械去跟現實世界做互動,很顯然它的探索空間需要模擬的世界太大,有時候還會有一個模擬到現實的這個差距叫Sim-to-Real Gap。那有沒有可能通過現在的這種所謂的,對于現實世界的理解來做生成,理解生成統一的世界模型。是有的,但是也會面臨挑戰。

比如說用世界模型去生成數據,這是現在用世界模型做了很多的叫自動駕駛方面的領域的生成,也是最開始我們做這個模型的生成。生成的質量很高,但是很顯然它會違背物理的法則。譬如說十字路口車輛的互相穿越,有一種幽靈車的感覺,還有一些隨機失控很難調整。而且大家知道生成視頻再好的模型,它生成視頻的響應速度會比較慢。

所以如果你需要來去對生成視頻進行實時交互的話,往往要等,而且可能還需要抽卡,抽出來一個視頻也不知道是什么。比如說抽出一個大象跟小松鼠在玩蹺蹺板,那這個就很隨機。

所以那怎么辦?那就是需要有個很好的對現實世界理解的模型,加上對3D理解的模型,來指導這個部分的能力。那么我們推出我們自己的“開悟”世界模型,用我們的日日新V6.5去賦能。“開悟”世界模型也是個視頻生成模型,但是它考慮了時間、空間的一致性。

我們舉一個簡單的例子。自動駕駛里面有一個叫7路攝像頭視角的車的數據采集,很顯然需要花大量的力氣來采集,但是我們生成的,就是可以用自然語言去生成右邊的7個攝像頭生成的數據,我們來看一下細節。

首先來看,這個車從一個角度開到另外一個角度的時候,在不同的攝像頭里的位置,甚至都可以模擬出攝像頭的形變,空間一致性表現非常好,只有一個完全對3DGS有充分理解之后才能表達的,所以這也是這個模型本身很強的一個能力,否則沒有辦法用來做下一個階段的訓練提升。

當然還有一種是對空間的一致性,比如這個車一會在前,一會在后,不同的攝像頭拍到這個車的不同時刻,比如車牌應該都要一樣。如果我們有很好的視頻生成引擎,左邊生成一個,然后方向盤一轉,右邊一看那棵樹就飛走了,可能AI也搞糊涂了,這車也不會開,很顯然時空的一致性要達到各種各樣的可控。

我來舉一個很有意思的例子,自動駕駛里的一個Corner Case——加塞兒(Cut-in),在自動駕駛里非常普遍。大家都覺得這可能是個難題,對于人類駕駛來講也是個難題。新司機不敢加塞,躲在后面半天不能走,老司機加塞,但事故率有多少?22%的事故來自于加塞,所以自動駕駛得學習加塞。

怎么做呢?如果太保守,開不動;太激進,可能得撞。比如這個Waymo的車很有意思,兩輛車都想加塞,兩個都卡,又要加塞又都卡了,形成一種博弈,然后就循環了。所以在這種過程中,它需要大量的數據去訓練這種場景。但是如果真的到路上去采這個數據,非常難采大量的數據,加塞的數據在里面占的比例比較少,那怎么辦?

那么世界模型能不能去生成7個攝像頭的加塞視頻?我們來看一看,這個是一個大型車輛的加塞,描述了我們的方向、時間、角度。一起看下,這個大巴士從右邊加塞進來,保證了一致性,那可以大生成大量的這個視頻,而且關鍵是要可控穩定。

什么叫可控穩定?我們可以調節各種各樣生成的可能性,譬如生成各種不同光照的比如白天、黑夜,就不用再去開了;各種天氣的比如晴天、陰天、雨天;各種道路結構的,彎道、直道,甚至可以開到F1賽道上都沒有問題。

F1 賽道加塞也是個常態。各種各樣的道路狀況,還有開車的速度,開進來速度快、速度慢都要去做調整。還有車型包括小的、大的,當然還有各種各樣的可能性。

所以既然我們能生成這樣加塞的視頻,我們就可以走到一個探索世界的可能性,這是我們最早做無人駕駛的時候,做一個模擬器,大家都聽過機器人有這樣的一個模擬平臺,所以機器人可以在模擬平臺上做什么?

強化學習,之后再運用到現實世界,但往往這樣的一個過程會有個Sim to Real的Gap。所以我們在這種模擬仿真,甚至是高精度的3D模擬仿真中做的這個算法、探索,這個探索的好處是它可以跟真實世界互動,有強化學習來進行這樣的探索,但是它用到現實世界中會有很大的差距。

今天隨著我們基模型的能力越來越強,對世界的理解越來越深刻,理解跟生成的統一性就使得我們可以有這樣交互的可能性,這個視頻非常的特別,也是我們今天會發的一款產品,可以看到它的輸入是什么?方向盤、剎車以及油門這三個輸入,控制了現在的這個視頻生成。

這是一個看上去非常真實的場景,七個攝像頭的視角,你就可以手把著方向盤來控制它的方向,在現實的街景場景中去開,然后邊上有各種各樣的光照條件、車輛條件,每個攝像頭有不同的視角,并且一致化的統一,我覺得這就是在真實的世界上開極品飛車。

但有了這樣的功能之后,是不是可以輔助到很多行業的進步,對真實世界的探索有更大的可能性,我們就可以叫AI自舉,用部分數據生成更多數據,然后再往前走,就是Self Learning,有那么一點可能。

所以我們就在今天推出舉一反千“開悟”平臺,這個平臺現在誰都可以使用,用自然語言的模式描述場景,描述你想要的視頻段,它可以生成非常多不同視角符合3D真實情況的模型。我們要求的不是視頻的質量達到電影級別,而是它符合物理的規則、物理的定律,并且能夠真正意義切進用戶的使用場景,讓你在真實的世界中開極品飛車。

最后我們來看AI發展的三個階段,感知世界,更好地理解世界才能做生成世界,最后可能和現實的硬件交互來改變我們的世界。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
泰國新武器猛打柬埔寨,洪森對華求助;中方出高招,鎖死東盟大局

泰國新武器猛打柬埔寨,洪森對華求助;中方出高招,鎖死東盟大局

掌青說歷史
2025-07-26 16:31:53
PPT戰神集體翻車,智駕測試憑什么特斯拉拿第一

PPT戰神集體翻車,智駕測試憑什么特斯拉拿第一

汽扯扒談
2025-07-25 11:52:18
堅決守住這一底線!6個省份已迎來執法檢查組

堅決守住這一底線!6個省份已迎來執法檢查組

政知新媒體
2025-07-25 21:47:04
美軍:擊斃哈爾丹和其兒子

美軍:擊斃哈爾丹和其兒子

魯中晨報
2025-07-26 13:58:14
泰國海陸空三軍全出動,準備全面開戰,洪森呼吁別打了,想停火

泰國海陸空三軍全出動,準備全面開戰,洪森呼吁別打了,想停火

山河路口
2025-07-26 20:23:01
釋永信被調查風波:袈裟下的商業帝國

釋永信被調查風波:袈裟下的商業帝國

無忌財談
2025-07-26 21:38:54
聯合國:加沙三分之一人數日沒有進食,“孩子們一個個死去”

聯合國:加沙三分之一人數日沒有進食,“孩子們一個個死去”

澎湃新聞
2025-07-26 10:54:27
博主吐槽潿洲島亂收費,除了呼吸都要錢,島上民宿老板炸鍋了

博主吐槽潿洲島亂收費,除了呼吸都要錢,島上民宿老板炸鍋了

凡知
2025-07-25 12:13:22
東北大學6名學生照片流出,他們本不該死,公司自爆延遲救人原因

東北大學6名學生照片流出,他們本不該死,公司自爆延遲救人原因

平老師666
2025-07-26 13:59:31
起風了,726罷免結果出爐,藍委全部闖關通過,賴清德大敗收場!

起風了,726罷免結果出爐,藍委全部闖關通過,賴清德大敗收場!

小彭聊社會
2025-07-26 19:47:40
日本一出租車司機駕駛時,抓起后座女乘客的腳狂舔!網友:可能是女方自愿的

日本一出租車司機駕駛時,抓起后座女乘客的腳狂舔!網友:可能是女方自愿的

西游日記
2025-07-26 14:23:57
世錦賽爆大冷!跳水第2金誕生,中國隊丟冠,重大失誤,黑馬奪金

世錦賽爆大冷!跳水第2金誕生,中國隊丟冠,重大失誤,黑馬奪金

知軒體育
2025-07-26 22:38:12
黃渤倒貼150萬零片酬!資本撤資6000萬!票房破億扇腫臉

黃渤倒貼150萬零片酬!資本撤資6000萬!票房破億扇腫臉

阿傖說事
2025-07-27 00:32:16
打壓《戲臺》、捧高《南京照相館》,打了多少豆瓣文青的臉?

打壓《戲臺》、捧高《南京照相館》,打了多少豆瓣文青的臉?

光影新天地
2025-07-26 16:08:43
女飛行員劉憶北錄取事件發酵,說話凸牙眼鏡斜,女承父業惹人質疑

女飛行員劉憶北錄取事件發酵,說話凸牙眼鏡斜,女承父業惹人質疑

四斤
2025-07-25 11:21:55
“19%對0”?!菲律賓炸鍋了

“19%對0”?!菲律賓炸鍋了

新華社
2025-07-26 16:20:12
千萬粉絲網紅旺仔小喬道歉

千萬粉絲網紅旺仔小喬道歉

揚子晚報
2025-07-26 21:25:20
中國“N號房”曝光!大量中國女性私密照在外網傳播,被偷拍親歷者發聲:自己和閨蜜都曾被前男友偷拍,律師提供維權建議

中國“N號房”曝光!大量中國女性私密照在外網傳播,被偷拍親歷者發聲:自己和閨蜜都曾被前男友偷拍,律師提供維權建議

極目新聞
2025-07-26 23:15:55
印太的風漸起,柬埔寨可能也要變天

印太的風漸起,柬埔寨可能也要變天

邵旭峰域
2025-07-25 15:51:02
如果沒有央視新聞,懂車帝那個視頻能發出來嗎

如果沒有央視新聞,懂車帝那個視頻能發出來嗎

關爾東
2025-07-26 10:37:01
2025-07-27 08:24:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
10205文章數 116807關注度
往期回顧 全部

科技要聞

AI教父辛頓現身上海:人類如何不被AI殺掉

頭條要聞

佩通坦再發聲:雖無法履行總理職責 但一直在聽取匯報

頭條要聞

佩通坦再發聲:雖無法履行總理職責 但一直在聽取匯報

體育要聞

楊瀚森效力NBA期間 青島男籃將暫存球隊15號球衣

娛樂要聞

董璇首談保釋前夫細節!高云翔突然不回消息

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

"得房率"超90% 全新嵐圖知音空間信息曝光

態度原創

藝術
家居
游戲
旅游
手機

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

環繞設計 空間動線合理

《靈魂戰甲》減弱類魂元素:重構戰斗系統

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

REDMI 15渲染圖曝光,三款配色 144Hz直屏

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 株洲县| 鹿泉市| 白沙| 庆阳市| 永宁县| 新晃| 金乡县| 田东县| 钦州市| 祁阳县| 吉安县| 集安市| 屏南县| 灌阳县| 金华市| 利辛县| 卓资县| 灌阳县| 哈尔滨市| 乌苏市| 禄劝| 嘉黎县| 罗田县| 宝山区| 金湖县| 扎囊县| 河北省| 通城县| 阆中市| 桦甸市| 沙湾县| 麦盖提县| 泰兴市| 金寨县| 忻州市| 息烽县| 叶城县| 绥中县| 西宁市| 南靖县| 墨竹工卡县|