99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

李飛飛:AI的下一個大腦是理解3D空間的世界模型

0
分享至



作者|大模型機動組

在新一期a16z播客節目中,由a16z合伙人Erik Torenberg主持,與World Labs聯合創始人兼CEO李飛飛,以及a16z合伙人 & World Labs早期投資人 Martin Casado 進行了一場對話。共同探討了"世界模型"的概念——即AI系統能理解并推理物理3D世界,而不僅限于文本。

被譽為"AI教母"的李飛飛解釋了為何空間智能是當前AI系統關鍵卻缺失的組成部分,以及她的新公司為何全力攻克這一挑戰。Martin分享了他們早在該理念流行前就達成共識的故事,并闡明這可能定義機器人、創意產業和計算本身的未來。

從大語言模型的局限到具身AI的前景,從個人軼事到深度技術洞察,這是一場關于構建真實與虛擬世界智能本質的討論。以下是這期節目的內容實錄:

Erik Torenberg:

Martin ,你能不能簡要地代表飛飛吹噓一下,跟不熟悉的人總結下你對AI的貢獻。

Martin Casado:

大家對她并不陌生無需過多介紹,她做了太多的事,我都說不完。所以也許我只說一些與當前話題相關的事。當然,她是 Twitter 董事會成員,曾任職于谷歌。她還是 World Labs 的創始人兼CEO。但非常重要的是,就像我們都知道的,AI領域里,大家都在談論神經網絡,也有很多人專注于讓這些神經網絡更有效。但飛飛真正地將數據引入了這個方程式,而現在我們意識到,數據可能才是更大、更有趣的問題,所以大家都稱她為“AI之母”。

Erik Torenberg:

飛飛,你為什么選擇 Martin 成為首位投資者?

李飛飛:

首先,我認識 Martin 已經十多年了。2009年我作為助理教授加入斯坦福大學時,Martin 正在那里攻讀博士學位。所以我一直都了解他,當然, Martin 的導師 Nick McCune 是我的好朋友。我一直知道 Martin 會成為一位非常成功的企業家和投資者,我們經常見面和交流。

當我構思 World Labs 的想法時,我在尋找我所謂的“獨角獸投資者”。我不知道這個詞是否準確,但我就是這么稱呼他的。他不僅是成就斐然的投資者,能和創業者一起經歷起伏,有深刻見解,能帶來知識、建議和資源的人,但我特別需要一位智力伙伴。因為 World Labs 做的是非常深度的技術。我們正在嘗試做別人從未做過的事,我們堅信這將真正改變世界。我需要一個既是計算機科學家,又是AI研究者,了解產品市場、市場推廣策略的人,還能隨時與我進行智力對話。

Martin Casado:

實際上,我們最初結緣的故事還挺有趣的。飛飛顯然思考這個想法已經很久了,甚至在項目啟動前好幾年就開始了。她一直在說她對AI要如何在世界中運行有著深刻的直覺。當時我們參加了 Mark 的豪華午餐會,有很多AI領域的人都在,大家都對大語言模型非常興奮,都在談論語言。我自己也得出了一個獨立的結論,因為我做過很多圖像投資方面的工作,我覺得語言并不是故事的終點。

當時飛飛坐在餐桌另一頭,聽著這些人談論。她探問我:“你知道我們缺什么嗎?我們缺一個世界模型。”我當時就想:“沒錯!”那一刻一切都對上了,因為我一直在宏觀層面思考這些問題,但她就像往常一樣,精準地闡述了這個觀點。她為此思考了一年,和很多人交流過。所以在某種程度上,我們各自殊途同歸,得出了非常相似的直覺。她的想法更完善,我的則只是個初步的概念。但從那之后,我們進行了多次交談,我們都認同這個想法。

李飛飛:

實際上,你們可能不知道,在那次午餐時,我們一拍即合,都認同世界模型的想法。但那時我已經在和不同的人交流了,不只是計算機科學家和技術人員,還有投資者和潛在的商業伙伴。說實話,大多數人都沒理解。當我說世界模型時,我能感覺到他們只是禮貌地點點頭。所以我給 Martin 打電話,說:“你介意來斯坦福和我喝杯咖啡嗎?”

我對 Martin 說:“你能給我定義一下世界模型嗎?”我真的想確認下 Martin 是不是真的理解這個概念。他對世界模型的定義是一個真正理解世界3D結構、形狀和組合性的 AI 模型,這和我想的完全一致。我當時就想:“哇,他是我到目前為止交談過的人中唯一一個真正理解的,而不是只點頭附和的人。”

Erik Torenberg:

好的,我們接下來會聊聊World Labs 以及具體情況,但或許首先我們先回到你們讀博時期和教授時期,并反思一下。如果你們能回到過去,并且知曉過去十年AI領域發生的事,你們覺得最大的意外會是什么?或者說有什么是你們當初沒預料到,會讓年輕時的自己感到震驚的事?

李飛飛:

這說起來很諷刺,就像 Martin 說的,我是把數據引入AI世界的人,但我仍然在情感上非常驚訝,這些依賴大量數據的模型、數據驅動的AI能發展到如今的程度,并且真的展現出了思維機器般令人難以置信的涌現性行為。

Erik Torenberg:

為什么要再創辦一家基礎模型公司呢?為什么不專注于大語言模型呢?

李飛飛:

我的學術追求不在于創辦公司或發表論文,而在于尋找北極星問題。所以不是我某天醒來,就說一定要開家公司。在過去幾年里,我每天醒來都在想,世界上遠不止語言。語言是一種非常強大的思想和信息編碼方式,但它并不是對3D物理世界的有效編碼,而所有動物和生物都生活在這個3D物理世界里。

如果你觀察人類智能,很多都超出了語言的范疇。語言是一種有信息損失的捕捉世界的方式。而且還有一個微妙之處,純粹的生成式“語言”在自然界中并不存在。我們環顧四周,沒有現成的句子或單詞,而整個物理、感知、視覺世界卻真實存在。動物的整個進化史都是建立在大量感知和最終具身智能之上的。人類不僅生存、生活、工作,還通過構建和改變世界建立了文明,這就是我想解決的問題。

為了解決這個問題,研究顯然很重要。我作為學者花了很多年做研究,也很享受這個過程。但我確實意識到,特別是和 Martin 交流后,現在是時候集中行業級的力量,特別是在計算、數據和人才方面集中發力,才能真正實現這個目標。這就是我創辦 World Labs 的原因。

Martin Casado:

Erik ,你可以做一個簡單的思維實驗,來凸顯語言和空間的區別。如果我把你放在一個房間里,蒙上你的眼睛,然后給你描述這個房間,再讓你完成一項任務,你成功的可能性非常小。比如我說:“在你前方十英尺處有一個杯子,左邊還有……”這是一種非常不準確的描述現實的方式,因為現實非常復雜、精確。

反之,如果我拿掉你的眼罩,讓你看到實際的空間,你的大腦實際上會重建3D空間,然后你就可以去操作東西、觸摸東西。所以可以這樣理解,我們進行大量的語言處理,用它來交流和傳達高層次的想法等。但當涉及在現實世界中導航時,我們真正依賴的是世界本身以及我們重建它的能力。

Erik Torenberg:

你是如何以及何時意識到語言可能不夠用的?因為這似乎并沒有得到廣泛認知,我也不是經常聽到這方面的討論

Martin Casado:

如果問我最大的突破性發現,那就是語言技術先取得了進展,而我們在機器人技術上投入了很多努力,僅自動駕駛汽車行業,我們在這個行業投入了大概1000億美元。我記得2006年 DARPA(美國國防部高級研究計劃局)挑戰賽,我們都歡呼“自動駕駛汽車成了!”。但20年過去了,投入1000億美元,這還只是一個二維問題。我們原本的路線是先解決世界導航問題,但結果極其困難。突然出現了大語言模型,它們經濟高效,幾乎瞬間就解決了很多語言問題,我花了一些時間才理解。

飛飛說得非常好,我花了一些時間才理解,我們大腦語言處理區域很新,我們效率其實很低,計算機更擅長不足為奇,但大腦中負責導航、空間感知的部分已經存在很久了,可能有幾百萬年,也許從爬行動物腦時代就有了,大約有四百萬年。

李飛飛:

甚至更古老,如三葉蟲時代。

Martin Casado:

所以這就像是我們正在重現進化歷程。語言部分對于高層次概念和一些腦力工作非常重要,這也是目前它正在對白領工作范疇產生影響的領域。但當涉及空間時,從機器人技術到任何需要構建物理實體的領域,都必須解決這個問題。我們從自動駕駛汽車領域就知道這是個非常棘手的問題。而退化浪潮給了我們一些如何解決這個問題的思路,當時正是研究良機。

李飛飛:

我的經歷不太一樣,因為我專注從事視覺研究,所以我不需要大語言模型來讓我相信世界模型的重要性。聲明并非貶低語言。實際上,看到ChatGPT、大語言模型和這些基礎模型取得如此突破性的成功讓我很興奮,這讓我們意識到世界模型實現的時刻越來越近了。

就像 Martin 表述很精妙,3D空間與心智空間,這種空間智能能讓人做很多超越語言的事情,是智能的關鍵部分。從遠古動物到人類最具創新性的發現,比如DNA雙螺旋結構,僅靠語言是無法推理出來的,這是我最愛的科學例證,我覺得他的例子是巴克球,碳分子結構設計得非常精美。這樣的例子顯示了空間和3D世界的深奧。

Erik Torenberg:

讓我們更具體地想象一下。當 World Labs 實現其愿景,或者語言世界模型實現其愿景時,有哪些應用場景或用例可以具體說明呢?

李飛飛:

有很多。比如,創造力很大程度上是視覺化的。從設計、電影、建筑到工業設計,創作者涉及多個領域。設計和創意不僅用于娛樂,還可用于提高生產力、制造機械等很多方面,這本身就是一個高度視覺化、感知化、空間化的工作領域。當然,我們提到的機器人技術,對我來說是指所有具身機器,不只是類人機器人或汽車,中間還有很多種類。但它們都需要理解3D空間,需要訓練理解3D空間,并進行任務執行,有時甚至要與人類協作,這當然需要空間智能。

我覺得讓我非常興奮的一點是,在整個人類文明歷史中,我們所有人都共同生活在一個3D世界里,也就是地球的物理3D世界。只有少數人去過月球,但人數非常少。而這項技術讓數字虛擬世界變得無比精彩,它結合了生成和重建。

突然間,我們實際上可以創造無限的宇宙。有些是為機器人創造的,有些是為創造力創造的,有些是為社交創造的,有些是為旅行創造的,有些是為講故事創造的。突然之間,我們能夠生活在一個多元宇宙中,想象的空間是無限的。

Martin Casado:

這些討論聽起來可能很抽象,但實際上并非如此。它們聽起來抽象是因為這個領域非常廣泛,就像大語言模型一樣橫向通用。如果問大語言模型擅長什么,同一個大語言模型可用于情感交流、編寫代碼、列清單,還可以用于自我實現。

我認為我們可以非常具體地說明這些模型能做什么。有了這些模型,你可以通過對世界的二維視角,在計算機中創建一個完整的3D表示,包括你看不到的部分,比如桌子的背面。僅通過二維視角,你就能得到完整的信息,你可以問“用這個模型能做什么?”,然后你可以對它進行操作、移動、測量、堆疊,所以在空間中能做的任何事情都可以實現。這意味著可以用于建筑設計、創意設計。而且能夠填充桌子背面的信息意味著可以創造原本不存在的東西。

比如,我只有一張二維圖片,就可以創建一個360度的完整視圖。這就是完全的生成式能力。這意味著可以用于視頻游戲、創意設計等領域。這是一個超級橫向的技術,它可以通過計算機對世界的單一或多個視角,創建一個完整的3D表示,然后計算機就可以基于此進行操作。可以看到,這對從機器人技術到視頻游戲、藝術設計等各個領域都有著關鍵的作用。

Erik Torenberg:

似乎直到現在我們才充分認識到3D元素的重要性,這么說合理嗎?

李飛飛:

這么說是合理的。實際上,這經歷了很長的進化過程。3D問題并不容易解決,但我總會想起幾年前我和我六歲孩子的一次對話,關于為什么樹沒有眼睛。根本原因是樹不會移動,所以不需要眼睛。動物生命的基礎是移動、行動和交互,這就催生了感知和空間智能。而空間智能,就像 Martin 說的,將全面重塑人類的工作和生活方式。

Erik Torenberg:

一定要是3D的嗎?為什么不能只用二維呢?

李飛飛:

物理現象發生在3D空間中,交互也發生在3D空間中。在桌子后面導航需要在3D空間中進行。無論是在物理世界還是數字世界中構建事物,都需要在3D空間中進行。所以從根本上說,這是一個3D問題。

Martin Casado:

一種思考方式是,如果是人類看二維視頻,人類可以在腦海中重建3D空間。但如果是一個機器人,它的模型輸出是二維的,然后讓它去完成一些任務,比如測量距離、抓取東西,就會缺少關鍵信息,只有X、Y軸,因為缺少了Z軸信息。所以對于很多與空間相關的任務,需要向計算機提供3D信息,這樣它才能在3D空間中導航。二維視頻對人類來說沒問題,因為我們可以將其轉化為3D信息,但對于任何計算機程序來說,都需要3D信息。

李飛飛:

實際上,我想講分享個親身經歷。大約五年前,我因為眼角膜受傷,有幾個月失去了立體視覺,只能用一只眼睛看東西。就像 Martin 說的,我一生都習慣了立體視覺。所以即使只用一只眼睛看,我大概也知道3D世界是什么樣的。但作為一名視覺科學家,那段時間對我來說是一次有趣的實驗,讓我體驗了另一種看世界的方式。

有一件事讓我印象深刻,我不敢開車了。首先,我不敢上高速,速度太快我應付不來。我只能在自己家附近開車,我發現我無法很好地判斷我的車和路邊停著的車之間的距離,即使是在一條小路上。盡管我非常清楚我的車有多大,也大概知道鄰居家停的車有多大,而且我在這條路上開了很多年。但開車的時候,我只能開得很慢,時速幾乎只有十英里,以免刮到其他車。這就是我們需要立體視覺的原因。

Martin Casado:

這很好地說明了為什么在進行某些處理時,3D信息是必不可少的。

李飛飛:

沒錯,我不建議大家嘗試,但如果你有空,可以用一只眼睛看,然后停一輛車,再開另一輛車,感受一下。

Erik Torenberg:

在大語言模型方面,很多研究是由大公司完成的。目前這個領域的研究進展如何?

李飛飛:

與大語言模型相比,這絕對是一個較新的研究領域。但也不能說全新,因為在計算機視覺領域,我們一直在做相關的研究。例如,3D計算機視覺領域的一個重要突破是神經輻射場(NeRF),是我們的聯合創始人 Ben Mildenhall 和他在伯克利的同事們完成的,這是一種實現3D的方式。四年前,深度學習重構技術曾席卷全球。我們還有一位聯合創始人 Christoph Lassner ,他的開創性工作是高斯潑濺表示法復蘇起來的原因之一,這種方法用于表現3D體積數據。

當然還有 Justin Johnson ,他曾是我的學生,也是 World Labs 的聯合創始人,他們屬于第一代深度學習計算機視覺領域的學生,在圖像生成方面做了大量奠基性工作。在 Transformer 出現之前,我們用GANs(高斯方法)進行圖像生成,還有風格遷移技術,這推廣了我們現在所做工作的一些組成部分。學術界和工業界都在開展相關工作。在 World Labs ,我們堅信要專注于這個最重要的核心問題,匯聚計算機視覺、擴散模型、圖形計算機圖形學、優化、AI和數據等領域最聰明的人,組成一個團隊,努力讓這個項目取得成功并實現產品化。

Martin Casado:

我并非這些領域的專家,但我要解決這個問題,需要AI領域的專家,包括在數據、模型架構方面的專家,也需要圖形學專家,他們可以解決計算機內存和屏幕呈現問題。所以我認為這是一個非常特別的團隊,能攻克這個難題,而飛飛已經成功組建了這個團隊。

>End

本文轉載自“硅星人Pro”,原標題《李飛飛:AI的下一個大腦是理解3D空間的世界模型》。

為分享前沿資訊及有價值的觀點,太空與網絡微信公眾號轉載此文,并經過編輯。

未按照規范轉載及引用者,我們保留追究相應責任的權利

部分圖片難以找到原始出處,故文中未加以標注,如若侵犯了您的權益,請第一時間聯系我們。

HISTORY/往期推薦

充滿激情的新時代,

充滿挑戰的新疆域,

與踔厲奮發的引領者,

卓爾不群的企業家,

一起開拓,

一起體驗,

一起感悟,

共同打造更真品質,

共同實現更高價值,

共同見證商業航天更大的跨越!

——《太空與網絡》,觀察,記錄,傳播,引領。

·《衛星與網絡》創始人:劉雨菲

·《衛星與網絡》副社長:王俊峰

·微信公眾號(ID:satnetdy)團隊

編輯:艷玲、哈玫,周泳、邱莉、黃榕、娜娜

主筆記者:李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟

策劃部:楊艷、若?、李真子

視覺總監:董濘

專業攝影:馮小京、宋偉

設計部:顧錳、潘希峎、楊小明

行政部:姜河、林紫

業務部:王錦熙、瑾怡

原創文章轉載授權、轉載文章侵權、投稿等事宜,請加微信:15910858067

商務合作;展覽展廳設計、企業VI/CI及室內設計、企業文化建設及品牌推廣;企業口碑傳播及整體營銷傳播等,請加微信:13811260603

雜志訂閱,請加微信:wangxiaoyu9960

·衛星與網絡各分部:

成都分部負責人:沈淮

長沙分部負責人:賓鴻浦

西安分部負責人:郭朝暉

青島分部負責人:江偉

·衛星與網絡總部負責人:農燕

·會議活動部負責人喬顥益、許克新、董今福

· 投融資及戰略層面合作:劉雨菲

·本平臺簽約設計公司:一畫開天(北京)文化創意設計有限公司

· 航天加(深圳)股權投資基金管理負責人:楊艷

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
歷史性潰敗!面臨三重危機,石破茂扛不住了,日美同盟生變…

歷史性潰敗!面臨三重危機,石破茂扛不住了,日美同盟生變…

占豪
2025-07-22 03:50:11
宇樹機器人十大概念大曝光!

宇樹機器人十大概念大曝光!

和訊網
2025-07-21 14:28:06
熊茂平已任遼寧省委副書記

熊茂平已任遼寧省委副書記

新京報
2025-07-21 22:18:36
俞敏洪:當孩子不尊重你,不必翻臉,只需“烏鴉定律”就夠了

俞敏洪:當孩子不尊重你,不必翻臉,只需“烏鴉定律”就夠了

詩詞中國
2025-06-17 13:12:55
7月21日起,31省養老金方案將公布,工齡35年,能補發1000元嗎?

7月21日起,31省養老金方案將公布,工齡35年,能補發1000元嗎?

興史興談
2025-07-21 10:32:52
廣東一知名企業暴雷!老板跳樓,員工集體失業,大量客戶錢打水漂

廣東一知名企業暴雷!老板跳樓,員工集體失業,大量客戶錢打水漂

墨蘭史書
2025-07-21 20:17:24
廣東順德確診超2000例!基孔肯雅熱如何預防?

廣東順德確診超2000例!基孔肯雅熱如何預防?

大象新聞
2025-07-21 20:48:24
河南民政回應禁止售賣棺材和紙錢

河南民政回應禁止售賣棺材和紙錢

文雅筆墨
2025-07-21 09:49:39
俄羅斯唯一航母要放棄維修,直接賣給中國?印度估計更合適接盤

俄羅斯唯一航母要放棄維修,直接賣給中國?印度估計更合適接盤

荷蘭豆愛健康
2025-07-22 04:24:21
歐盟高層要來中國,邀請函卻沒到手,背后藏著什么秘密?

歐盟高層要來中國,邀請函卻沒到手,背后藏著什么秘密?

菜菜有話說3404
2025-07-22 03:33:19
賴清德南投棋局:陳玉玲6293票惜敗背后真相

賴清德南投棋局:陳玉玲6293票惜敗背后真相

阿天愛旅行
2025-07-22 03:54:59
將戰波蘭女排!中國女排總決賽名單:龔翔宇領銜,吳夢潔出戰

將戰波蘭女排!中國女排總決賽名單:龔翔宇領銜,吳夢潔出戰

直播吧
2025-07-21 17:16:29
官方:姆貝烏莫將身穿曼聯的19號球衣

官方:姆貝烏莫將身穿曼聯的19號球衣

懂球帝
2025-07-22 04:36:11
中國女游客泰國珊瑚島游玩被大樹砸中去世,中國駐普吉領事辦證實此事

中國女游客泰國珊瑚島游玩被大樹砸中去世,中國駐普吉領事辦證實此事

上游新聞
2025-07-21 15:32:10
葛蘭、謝治宇最新持倉曝光:共同聚焦創新藥,這些個股被重倉

葛蘭、謝治宇最新持倉曝光:共同聚焦創新藥,這些個股被重倉

每日經濟新聞
2025-07-21 16:58:18
她濫交、吸毒、出軌,“中國最美女畫家”,最終以才華征服世界

她濫交、吸毒、出軌,“中國最美女畫家”,最終以才華征服世界

方待夜半聽君語
2025-07-21 07:12:17
穆帥即將再獲2名悍將,費內巴切即將以2700萬,與巴黎達成交易

穆帥即將再獲2名悍將,費內巴切即將以2700萬,與巴黎達成交易

福醬的小時光
2025-07-21 11:54:08
保羅回歸快船,老馬識途的快船依舊很難走出西部

保羅回歸快船,老馬識途的快船依舊很難走出西部

李廣專業體育評論
2025-07-22 02:29:37
今年中央候補委員頻繁履新,9人晉升正部

今年中央候補委員頻繁履新,9人晉升正部

魯中晨報
2025-07-21 12:20:45
兩戰轟42+22!中國男籃又一15歲2米03超級前鋒崛起:帶隊奪亞軍

兩戰轟42+22!中國男籃又一15歲2米03超級前鋒崛起:帶隊奪亞軍

李喜林籃球絕殺
2025-07-21 14:00:15
2025-07-22 05:44:49
太空與網絡 incentive-icons
太空與網絡
衛星應用領域全媒體平臺
6136文章數 8162關注度
往期回顧 全部

科技要聞

劉強東闊氣出手!兩月投了4家具身智能公司

頭條要聞

男子為終身質保花60萬買蔚來 1年跑17萬公里權益沒了

頭條要聞

男子為終身質保花60萬買蔚來 1年跑17萬公里權益沒了

體育要聞

這四位大兄弟,你們真敢要3000萬吶

娛樂要聞

五哈全員為寶石老舅送祝福

財經要聞

炒港美股"補稅潮"突襲?一文了解始末

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

時尚
家居
藝術
親子
手機

二搭的風正在吹向你的CP

家居要聞

別樣老上海 重塑復古優雅

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

看這小孩調皮的想上窗臺,媳婦炒幾個菜給公婆送,炒蘑菇太好吃啦

手機要聞

曝REDMI K90全系50MP長焦、定制新屏

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南涧| 仁化县| 安仁县| 阿克| 方城县| 廊坊市| 茂名市| 绍兴县| 安岳县| 河东区| 广平县| 淅川县| 浦城县| 奇台县| 南木林县| 东兰县| 宝坻区| 星子县| 苍南县| 拉孜县| 乐清市| 望城县| 吉隆县| 吐鲁番市| 永胜县| 浑源县| 杂多县| 无为县| 互助| 建平县| 若羌县| 广昌县| 洞头县| 商水县| 温州市| 五家渠市| 宜都市| 丹江口市| 临安市| 镇江市| 玉溪市|