作者 | 大模型機動組
郵箱 | damoxingjidongzu@pingwest.com
在新一期a16z播客節目中,由a16z合伙人Erik Torenberg主持,與World Labs聯合創始人兼CEO李飛飛,以及a16z合伙人 & World Labs早期投資人 Martin Casado 進行了一場對話。共同探討了"世界模型"的概念——即AI系統能理解并推理物理3D世界,而不僅限于文本。
被譽為"AI教母"的李飛飛解釋了為何空間智能是當前AI系統關鍵卻缺失的組成部分,以及她的新公司為何全力攻克這一挑戰。Martin分享了他們早在該理念流行前就達成共識的故事,并闡明這可能定義機器人、創意產業和計算本身的未來。
從大語言模型的局限到具身AI的前景,從個人軼事到深度技術洞察,這是一場關于構建真實與虛擬世界智能本質的討論。以下是這期節目的內容實錄:
Erik Torenberg:Martin ,你能不能簡要地代表飛飛吹噓一下,跟不熟悉的人總結下你對AI的貢獻。
Martin Casado:大家對她并不陌生無需過多介紹,她做了太多的事,我都說不完。所以也許我只說一些與當前話題相關的事。當然,她是 Twitter 董事會成員,曾任職于谷歌。她還是 World Labs 的創始人兼CEO。但非常重要的是,就像我們都知道的,AI領域里,大家都在談論神經網絡,也有很多人專注于讓這些神經網絡更有效。但飛飛真正地將數據引入了這個方程式,而現在我們意識到,數據可能才是更大、更有趣的問題,所以大家都稱她為“AI之母”。
Erik Torenberg:飛飛,你為什么選擇 Martin 成為首位投資者?
李飛飛:首先,我認識 Martin 已經十多年了。2009年我作為助理教授加入斯坦福大學時,Martin 正在那里攻讀博士學位。所以我一直都了解他,當然, Martin 的導師 Nick McCune 是我的好朋友。我一直知道 Martin 會成為一位非常成功的企業家和投資者,我們經常見面和交流。
當我構思 World Labs 的想法時,我在尋找我所謂的“獨角獸投資者”。我不知道這個詞是否準確,但我就是這么稱呼他的。他不僅是成就斐然的投資者,能和創業者一起經歷起伏,有深刻見解,能帶來知識、建議和資源的人,但我特別需要一位智力伙伴。因為 World Labs 做的是非常深度的技術。我們正在嘗試做別人從未做過的事,我們堅信這將真正改變世界。我需要一個既是計算機科學家,又是AI研究者,了解產品市場、市場推廣策略的人,還能隨時與我進行智力對話。
Martin Casado:實際上,我們最初結緣的故事還挺有趣的。飛飛顯然思考這個想法已經很久了,甚至在項目啟動前好幾年就開始了。她一直在說她對AI要如何在世界中運行有著深刻的直覺。當時我們參加了 Mark 的豪華午餐會,有很多AI領域的人都在,大家都對大語言模型非常興奮,都在談論語言。我自己也得出了一個獨立的結論,因為我做過很多圖像投資方面的工作,我覺得語言并不是故事的終點。
當時飛飛坐在餐桌另一頭,聽著這些人談論。她探問我:“你知道我們缺什么嗎?我們缺一個世界模型?!蔽耶敃r就想:“沒錯!”那一刻一切都對上了,因為我一直在宏觀層面思考這些問題,但她就像往常一樣,精準地闡述了這個觀點。她為此思考了一年,和很多人交流過。所以在某種程度上,我們各自殊途同歸,得出了非常相似的直覺。她的想法更完善,我的則只是個初步的概念。但從那之后,我們進行了多次交談,我們都認同這個想法。
李飛飛:實際上,你們可能不知道,在那次午餐時,我們一拍即合,都認同世界模型的想法。但那時我已經在和不同的人交流了,不只是計算機科學家和技術人員,還有投資者和潛在的商業伙伴。說實話,大多數人都沒理解。當我說世界模型時,我能感覺到他們只是禮貌地點點頭。所以我給 Martin 打電話,說:“你介意來斯坦福和我喝杯咖啡嗎?”
我對 Martin 說:“你能給我定義一下世界模型嗎?”我真的想確認下 Martin 是不是真的理解這個概念。他對世界模型的定義是一個真正理解世界3D結構、形狀和組合性的 AI 模型,這和我想的完全一致。我當時就想:“哇,他是我到目前為止交談過的人中唯一一個真正理解的,而不是只點頭附和的人?!?/p>
Erik Torenberg:好的,我們接下來會聊聊World Labs 以及具體情況,但或許首先我們先回到你們讀博時期和教授時期,并反思一下。如果你們能回到過去,并且知曉過去十年AI領域發生的事,你們覺得最大的意外會是什么?或者說有什么是你們當初沒預料到,會讓年輕時的自己感到震驚的事?
李飛飛:這說起來很諷刺,就像 Martin 說的,我是把數據引入AI世界的人,但我仍然在情感上非常驚訝,這些依賴大量數據的模型、數據驅動的AI能發展到如今的程度,并且真的展現出了思維機器般令人難以置信的涌現性行為。
Erik Torenberg:為什么要再創辦一家基礎模型公司呢?為什么不專注于大語言模型呢?
李飛飛:我的學術追求不在于創辦公司或發表論文,而在于尋找北極星問題。所以不是我某天醒來,就說一定要開家公司。在過去幾年里,我每天醒來都在想,世界上遠不止語言。語言是一種非常強大的思想和信息編碼方式,但它并不是對3D物理世界的有效編碼,而所有動物和生物都生活在這個3D物理世界里。
如果你觀察人類智能,很多都超出了語言的范疇。語言是一種有信息損失的捕捉世界的方式。而且還有一個微妙之處,純粹的生成式“語言”在自然界中并不存在。我們環顧四周,沒有現成的句子或單詞,而整個物理、感知、視覺世界卻真實存在。動物的整個進化史都是建立在大量感知和最終具身智能之上的。人類不僅生存、生活、工作,還通過構建和改變世界建立了文明,這就是我想解決的問題。
為了解決這個問題,研究顯然很重要。我作為學者花了很多年做研究,也很享受這個過程。但我確實意識到,特別是和 Martin 交流后,現在是時候集中行業級的力量,特別是在計算、數據和人才方面集中發力,才能真正實現這個目標。這就是我創辦 World Labs 的原因。
Martin Casado:Erik ,你可以做一個簡單的思維實驗,來凸顯語言和空間的區別。如果我把你放在一個房間里,蒙上你的眼睛,然后給你描述這個房間,再讓你完成一項任務,你成功的可能性非常小。比如我說:“在你前方十英尺處有一個杯子,左邊還有……”這是一種非常不準確的描述現實的方式,因為現實非常復雜、精確。
反之,如果我拿掉你的眼罩,讓你看到實際的空間,你的大腦實際上會重建3D空間,然后你就可以去操作東西、觸摸東西。所以可以這樣理解,我們進行大量的語言處理,用它來交流和傳達高層次的想法等。但當涉及在現實世界中導航時,我們真正依賴的是世界本身以及我們重建它的能力。
Erik Torenberg:你是如何以及何時意識到語言可能不夠用的?因為這似乎并沒有得到廣泛認知,我也不是經常聽到這方面的討論。
Martin Casado:如果問我最大的突破性發現,那就是語言技術先取得了進展,而我們在機器人技術上投入了很多努力,僅自動駕駛汽車行業,我們在這個行業投入了大概1000億美元。我記得2006年 DARPA(美國國防部高級研究計劃局)挑戰賽,我們都歡呼“自動駕駛汽車成了!”。但20年過去了,投入1000億美元,這還只是一個二維問題。我們原本的路線是先解決世界導航問題,但結果極其困難。突然出現了大語言模型,它們經濟高效,幾乎瞬間就解決了很多語言問題,我花了一些時間才理解。
飛飛說得非常好,我花了一些時間才理解,我們大腦語言處理區域很新,我們效率其實很低,計算機更擅長不足為奇,但大腦中負責導航、空間感知的部分已經存在很久了,可能有幾百萬年,也許從爬行動物腦時代就有了,大約有四百萬年。
李飛飛:甚至更古老,如三葉蟲時代。
Martin Casado:所以這就像是我們正在重現進化歷程。語言部分對于高層次概念和一些腦力工作非常重要,這也是目前它正在對白領工作范疇產生影響的領域。但當涉及空間時,從機器人技術到任何需要構建物理實體的領域,都必須解決這個問題。我們從自動駕駛汽車領域就知道這是個非常棘手的問題。而退化浪潮給了我們一些如何解決這個問題的思路,當時正是研究良機。
李飛飛:我的經歷不太一樣,因為我專注從事視覺研究,所以我不需要大語言模型來讓我相信世界模型的重要性。聲明并非貶低語言。實際上,看到ChatGPT、大語言模型和這些基礎模型取得如此突破性的成功讓我很興奮,這讓我們意識到世界模型實現的時刻越來越近了。
就像 Martin 表述很精妙,3D空間與心智空間,這種空間智能能讓人做很多超越語言的事情,是智能的關鍵部分。從遠古動物到人類最具創新性的發現,比如DNA雙螺旋結構,僅靠語言是無法推理出來的,這是我最愛的科學例證,我覺得他的例子是巴克球,碳分子結構設計得非常精美。這樣的例子顯示了空間和3D世界的深奧。
Erik Torenberg:讓我們更具體地想象一下。當 World Labs 實現其愿景,或者語言世界模型實現其愿景時,有哪些應用場景或用例可以具體說明呢?
李飛飛:有很多。比如,創造力很大程度上是視覺化的。從設計、電影、建筑到工業設計,創作者涉及多個領域。設計和創意不僅用于娛樂,還可用于提高生產力、制造機械等很多方面,這本身就是一個高度視覺化、感知化、空間化的工作領域。當然,我們提到的機器人技術,對我來說是指所有具身機器,不只是類人機器人或汽車,中間還有很多種類。但它們都需要理解3D空間,需要訓練理解3D空間,并進行任務執行,有時甚至要與人類協作,這當然需要空間智能。
我覺得讓我非常興奮的一點是,在整個人類文明歷史中,我們所有人都共同生活在一個3D世界里,也就是地球的物理3D世界。只有少數人去過月球,但人數非常少。而這項技術讓數字虛擬世界變得無比精彩,它結合了生成和重建。
突然間,我們實際上可以創造無限的宇宙。有些是為機器人創造的,有些是為創造力創造的,有些是為社交創造的,有些是為旅行創造的,有些是為講故事創造的。突然之間,我們能夠生活在一個多元宇宙中,想象的空間是無限的。
Martin Casado:這些討論聽起來可能很抽象,但實際上并非如此。它們聽起來抽象是因為這個領域非常廣泛,就像大語言模型一樣橫向通用。如果問大語言模型擅長什么,同一個大語言模型可用于情感交流、編寫代碼、列清單,還可以用于自我實現。
我認為我們可以非常具體地說明這些模型能做什么。有了這些模型,你可以通過對世界的二維視角,在計算機中創建一個完整的3D表示,包括你看不到的部分,比如桌子的背面。僅通過二維視角,你就能得到完整的信息,你可以問“用這個模型能做什么?”,然后你可以對它進行操作、移動、測量、堆疊,所以在空間中能做的任何事情都可以實現。這意味著可以用于建筑設計、創意設計。而且能夠填充桌子背面的信息意味著可以創造原本不存在的東西。
比如,我只有一張二維圖片,就可以創建一個360度的完整視圖。這就是完全的生成式能力。這意味著可以用于視頻游戲、創意設計等領域。這是一個超級橫向的技術,它可以通過計算機對世界的單一或多個視角,創建一個完整的3D表示,然后計算機就可以基于此進行操作??梢钥吹?,這對從機器人技術到視頻游戲、藝術設計等各個領域都有著關鍵的作用。
Erik Torenberg:似乎直到現在我們才充分認識到3D元素的重要性,這么說合理嗎?
李飛飛:這么說是合理的。實際上,這經歷了很長的進化過程。3D問題并不容易解決,但我總會想起幾年前我和我六歲孩子的一次對話,關于為什么樹沒有眼睛。根本原因是樹不會移動,所以不需要眼睛。動物生命的基礎是移動、行動和交互,這就催生了感知和空間智能。而空間智能,就像 Martin 說的,將全面重塑人類的工作和生活方式。
Erik Torenberg:一定要是3D的嗎?為什么不能只用二維呢?
李飛飛:物理現象發生在3D空間中,交互也發生在3D空間中。在桌子后面導航需要在3D空間中進行。無論是在物理世界還是數字世界中構建事物,都需要在3D空間中進行。所以從根本上說,這是一個3D問題。
Martin Casado:一種思考方式是,如果是人類看二維視頻,人類可以在腦海中重建3D空間。但如果是一個機器人,它的模型輸出是二維的,然后讓它去完成一些任務,比如測量距離、抓取東西,就會缺少關鍵信息,只有X、Y軸,因為缺少了Z軸信息。所以對于很多與空間相關的任務,需要向計算機提供3D信息,這樣它才能在3D空間中導航。二維視頻對人類來說沒問題,因為我們可以將其轉化為3D信息,但對于任何計算機程序來說,都需要3D信息。
李飛飛:實際上,我想講分享個親身經歷。大約五年前,我因為眼角膜受傷,有幾個月失去了立體視覺,只能用一只眼睛看東西。就像 Martin 說的,我一生都習慣了立體視覺。所以即使只用一只眼睛看,我大概也知道3D世界是什么樣的。但作為一名視覺科學家,那段時間對我來說是一次有趣的實驗,讓我體驗了另一種看世界的方式。
有一件事讓我印象深刻,我不敢開車了。首先,我不敢上高速,速度太快我應付不來。我只能在自己家附近開車,我發現我無法很好地判斷我的車和路邊停著的車之間的距離,即使是在一條小路上。盡管我非常清楚我的車有多大,也大概知道鄰居家停的車有多大,而且我在這條路上開了很多年。但開車的時候,我只能開得很慢,時速幾乎只有十英里,以免刮到其他車。這就是我們需要立體視覺的原因。
Martin Casado:這很好地說明了為什么在進行某些處理時,3D信息是必不可少的。
李飛飛:沒錯,我不建議大家嘗試,但如果你有空,可以用一只眼睛看,然后停一輛車,再開另一輛車,感受一下。
Erik Torenberg:在大語言模型方面,很多研究是由大公司完成的。目前這個領域的研究進展如何?
李飛飛:與大語言模型相比,這絕對是一個較新的研究領域。但也不能說全新,因為在計算機視覺領域,我們一直在做相關的研究。例如,3D計算機視覺領域的一個重要突破是神經輻射場(NeRF),是我們的聯合創始人 Ben Mildenhall 和他在伯克利的同事們完成的,這是一種實現3D的方式。四年前,深度學習重構技術曾席卷全球。我們還有一位聯合創始人 Christoph Lassner ,他的開創性工作是高斯潑濺表示法復蘇起來的原因之一,這種方法用于表現3D體積數據。
當然還有 Justin Johnson ,他曾是我的學生,也是 World Labs 的聯合創始人,他們屬于第一代深度學習計算機視覺領域的學生,在圖像生成方面做了大量奠基性工作。在 Transformer 出現之前,我們用GANs(高斯方法)進行圖像生成,還有風格遷移技術,這推廣了我們現在所做工作的一些組成部分。學術界和工業界都在開展相關工作。在 World Labs ,我們堅信要專注于這個最重要的核心問題,匯聚計算機視覺、擴散模型、圖形計算機圖形學、優化、AI和數據等領域最聰明的人,組成一個團隊,努力讓這個項目取得成功并實現產品化。
Martin Casado:我并非這些領域的專家,但我要解決這個問題,需要AI領域的專家,包括在數據、模型架構方面的專家,也需要圖形學專家,他們可以解決計算機內存和屏幕呈現問題。所以我認為這是一個非常特別的團隊,能攻克這個難題,而飛飛已經成功組建了這個團隊。
點個愛心,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.