因為眼睛受傷暫時失去立體視覺,李飛飛更加堅定了做世界模型的決心。
在a16z的最新播客節目中,“AI教母”李飛飛講述了五年前因為一次角膜損傷暫時失去立體視覺的經歷:
- 盡管憑借多年經驗能想象出三維世界,但一只眼睛看東西時,我開始害怕開車。
但作為一名科學家,她也把這次經歷當成一次寶貴的“實驗”機會。
這次生病讓她明白了立體視覺對空間交互具有決定性作用,“就像語言模型處理文本時需要理解上下文,物理世界的交互也必須建立在三維空間表征基礎上”。
整體而言,李飛飛在節目中解釋了為什么空間智能是當今AI系統關鍵且缺失的部分,以及她的新公司如何應對這一挑戰。
同時,另一位嘉賓Martin Casado( a16z合伙人、李飛飛公司早期投資者)也分享了二人在世界模型上達成共識的故事,并從投資者的角度分析了世界模型的潛力和價值。
省流版如下:
- “數據驅動范式”所爆發的能量,至今遠超李飛飛當初創建ImageNet時的想象;
- 創辦World Labs并非跟風基礎模型創業潮,而是源于對智能本質的持續探索;
- 要實現世界模型這一愿景,需要集結產業級的算力、數據和人才密度;
- 動物通過5億年進化出的三維認知系統,遠比人類晚近出現的語言系統更精妙;
- 當前的技術突破點在于,如何讓AI像人類一樣,從單目視覺輸入中重建完整三維場景理解。
值得一提的是,嘉賓們深入淺出的講解方式也獲得了網友一致好評:
下面具體來看。
構建能真正理解物理世界的AI模型
李飛飛自述,其實早在大語言模型(LLM)興起之前,她就深刻意識到了構建世界模型(LWM)的重要性。
這不僅和她之前生病的經歷有關,更主要的是和她一直以來的學術經歷相符。
回顧博士和教授生涯,若以今日認知審視過去十年AI的發展軌跡,最令李飛飛震撼的恰恰是她曾倡導的“數據驅動范式”所爆發的能量。
當年她帶領團隊開發了一個名為ImageNet的視覺識別系統,這個系統收錄了超過1000萬張經過精確標注的圖片,迅速成為全球規模最大的圖像資料庫之一,以此徹底改變了計算機視覺和深度學習的研究格局。
不過在她看來,如今由大規模數據驅動的模型所展現出的“類思維機器涌現行為”,仍遠超其最初的想象。
這種矛盾感促使她不斷追問:當業界都在追逐語言模型時,我們是否忽略了更本質的維度?
選擇創辦World Labs,李飛飛自述并非跟風基礎模型創業潮,而是源于對智能本質的持續探索。
在她眼里,語言固然是思想和信息的高效編碼載體,但它對三維物理世界的表征存在天然缺陷——
- 我們生存的實體空間充滿動物演化史沉淀的感知智能,而語言只是人類文明后期產生的有損壓縮符號。
- 環顧自然,沒有漂浮的詞匯表,只有具象的物質世界。
這種認知讓她確信:真正的通用智能必須建立在對物理空間結構、物體組合關系的理解之上。
這也是World Labs的使命,即構建能真正理解物理世界的AI模型,用集中攻堅的方式,讓AI真正理解我們生活的三維世界。
創立World Labs的契機
當李飛飛構思World Labs時,她需要的不僅是資金支持,更渴望找到思想共鳴的伙伴。
而這個人就是a16z合伙人、李飛飛公司早期投資者Martin Casado。
作為斯坦福大學2009年入職的年輕助理教授,李飛飛與當時即將獲得博士學位的Martin早有交集。不過后來Martin轉型成為企業家和投資人,而她則深耕人工智能領域,被譽為“AI教母”。
在一次關于LLM的學術聚會上,當眾人熱議語言模型時,李飛飛向Martin提出:
- 我們缺失的是世界模型(world model)。
就是這樣一句話,瞬間點燃了二人的合作火花。與其他投資人禮貌性點頭不同,他們后來又在斯坦福校園展開深談,而Martin對三維世界的理解令李飛飛印象深刻。
Martin在節目中解釋道,蒙眼狀態下僅靠語言描述在房間執行任務幾乎不可能成功,因為語言對物理空間的轉譯是低效且失真的。但摘下眼罩后,大腦瞬間重構三維空間的能力讓我們能精準抓取杯子、避開障礙,這種對物理世界的即時建模才是智能的根基。
換句話說,語言適合傳遞抽象概念,但應對實體世界必須依賴空間智能,這正是當前AI最欠缺的能力。
同時他也提到,自動駕駛行業投入上千億美元仍未能完美解決二維導航問題,而語言模型卻突然以驚人效率處理了文本任務。這種反差讓他意識到,生成式AI已經提供了去做其他事情的契機。
這些想法也得到了李飛飛的認同,她表示,“這與我多年的思考完全契合”。
- 盡管ChatGPT等語言模型的成功令人振奮,但我始終堅信世界模型才是智能的下一里程碑。
李飛飛再次表示,這并非否定語言的價值,而是指出其局限性——
當我們需要建造機器人、設計新材料或探索虛擬宇宙時,必須讓AI獲得類似生物的空間認知能力。從遠古動物到現代人類,所有改變物理世界的創造行為,本質上都是三維智能的體現。
一旦世界模型取得突破,我們可以創造無限虛擬宇宙:有些為機器人訓練設計,有些用于社交體驗,還有些專屬于敘事藝術或旅行探索。
這種能力將人類帶入真正的多元宇宙時代。想象一下,建筑師能在數字世界瞬間構建城市原型,科學家可以在分子級3D空間模擬新材料的合成。
關鍵在于突破“視野之外”
在想法上達成一致后,投身創業的李飛飛意識到:
- 要實現世界模型這一愿景,需要集結產業級的算力、數據和人才密度。
具體到技術層面,世界模型能通過單張2D圖像重建完整三維場景,包括視野之外的物體背面。
這種能力帶來根本性變革:計算機首次能像人類一樣對空間進行測量、堆疊和操縱。無論是從單幀視頻生成360度環境,還是讓機器人理解深度信息執行抓取任務,三維表征都成為智能交互的基礎。
這解釋了為何游戲開發、藝術創作和工業設計等領域都在急切等待這項技術突破。
并且,與六歲孩子討論“樹木為何不長眼睛”的經歷讓李飛飛深刻領悟:進化需求催生了空間感知能力。
- 動物通過5億年進化出的三維認知系統,遠比人類晚近出現的語言系統更精妙。
在她看來,當前AI發展恰似在重演進化歷程——我們先攻克了語言處理這類“新技能”,現在才真正挑戰空間智能這個古老而核心的命題。
而在嘗試發起挑戰的人當中,World Labs擁有自己的優勢。
據李飛飛介紹,雖然三維AI研究相比語言模型是較新領域,但在計算機視覺領域早有積累。
其聯合創始人Ben Mildenhal在伯克利期間開創的神經輻射場(NeRF)技術,四年前就革新了深度學習的三維重建方法;另一位創始人Christoph Lassner在高斯潑濺表示法(Gaussian Splatting)上的先驅工作,也為三維表征提供了新范式。
更早時期,團隊成員在GAN圖像生成、風格遷移等方向的基礎研究,都為當前突破埋下伏筆。
這些分散在學界和工業界的探索,如今在World Labs匯聚成系統化攻關。
李飛飛表示,破解三維智能需要特殊的人才組合:既要AI專家處理數據與模型架構,又需要計算機圖形學專家解決內存與渲染問題。
因此,他們組建了可能是全球最頂尖的跨學科團隊——涵蓋計算機視覺、擴散模型、圖形學、優化算法等領域的開拓者。
這種集中火力的方式,與當年LLM發展初期各大公司“各自為戰”形成鮮明對比。
李飛飛堅信,唯有將最聰明的大腦聚集在“世界模型”這個北極星問題下,才能實現從實驗室技術到產品化的跨越。
p.s. 北極星問題一說出自李飛飛自傳《我看見的世界》,指科研中的一些關鍵問題。
而當前的技術突破點在于:如何讓AI像人類一樣,從單目視覺輸入中重建完整三維場景理解。
- 這不僅是機器人精準抓取的基礎,更是打開無限虛擬宇宙的鑰匙。
- 當計算機能自主補全視野之外的物體結構時,建筑設計將變成空間組合游戲,分子模擬可視作三維拼圖,甚至數字孿生世界也能實時生成演化。
這場革命正在發生——而World Labs要做的,就是加速這個進程。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.