網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

李飛飛的世界模型，大廠在反向操作？

2025-06-06 13:14:43　來源: 智遠同學

北京舉報

分享至

文：王智遠 | ID:Z201440

A16Z 兩位合伙人 Martin Casado 和 Eric Torenberg 對李飛飛進行一次深度訪談。

網(wǎng)上搜索，會看到片段式的觀點，整體比較跳躍，難以系統(tǒng)理解。因此，我吸收后，重新梳理脈絡，試圖匯報給關注空間智能、世界模型的朋友聽聽：

李飛飛到底在關注什么？她創(chuàng)辦的新公司 World Labs，究竟想做什么？這是否預示著 AI 發(fā)展的一個新方向？

01

很多人不知道這家公司，2024年，著名人工智能專家、斯坦福大學教授李飛飛創(chuàng)辦了初創(chuàng)公司 World Labs；這家公司正在探索一個極具前瞻性的方向：開發(fā)具備“空間智能”的下一代 AI 系統(tǒng)。

短短三個月內(nèi)，World Labs 完成兩輪融資，累計籌集資金約 2.3億美元，估值迅速突破 10億美元，成為 AI 領域最新的獨角獸企業(yè)。

投資方陣容也非常的強大，包括 a16z、Radical Ventures、NEA、英偉達 NVentures、AMD Ventures 和 Intel Capital 等科技與風投界的重量級玩家。

這些投資機構，國內(nèi)市場有些你可能沒聽過，不過，不重要；關鍵是：李飛飛首次在這場 A16Z 的訪談中，公開講述了 World Labs 創(chuàng)立背后的理念構建、研究方向和她的宏大愿景。

那么，她到底說了什么？首先，她回答了一個很尖銳的問題：AI 是否正在從語言模型邁向世界建模？

李飛飛說，是的。

自己不是特別迷戀大語言模型。因為自己以前做過法律工作，那段經(jīng)歷讓她意識到：光靠說話和寫東西，很難真正理解這個世界。

但這并不意味著，語言模型不重要。

像 GPT、BERT 這些大模型取得的進步，反而讓她更加確信：我們正在走向一個更高級的 AI 階段：這個世界不再只是靠文字描述出來的，是可以被 AI 真正“看到”、“理解”和“重建”的三維空間。

她還引用了馬丁（Martin Casado）一個觀點：

人類之所以聰明，不只是因為我們會說話，更重要的是我們會‘看’、會‘動’、會‘操作’這個三維世界。

談到這里，她舉例子說：

DNA 的結構（雙螺旋），是典型的三維結構。如果你只靠文字去想象它長什么樣，根本想不明白，只有當你真的把它“建出來”，才能理解它的美和復雜性。

還有碳分子，那個富勒烯，長得像個足球一樣的結構，也得靠空間上的想象和建模才能搞清楚。

所以，語言模型雖然重要，但它是一個壓縮過的信息版本；遠遠不能代表真實世界的全貌。真正的智能，要能理解和構建這個三維世界才行。

02

既然這樣，我們不禁要問：世界模型為什么這么重要？

李飛飛說，很多人第一次聽到這個詞，覺得有點抽象、很高深。你可以把它理解成：AI 對現(xiàn)實世界的三維理解能力。

什么意思呢？

就像我們?nèi)艘粯樱瑫f話、會思考，會看、會動、能感知這個世界的空間結構。

你看一張桌子，知道它是平的，知道上面有什么東西，還能繞過去、搬起來、放東西上去……這些動作背后，是大腦在構建一個對這個世界的“模型”。

而所謂“世界模型”，是 AI 在嘗試做這件事：把視覺、空間感、動作等多個維度的信息結合起來，真正模擬出一個接近真實的世界。

她打了個特別形象的比方：

游戲里的場景生成。游戲設計師不會直接寫一段話告訴你「這里有一座山、一條河、一座橋」，而會在游戲引擎里把這些元素真的「建出來」，讓你可以走、可以跳、可以繞路。

AI 的世界模型，在試圖做類似的事：

要‘理解’它的形狀、位置、與其他物體的關系，甚至它的動態(tài)變化，并能預測和操作它。

接著她說了一個特別有意思的設想：

如果一個機器人只能看到二維畫面，那它就像是在一個紙片世界里生活。它不知道前面的東西是近還是遠，也不知道自己能不能穿過那扇門；只有當它有了三維的理解，才能真正開始在這個世界中自由行動。

所以，世界模型并不僅是技術概念，它是在回答一個更根本的問題：AI 怎樣才能真正理解物理世界。

這也正是李飛飛強調(diào)的一點：

語言是高度壓縮的信息，但它丟失了很多細節(jié)。要還原真實世界，必須要有空間建模的能力；換句話說，世界模型，才是 AI 實現(xiàn)‘通用智能’的關鍵一步。

說到這兒，她還分享了一個親身經(jīng)歷：

五年前，角膜受傷，好幾個月失去了立體視覺。結果她發(fā)現(xiàn)，自己連開車都變得特別困難；明明知道自己車有多大、路邊的車停得多近，但就是判斷不了距離，不得不開得特別慢，生怕蹭到別人。

她說：

那一刻才真正體會到，人類對世界的理解，是多么依賴空間感；這也讓她更加確信，AI 如果沒有這種空間理解能力，那就永遠只能停留在「看得見」但「看不懂」的階段。

03

理論終究要落到實處。問題是，構建一個世界模型，要哪些技術？

李飛飛說，要讓 AI 真正理解、重構三維世界，是一個非常復雜的過程，目前來看，有幾個關鍵的技術方向正在被重點探索。

首先，是從二維圖像到三維重建的能力。

通俗點講，你給 AI 幾張照片，它能還原出一個立體的世界。比如，你從不同角度拍幾張桌子的照片，AI 就能推斷出這張桌子在空間里是怎么擺放的，甚至能“補全”你看不到的那一面。

這項技術叫 NeRF，全稱是 Neural Radiance Fields，聽起來有點學術，你可以把它想象成一個“會魔法的相機”；它就像你在拼圖，給它幾塊碎片，它就能猜出整幅畫面是什么樣子的。

有了這個還不夠。

NeRF 雖然重建得準，但它有個問題：計算量太大，運行起來很慢，不適合實時應用。于是，另一個技術就出現(xiàn)了，叫做高斯平面表示法。

什么是高斯平面表示法（Gaussian Splatting）？

簡單講：把空間中的每一個點看作是一個個小圓球，然后通過小球的位置和顏色，來快速描繪出整個場景的樣子。

你可以想象一下，小時候玩的積木，每個積木都很小，但放在一起就能搭出一座房子。只不過這里的“積木”，是可以自由變形、移動的小光點。

這個方法的好處是速度快，渲染效率高，特別適合用來做實時交互，比如游戲、VR 或者機器人導航。

不過，這還不是全部。

還有一個特別火的技術，也在為世界模型提供支撐，那就是常聽說的擴散模型（Diffusion Models）。

擴散模型最開始用于圖像生成，比如你現(xiàn)在看到的很多 AI 繪畫工具，背后都有它的影子；但它的能力不止于此。它也可以幫助 AI 更好地理解和生成三維空間內(nèi)容。

舉個例子：

假如你有一張模糊不清的照片，擴散模型可以通過不斷“去噪”的方式，逐步還原出清晰的畫面。同樣的道理，它也能幫 AI 把一些粗糙的空間數(shù)據(jù)變得更精細、更真實。

當然，除了模型本身的技術突破之外，還有一點也很重要：多視角的數(shù)據(jù)融合。

也就是說，AI 不應該只靠一張照片或者一個鏡頭看世界，而是要像人一樣，能從多個角度觀察同一個物體，再綜合判斷它的形狀、位置和運動方式。

這就像，你站在房間的不同位置看一個杯子，每次看到的角度不一樣，但你的大腦會自動把這些信息整合起來，形成一個完整的認知。

AI 也要做到這一點，才能真正理解它所處的環(huán)境。所以你看，技術是在一步步地讓 AI 擁有類似人類的空間感知能力。

不過，這些都還是基礎能力。

如果我們想讓 AI 不僅看得見、建得出，還能預測這個世界的變化，那就還得引入另一個重要的方向：物理仿真與動態(tài)建模。

也就是說，不只是知道一個物體現(xiàn)在在哪里，還要能推測它接下來會怎么動，比如：風一吹樹葉會搖擺，門被推開之后會彈回來，或者一個球滾下樓梯時會發(fā)生什么。

看似簡單的常識，對 AI 來說都是巨大的挑戰(zhàn)。

所以，構建一個世界模型，要多種方法協(xié)同工作，包括 NeRF、高斯表示法、擴散模型、多視角融合，以及物理建模等多個方向的共同推進。

聽完后，我才明白，原來 AI 要理解這個世界，得像人一樣，能從多個角度觀察、拼接信息、推理關系、預測變化，這背后是一整套復雜的技術組合拳。

04

既然 AI 已經(jīng)開始理解三維世界，那能力能落地嗎？它現(xiàn)在已經(jīng)使用了嗎？

李飛飛說：是的。應用場景遠比我們想象得多。

比如，游戲行業(yè)；很多游戲公司，不再靠程序員一行行寫代碼來建模場景了，直接讓 AI 根據(jù)幾張照片或者一段視頻，自動生成一個逼真的三維世界。

再比如建筑行業(yè)。

以前設計師畫一張效果圖，可能要幾天時間來建模渲染，現(xiàn)在借助世界模型的技術，AI 可以在幾分鐘內(nèi)生成整個空間的立體結構，甚至還能模擬陽光從不同角度照進來時的效果。

還有機器人領域；如果一個機器人只有二維視覺，那就像是在一個紙片世界里生活，根本不知道前面的東西是近還是遠，能不能穿過那扇門。

還有嗎？當然。

數(shù)字孿生，也在為現(xiàn)實世界建立一個虛擬劇本；一座工廠、一棟大樓，甚至是一座城市，都可以通過 AI 建立出一個對應的數(shù)字世界，用來做預測、測試和優(yōu)化。

比如：我們可以先在這個虛擬世界里模擬一場火災疏散，看看哪里會出問題，然后再去現(xiàn)實中改進，而不是等到事情發(fā)生了才補救。

另外，她特別提到的方向是創(chuàng)意產(chǎn)業(yè)。

創(chuàng)造力本質(zhì)上是視覺化的。很多藝術家、設計師、建筑師的靈感，是來自于他們對空間的理解和想象，而當 AI 也能擁有這種能力時，它就不僅僅是工具，而是創(chuàng)作者的伙伴。

所以你看，應用不只是停留在技術論文里，它們正在悄悄地改變很多行業(yè)的運作方式；李飛飛也提到，這就像是一場新的生產(chǎn)力革命：

過去我們靠語言描述世界，現(xiàn)在我們能讓 AI 直接“看到”并“重建”這個世界。

05

看來世界模型應用前景比較廣闊，那離真正的廣泛應用還有多遠？目前還面臨哪些挑戰(zhàn)？李飛飛說，方向是對的，目前還有不少難題沒有解決。

關鍵有三點。第一是數(shù)據(jù)問題。

你要讓 AI 理解三維世界，它得看到足夠多的真實場景，還要有深度信息、空間結構、光照變化等等。

換句話說，AI 要“看懂”這個世界，前提是你得給它提供足夠清晰、足夠全面的“教材”。但現(xiàn)在這些數(shù)據(jù)要么很難獲取，要么成本太高。

其二，算力還是個大問題。

現(xiàn)在的很多技術，比如 NeRF 或者高斯表示法，效果不錯，但對計算資源的要求非常高；跑一個模型要花很長時間、要很貴的顯卡。這在實驗室里可以接受，但要大規(guī)模落地應用，顯然不太現(xiàn)實。

還有一個挑戰(zhàn)是泛化能力。什么意思呢？

現(xiàn)在大多數(shù) AI 模型只能在特定環(huán)境下工作得很好，一旦換到陌生的場景中，就容易“看不懂”、“認錯人”或者“走錯路”。

就像你訓練一只狗只認紅色球，結果換了藍色球，它就不認識了一樣；AI 也一樣，它需要更強的適應性，才能真正走進千家萬戶。

另外，光靠某個厲害的算法還不夠，得把硬件、軟件、數(shù)據(jù)、應用場景全都打通才行；這不是一個人、一家公司能完成的事，而是需要整個行業(yè)共同推動的一場變革。

所以，雖然世界模型的方向沒錯，前景也很誘人，但現(xiàn)在更像是剛起步的新手，離真正的成熟和廣泛應用，還有一段不短的路要走。

既然世界模型還在路上，那憑什么你們（World Labs）能推動它往前走？

李飛飛說，要一個能融合多種能力的團隊，而這也是她創(chuàng)辦 World Labs 的初衷之一。

目前團隊成員來自五湖四海，包括計算機視覺專家、圖形學研究者、擴散模型開發(fā)者，還有做物理仿真和機器人控制的人才。

她還提到，AI 發(fā)展到現(xiàn)在，已經(jīng)不是“單打獨斗”就能突破的。過去是一個人寫出一個算法就火了，現(xiàn)在要做世界模型這種系統(tǒng)工程，必須要有不同背景的人一起干。

她舉了個例子：

團隊里有一位叫 Manu 的研究人員，在 NeRF 和高斯表示法方面有很深的積累；另一位同事叫 Christophor，在擴散模型和生成式 AI 上也非常有經(jīng)驗。

他們不是在復制別人做過的事，是在探索一條全新的路，這條路沒有現(xiàn)成的地圖，只有靠大家邊走邊畫。

也正是因為這樣，她更加確信：未來的 AI 研究范式，正在從“單一學科”走向“多學科融合”，從“個體英雄”走向“集體智慧”。

06

有這樣一個多元背景的團隊，也意味著在看待 AI 的方式上，會有更多元的視角。

李飛飛作為一個科學家、創(chuàng)業(yè)者，同時也曾經(jīng)從事過法律工作，她也談到一些關于 AI 和人文之間的關系、AI 和教育之間的影響、以及它如何和法律、倫理這些社會系統(tǒng)一起演進的看法。

她說：在過去很長一段時間里，大家一提到 AI，就想到技術本身，類似于怎么訓練模型、怎么提升準確率、怎么優(yōu)化算法。

但其實，真正決定 AI 能走多遠、走多穩(wěn)的，不只是技術，還有它和社會之間的關系。

拿教育來說：

很多學校教 AI 的方式，還停留在“教學生怎么寫代碼”、“怎么調(diào)參”的階段。她認為，未來的 AI 教育，應該更注重培養(yǎng)學生的批判性思維和社會責任感。

因為 AI 不只是工具，它會影響人的決策、改變社會結構、甚至重塑就業(yè)形態(tài)。

因此，我們要培養(yǎng)的不只是會寫模型的人，更是能思考這個模型該不該被訓練、它的影響是什么’的人；換句話說，AI 教育不能只教“怎么做”，還要教“為什么做”和“應不應該做”。

對于法律方面，她認為：

AI 正在越來越多地參與到現(xiàn)實世界的判斷中。比如：說招聘篩選、信用評估、甚至司法判決。那問題就來了：如果 AI 做出了錯誤的決定，誰來負責？

是開發(fā)者？使用者？還是 AI 本身？或許，我們必須提前為 AI 設計好規(guī)則邊界，否則等到出問題了再補救，可能就來不及了。

最后，她還談到一個特別有意思的點：

很多人覺得 AI 是冷冰冰的數(shù)學和算法，她覺得，AI是人類價值觀和技術能力的結合體；我們造出什么樣的AI，反映的就是我們想成為什么樣的社會。

所以，AI 發(fā)展到今天，它要哲學家、歷史學家、社會學者、教育者、立法者的共同參與。

既然AI是整個社會系統(tǒng)的一場變革，那我們?nèi)滩蛔∫獑枺豪铒w飛眼中的“空間智能”和“世界模型”，最終會走向哪里？對未來 AI 發(fā)展，又抱有什么樣的愿景？

她說，內(nèi)心有很多很多想法，早在做計算機視覺研究的時候就埋下了種子。

那時候就在想：

如果有一天，AI 真的能理解這個三維世界，它會怎么用這種能力？是僅僅用來玩游戲、建地圖，還是可以做得更多？

她相信，未來AI 不只是“看得到”，還要“看得懂”；不只是“重建世界”，還要“參與世界”；不只是“執(zhí)行任務”，還要“與人協(xié)作”。

換句話說：AI 終極目標，不是替代人類，而是成為人類在物理世界中的智能延伸。

她打了個比方：就像眼讓我們看得更清楚，輪椅幫助我們移動得更遠，而 AI 將成為我們理解和操作這個世界的新工具。

比如：

醫(yī)療領域，AI 可以幫助醫(yī)生更準確地判斷手術路徑；在建筑行業(yè)，它可以協(xié)助設計師快速搭建虛擬模型。

教育中，它可以成為一個能“走進去”的知識空間，讓學生真正“看到”分子結構、歷史場景、甚至宇宙演化；這不是科幻，而是正在發(fā)生的技術演進。

關于 AGI，她也提到一個很關鍵的觀點：

我們今天討論的世界模型，是未來通用人工智能（AGI）的第一步；真正的 AGI，不只靠語言或文字來理解世界，而是要有空間感知、動態(tài)推理、交互能力和創(chuàng)造能力。

這些，才是世界模型所代表的方向。

所以，空間智能、世界模型，不僅是一場技術探索，更是一次關于人機關系、社會進步、以及未來生活方式的重新定義。

從語言到世界，從二維到三維，李飛飛所描繪一個 AI 更懂人、更貼近現(xiàn)實、更能與我們一起生活和工作的時代。

這一切，聽起來宏觀，實現(xiàn)起來難嗎？

從上往下看，確實不容易。如果我們換個角度，從下往上看呢？在中國，像字節(jié)、騰訊、阿里、百度這些領先的企業(yè)，已經(jīng)在嘗試給自己的 AI ToC 產(chǎn)品加上一雙眼睛。

當AI開了天眼之后，會不會倒逼空間智能的加速呢？換句話說，與其構建，不如先讓AI先讀懂世界，何嘗不是一種選擇？有意思的問題，我還在觀察。你怎么看？

資料參考：

a16z. (2025, June 4).How Fei-Fei Li is rebuilding AI for the real world；YouTube：https://youtu.be/fQGu016AlVo?si=RRZe7RbVsjr3EPHF

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

智遠同學

暢銷書《復利思維》作者；精神生活與商業(yè)探索，關注科技人文、消費電商、品牌營銷、商業(yè)認知思維等方面。

477文章數(shù) 90關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

親子

游戲

數(shù)碼

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

李飛飛的世界模型，大廠在反向操作？

01

02

03

04

05

06

娃哈哈爭產(chǎn)大戰(zhàn)：杜建英的進擊

男子時隔5年再因"重婚"被警方調(diào)查 自稱沒辦過結婚證

男子時隔5年再因"重婚"被警方調(diào)查 自稱沒辦過結婚證

西蒙尼最彪悍的弟子，正成為下個“匪帥”

肖戰(zhàn)微博改名爆！保留了三部代表作

工信部等約談17家車企巨頭，競爭劃新紅線

中汽中心新能源檢驗中心煥新發(fā)布"汽車行車控制安全技術驗證VCTA"

態(tài)度原創(chuàng)

北京“1+3”爆火！這所學校亮出三大“秘密武器”

媽媽真實記錄姐妹倆學習半小時，姐姐專注力滿分

任天堂神秘大計劃官宣二測！類MC的大型社交網(wǎng)絡游戲、會員專屬

英特爾沖擊高端顯卡，Big Battlemage 四款設備 ID 曝光

男子時隔5年再因"重婚"被警方調(diào)查自稱沒辦過結婚證

男子時隔5年再因"重婚"被警方調(diào)查自稱沒辦過結婚證