網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Meta首席科學家LeCun：當前 AI 模型缺乏四項關(guān)鍵人類智能特質(zhì)

2025-06-03 21:59:42　來源: 大數(shù)據(jù)文摘

北京舉報

分享至

大數(shù)據(jù)文摘出品

在巴黎舉行的AI行動峰會上，Meta首席AI科學家Yann LeCun提出一個問題：“什么才是智能的基本構(gòu)成？”

在與IBM AI負責人Anthony Annunziata的對話中，他提出四項標準：理解物理世界、擁有持續(xù)的記憶、具備推理能力，以及可以進行分層規(guī)劃。

這四項能力在LeCun看來，是任何一種具備智能的生命體所共有的基礎(chǔ)能力。相比之下，當前主流人工智能系統(tǒng)，尤其是以語言模型為代表的架構(gòu)，在這些方面仍顯不足。

這不是他第一次表達類似看法。作為深度學習早期的關(guān)鍵推動者，LeCun一直在強調(diào)當前模型能力的局限性。

他一直認為，現(xiàn)有AI模型在“智能”的核心能力上存在結(jié)構(gòu)性缺陷。

“補丁式增強”與架構(gòu)爭議

LeCun指出，目前業(yè)界在提升AI功能時，往往采用“組合式”的增強路徑。例如，為了讓語言模型理解視覺信息，就外接一個視覺系統(tǒng)；為了讓模型“記住”過往內(nèi)容，就增加檢索增強生成（RAG）模塊；推理能力不足，則通過擴大模型參數(shù)來彌補。

在他看來，這些做法更像是“功能層的修補”，而非能力本身的根本突破。

“理解世界不是把一個視覺模型綁在語言模型上那么簡單，”LeCun說。他用“hack（補丁）”一詞來形容這種工程式集成方式。

Meta近年來持續(xù)投入的“世界模型”（world-based models）思路，正是對這種路徑的回應(yīng)。這一類模型的目標不在于生成內(nèi)容，而是試圖建立一種內(nèi)部的世界表示，通過預(yù)測行為與結(jié)果之間的關(guān)系來實現(xiàn)認知。

LeCun對此有一個具體的定義框架：“你有對世界某一狀態(tài)的理解，你想象一個可能的動作，然后模型預(yù)測在該動作之后，世界會發(fā)生什么。”這類似于一種面向動態(tài)系統(tǒng)的因果建模方式。

圖注：V-JEPA論文：重訪特征預(yù)測：從視頻中學習視覺表征的方法

Meta在2024年發(fā)布的V-JEPA模型，是上述思路的初步實現(xiàn)。該模型并非直接生成圖像或視頻內(nèi)容，而是試圖在抽象層面預(yù)測視頻中被遮擋或缺失的信息。這種方式類似“填空”，但預(yù)測發(fā)生在更高層級的表示空間，而非具體像素。

LeCun解釋說：“我們不預(yù)測像素，而是在抽象表示中進行預(yù)測。理想情況下，這種表示會自動過濾掉那些不可預(yù)測或無關(guān)的細節(jié)。”

這一構(gòu)想與科學研究中“抽象層級”建立的過程相似。正如物理學中通過粒子、原子、分子、材料的層層抽象來理解世界，LeCun認為，AI系統(tǒng)也需要通過構(gòu)建中間表征來實現(xiàn)有效的認知與推理。

這種方式的優(yōu)點之一在于，它減少了對海量數(shù)據(jù)的依賴，并提升了系統(tǒng)對不可預(yù)測變化的適應(yīng)能力。不過，V-JEPA目前仍處于早期階段，其抽象層級的表達力、泛化能力和可交互性仍需進一步驗證。

對主流路徑的間接回應(yīng)

當前，幾乎所有主流AI企業(yè)都在圍繞大模型展開產(chǎn)品構(gòu)建與能力擴展。OpenAI、Anthropic、Google DeepMind的研究路線大多圍繞大語言模型展開，通過RAG、多模態(tài)融合或系統(tǒng)集成來增強模型在記憶、推理等方面的表現(xiàn)。

在這個語境下，LeCun所倡導(dǎo)的“世界模型”策略，可以視為對主流趨勢的補充乃至修正。他所強調(diào)的“具備結(jié)構(gòu)性推理與預(yù)測能力的AI”，并不完全依賴大規(guī)模的語言語料與模式識別能力，而更注重內(nèi)在模型結(jié)構(gòu)與表達形式的可解釋性和可推理性。

盡管Meta已在該方向上進行嘗試，但從V-JEPA本身的功能定義來看，它仍屬于“前期架構(gòu)驗證”階段。模型尚未廣泛部署，相關(guān)評估標準和實際應(yīng)用場景也仍在摸索之中。

目前，對世界模型的定義在學界和產(chǎn)業(yè)界尚無共識。有觀點認為，這類模型最終需結(jié)合具身智能，模擬實體與環(huán)境的持續(xù)交互；也有研究強調(diào)，它可以通過抽象表示與模擬環(huán)境實現(xiàn)更高效的訓(xùn)練過程。

LeCun本人則強調(diào)，真正的挑戰(zhàn)在于如何構(gòu)建一個“足夠抽象、又足夠有預(yù)測力”的中間世界。換言之，不是追求還原世界的所有細節(jié)，而是捕捉那些在行動決策中最關(guān)鍵的信息層。

注：頭圖來源于Meta Platforms

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級計費，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.