大數據文摘出品
在巴黎舉行的AI行動峰會上,Meta首席AI科學家Yann LeCun提出一個問題:“什么才是智能的基本構成?”
在與IBM AI負責人Anthony Annunziata的對話中,他提出四項標準:理解物理世界、擁有持續的記憶、具備推理能力,以及可以進行分層規劃。
這四項能力在LeCun看來,是任何一種具備智能的生命體所共有的基礎能力。相比之下,當前主流人工智能系統,尤其是以語言模型為代表的架構,在這些方面仍顯不足。
這不是他第一次表達類似看法。作為深度學習早期的關鍵推動者,LeCun一直在強調當前模型能力的局限性。
他一直認為,現有AI模型在“智能”的核心能力上存在結構性缺陷。
“補丁式增強”與架構爭議
LeCun指出,目前業界在提升AI功能時,往往采用“組合式”的增強路徑。例如,為了讓語言模型理解視覺信息,就外接一個視覺系統;為了讓模型“記住”過往內容,就增加檢索增強生成(RAG)模塊;推理能力不足,則通過擴大模型參數來彌補。
在他看來,這些做法更像是“功能層的修補”,而非能力本身的根本突破。
“理解世界不是把一個視覺模型綁在語言模型上那么簡單,”LeCun說。他用“hack(補丁)”一詞來形容這種工程式集成方式。
Meta近年來持續投入的“世界模型”(world-based models)思路,正是對這種路徑的回應。這一類模型的目標不在于生成內容,而是試圖建立一種內部的世界表示,通過預測行為與結果之間的關系來實現認知。
LeCun對此有一個具體的定義框架:“你有對世界某一狀態的理解,你想象一個可能的動作,然后模型預測在該動作之后,世界會發生什么。”這類似于一種面向動態系統的因果建模方式。
圖注:V-JEPA論文:重訪特征預測:從視頻中學習視覺表征的方法
Meta在2024年發布的V-JEPA模型,是上述思路的初步實現。該模型并非直接生成圖像或視頻內容,而是試圖在抽象層面預測視頻中被遮擋或缺失的信息。這種方式類似“填空”,但預測發生在更高層級的表示空間,而非具體像素。
LeCun解釋說:“我們不預測像素,而是在抽象表示中進行預測。理想情況下,這種表示會自動過濾掉那些不可預測或無關的細節。”
這一構想與科學研究中“抽象層級”建立的過程相似。正如物理學中通過粒子、原子、分子、材料的層層抽象來理解世界,LeCun認為,AI系統也需要通過構建中間表征來實現有效的認知與推理。
這種方式的優點之一在于,它減少了對海量數據的依賴,并提升了系統對不可預測變化的適應能力。不過,V-JEPA目前仍處于早期階段,其抽象層級的表達力、泛化能力和可交互性仍需進一步驗證。
對主流路徑的間接回應
當前,幾乎所有主流AI企業都在圍繞大模型展開產品構建與能力擴展。OpenAI、Anthropic、Google DeepMind的研究路線大多圍繞大語言模型展開,通過RAG、多模態融合或系統集成來增強模型在記憶、推理等方面的表現。
在這個語境下,LeCun所倡導的“世界模型”策略,可以視為對主流趨勢的補充乃至修正。他所強調的“具備結構性推理與預測能力的AI”,并不完全依賴大規模的語言語料與模式識別能力,而更注重內在模型結構與表達形式的可解釋性和可推理性。
盡管Meta已在該方向上進行嘗試,但從V-JEPA本身的功能定義來看,它仍屬于“前期架構驗證”階段。模型尚未廣泛部署,相關評估標準和實際應用場景也仍在摸索之中。
目前,對世界模型的定義在學界和產業界尚無共識。有觀點認為,這類模型最終需結合具身智能,模擬實體與環境的持續交互;也有研究強調,它可以通過抽象表示與模擬環境實現更高效的訓練過程。
LeCun本人則強調,真正的挑戰在于如何構建一個“足夠抽象、又足夠有預測力”的中間世界。換言之,不是追求還原世界的所有細節,而是捕捉那些在行動決策中最關鍵的信息層。
注:頭圖來源于Meta Platforms
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.