大數(shù)據(jù)文摘出品
在巴黎舉行的AI行動峰會上,Meta首席AI科學家Yann LeCun提出一個問題:“什么才是智能的基本構(gòu)成?”
在與IBM AI負責人Anthony Annunziata的對話中,他提出四項標準:理解物理世界、擁有持續(xù)的記憶、具備推理能力,以及可以進行分層規(guī)劃。
這四項能力在LeCun看來,是任何一種具備智能的生命體所共有的基礎(chǔ)能力。相比之下,當前主流人工智能系統(tǒng),尤其是以語言模型為代表的架構(gòu),在這些方面仍顯不足。
這不是他第一次表達類似看法。作為深度學習早期的關(guān)鍵推動者,LeCun一直在強調(diào)當前模型能力的局限性。
他一直認為,現(xiàn)有AI模型在“智能”的核心能力上存在結(jié)構(gòu)性缺陷。
“補丁式增強”與架構(gòu)爭議
LeCun指出,目前業(yè)界在提升AI功能時,往往采用“組合式”的增強路徑。例如,為了讓語言模型理解視覺信息,就外接一個視覺系統(tǒng);為了讓模型“記住”過往內(nèi)容,就增加檢索增強生成(RAG)模塊;推理能力不足,則通過擴大模型參數(shù)來彌補。
在他看來,這些做法更像是“功能層的修補”,而非能力本身的根本突破。
“理解世界不是把一個視覺模型綁在語言模型上那么簡單,”LeCun說。他用“hack(補丁)”一詞來形容這種工程式集成方式。
Meta近年來持續(xù)投入的“世界模型”(world-based models)思路,正是對這種路徑的回應(yīng)。這一類模型的目標不在于生成內(nèi)容,而是試圖建立一種內(nèi)部的世界表示,通過預(yù)測行為與結(jié)果之間的關(guān)系來實現(xiàn)認知。
LeCun對此有一個具體的定義框架:“你有對世界某一狀態(tài)的理解,你想象一個可能的動作,然后模型預(yù)測在該動作之后,世界會發(fā)生什么。”這類似于一種面向動態(tài)系統(tǒng)的因果建模方式。
圖注:V-JEPA論文:重訪特征預(yù)測:從視頻中學習視覺表征的方法
Meta在2024年發(fā)布的V-JEPA模型,是上述思路的初步實現(xiàn)。該模型并非直接生成圖像或視頻內(nèi)容,而是試圖在抽象層面預(yù)測視頻中被遮擋或缺失的信息。這種方式類似“填空”,但預(yù)測發(fā)生在更高層級的表示空間,而非具體像素。
LeCun解釋說:“我們不預(yù)測像素,而是在抽象表示中進行預(yù)測。理想情況下,這種表示會自動過濾掉那些不可預(yù)測或無關(guān)的細節(jié)。”
這一構(gòu)想與科學研究中“抽象層級”建立的過程相似。正如物理學中通過粒子、原子、分子、材料的層層抽象來理解世界,LeCun認為,AI系統(tǒng)也需要通過構(gòu)建中間表征來實現(xiàn)有效的認知與推理。
這種方式的優(yōu)點之一在于,它減少了對海量數(shù)據(jù)的依賴,并提升了系統(tǒng)對不可預(yù)測變化的適應(yīng)能力。不過,V-JEPA目前仍處于早期階段,其抽象層級的表達力、泛化能力和可交互性仍需進一步驗證。
對主流路徑的間接回應(yīng)
當前,幾乎所有主流AI企業(yè)都在圍繞大模型展開產(chǎn)品構(gòu)建與能力擴展。OpenAI、Anthropic、Google DeepMind的研究路線大多圍繞大語言模型展開,通過RAG、多模態(tài)融合或系統(tǒng)集成來增強模型在記憶、推理等方面的表現(xiàn)。
在這個語境下,LeCun所倡導的“世界模型”策略,可以視為對主流趨勢的補充乃至修正。他所強調(diào)的“具備結(jié)構(gòu)性推理與預(yù)測能力的AI”,并不完全依賴大規(guī)模的語言語料與模式識別能力,而更注重內(nèi)在模型結(jié)構(gòu)與表達形式的可解釋性和可推理性。
盡管Meta已在該方向上進行嘗試,但從V-JEPA本身的功能定義來看,它仍屬于“前期架構(gòu)驗證”階段。模型尚未廣泛部署,相關(guān)評估標準和實際應(yīng)用場景也仍在摸索之中。
目前,對世界模型的定義在學界和產(chǎn)業(yè)界尚無共識。有觀點認為,這類模型最終需結(jié)合具身智能,模擬實體與環(huán)境的持續(xù)交互;也有研究強調(diào),它可以通過抽象表示與模擬環(huán)境實現(xiàn)更高效的訓練過程。
LeCun本人則強調(diào),真正的挑戰(zhàn)在于如何構(gòu)建一個“足夠抽象、又足夠有預(yù)測力”的中間世界。換言之,不是追求還原世界的所有細節(jié),而是捕捉那些在行動決策中最關(guān)鍵的信息層。
注:頭圖來源于Meta Platforms
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.