楊立昆重磅論斷：當(dāng)前AI缺失人類四大核心智能，世界模型成破局關(guān)鍵

楊立昆：當(dāng)前AI缺失人類四大核心智能

2025-05-27 19:10:01　來源: 智東西

北京舉報

分享至

智東西
編譯王涵
編輯漠影

智東西5月27日消息，據(jù)外媒Business Insider報道，今年早些時候在巴黎舉行的AI Action Summit上，Meta首席人工智能（AI）科學(xué)家楊立昆（Yann LeCun）指出，當(dāng)前AI雖在多個領(lǐng)域展現(xiàn)驚人能力，其仍缺乏理解物理世界、持久記憶、邏輯推理與分層規(guī)劃四大人類智能核心特征。

據(jù)外媒VentureBeat此前報道，科技巨頭們的行動印證了這一判斷，開始從“打補(bǔ)丁”式優(yōu)化轉(zhuǎn)向“世界模型”架構(gòu)革新，谷歌等企業(yè)已將其納入戰(zhàn)略布局。

這場圍繞AI本質(zhì)的探索，不僅關(guān)乎技術(shù)突破，更指向人機(jī)認(rèn)知邊界的未來走向。

一、AI模型缺乏4個人類特征：理解、記憶、推理與規(guī)劃

所有智能生命的共同點(diǎn)是什么？今年早些時候在巴黎舉行的AI Action Summit上，圖靈獎得主、Meta首席AI科學(xué)家楊立昆與IBM AI負(fù)責(zé)人安東尼·安農(nóng)齊亞塔（Anthony Annunziata）分享了其對智能行為的基準(zhǔn)定義：

“所有動物——至少是相對聰明的動物——都具備四種基本智能特征，人類當(dāng)然也不例外，”楊立昆闡述道，“理解物理世界、擁有持久記憶、進(jìn)行邏輯推理，以及制定復(fù)雜行動計(jì)劃的能力，特別是分層規(guī)劃能力。”

楊立昆認(rèn)為，當(dāng)前AI（尤其是大語言模型）尚未達(dá)到該閾值，要實(shí)現(xiàn)這些能力需變革訓(xùn)練范式。他解釋這正是科技巨頭們在AI競賽中不斷為現(xiàn)有模型“打補(bǔ)丁”的原因：“為理解物理世界，就訓(xùn)練獨(dú)立的視覺系統(tǒng)然后硬塞進(jìn)LLM；為實(shí)現(xiàn)記憶功能，要么采用RAG（檢索增強(qiáng)生成），要么外掛關(guān)聯(lián)記憶模塊，或者簡單粗暴地擴(kuò)大模型規(guī)模。”

▲Meta首席AI科學(xué)家楊立昆（Yann LeCun）

二、“世界模型”構(gòu)建抽象層級來理解物理世界

但楊立昆直言這些只是“權(quán)宜之計(jì)”。他多次倡導(dǎo)的“世界模型”（world model）替代方案，是通過現(xiàn)實(shí)場景訓(xùn)練、具備比模式識別AI更高認(rèn)知水平的架構(gòu)。在與安農(nóng)齊亞塔對話中，他給出新定義：“獲取時間T的世界狀態(tài)后，設(shè)想可能采取的行動，世界模型就能預(yù)測行動后的新狀態(tài)。”

不過現(xiàn)實(shí)世界演化存在無限不可預(yù)測性，楊立昆認(rèn)為唯一訓(xùn)練途徑是抽象化。Meta今年2月開源的V-JEPA模型正進(jìn)行相關(guān)實(shí)驗(yàn)，讓這個非生成式模型通過預(yù)測視頻缺失片段來學(xué)習(xí)。“關(guān)鍵是不做像素級預(yù)測，而是訓(xùn)練系統(tǒng)構(gòu)建視頻抽象表征，在此維度進(jìn)行預(yù)測時自動過濾不可預(yù)測的細(xì)節(jié)。”他解釋道。

這種抽象層級思想類似化學(xué)物質(zhì)構(gòu)成體系：“我們建立粒子→原子→分子→材料的層級，每上升一層就剔除下層與當(dāng)前任務(wù)無關(guān)的信息。”楊立昆說，這本質(zhì)上是通過構(gòu)建抽象層級來理解物理世界的另一種表述。

三、谷歌將“世界模型”與其短期策略緊密結(jié)合

無獨(dú)有偶，在上周硅谷舉行的Google I/O 2025開發(fā)者大會上，除卻奪人眼球的炫酷功能，谷歌也提到要打造AI時代的操作系統(tǒng)，即能理解物理環(huán)境并代人類推理決策的“世界模型”。

自2024年末以來，DeepMind首席執(zhí)行官德米斯·哈薩比斯就在持續(xù)完善“世界模型→通用AI助手”理論體系。此次I/O大會上，CEO桑達(dá)爾·皮查伊（Sundar Pichai）與Gemini負(fù)責(zé)人喬希·伍德沃德（Josh Woodward）同臺呼應(yīng)這一愿景。相較微軟、OpenAI和xAI對世界模型的抽象討論，谷歌獨(dú)樹一幟地將其與短期戰(zhàn)略緊密結(jié)合。

▲Gemini負(fù)責(zé)人喬希·伍德沃德（Josh Woodward）（圖源：谷歌I/O）

若真能打造出理解物理環(huán)境的“通用AI助手”，谷歌或?qū)⒊蔀檫B接用戶、企業(yè)與技術(shù)的“隱形操作系統(tǒng)”。對追求尖端AI的企業(yè)而言，利用谷歌的“世界模型”研究、多模態(tài)能力（如I/O大會展示的Veo 3和Imagen 4）及其AGI發(fā)展路徑，將開啟重大創(chuàng)新通道。

結(jié)語：世界模型是AI大模型的未來

楊立昆揭示的AI四大能力鴻溝不僅暴露了現(xiàn)有模型的局限，更指明了技術(shù)突破的方向。科技巨頭們的行動印證了這一判斷：無論是Meta通過V-JEPA模型探索抽象表征訓(xùn)練，還是谷歌將“世界模型”納入操作系統(tǒng)級戰(zhàn)略，本質(zhì)上都在重構(gòu)AI與物理世界的交互方式。

這場角逐的深層意義，在于將AI從模式識別的工具升級為具備物理世界理解能力的認(rèn)知主體。當(dāng)行業(yè)從“打補(bǔ)丁”式優(yōu)化轉(zhuǎn)向架構(gòu)級創(chuàng)新，我們或許正站在通用人工智能（AGI）發(fā)展的關(guān)鍵轉(zhuǎn)折點(diǎn)。

未來AI的真正突破，或許不在于參數(shù)量的指數(shù)級膨脹，而在于能否像人類一樣，構(gòu)建起對世界的深層理解。

來源：Business Insider，VentureBeat

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.