智東西
編譯 王涵
編輯 漠影
智東西5月27日消息,據(jù)外媒Business Insider報道,今年早些時候在巴黎舉行的AI Action Summit上,Meta首席人工智能(AI)科學(xué)家楊立昆(Yann LeCun)指出,當(dāng)前AI雖在多個領(lǐng)域展現(xiàn)驚人能力,其仍缺乏理解物理世界、持久記憶、邏輯推理與分層規(guī)劃四大人類智能核心特征。
據(jù)外媒VentureBeat此前報道,科技巨頭們的行動印證了這一判斷,開始從“打補(bǔ)丁”式優(yōu)化轉(zhuǎn)向“世界模型”架構(gòu)革新,谷歌等企業(yè)已將其納入戰(zhàn)略布局。
這場圍繞AI本質(zhì)的探索,不僅關(guān)乎技術(shù)突破,更指向人機(jī)認(rèn)知邊界的未來走向。
一、AI模型缺乏4個人類特征:理解、記憶、推理與規(guī)劃
所有智能生命的共同點(diǎn)是什么?今年早些時候在巴黎舉行的AI Action Summit上,圖靈獎得主、Meta首席AI科學(xué)家楊立昆與IBM AI負(fù)責(zé)人安東尼·安農(nóng)齊亞塔(Anthony Annunziata)分享了其對智能行為的基準(zhǔn)定義:
“所有動物——至少是相對聰明的動物——都具備四種基本智能特征,人類當(dāng)然也不例外,”楊立昆闡述道,“理解物理世界、擁有持久記憶、進(jìn)行邏輯推理,以及制定復(fù)雜行動計(jì)劃的能力,特別是分層規(guī)劃能力。”
楊立昆認(rèn)為,當(dāng)前AI(尤其是大語言模型)尚未達(dá)到該閾值,要實(shí)現(xiàn)這些能力需變革訓(xùn)練范式。他解釋這正是科技巨頭們在AI競賽中不斷為現(xiàn)有模型“打補(bǔ)丁”的原因:“為理解物理世界,就訓(xùn)練獨(dú)立的視覺系統(tǒng)然后硬塞進(jìn)LLM;為實(shí)現(xiàn)記憶功能,要么采用RAG(檢索增強(qiáng)生成),要么外掛關(guān)聯(lián)記憶模塊,或者簡單粗暴地擴(kuò)大模型規(guī)模。”
▲Meta首席AI科學(xué)家楊立昆(Yann LeCun)
二、“世界模型”構(gòu)建抽象層級來理解物理世界
但楊立昆直言這些只是“權(quán)宜之計(jì)”。他多次倡導(dǎo)的“世界模型”(world model)替代方案,是通過現(xiàn)實(shí)場景訓(xùn)練、具備比模式識別AI更高認(rèn)知水平的架構(gòu)。在與安農(nóng)齊亞塔對話中,他給出新定義:“獲取時間T的世界狀態(tài)后,設(shè)想可能采取的行動,世界模型就能預(yù)測行動后的新狀態(tài)。”
不過現(xiàn)實(shí)世界演化存在無限不可預(yù)測性,楊立昆認(rèn)為唯一訓(xùn)練途徑是抽象化。Meta今年2月開源的V-JEPA模型正進(jìn)行相關(guān)實(shí)驗(yàn),讓這個非生成式模型通過預(yù)測視頻缺失片段來學(xué)習(xí)。“關(guān)鍵是不做像素級預(yù)測,而是訓(xùn)練系統(tǒng)構(gòu)建視頻抽象表征,在此維度進(jìn)行預(yù)測時自動過濾不可預(yù)測的細(xì)節(jié)。”他解釋道。
這種抽象層級思想類似化學(xué)物質(zhì)構(gòu)成體系:“我們建立粒子→原子→分子→材料的層級,每上升一層就剔除下層與當(dāng)前任務(wù)無關(guān)的信息。”楊立昆說,這本質(zhì)上是通過構(gòu)建抽象層級來理解物理世界的另一種表述。
三、谷歌將“世界模型”與其短期策略緊密結(jié)合
無獨(dú)有偶,在上周硅谷舉行的Google I/O 2025開發(fā)者大會上,除卻奪人眼球的炫酷功能,谷歌也提到要打造AI時代的操作系統(tǒng),即能理解物理環(huán)境并代人類推理決策的“世界模型”。
自2024年末以來,DeepMind首席執(zhí)行官德米斯·哈薩比斯就在持續(xù)完善“世界模型→通用AI助手”理論體系。此次I/O大會上,CEO桑達(dá)爾·皮查伊(Sundar Pichai)與Gemini負(fù)責(zé)人喬希·伍德沃德(Josh Woodward)同臺呼應(yīng)這一愿景。相較微軟、OpenAI和xAI對世界模型的抽象討論,谷歌獨(dú)樹一幟地將其與短期戰(zhàn)略緊密結(jié)合。
▲Gemini負(fù)責(zé)人喬希·伍德沃德(Josh Woodward)(圖源:谷歌I/O)
若真能打造出理解物理環(huán)境的“通用AI助手”,谷歌或?qū)⒊蔀檫B接用戶、企業(yè)與技術(shù)的“隱形操作系統(tǒng)”。對追求尖端AI的企業(yè)而言,利用谷歌的“世界模型”研究、多模態(tài)能力(如I/O大會展示的Veo 3和Imagen 4)及其AGI發(fā)展路徑,將開啟重大創(chuàng)新通道。
結(jié)語:世界模型是AI大模型的未來
楊立昆揭示的AI四大能力鴻溝不僅暴露了現(xiàn)有模型的局限,更指明了技術(shù)突破的方向。科技巨頭們的行動印證了這一判斷:無論是Meta通過V-JEPA模型探索抽象表征訓(xùn)練,還是谷歌將“世界模型”納入操作系統(tǒng)級戰(zhàn)略,本質(zhì)上都在重構(gòu)AI與物理世界的交互方式。
這場角逐的深層意義,在于將AI從模式識別的工具升級為具備物理世界理解能力的認(rèn)知主體。當(dāng)行業(yè)從“打補(bǔ)丁”式優(yōu)化轉(zhuǎn)向架構(gòu)級創(chuàng)新,我們或許正站在通用人工智能(AGI)發(fā)展的關(guān)鍵轉(zhuǎn)折點(diǎn)。
未來AI的真正突破,或許不在于參數(shù)量的指數(shù)級膨脹,而在于能否像人類一樣,構(gòu)建起對世界的深層理解。
來源:Business Insider,VentureBeat
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.