全文 4,000字 | 閱讀約25分鐘
(賓大工程學院,對話Meta首席AI科學家Yann LeCun)
最近的一兩周時間里,72 歲圖靈獎得主 、Meta首席AI科學家Yann LeCun(楊立昆) 先后出現在新加坡國立大學與賓大工程學院的講臺。他沒有談參數,也沒有夸算力,而是拋出一句讓全場安靜的反問——
“當模型連‘杯子在桌子上’都可能答錯,為什么我們敢說它懂世界?”
隨后,LeCun把今天的大模型困境歸結為 3 道“認知墻”:
世界模型缺席——讀了億級文本,卻沒真正“看過”世界
持久記憶短缺——對話稍微拉長就“失憶”,更別提常識沉淀
因果推理斷裂——只會預測下一個詞,卻推不出“如果…那么…”
他直言:“算力再翻十倍,也翻不出常識。”
這場“現場追問”并非學術爭鳴,而是對整條 AI 產業鏈的敲鐘:
如果世界模型仍是空白,下一輪突破靠什么?
長時記憶補不上,企業數據如何轉化為生產力?
因果推理不成型,何談真正的通用智能(AGI)?
本文基于兩場對話的完整實錄與 Q&A 記錄,拆開 LeCun 提到的 3 道墻各自的技術癥結、產業影響與破局路線,讓你在 5 分鐘內畫出下一代 AI 的真正起跑線。
?? 第一節|第一道墻:看不懂物理世界
“我們最聰明的 AI 系統,連貓都不如。它們不能理解物理世界的常識?!?——Yann LeCun
LeCun 在演講一開始,拋出了一個令人不安的比喻。
他舉了個簡單例子: 如果你把一個球在桌上滾出去,人類——哪怕是三歲的孩子,或者你的寵物狗——都知道球會出現在桌子的另一側。
但今天的大語言模型不行。
它們不懂“物體永久性”這個簡單的概念。甚至不會意識到一個物體在離開視野后,并沒有從世界上消失。這是人類發展心理學中兒童18個月大時就能掌握的基本常識。LeCun直言:
“我們現在的 AI 系統,在這方面連狗都不如。”
問題不在于數據,而在于“看世界的方式”
聽起來不可思議:訓練了30萬億個 token 的 LLM,居然理解不了一個掉下去的杯子?
但 LeCun 提醒我們:語言,不等于理解;token,不等于世界。
“我們可以喂它幾十萬億個token,它依然不知道物體會掉落、會滾動、會被遮擋后再次出現。”
這是第一道認知墻:當前主流的 AI 系統,是從語言出發的,而不是從世界出發的。
它看到的是文字,不是實體。它預測的是下一個詞,不是下一個狀態。
它沒有感知,沒有因果,也沒有具身經驗。只是在文字世界里“猜下一步”。
LeCun的解法:預測真實,而非生成語言
LeCun認為,越過這堵“物理常識缺失”的墻,關鍵不在于調模型、堆算力,而在于:
讓系統具備對現實的抽象建模能力,而不是只是生成語言。
他指出,真正的路徑不是生成語言,而是預測現實的狀態變化。
這個方向,我們將在下面詳細展開。
為什么這堵墻最難,但也最值得跨越?
如果說第一代AI是識別圖像,第二代AI是生成語言,那第三代AI,就必須是理解現實本身。
LeCun提醒我們:大語言模型很實用,但它們解決的,是表達,不是理解。
今天的AI,可以告訴你‘這個杯子掉了’,但它不知道‘為什么會掉’。
而真正的智能,正是從“因果理解”開始的。
不是讓AI變得更能“說”,而是更能“懂”。
?? 第二節|第二道墻:沒有長時記憶
“大語言模型并不真正擁有記憶。它們只是看得更多,但記不住任何事?!?——Yann LeCun
如果說第一道墻讓我們發現 AI 看不懂現實,那第二道墻揭示的是:它根本記不住自己看過的東西。
這不是工程問題,而是結構性缺陷。
當前主流模型使用的是窗口式上下文機制:你告訴它一段話,它在這個窗口內預測輸出。但一旦窗口過去,它就什么都忘了。
LeCun打了個數據比喻:
“我們一個4歲的孩子在成長過程中大概接收了?101??字節的信息。而一個 GPT 級別的模型,也訓練了?101??字節的 token?!?/blockquote>數據量看起來相似,但差別巨大。
人類不是只“看”這么多——而是整合、抽象、積累并持續更新。而大模型只是“掃一遍,然后忘掉”。
這就是為什么模型越大,輸出卻越來越“無主體感”
LeCun指出,大模型沒有“持久的世界表征”:
它沒有長期記憶去形成一個“世界狀態”;
它也無法在一次對話中持續建立角色、目標、意圖等抽象信息;
它只是在短期輸入上反復壓縮、臨時預測。
這也是你為什么和一個 AI 聊天,常常感到“它好像聰明,但又不穩定、沒邏輯”。它不是邏輯崩塌了,它只是從來沒有建立起邏輯。
記憶機制,才是下一代智能系統的核心突破口
LeCun并沒有回避難題。他明確指出,要跨越這道墻,AI系統必須具備:
長期可更新的記憶結構(persistent memory)+ 抽象表征系統(abstract representation)
這不是把上下文窗口加長那么簡單,而是:
系統要能“記得住概念”;
要能形成“角色、關系、目標”等非語言性模型;
更重要的是,要能在未來使用這些記憶進行推理與判斷。
這已經不是NLP范疇的問題了,而是認知科學的問題。
所以,它可以生成一千種方案,但無法回憶昨天哪一種成功。
這是第二道墻。
?? 第三節|第三道墻:沒有推理結構
“我們今天的大語言模型,不是在思考,而是在猜下一個詞?!?——Yann LeCun大語言模型能一口氣寫出一篇合格的新聞稿,卻寫不出推理鏈。不是因為它邏輯差,而是根本就沒有邏輯結構。
LeCun指出:當前 LLM 的核心機制,本質是“自回歸生成”—— 它看一串詞,預測下一個詞。 再看這串詞,再繼續猜。
這就是第三道認知墻:語言模型沒有推理結構,只有續寫機制。
這是一種語言壓縮機制,不是推理過程。
推理,意味著目標導向的結構展開
真正的推理不是“接下來該說什么”,而是:
面對一個從未遇見的問題;
在腦中調用規則、模型和假設;
一步步演繹、分解、驗證。
LeCun強調,大語言模型在結構上根本不具備這套能力:
“語言模型不是問題求解器,它只是一個自編碼器,以預測為本能?!?/blockquote>他公開反對“獎勵足夠了”這類路徑幻想
在一次回答中,他直接點名:“我完全、百分之百不同意《獎勵足夠了》這篇論文的觀點?!?/strong>
這篇由 David Silver 和 DeepMind 團隊撰寫的文章主張:智能可以純粹通過強化學習、獎勵信號逐步涌現。
LeCun認為,這種想法過于理想化——
強化學習或獎勵機制可以塑造行為,但不能構建結構化世界模型; 更不能解釋人類解決問題時,所依賴的抽象、因果、歸納等能力從何而來。
沒有內部模型,AI 只能“碰運氣”
這也是為什么,當前 LLM 在處理復雜任務時需要:
提示詞編排;
Chain-of-Thought 提示引導;
工程師人為干預。
換句話說,它不是在“理解”問題,而是在“配合”提示。
真正的智能,不是靠提示生出來的。
?? 第四節|破解路徑:JEPA 架構登場
“我們要讓系統預測現實,而不是續寫句子。” ——Yann LeCun面對三道認知墻,LeCun沒有回避,而是給出了解決路徑。
不是訓練更大的語言模型,也不是堆更多GPU, 而是——重新設計智能系統的基本架構。
他提出的方向叫做:JEPA,全稱 Joint Embedding Predictive Architecture,中文可譯為“聯合嵌入預測架構”。
JEPA 的核心思想:不是生成內容,而是預測狀態
LLM 是語言驅動的,JEPA 是感知驅動的。
LeCun強調,它不依賴 token,不生成句子,也不進行語言建模。 它的目標,是在抽象的“世界表示空間”中,預測下一種狀態的潛在表示。
我們不是讓系統在像素層面重建視頻,而是在高層抽象空間中預測接下來會發生什么。為什么要預測表示,而不是還原原始數據?
LeCun指出:視頻、音頻等連續信號高度復雜,預測像素幾乎不可能。 但我們可以先學習一個低維度的、抽象的“潛在表示空間”,再在這個空間中進行預測。
這類似人腦在看見一段動作后,不是還原每一幀,而是形成一個動態理解模型。
JEPA 的區別在哪里?
JEPA 是 LeCun 概念中的“高級機器智能”(AMI)架構的底座。
JEPA 不是商業上的“下一代模型”,而是方向上的重新定向。
LeCun的回答很清晰:如果我們不改變底層架構,就永遠造不出真正懂世界的 AI。
?? 第五節|重定義:AMI 取代 AGI?
“AGI 是偽命題,我們需要的是 AMI——高級機器智能。” ——Yann LeCunLeCun并不回避“通用人工智能”這個話題。但他的態度很明確:他不信 AGI,也不追 AGI。
他認為這個概念存在兩個根本問題:
誤判了人類智能的本質
掩蓋了真正的系統設計路徑
人類智能,從來不是“通用”的
人類智能是非常專門化的,只是在我們擅長的任務上看起來很強。LeCun提出一個看似挑釁,實則深刻的觀點:我們之所以覺得自己“通用”,是因為我們無法意識到那些我們永遠無法理解的事物。
所以我們誤以為:我們能理解的,就是全部。
而 AGI,恰恰建立在這種錯覺之上。
AMI:比“通用”更現實的目標
LeCun提出一個替代概念:AMI(Advanced Machine Intelligence)
它的特征不是“無所不能”,而是具備以下核心能力:
對現實有抽象建模能力(世界模型)
有持久記憶和狀態追蹤機制
能規劃、分解任務、做中長期推理
能通過多模態感知和環境互動逐步學習
AMI 不是試圖“模擬人類”,而是構建適合機器自身的智能系統架構。這是一種系統理性,而非幻想超越。
為什么 AMI 更重要?
AGI是一個故事,AMI是一個系統。
前者吸引投資,后者真正推進能力邊界。
LeCun的選擇很明確:他不站在 hype 上,他站在架構底層。
?? 第六節|行動建議:別卷模型,卷架構
“學術界不該再追 LLM,應該去做工業界沒時間做的事?!?——Yann LeCunLeCun的這句話,像是對整個AI創業圈潑下的一盆冷水。
所有人都在調模型、堆RAG、煉提示詞。 但在他看來,這種熱鬧的局面,本質上是資源錯配。
LLM 已是產業路線,創新窗口正迅速關閉
LeCun點出一個現實:“LLM 已經掌握在工業界手里,幾家公司用幾千張 GPU,配幾百名工程師在打磨。學術界很難再貢獻突破性的東西?!?/p>
這話也適用于大多數 AI 初創公司。
如果你做的,是“訓練大模型”或“在大模型上包皮”,那么你面臨的,不是技術門檻,而是資源壟斷與同質化淘汰賽。
真正的“空白地帶”,藏在三道認知墻之后
LeCun給出了新的方向:
具身智能(Embodied AI)
多模態感知(視覺+觸覺+動作)
表示學習與預測建模(JEPA架構)
長期記憶與推理能力
這些并不是市場熱點,但它們有一個共同特征:
沒人有現成方案,沒人規模化做,沒人壟斷 GPU。這才是技術創業者最應該押注的地方。
創業機會,不在模型后綴,而在架構前提
不是 GPT-Next、Claude-Plus、LLaMA-Max, 而是:
誰能構建新一代“表示系統”;
誰能讓 AI 理解連續世界;
誰能讓系統從行動中自主學習。
LLM 是終點,JEPA 是起點。
真正的下一代 AI,不是能說得更順,而是能想得更深。
你以為AI在進化,其實是認知還沒進化
Yann LeCun 這場公開對話,拋出的不是技術路線圖,而是一個基本問題:
我們理解的“智能”,到底是什么?
當全世界都在追求更大的模型、更低的token成本、更快的輸出速度, LeCun卻回到起點,追問了三件事:
AI 看得見世界,但看得懂嗎?
它能說一段話,但能記住剛才那句話嗎?
它能接得上節奏,但知道要往哪去嗎?
如果這些都不能,智能不過是算法的幻覺。
在這場由 OpenAI 引爆的大模型競賽中, 越來越多的人誤把 token 的生成能力,當成智能的全部。
但真正的競爭力,可能藏在這些不被注意的角落里:
能不能建構世界模型?
能不能規劃行動?
能不能擁有自己的“認知系統”?
LeCun 的提問,像是一道延遲引爆的火線—— 它讓所有從業者都必須重新思考:
你是在提升模型能力,還是在放棄對智能的定義權?未來真正值錢的,不是會生成的模型,而是能理解問題的人類。
本文由AI深度研究院出品,內容獨家整理基于Yann LeCun在新加坡大學演講和賓夕法尼亞大學訪談。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
https://www.youtube.com/watch?v=fncinfwS6f0&t=1152s&ab_channel=PennEngineering
https://www.youtube.com/watch?v=m3H2q6MXAzs&t=4106s&ab_channel=NUScast
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編:圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.