(關(guān)注公眾號設(shè)為標(biāo),獲取AI深度洞察)
全文 6,000字 | 閱讀約24分鐘
在剛剛落幕的2025英偉達(dá)GTC大會上,一場關(guān)于AI未來發(fā)展路徑的激烈辯論引爆了整個技術(shù)社區(qū)。Meta首席AI科學(xué)家、圖靈獎得主Yann LeCun與英偉達(dá)首席科學(xué)家Bill Dally在主會場的對談環(huán)節(jié)中,針對"類人AI發(fā)展路徑"展開了前所未有的思想碰撞。
當(dāng)Bill Dally委婉地詢問LeCun對當(dāng)前主流大語言模型是否能在3-5年內(nèi)實(shí)現(xiàn)類人智能時,現(xiàn)場氣氛瞬間凝固。LeCun直言不諱地表示:"類人AI確實(shí)比許多人想象的更近,但目前整個行業(yè)都走在一條錯誤的道路上。"隨后,這位被譽(yù)為卷積神經(jīng)網(wǎng)絡(luò)之父的科學(xué)家詳細(xì)闡述了為何現(xiàn)在的大語言模型雖然表現(xiàn)出色,卻本質(zhì)上是個"華麗的預(yù)測機(jī)器",無法真正理解物理世界、缺乏持久性記憶,更無法進(jìn)行真正的推理和規(guī)劃。
"所有人都在為一場錯誤的競賽投入數(shù)十億美元,"LeCun毫不留情地指出,"無論你把大模型規(guī)模擴(kuò)大多少倍,用再多的數(shù)據(jù)訓(xùn)練它,現(xiàn)有架構(gòu)的固有缺陷都無法突破。真正的突破需要全新的思路。"
文稿整理
主持人Bill Dally:大家好,我們今天就來隨意聊聊一些關(guān)于 AI 的話題,希望你們會覺得有意思。
嘉賓Yann LeCun:好的,
一、當(dāng)前AI發(fā)展的看法
Bill Dally:Yan,在過去一年里,AI 領(lǐng)域發(fā)生了很多有趣的事情。在你看來,過去這一年里最讓你激動的進(jìn)展是什么?
Yann LeCun:其實(shí)太多了,不過我可以提一件可能會讓一些人驚訝的事:我對大型語言模型(LLM)的興趣已經(jīng)沒有那么大了。它們的階段已經(jīng)相對成熟,正在被各種產(chǎn)品團(tuán)隊(duì)用來做一些邊際上的改進(jìn),比如更多數(shù)據(jù)、更多算力、用模型自己生成的合成數(shù)據(jù)等等。但對我來說,有其他四個問題更吸引人:
1、如何讓機(jī)器真正理解物理世界——黃仁勛在今早的主題演講里也提到了這個問題。
2、如何讓機(jī)器具備持久性記憶(persistent memory)——很少有人討論這個。
3、如何讓機(jī)器學(xué)會推理(reason)和規(guī)劃(plan)。
4、當(dāng)然,現(xiàn)在也有人想讓 LLM 去做推理,但我認(rèn)為那種嘗試還非常初級,遠(yuǎn)遠(yuǎn)不夠。
對我而言,目前最令人興奮的東西,其實(shí)是那些也許要再過五年才會被業(yè)界廣泛重視的學(xué)術(shù)論文里說的東西。眼下它們看起來似乎有點(diǎn)“曲高和寡”,可我覺得它們才是未來所在。
Bill Dally:如果我們想要一個不會在“語言”層面去做推理、理解物理世界、擁有持久記憶,還能做規(guī)劃的系統(tǒng),那么底層的模型應(yīng)該是什么樣的呢?
Yann LeCun:現(xiàn)在很多人都在研究所謂的“世界模型(world model)”。所謂“世界模型”,就是我們大腦里都有的那種內(nèi)部模型。比如你知道,如果我從瓶子頂端推它,它可能會翻轉(zhuǎn);如果我從底部推,它可能會滑動;如果我用力過猛,它可能會彈起來。我們對現(xiàn)實(shí)世界有很多認(rèn)知,這些認(rèn)知都是在生命最初的幾個月里學(xué)到的。正是因?yàn)橛辛诉@些內(nèi)在模型,我們才可以在世界中行動自如。而要讓機(jī)器像人一樣掌握這些東西,可比處理純語言要難多了。
因此,我認(rèn)為真正能應(yīng)對現(xiàn)實(shí)世界的系統(tǒng)架構(gòu),跟我們現(xiàn)在用在 LLM 上的那些完全不同。現(xiàn)在的 LLM 都是在預(yù)測下一個“token”(離散符號),可世界是連續(xù)的、高維度的,預(yù)測“token”并不適合拿來做物理世界建模。
Bill Dally:可我們也經(jīng)常聽到人們用“token”去處理視覺,比如“vision transformer”之類,它們的效果似乎也不錯啊。
Yann LeCun:我不是說不能用 Transformer。我是說,如果你想讓機(jī)器真正理解世界,就不能只做簡單的“下一個離散符號”預(yù)測,尤其是用來處理視頻之類的連續(xù)數(shù)據(jù)的時候。重構(gòu)像素級或者離散 token 級的視頻效果都很差,因?yàn)檎鎸?shí)世界里存在太多不可預(yù)測的細(xì)節(jié),模型會在那些其實(shí)無法預(yù)測的像素上浪費(fèi)大量算力。反觀另一種思路:我們可以只在抽象層面做預(yù)測,而不是在原始像素層面。這稱之為“joint embedding predictive architecture”,簡稱 JEPA。做法是:把視頻或者圖像輸入到一個編碼器里,讓它輸出一個抽象的表征;然后把同一個視頻的后續(xù)部分(或者經(jīng)過某些擾動、掩蓋的版本)也輸入另一個編碼器,再讓模型去預(yù)測后者在抽象空間里的表征會是什么,而不是去預(yù)測具體像素。這種方法要高效得多,因?yàn)樗恍枰诩?xì)節(jié)不可預(yù)測的地方浪費(fèi)資源。
Bill Dally:如果我們想要一個能在物理世界中“采取行動”的智能體,那它必須要有一個預(yù)測器:給定當(dāng)前世界狀態(tài)和一個假想的動作,預(yù)測執(zhí)行這個動作之后會發(fā)生什么,這樣才能規(guī)劃出實(shí)現(xiàn)目標(biāo)的那條行動路徑。可現(xiàn)在大多數(shù)做“推理”的 LLM,其實(shí)是用大規(guī)模隨機(jī)生成,然后再從一堆序列里選一個最優(yōu)解,類似隨機(jī)寫代碼再做篩選的做法。這你怎么看?
Yann LeCun:是的,我覺得這種“先隨機(jī)生成大量token,再用第二個模型去評分篩選”的辦法實(shí)在太粗糙了。如果哪天有人要寫個很短的程序,或許可以用這種方法,但程序稍微一長,搜索空間就會爆炸,根本沒法做。
二、AI的未來發(fā)展
Bill Dally:現(xiàn)在很多人都在說 AGI(或者你稱之為 AMI——Advanced Machine Intelligence)“快要來了”。你對此怎么看?到底還有多遠(yuǎn)?
Yann LeCun:我不喜歡“AGI”這個說法,因?yàn)楹芏嗳擞盟复熬哂腥祟愃街悄艿南到y(tǒng)”,可人類智能其實(shí)相當(dāng)“專一化”,說它“通用”并不準(zhǔn)確。所以我更愿意用“AMI”(高級機(jī)器智能)。我覺得那種會構(gòu)建物理世界模型、擁有持久記憶、會推理和規(guī)劃的系統(tǒng),我們大概會在三到五年里先在小規(guī)模上搞出一些眉目,然后再花時間把它做大、做強(qiáng),最終或許能到達(dá)類似人類的智能水平。歷史上一波又一波的 AI 研究者,一發(fā)現(xiàn)新范式就會說:“再過五年、十年就能做出超越人類的通用智能!” 已經(jīng) 70 年了一直都是這樣,每過十年就有一波。現(xiàn)在這波熱潮里也有人這么說,但我認(rèn)為還是錯誤的。純靠規(guī)模化 LLM 或者大規(guī)模生成加篩選 token 來沖擊所謂“人類水平”,這根本不現(xiàn)實(shí)。但并不是說它會無限遠(yuǎn)。也許十年之內(nèi),AI 在許多任務(wù)上會變得很強(qiáng),甚至有人說它能像一群博士一樣工作,這些可能在一些具體應(yīng)用上有道理。但若你說要在所有領(lǐng)域都全面超越人類,那還遠(yuǎn)遠(yuǎn)不夠。
Bill Dally:AI 的應(yīng)用已經(jīng)在很多方面改善人們的生活,比如醫(yī)療、交通等。你覺得哪些應(yīng)用是最能造福人類的?
Yann LeCun:顯而易見就是在科學(xué)和醫(yī)學(xué)領(lǐng)域的應(yīng)用,我覺得這會比我們現(xiàn)在想象的還要重大。從蛋白質(zhì)折疊到藥物設(shè)計,再到對生命機(jī)制的研究,都很有前景。再比如,醫(yī)療影像里就大量用到深度學(xué)習(xí),現(xiàn)在做乳腺 X 光檢測、MRI 重建,甚至只是減少病人在 MRI 里停留的時間,都已經(jīng)依賴 AI。在交通方面,很多汽車現(xiàn)在都配備了駕駛輔助、自動緊急制動等系統(tǒng),在歐洲是強(qiáng)制要求的。它們能減少 40% 的碰撞概率,就能挽救許多生命。這些都不是生成式 AI 或 LLM,而是感知類的深度學(xué)習(xí)。當(dāng)然,LLM 也有它的價值,能應(yīng)用到不少產(chǎn)品或服務(wù)中,但在真正部署時,需要達(dá)到某種可靠度,尤其在安全和責(zé)任要求高的場景,比如自動駕駛,你必須非常精確才行,這比人們想象的要難,也要花更長時間。但如果場景對錯誤率沒有那么苛刻,比如有人類在做復(fù)查,或者只是娛樂、教育,那就更容易發(fā)揮價值,也能很快提升生產(chǎn)力。
Bill Dally:是的,在對安全性有極高要求的自動駕駛上面,一點(diǎn)差錯就很嚴(yán)重,但在一些其他領(lǐng)域只要整體上能帶來好處,就值得去做。談到“讓人類變得更高效”這個角度,的確有不少這類輔助應(yīng)用,比如程序員的代碼生成工具。如果它不能代替人類也無所謂,只要它能讓人更有效率就好,對吧?
Yann LeCun:完全同意。現(xiàn)在最實(shí)用的就是提高效率,讓人類能夠擁有“更強(qiáng)力的工具”。要說取代人類,目前我覺得多數(shù)情況下還是“不可能”,更可能的是把那些工作方式改變,讓我們成為決策者。換句話說,未來我們會擁有一批比我們更聰明的“虛擬員工”為我們服務(wù);我很喜歡和比我聰明的人一起工作,這種感覺最好了。
Bill Dally:AI 也有潛在的負(fù)面用途,比如深度偽造、虛假信息傳播等,還可能帶來各種情感傷害。你最擔(dān)心的是什么?我們該如何應(yīng)對這些風(fēng)險?
Yann LeCun:在 Meta,我們對安全和對抗攻擊非常熟悉。令人驚訝的是,直到現(xiàn)在,我們也沒有看到人們大規(guī)模用生成式 AI 去攻擊社交平臺,或者用深度偽造在平臺上大肆搞破壞。并不是說沒有這種內(nèi)容,而是我們還沒有看到一個大規(guī)模泛濫、令所有人都束手無策的局面。回想 2022 年秋季,Meta 有個小團(tuán)隊(duì)做了一個叫 Galactica 的大型語言模型,它訓(xùn)練了幾乎所有能搜集到的科學(xué)文獻(xiàn)。我們當(dāng)時開源了代碼,也寫了長文介紹原理,還在線上放了一個可以試玩的 demo。結(jié)果很多人在社交媒體上怒斥,說這會毀掉科學(xué)交流體系,“現(xiàn)在任何傻子都能用它寫一篇看似專業(yè)的論文,宣揚(yáng)吃碎玻璃的好處”,之類的負(fù)面評價。那個小團(tuán)隊(duì)被嚇得連覺都睡不好,最后索性把 demo 下線了,但保留了代碼和論文。當(dāng)時我們就想:“世界還沒準(zhǔn)備好接納這種技術(shù),大家都不感興趣。”結(jié)果三周后,ChatGPT 出來了,人們卻好像迎接救世主一樣狂熱贊美。我們都懵了,不明白為什么此前 Galactica 遭到全面的口誅筆伐,可 ChatGPT 就成了香餑餑,OpenAI 自己似乎也對這種現(xiàn)象感到意外。很多時候,這只是公眾的認(rèn)知和印象問題。回到你說的風(fēng)險,我覺得對付風(fēng)險的手段同樣是更好的 AI。至于那些極端“世界末日”論調(diào),我不太信。歷史上很多技術(shù)也都被預(yù)測會給世界帶來毀滅,但人類都會慢慢適應(yīng)。
三、技術(shù)挑戰(zhàn)與展望
Bill Dally:你是一個在歐洲和美國都有生活的人,對全球視角可能比較敏銳。你認(rèn)為未來的 AI 創(chuàng)新主要會來自哪里?
Yann LeCun:全球各地都有聰明人,好點(diǎn)子可以來自世界任何地方,沒有人能壟斷創(chuàng)新。要想有好創(chuàng)意,你需要和不同的人交流,這也是為什么我一直倡導(dǎo)開源平臺、倡導(dǎo)共享代碼。過去十幾年,我們在深度學(xué)習(xí)上之所以能突飛猛進(jìn),很大程度就是因?yàn)榇蠹业幕ハ嘟涣骱突ハ嘭暙I(xiàn)代碼。一個生動例子是 2015 年在微軟亞洲研究院北京實(shí)驗(yàn)室完成的 ResNet 工作。這篇論文是過去十年全科學(xué)領(lǐng)域被引用次數(shù)最多的論文,作者是一批中國科學(xué)家,第一作者是何愷明(Kaiming He)。后來他到 Meta 的 FAIR 部門工作了八年,現(xiàn)在到 MIT 當(dāng)教授了。你看,這就是創(chuàng)新會到處流動的例子。
Bill Dally:那像 Meta 的開源策略——比如說 Llama,你們花了大量資源去訓(xùn)練、微調(diào),再免費(fèi)開源給所有人用。這樣做的利弊是什么呢?
Yann LeCun:如果你的公司純粹想靠“賣模型”來掙錢,那肯定不愿意開源。但如果你像 Meta 或 Google 這樣有其他收入來源,比如廣告,那么你的目標(biāo)就不是直接在 LLM 上賺錢,而是要把它融入你的產(chǎn)品,或者推動產(chǎn)業(yè)生態(tài)發(fā)展,吸引全球人才共建。事實(shí)就是,大家都在做開源,大家都在發(fā)論文,碰撞想法,各種工具也都越來越開放。你如果想去壟斷,那基本上難以持久。開源給整個領(lǐng)域打下很好的生態(tài)環(huán)境。就像當(dāng)年 PyTorch 出來之后,加速了無數(shù)項(xiàng)目,Llama 出來以后也是一樣。
從更宏大的角度看,我們最后會需要各種不同的“大模型”,因?yàn)槭澜缒敲炊嗾Z言、文化、價值觀、政治立場,不可能靠一兩個封閉大模型就囊括所有需求。所以我們必須要有一個開放的平臺,讓世界各地的人都能在上面搭建自己的“助手”,就像我們需要一個多元的媒體環(huán)境,而不是所有人都只看同一家媒體的新聞,否則這對民主是有害的。這就需要開源來保證多元化。另外,有了開源,你還可以在自己公司里拿到模型回來做私有微調(diào),比如有些數(shù)據(jù)你根本不想上傳到別人服務(wù)器,這些在開放模型上都能輕松實(shí)現(xiàn)。所以開源在商業(yè)上也很有吸引力。
Bill Dally:我印象很深的是,黃仁勛在主題演講中舉了一個例子,說用一個“代理式(agentic)”的 LLM 幫忙規(guī)劃婚禮座位,會在推理階段跑許多推斷迭代,這個過程其實(shí)是把算力更多地用在“推斷時的搜索”,而不是把一切都擠進(jìn)訓(xùn)練階段。你怎么看訓(xùn)練和推斷之間的這種取舍?
Yann LeCun:我同意黃仁勛所說的“在推斷階段進(jìn)行推理”會非常重要。不過,我對目前 LLM 用“多次生成 + 搜索篩選”那種做推理的方式還不太認(rèn)可,因?yàn)槿祟愓嬲摹巴评怼辈⒉皇窃陔x散 token 上完成的,而是在大腦某個抽象空間里完成的。比如想象一個立方體漂浮在你面前,然后讓它圍繞垂直軸旋轉(zhuǎn) 90 度——這不是靠語言符號來思考的。貓也會在跳躍前想象軌跡,去推理能否跳到某個家具上,這明顯也不是“憑語言”完成的。所以我認(rèn)為我們需要的是一種新架構(gòu),讓系統(tǒng)能在內(nèi)部的表征空間里做推理,而不是在輸出 token 這一步完成所有推理。我們把這種結(jié)構(gòu)稱為“JEPA 世界模型”,也就是前面提到的那種 joint embedding predictive architecture。它能讓機(jī)器在抽象的表征層面去理解物理世界,并做計劃、推理。
Bill Dally:你之前說,這套思路可能需要更強(qiáng)的硬件支持。過去十年來,GPU 在深度學(xué)習(xí)訓(xùn)練和推理方面的性能提升了 5,000 到 10,000 倍;再加上集群擴(kuò)展,算力就更夸張。你覺得接下來會發(fā)生什么?還需要什么?
Yann LeCun:我們確實(shí)需要越來越強(qiáng)的硬件,尤其是如果我們要做那種基于“抽象世界模型”的推理。在心理學(xué)里有“系統(tǒng)一”和“系統(tǒng)二”的概念:系統(tǒng)一負(fù)責(zé)已經(jīng)熟練化、可自動化的任務(wù),而系統(tǒng)二則涉及比較費(fèi)腦子的推理、規(guī)劃。對一個新手司機(jī)來說,最初幾小時開車,你要動用“系統(tǒng)二”去仔細(xì)琢磨每一個動作,可老手開車則依賴“系統(tǒng)一”,幾乎是下意識完成。所以我設(shè)想的智能體,也需要先用“系統(tǒng)二”去做抽象推理,但做同樣的事情多了,就會把它編譯進(jìn)類似“策略網(wǎng)絡(luò)(policy)”里,下一次就能直接反應(yīng),不用每次都調(diào)動推理能力。現(xiàn)在多數(shù)的 LLM 都只做“系統(tǒng)一”,有的努力想往“系統(tǒng)二”那邊擴(kuò)展,但我覺得最終還是需要更“正統(tǒng)”的系統(tǒng)二架構(gòu)。
Bill Dally:也有不少人想做類腦硬件,比如脈沖神經(jīng)網(wǎng)絡(luò)(SNN),或者模擬大腦突觸的模擬電路,你覺得這些會替代或補(bǔ)充 GPU 嗎?
Yann LeCun:短期內(nèi)我不看好。上世紀(jì) 80 年代末和 90 年代初,我在貝爾實(shí)驗(yàn)室就是在做模擬電路的神經(jīng)網(wǎng)絡(luò),當(dāng)時試了各種模擬、混合模擬-數(shù)字的方案,最終還是數(shù)字 CMOS 走到了現(xiàn)在,已經(jīng)形成了極為成熟的技術(shù)生態(tài),讓其它路徑追趕非常困難。即便是大腦,其實(shí)在神經(jīng)元間的通訊也是離散的“脈沖”式,只有在非常微小的生物里才是模擬信號。再加上硬件復(fù)用的問題——模擬芯片無法“多次復(fù)用”去跑不同的模型,就需要大量芯片拼接,得不償失。當(dāng)然,你要是做特別小的設(shè)備,比如一款超級低功耗的微控制器,拿來給吸塵器或割草機(jī)做一點(diǎn)視覺感知,那也許還有一些空間。但整體來看,大規(guī)模通用 AI 計算還是離不開當(dāng)前的數(shù)字芯片。
四、量子計算
Bill Dally:那你對其他新技術(shù),比如量子計算或超導(dǎo)計算怎么看?它們能在 AI 上帶來重大突破嗎?
Yann LeCun:超導(dǎo)我不是很了解,不敢下定論。光學(xué)技術(shù)我見證過好多代了,從 80 年代開始就有人在說用“光學(xué)計算”來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò),但都沒能真正落地。量子計算我也比較懷疑,除了用來模擬量子系統(tǒng)(比如量子化學(xué))這種非常特定的場景外,我看不出它對通用計算或者 AI 推理有多大幫助。
Bill Dally:你一直強(qiáng)調(diào),要讓 AI 學(xué)會像嬰兒那樣從觀察中學(xué)習(xí),這對硬件需求可不小。你覺得我們還需要哪些關(guān)鍵突破?
Yann LeCun:主要還是要找到對的訓(xùn)練方法。在卷積神經(jīng)網(wǎng)絡(luò)從沒法穩(wěn)定訓(xùn)練,到后來大家熟練掌握各種技巧(比如殘差連接、Adam 優(yōu)化、合適的激活函數(shù)、正則化等等)之間,花了好長時間摸索,才有了如今的成功。自然語言處理也經(jīng)歷過類似過程,從最初的“去噪自編碼器”方法(如 BERT)到后來的 GPT 風(fēng)格,才出現(xiàn)了指數(shù)級的進(jìn)步。我們現(xiàn)在對 JEPA 這種架構(gòu)的訓(xùn)練還沒有非常成熟的“完整配方”。一旦有了合適的技巧,讓我們可以大規(guī)模訓(xùn)練、穩(wěn)定收斂,而不會出現(xiàn)各種崩潰或無效,那就會迎來又一次巨大飛躍。
Bill Dally:我們現(xiàn)在收到提示,說時間快到了。在結(jié)束前,你還有什么想跟大家分享的嗎?
Yann LeCun:我想再次強(qiáng)調(diào),AI 的進(jìn)步、乃至于發(fā)展到所謂“人類水平智能”,不太可能是“某個時刻一蹴而就”,而會是持續(xù)不斷的累積過程,需要全球各地研究者的貢獻(xiàn)。不會出現(xiàn)那種“有人在暗中做研究,突然在某一天放出一個毀天滅地的超級智能”這種事。如果真有一天出現(xiàn)了“比人更聰明的 AI”,我們也不會在一小時內(nèi)就被滅絕,因?yàn)檫@不可能是一個瞬間事件,而是一個漸進(jìn)過程。與此同時,我們要認(rèn)識到,這種大規(guī)模的進(jìn)步需要更多的人才和開放協(xié)作,包括開源平臺、大規(guī)模訓(xùn)練等等。最后,在未來,我們會有各種各樣的 AI 助手,真正融入我們的日常生活,也許通過智能眼鏡或者別的穿戴設(shè)備時刻陪伴我們。我們就像他們的“老板”一樣——讓這些比我們聰明的系統(tǒng)為我們干活。大家都會變成“管理者”,是不是有點(diǎn)可怕(笑)?但事實(shí)就是,我們大多數(shù)人并不排斥與比自己更聰明的人共事,這其實(shí)挺好的。
Bill Dally:哈哈,那我們就以這個愿景為結(jié)束語吧。非常感謝你帶來的深度見解,希望以后還能和你繼續(xù)交流。
Yann LeCun:謝謝,謝謝大家!
星標(biāo)公眾號, 點(diǎn)這里 1. 點(diǎn)擊右上角 2. 點(diǎn)擊"設(shè)為星標(biāo)" ← AI深度研究員 ? ← 設(shè)為星標(biāo)
原文鏈接:https://www.youtube.com/watch?v=UYnm_h6EPFg
排版:Atlas
編輯:深思
主編:圖靈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.