作者 | https://www.youtube.com/watch?v=4__gg83s_Do
編譯 | Eric Harrington
出品丨AI 科技大本營(ID:rgznai100)
在這個AI技術浪潮席卷全球,幾乎人人都在談論大語言模型潛能無限的時代,一個根本性的問題擺在我們面前:既然AI“讀完”了整個互聯網,為何仍未誕生下一個愛因斯坦?在原創性的科學發現上,這些大模型為什么仍如此“笨拙”?它們真的“理解”我們這個復雜而充滿規律的物理世界嗎?還是僅僅在進行一場規模空前的模式匹配游戲?
如果你也曾對這些問題感到困惑,那么圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun)的這場深度對話,或許能為你撥開迷霧,提供一個清醒而富有洞察力的視角。本文編譯自YouTube頻道Big Technology Podcast的精彩訪談,楊立昆此次并非簡單地唱衰當前AI的成就,而是以一位資深研究者的嚴謹和一位前瞻思想家的銳利,直指當前主流大模型(LLM)的“天花板”。
他深入剖析了為何僅靠“記住”海量文本不足以催生真正的智能,為何當前的AI架構難以進行真正的抽象思考、推理和規劃——這些恰恰是科學發現與理解物理世界的基石。對話中,你會聽到他對“AI能否提出好問題”這一核心議題的精辟分析,以及他對當前AI在推理能力上的局限性的不留情面的批判。
而對于當前全世界關注的「開源與閉源之爭」,楊立昆則是引用了 DeepSeek 的例子,強調“沒有人能壟斷好點子”,“開源世界會發展的更快”。以下是楊立昆本次對話的金句提煉:
“DeepSeek 的例子表明,中國人并不需要我們。他們自己就能想出非常好的點子。我們都知道中國有非常非常優秀的科學家,但有一件事不太為人所知,那就是整個科學界被引用次數最多的單篇論文是2015 年的一篇關于深度學習的論文,它來自北京。”
“我們不是用語言思考,我們是用對情境的心理表征(mental representations)來思考的。我們對思考的每件事都有心智模型。就算我們不會說話,我們也能思考。這才是真正智能所在。”
“大語言模型非常擅長檢索。它們不擅長解決新問題,為新問題找到新方案。它們能檢索到已有的解決方案,但它們絕對不擅長提出正確的問題。”
“我們不可能單靠擴大語言模型的規模就達到人類水平的 AI。這絕對不可能。不管你從我那些比較激進的同事那里聽到什么,未來兩年內這事兒絕對不會發生。恕我直言,門兒都沒有。”
“四年里,一個孩子通過視覺或觸覺接觸到的數據量,和最大的大語言模型看到的一樣多。這清楚地告訴你,我們不可能僅通過文本訓練就達到人類水平的 AI。文本的信息量根本不夠豐富。”
以下是對話全文,經CSDN AI科技大本營精編處理:
可以期待AI,但不能期待目前的大語言模型
主持人:生成式AI幾乎“吃”遍了全世界的知識,為什么它自己搗鼓不出什么科學新發現呢?它是不是終于開始理解我們這個物理世界了?今天我們就和Meta的首席AI科學家、圖靈獎得主楊立昆(Yann LeCun)聊聊這些。
我們從一個關于科學發現的問題開始吧,為什么AI直到現在都沒能在這方面有所突破?生成式AI差不多把人類所有的知識都記住了,但它卻沒能建立任何新的聯系,從而帶來新發現。要知道,如果一個一般聰明的人記了這么多東西,他們可能會注意到,“哦,這個東西會導致這個癥狀,那個東西會導致那個癥狀,說不定這里面藏著什么治療方法呢。”
那么,我們是不是也應該期待AI能做到這些呢?
楊立昆:期待AI?可以。期待目前的大語言模型?不行。
AI 架構有好幾種類型。我們談論 AI 的時候,腦子里想的往往是聊天機器人。大模型是基于海量的純文本知識訓練出來的。它們被訓練來復述、檢索信息,本質上是根據訓練文本的統計規律來生成答案。它們能做的事情確實很了不起,非常有用,這點毋庸置疑。我們也知道它們會“一本正經地胡說八道”,編造不實信息,但最純粹的大語言模型,是無法創造新事物的。
主持人:我想提一下Hugging Face 的首席科學官湯姆·沃爾夫(Tom Wolf)上周在領英上分享的一個觀點,我知道你也參與了相關討論,非常有意思。
他說:“要想在數據中心里造出一個愛因斯坦,我們不僅需要一個知道所有答案的系統,更需要一個能問出別人沒想過或不敢問的問題的系統,一個能在所有文獻、教科書、專家和常識都指向一個方向時,卻寫下 ‘萬一大家在這事上都搞錯了呢?’ 的系統。” 我們有可能教會大語言模型做這些嗎?
楊立昆:不行,以它們目前的形式是做不到的。任何能夠做到這一點的AI 形式,都不會是大語言模型。它們可能會把大語言模型作為其中一個組件。大語言模型擅長生成文本。所以,在未來的人工智能系統中,我們可能會用它們把抽象的想法轉換成語言。在人腦中,這部分工作是由一小塊叫做韋尼克區(Wernicke's area)的腦區負責的,大概就這么大。但我們不是用語言思考,我們是用對情境的心理表征(mental representations)來思考的。
我們對思考的每件事都有心智模型。就算我們不會說話,我們也能思考。這才是真正智能所在。這部分我們還沒能復制出來,大語言模型肯定不行。
所以問題是,我們最終會不會擁有不僅能回答已有問題,還能為我們指定的問題提供新解決方案的AI 架構、AI 系統?答案是肯定的,最終會的,但不是用目前的大語言模型。然后下一個問題是,它們能提出自己的問題,比如判斷哪些是值得回答的好問題嗎?答案也是最終可以,但這需要相當長的時間,我們才能擁有具備這種能力的機器。
人類擁有所有這些特征。我們有些人記憶力超群,能檢索大量信息,積累了豐富的知識。我們也有人是解決問題的高手;你給他們一個問題,他們就能解決。我想湯姆實際上談論的就是這類事情。他說如果你在學校成績好,你就是個優秀的問題解決者;我們給你一個問題,你能解決它,你在數學或物理等科目上得分很高。但在研究中,最難的其實是提出好問題。哪些是重要的問題?這不僅僅是解決問題;還要提出正確的問題,以正確的方式構建問題,這樣你才能有新的洞見。然后才是,“好吧,我需要把這個轉化成方程式或某種東西,一個實用的模型。”
這可能與提出正確問題所需的技能不同。解方程式可能又是另一種不同的技能。寫方程式的人不一定就是解方程式的人,而記住100 年前某本教科書里解過類似方程式的,可能又是另外一些人。這是三種不同的技能。所以大語言模型非常擅長檢索。它們不擅長解決新問題,為新問題找到新方案。它們能檢索到已有的解決方案,但它們絕對不擅長提出正確的問題。
真正的推理
主持人:AI 領域似乎已經從標準的大語言模型發展到了能夠推理、能夠逐步思考的大語言模型。我很好奇,我們能不能通過給推理模型植入質疑指令的指令,來編程實現這種反直覺或“離經叛道”的思維呢?
楊立昆:我們得先搞清楚“推理”到底是什么意思。顯然,每個人都在試圖讓大語言模型在一定程度上具備推理能力,比如能夠檢查它們生成的答案是否正確。目前人們處理這個問題的方式是,試圖在不完全改變現有范式的前提下對其進行修改,在大語言模型之上附加幾個模塊,使其具備一些原始的推理功能。這基本上就是很多推理系統正在做的事情。
一種讓大語言模型看起來像在推理的簡單方法是“思維鏈”(chain-of-thought)。你基本上是讓它們生成比實際需要更多 tokens,希望在生成這些 tokens 的過程中,它們能投入更多的計算來回答問題。在某種程度上,這出人意料地有效,但非常有限。
你無法從中得到真正的推理能力。推理,至少在經典AI 的許多領域,涉及到在潛在解決方案的空間中進行搜索。所以你有一個要解決的問題。你可以判斷問題是否已解決。你有一些方法來判斷問題是否解決,然后你在解決方案空間中搜索一個實際滿足約束條件或被識別為解決方案的方案。這是你能想到的最普遍的推理形式。
大語言模型里根本沒有這種搜索機制。你必須在它之上構建這個機制。一種方法是,你讓大語言模型生成大量大量的答案序列,即代表答案的 token 序列。然后你用一個獨立的系統來挑選哪個是好的。這有點像寫程序,通過或多或少隨機地生成指令,也許同時遵守語言的語法,然后檢查所有這些程序,看哪個能用。這不是一種好方法,不是一種非常高效的生成正確代碼片段的方法。這也不是一種好的推理方式。
這里有一個大問題是,當人類或動物推理時,我們不是在 token 空間(token space)里進行的。換句話說,當我們推理時,我們不必生成一個表達我們解決方案的文本,然后再生成一個,再生成一個,然后在這些文本中挑選一個好的。在我們內部,我們有一個情境的心智模型,并在腦海中操縱它。我們找到一個好的解決方案。當我們計劃一系列行動,比如,我不知道,造一張桌子什么的,我們計劃行動的順序。
心智模型與語言無關。如果我告訴你,“想象一個立方體現在漂浮在我們面前。現在將該立方體沿垂直軸旋轉 90 度,”你可以想象這個過程,并且你可以很容易地觀察到它是一個立方體。如果我旋轉它 90 度,它看起來會和開始時的立方體一模一樣,因為你對立方體有這個心智模型。這種推理是在某種抽象的、連續的空間中進行的,它不是文本形式的,與語言或任何類似的東西都無關。人類一直在這樣做;動物也一直在這樣做。這正是我們目前還無法用機器復制的東西。
主持人:是的,這讓我想起,你剛才談到“思維鏈”以及它如何產生不了多少新穎的見解。DeepSeek 出來的時候,流傳很廣的一張截圖是有人讓 DeepSeek 就人類境況提出一個新穎的見解。你讀下來,會發現這不過是 AI 玩的又一個非常聰明的把戲,因為它看起來確實羅列了各種關于人類的、非常有趣的觀察——比如我們把仇恨,比如我們暴力的一面,引導向合作而非競爭,這幫助我們建設更多。但你讀完它的“思維鏈”后,你會覺得,“這不就是讀了《人類簡史》(Sapiens)和其他幾本書,然后拼湊出來的嘛。”
楊立昆:差不多吧。很多都是鸚鵡學舌。
主持人:我現在要把我后面談話的一部分提前:訓練標準的大語言模型是不是快要撞墻了?以前投入一定量的數據和算力來訓練這些模型,回報是可預測的,模型會變得更好。聽你這么說,你似乎認為這種情況最終會難以為繼。
楊立昆:我不知道該不該稱之為“撞墻”,但這肯定是邊際效益遞減,因為我們差不多已經用光了天然的文本數據來訓練這些大語言模型。它們已經用大約 10 的 13 次方或 10 的 14 次方個 tokens 訓練過了。這數量非常龐大。
主持人:那可是整個互聯網啊。
楊立昆:是公開可用的互聯網,然后,一些公司會購買非公開內容的授權。還有人談論生成人工數據,或者雇傭成千上萬的人來制造更多數據。
主持人:他們的知識水平得是博士和教授級別的。
楊立昆:是的,但實際上,情況可能比這更簡單,因為大多數系統連基本的邏輯都不懂,比如說。所以在某種程度上,通過合成數據,通過雇傭更多人來填補這些系統知識背景的漏洞,進展會很緩慢,而且是邊際效益遞減。生成這些數據的成本很高,回報卻不怎么樣。所以我們需要新的范式,需要一種新的系統架構,其核心能力是搜索,搜索好的解決方案,檢查方案是否可行,為達到特定目標而規劃一系列行動,這才是AI 系統真正工作所需要的。
大家都在談論通用人工智能(AGI)系統。但除了基本上是復述系統已經訓練過的計劃之外,沒人知道該怎么構建它們。這就像計算機科學里的一切;你可以設計一個有限的解決方案。在 AI 的背景下,你可以基于學習或用海量數據進行檢索來構建一個系統。但復雜之處在于,如何構建一個系統,它能在未經專門訓練的情況下解決新問題。我們人類能做到這一點。動物也能做到。面對新情況,我們要么可以通過零樣本(zero-shot)解決,即第一次遇到該情況時無需訓練就能處理,要么我們可以極快地學會解決它。
我們學開車,練上幾十個小時就會了。練到二三十個小時后,開車就成了第二天性,變成了潛意識行為,我們甚至不用去想它。
我們不可能單靠擴大語言模型的規模就達到人類水平的 AI
主持人:你說的東西讓我想到了“系統 1”和“系統 2”。
楊立昆:這讓我想起幾年前我們和丹尼·卡尼曼(Danny Kahneman)的討論。你第一次開車時,你的系統 2 完全在線,你必須使用它。你會想象各種災難性的場景等等。你的全部注意力都集中在駕駛上。但幾個小時后,你就可以一邊開車一邊和別人聊天了;你不需要思考它。它已經變得有點潛意識,或多或少是自動的了。它變成了系統 1。幾乎我們學會的每一項任務,第一次完成時,我們都必須動用我們全部的腦力。然后最終,如果我們重復足夠多次,它們就會變成潛意識的。
我有一個生動的記憶,有一次參加一個研討會,其中一位參與者是國際象棋特級大師,他同時和我們大概50 個人下棋,從一個人走到另一個人。我十個回合就被他干掉了。我說的是國際象棋。所以他會走到我的棋盤前。我有時間思考,因為他還在和其他 50 個棋盤下棋。所以我在他面前走了一步。他看了一眼,說:“嗯?”然后立刻就走了下一步。他根本不用思考。我對他來說構不成挑戰,根本用不著啟動系統 2,他的系統 1 就足以擊敗我了。
這告訴我們,當你熟悉一項任務并進行訓練后,它就會變成潛意識的。但人類和許多動物的基本能力是,當你面對新情況時,你可以思考,規劃行動步驟,想辦法達成目標。你不需要對情況了解太多,只需要你對世界如何運作的基本常識就夠了。這正是AI 系統所缺乏的。
主持人:你談到大語言模型——也就是讓我們走到今天的這些東西——已經達到了邊際效益遞減的程度,我們需要一個新的范式。但我也覺得,那個新范式還沒出現。我知道你正在為此進行研究,我們稍后會討論下一個新范式可能是什么,但這里面是不是有個時間差的問題?
我想到去年投入的資金:OpenAI 拿了 66 億美元,幾周前 Anthropic 又拿了 35 億美元,而他們去年已經融了 40 億美元。埃隆·馬斯克也正投入另一筆巨資打造 Grok。這些都是大語言模型優先的公司;他們并沒有在尋找下一個……我的意思是,也許 OpenAI 在找,但他們拿到的 66 億美元是因為 ChatGPT。那么,這個領域將走向何方?因為如果這些錢投向了一個效益正在遞減、需要新范式才能進步的領域,這聽起來是個大問題。
楊立昆:我們對這個新范式是什么有一些想法。難點在于讓它跑起來,這不簡單,需要好幾年時間。所以問題是,我們正在談論的這些能力,也許通過我們正在思考和研究的這些新范式,能否足夠快地實現,從而證明所有這些投資是合理的?如果不能足夠快地實現,這些投資還合理嗎?
首先可以說的是,我們不可能單靠擴大語言模型的規模就達到人類水平的AI。這絕對不可能。
主持人:這是你的看法。
楊立昆:絕對不可能。不管你從我那些比較激進的同事那里聽到什么,未來兩年內這事兒絕對不會發生。恕我直言,門兒都沒有——認為我們能在數據中心里擁有一堆天才——純屬胡扯。絕對沒可能。我們可能會有一些AI 系統,它們基于足夠多的數據進行訓練,任何通情達理的人提出的任何問題,都能在這些系統中找到答案。感覺就像你身邊坐著一位博士,但其實不是。那是一個擁有巨大記憶和檢索能力的系統,而不是一個能為新問題發明解決方案的系統,這才是博士真正做的事情。
這和湯姆·沃爾夫發的帖子有關。發明新事物需要的那種技能和能力,你是從大語言模型那里得不到的。所以有一個大問題,那就是,現在的投資不是為了明天,而是為了未來幾年。而且大部分投資,至少從Meta 這邊來看,是用于推理(inference)基礎設施的。
假設再過一年,這確實是Meta 的計劃,我們通過智能眼鏡、獨立應用等方式,讓 Meta AI 擁有 10 億用戶。你得為這些人提供服務。這就需要大量的計算。所以你需要大量投資基礎設施,才能在幾個月或幾年內擴大規模并建立起來。這才是大部分資金的去向,至少對于像 Meta、微軟、谷歌和亞馬遜這樣的公司來說。這基本上就是運營成本。
那么,即使范式沒有改變,這10 億人經常使用這些東西的市場會存在嗎?答案很可能是肯定的。所以,即使革命性的新范式在三年內沒有出現,這些基礎設施也會被使用。這一點幾乎沒有疑問。所以這是筆好投資,而且建立數據中心等等需要很長時間,所以你現在就需要開始,并規劃持續的進展,以便最終證明投資是合理的。但你又不能不做,對吧?因為如果你有現金,不做的風險太大了。
主持人:但讓我們回到你剛才說的。今天的東西缺陷還很嚴重。關于它是否會被使用,一直存在疑問。現在Meta 正在押注消費者市場,對吧?認為消費者想用 AI,這說得通。OpenAI 的 ChatGPT 有 1 億用戶。Meta 大概有三四十億——我的意思是,只要有手機其實就相當于算是 Meta 用戶。
楊立昆:30 多億用戶,Meta AI 有 6 億用戶。
主持人:好的,比ChatGPT 多。
楊立昆:是的,但使用頻率不如ChatGPT 高,所以用戶粘性沒那么強。
IBM 的慘敗
主持人:但基本上,Meta 能達到 10 億消費級用戶,這看起來是合理的。但問題是,很多這類投資是基于它對企業有用,而不僅僅是消費級應用的想法。這里就有一個問題,正如我們一直在討論的,它還不夠好。你看深度研究,這是本尼迪克特·埃文斯(Benedict Evans)提出的。深度研究做得不錯,但可能只能幫你完成 95%,剩下的 5%可能是胡說八道。所以,如果一份 100 頁的研究報告有 5%是錯的,而你又不知道是哪 5%錯了,那問題就大了。同樣,在今天的企業中,每家企業都在想辦法讓生成式 AI 和其他類型的 AI 為己所用。但可能只有 10%或 20%的概念驗證項目最終能投入生產,要么因為太貴,要么因為不可靠。所以,如果我們快到頂了,那么之前因為預期它會變得更好而投入的一切,你預計會發生什么?
楊立昆:再說一次,這是個時間表的問題。這些系統什么時候才能變得足夠可靠和智能,以便更容易部署?但是你描述的這種情況,即在令人印象深刻的演示之后,實際部署可靠的系統才是計算機和技術(尤其是AI)應用中容易出問題的地方,這并不新鮮。這基本上就是為什么我們在 10 年前就有了非常令人印象深刻的自動駕駛演示,但我們仍然沒有 L5 級別的自動駕駛汽車。“最后一公里”對于汽車來說真的很難,可以這么說。這可不是故意的。
最后那百分之幾的可靠性,才能使一個系統變得實用,以及如何將其與現有系統集成,如何使其用戶更高效或更可靠等等——這才是困難所在。這就是為什么如果我們回到幾年前,看看 IBM 沃森(Watson)發生了什么。沃森本應是 IBM 力推并創造巨額收入的產品,通過讓沃森學習醫學知識,然后部署到每家醫院。但它基本上是徹底失敗了,最后被拆了賣零件,讓 IBM 損失慘重,包括 CEO 也因此下臺。實際情況是,在那些要求系統可靠、真正幫助人們、并且不損害勞動力隊伍自然保守性的情境中部署這些系統,事情就變得復雜了。我們現在看到的部署 AI 的困難過程并不新鮮,它在任何時候都發生過。
上世紀80 年代初,人工智能領域曾掀起過一股熱潮,圍繞著專家系統。80 年代最熱門的工作是知識工程師,你的工作就是坐在專家旁邊,然后把專家的知識轉化成規則和事實,再輸入到一個推理引擎中,這個引擎就能推導出新的事實并回答問題。這股興趣浪潮非常大。日本政府啟動了一個名為“第五代計算機”的大型項目;硬件都設計成專門處理這些任務的。但這基本上失敗了。那一波興趣在 90 年代中期就消退了。少數幾家公司成功了,但基本上只適用于一小部分應用場景,在這些場景中,你確實可以把人類知識簡化為一堆規則,而且這樣做在經濟上也是可行的。但對整個社會和行業的廣泛影響根本不存在。所以這始終是 AI 的危險所在。信號很明確,帶有各種附加功能的大語言模型確實扮演著重要角色,至少在信息檢索方面是這樣。
大多數公司都希望擁有某種內部專家,了解所有內部文件,以便任何員工都可以提出任何問題。我們在 Meta 就有一個——是 Meta 自己做的,非常酷,非常有用。
主持人:我并不是說現代AI 或現代生成式 AI 沒用。我純粹是想問,已經有大量資金投入,期望這些東西能達到神級能力。而我們倆都在談論這里可能存在邊際效益遞減的問題。如果出現你提到的那種時間差錯配,會發生什么?這是我關于這個問題的最后一個提問,因為我覺得我們還有很多其他內容要談。但時間差錯配可能對你個人來說有特殊感觸。
我和你第一次交談是九年前,現在想起來真是瘋狂。你知道早期你對AI 的架構有自己的想法,甚至在會議上都找不到一席之地。然后最終,當算力跟上時,那些想法開始奏效了。然后整個 AI 領域就基于你與本吉奧(Bengio)、辛頓(Hinton)以及許多其他人共同研究的想法騰飛了。但就談談這些時間差的錯配,當 AI 領域出現過度炒作的時刻,比如你剛才提到的專家系統,而它們并沒有像人們預期的那樣成功時,AI 領域就會進入所謂的“AI 寒冬”。
楊立昆:會出現反彈。
主持人:沒錯。所以,如果我們可能正在接近這個時間差錯配的時刻,考慮到投入的資金量,考慮到訓練這些東西的主要方式可能會出現邊際效益遞減,或許我們還要加上股市目前看起來有點低迷這個因素——這可能是我們討論的第三重要變量,但它必須考慮在內——你是否擔心現在可能會出現另一個寒冬?
楊立昆:這里肯定存在一個時機問題。但如果我們試著深入挖掘一下,正如我之前所說,如果你認為單靠更多數據訓練和擴大LLM 的規模就能達到人類水平的 AI,那你就錯了。如果你是個投資者,投了一家告訴你‘我們單靠更多數據和一些小技巧就能實現人類水平的 AI 和博士級水平’的公司,我不知道你是否會血本無歸,但這可能不是個好主意。
然而,對于如何前進,如何讓系統具備所有智能動物和人類都能做到、而當前AI 系統做不到的能力,我們確實有一些想法。
我指的是理解物理世界、擁有持久記憶、能夠推理和規劃。這四個特征是必須具備的,它們需要系統能夠獲得常識,能夠從像視頻這樣的自然傳感器學習,而不僅僅是文本,不僅僅是人類產生的數據。
這是一個巨大的挑戰。我多年來一直在談論這個問題,并說這就是挑戰所在。這是我們必須解決的問題。我的團隊和我,或者與我一起工作的人以及其他聽取我意見的人,正在沿著這條路取得進展——開發能夠通過視頻學習理解世界如何運作的系統,例如,能夠使用物理世界運作的心智模型來規劃行動序列以達到特定目標的系統。我們已經有了這類系統的早期成果。DeepMind 也有人在做類似的事情,各個大學也有人在研究這個。
所以問題是,這什么時候能從有趣的科研論文(展示新架構下的新能力)發展到大規模的、能廣泛應用、能解決新問題(無需專門訓練)的實用架構?
這在未來三年內不會發生,但可能在3 到 5 年內發生,差不多是這樣。這與我們現在看到的投資增長速度大致相符。這是第一點。
現在,第二點很重要,那就是不會有一個秘密的“萬能靈藥”,由某家公司或某群人發明出來就能解決問題。這將是許多不同想法、大量努力的成果,有一些原則是每個人都會依據的,有些人可能不認同這些原則,會走向最終被證明是死胡同的方向。所以,不會是某一天之前沒有通用人工智能(AGI),之后就有了。這不會是一個事件;它將是持續的概念性想法,隨著時間的推移,這些想法會變得更大、更具規模,并且運作得更好。它不會來自單一實體;它將來自全球整個研究社區。而那些分享研究成果的人會比不分享的人進步更快。所以,如果你認為某個地方有個五人初創公司發現了通用人工智能的秘密,你就該給他們投 50 億美元,那你就大錯特錯了。
這些架構將不是生成式的
主持人:我一直很享受我們的對話,因為我們總能得到一些真正的答案。我記得即便是上次對話,我也會時常回顧那次談話,對自己說:“好吧,這是楊說的,那是其他人說的。我很確定這才是基準點。”事實也證明如此。我知道這次對話也會是這樣。現在你為我們接下來的談話引出了兩個有趣的線索。首先是對物理和現實世界的理解,其次是開源。
我想和你聊聊物理學。你曾經讓我給 ChatGPT 寫道:“如果我雙手水平拿著一張紙,然后松開左手,會發生什么?”我寫了,它很自信地說,根據物理學,紙會向你的左手方向飄去。我還信誓旦旦地大聲讀了出來,結果你說:“它就是胡說八道,你還信了。”事情就是這樣。
現在兩年過去了。我今天又用這個問題測試了 ChatGPT。它說:“當你松開左手時,重力會導致紙的左側下落,而仍然由右手托住的右側則保持原位。這就產生了一個杠桿效應,紙張會圍繞你右手持握的點旋轉。”所以現在它答對了。
楊立昆:它吸取教訓了。很可能是OpenAI 雇的人把這個問題和答案喂給了系統,然后對系統進行了微調。顯然,你可以想象出無數個這樣的問題。這就是所謂的大語言模型(LLM)的“后訓練”變得昂貴的地方,也就是說,你需要覆蓋多少種提問方式,才能讓系統基本上覆蓋人們可能提出的所有問題的 90%、95%或某個百分比?但是問題存在長尾效應,你不可能訓練系統回答所有可能的問題,因為問題數量幾乎是無限的。而且系統無法回答的問題遠比它能回答的多。你不可能在訓練集中覆蓋所有可能的訓練問題。
主持人:是的。因為我記得我們上次談話時你說,因為這些行為,比如你松開手后紙張會發生什么,在文本中沒有被廣泛涵蓋,所以模型不會真正知道如何處理。因為除非文本中提到過,否則模型不會有那種理解,不會有對現實世界固有的理解。我一度也這么認為。然后我說:“你知道嗎?讓我們試試生成一些 AI 視頻吧。”
我發現AI 視頻中一個有趣的事情是,它們對物理世界如何運作有某種程度的理解,這在 9 年前我們第一次見面時,你說最難的事情之一是你問 AI:“如果你把一支筆垂直立在桌上然后松手,它會倒嗎?”這里面有無數種可能性,AI 很難弄明白,因為它本身不理解物理。但現在你用像 Sora 這樣的工具,說“給我看一個男人坐在椅子上踢腿的視頻”,你就能得到。那個人坐在椅子上,踢著腿。而且腿不會從胯骨掉下來之類的,它們會在關節處彎曲。
楊立昆:而且他們沒有三條腿。
主持人:而且他們沒有三條腿。那么,這難道不意味著這些大模型的能力有所提升嗎?
楊立昆:不。為什么?因為你仍然會看到那些視頻生成系統制作的視頻里,比如你打翻一杯酒,酒卻漂在空中、飛走或者消失了,諸如此類。當然,對于每一種具體情況,你總能收集更多關于該情況的數據,然后訓練你的模型來處理它。但這并不是真正理解了潛在的現實。這只是用越來越多的數據來彌補理解上的不足。
兒童用很少的數據就能理解像重力這樣的簡單概念。你可以做一個有趣的計算。如果你拿一個典型的大語言模型,比如用30 萬億個 tokens 訓練的,大約是 3 x 10^13 個 tokens。一個 token 大約是 3 個字節。所以那是 0.9 x 10^14 字節。我們就湊個整,算 10^14 字節吧。這段文本,我們中任何一個人可能都需要花大約 40 萬年,每天讀 12 個小時才能讀完。好了,一個四歲的孩子總共清醒了 16000 小時。你可以乘以 3600 得到秒數。然后你可以估算出有多少數據通過視神經進入了你的視覺皮層。每條視神經,我們有兩條,每秒大約傳輸 1MB 的數據。所以是每秒 2MB,乘以 3600,再乘以 16000。這正好大約是 10^14 字節。
所以,四年里,一個孩子通過視覺或觸覺接觸到的數據量,和最大的大語言模型看到的一樣多。這清楚地告訴你,我們不可能僅通過文本訓練就達到人類水平的AI。文本的信息量根本不夠豐富。順便說一句,16000 小時并不算多;大概相當于 YouTube 上傳 30 分鐘視頻的數據量。我們現在很容易就能獲得這些。一個嬰兒在 9 個月里,比如說,看到了 10^13 字節的數據,這也不算多。但在這段時間里,嬰兒基本上已經學會了我們所知的所有直覺物理學:動量守恒、重力、物體不會自發消失、即使被藏起來它們依然存在。這些都是我們在生命最初幾個月里學到的關于世界的一些非常基本的東西。這正是我們需要用機器復制的:這種學習方式,去弄清楚世界上什么是可能的,什么是不可能的,你采取一個行動會產生什么結果,這樣你才能規劃一系列行動來達到特定目標。
這就是世界模型的想法。現在,聯系到關于視頻生成系統的問題:解決這個問題的正確方法是訓練越來越好的視頻生成系統嗎?我的答案是絕對不是。理解世界的問題,其解決方案并不在于生成像素級別的視頻。
如果我拿起這杯水打翻它,我無法完全預測水在桌子上的確切路徑、它會形成什么形狀以及會發出什么聲音等等。但在某個抽象層面上,我可以預測水會灑出來,可能會弄濕我的手機之類的。所以我無法預測所有細節,但我可以在某個抽象層面上進行預測。我認為這是一個非常關鍵的概念:如果你想讓一個系統能夠學習理解世界、明白世界如何運作,它需要能夠學習一個世界的抽象表征,這個表征能讓你做出那些預測。這意味著這些架構將不是生成式的。
主持人:所以,模型不能是生成式的才能理解真實世界。你正在研究一種叫做V-JEPA(視頻聯合嵌入預測架構)的東西。你還有用于圖像的 I-JEPA,對吧?
楊立昆:JEPA 可以用于各種東西。
主持人:文本也行,純文本。那么請解釋一下,這將如何解決讓機器能夠抽象地表征現實世界中發生的事情的問題。
楊立昆:AI,尤其是過去幾年自然語言理解和聊天機器人的成功,在某種程度上也包括計算機視覺的成功,其關鍵在于自我監督學習。那么什么是自我監督學習呢?
拿一個輸入——無論是圖像、視頻、一段文本,任何東西——以某種方式損壞它,然后訓練一個大型神經網絡來重建它,基本上是恢復它未損壞的版本,或者未失真的版本,或者采取某個行動后會產生的轉換版本。例如,在文本的上下文中,拿一段文本,去掉一些詞,然后訓練某個大型神經網絡來預測缺失的詞。
拿一張圖片,去掉一部分,然后訓練一個大型神經網絡來恢復完整的圖片。拿一段視頻,去掉一部分,訓練你的神經網絡來預測缺失的部分。大語言模型(LLM)是其中的一個特例,你拿一段文本,訓練一個系統僅僅是復制這段文本。你不需要損壞文本,因為系統的設計方式使得它在預測文本中某個特定的詞或 token 時,只能看到它左邊的 token。所以,實際上,系統在其架構中硬編碼了它不能看現在和未來來預測現在——它只能看過去。但基本上,你訓練系統只是在輸出端重現其輸入。這種架構被稱為因果架構,這就是 LLM,一個大型自回歸模型。世界上所有的聊天機器人都是基于這個的。
拿一段文本,訓練系統只是在其輸出端重現那段文本。要預測某個特定的詞,它只能看它左邊的詞。所以現在你有了一個系統,給定一段文本,它可以預測這段文本后面的詞。你可以把你預測的那個詞移到輸入端,然后預測第二個詞,再把那個詞移到輸入端,預測第三個詞。這叫做自回歸預測。這不是一個新概念,很老了。自我監督學習并不訓練系統完成某個特定任務,而是捕捉數據的內部結構。它不需要任何人工標注。
把這個應用到圖像上:拿一張圖片,遮住一部分,比如一些補丁,然后訓練一個神經網絡來重建缺失的部分。現在,把系統學到的圖像內部表征作為后續下游任務(如圖像識別、分割等)的輸入。
這在一定程度上有效,但效果不是很好。FAIR 有一個類似的大項目,叫做 MAE(Masked Autoencoders,掩碼自編碼器)。它是去噪自編碼器的一個特例,而去噪自編碼器本身就是我從中衍生出自我監督學習這個想法的通用框架。它效果不太好。而且有很多方法……如果你把這個應用到視頻上,我研究這個也快 20 年了。
拿一段視頻,只展示視頻的一部分,然后訓練系統預測接下來視頻里會發生什么。和文本的想法一樣,只是針對視頻。這個效果也不是很好。為什么它對文本有效,而對視頻無效呢?答案是,預測文本后面的一個詞很容易。你無法準確預測某個文本后面會跟哪個詞,但你可以生成類似字典中所有可能詞語、所有可能 token 的概率分布。大概只有10 萬個可能的 token。所以如果你只是生成一個包含 10 萬個不同數字的大向量,這些數字都是正數且總和為一,那就沒問題。
那你要怎么表示視頻中所有可能幀的概率分布,或者圖像所有可能缺失部分的概率分布呢?我們不知道如何妥善處理。事實上,在高維連續空間中表示分布在數學上是難以處理的。我們不知道如何以有用的方式做到這一點。我長期以來一直試圖為視頻做這件事。這就是為什么那些使用生成模型的自我監督學習想法迄今為止都失敗了。這也是為什么試圖訓練一個視頻生成系統來讓系統理解世界如何運作,是行不通的。
那么替代方案是什么?替代方案是一種非生成式架構,我們稱之為JEPA:聯合嵌入預測架構(Joint Embedding Predictive Architecture)。
我們知道這種方法比嘗試重建要好得多。我們多年前就有關于學習圖像良好表征的實驗結果,其中我們不是拿一張圖像,損壞它,然后嘗試重建這張圖像,而是拿原始的完整圖像和損壞版本。我們都將它們通過神經網絡處理。這些神經網絡會產生這兩張圖像(原始圖像和損壞圖像)的表征。然后我們訓練另一個神經網絡,一個預測器,從損壞圖像的表征中預測完整圖像的表征。
如果你成功了,你就訓練出了這樣一個系統。它不是被訓練來重建任何東西的。它只是被訓練來學習一個表征,以便你可以在表征層內進行預測。你必須確保表征包含盡可能多的關于輸入的信息,這才是困難之處。實際上,這才是訓練這些系統的難點。所以這就是JEPA。為了訓練一個系統學習圖像的良好表征,這些聯合嵌入架構比那些生成式的、通過重建訓練的架構效果要好得多。
現在我們也有一個適用于視頻的版本。我們拿一段視頻,通過遮蓋其中一大塊來損壞它。我們將完整的視頻和損壞的視頻通過相同的編碼器處理。然后,以類似的方式,我們訓練一個預測器,從部分視頻的表征中預測完整視頻的表征。當系統學習到的視頻表征被輸入到一個試圖告訴你,例如,視頻中發生了什么動作,或者視頻是否可能或不可能,或者類似事情的系統時,它實際上運作得相當好。
主持人:酷,所以它能進行抽象思維。
楊立昆:是的,在某種程度上。我們的實驗結果表明,這種聯合嵌入訓練——我們有好幾種方法來實現它,一種叫做 DINO,另一種叫做 VC-Reg,還有一種叫做 VICReg,另一種叫做 I-JEPA,這有點像一種蒸餾方法——有好幾種不同的途徑。其中一種將會導出一個配方,基本上給我們提供一種訓練這些 JEPA 架構的通用方法。
它不是生成式的,因為系統不是試圖重新生成輸入的那部分;它是試圖生成一個輸入的表征,一個抽象的表征。這樣做的好處是,你可以忽略輸入中所有那些真正不可預測的細節。就像你垂直放在桌上的那支筆,當你松手時,你無法預測它會朝哪個方向倒下。但在某個抽象的層面上,你可以說筆會倒下,而不用表示方向。這就是JEPA 的想法。我們開始在讓系統(例如 V-JEPA 系統)通過大量自然視頻進行訓練方面取得良好成果。然后你可以給它看一個不可能的視頻,比如一個物體消失或改變形狀的視頻。你可以用游戲引擎之類的東西生成這個,或者一個情景:你有一個球在滾動,它滾到一個屏幕后面,然后屏幕降下來,球不見了。諸如此類的事情,你測量系統的預測誤差。這個系統被訓練來預測,不一定是在時間上預測,但基本上是預測視頻的連貫性。所以當你向系統展示視頻時,你測量預測誤差。當不可能的事情發生時,預測誤差會飆升。
所以你可以檢測出系統是否整合了關于物理上什么是可能的或什么是不可能的的一些想法,僅僅通過用物理上可能的自然視頻進行訓練。這真的很有趣。這是系統獲得某種常識的第一個跡象。
我們也有這些系統的所謂“動作條件化”(action-conditioned)版本。基本上,我們有一些東西,比如在 t 時刻世界狀態的一段視頻或一張圖像,然后采取一個動作,比如移動一個機器人手臂之類的。然后,當然,我們可以觀察到這個動作的結果。所以現在當我們訓練一個 JEPA 模型時,基本上,你可以說,“這是 t 時刻的世界狀態,這是你可能采取的一個動作。”我可以在這個抽象表征空間中預測 t+1 時刻的世界狀態。
主持人:這就是 AI 對世界如何運作的學習。
楊立昆:這樣做最酷的地方在于,現在你可以想象讓系統想象一系列行動的結果會是什么。如果你給它一個目標,說:“我希望世界最終看起來是這樣,你能想出一系列行動來達到那個目標嗎?”它實際上可以通過搜索找到能產生結果的行動序列。這就是規劃,這就是推理,是真正的推理和真正的規劃。
開源世界的進展肯定更快
主持人:你能否談談你對 DeepSeek 的看法,以及開源模型現在是不是已經超越閉源模型了?我們必須把時間限制在 60 秒內,否則你的團隊會殺了我的。
楊立昆:“超越”這個詞有點重了。但我認為開源世界的進展肯定更快,這是毫無疑問的。當然,那些閉源的公司也從開源世界的進步中獲益;它們和其他人一樣能接觸到那些信息。顯而易見的是,開源世界涌現出的有趣想法遠比任何一家公司,無論其規模多大,所能想出的要多得多。
沒有人能壟斷好點子。開源世界的奇妙效率在于它能從世界各地招募人才。我們從DeepSeek Coder 身上看到,如果你組建一個小團隊,給他們相對寬松的權限和較少的限制,讓他們去開發下一代大語言模型,他們確實能想出別人想不到的新點子。他們可以某種程度上重新發明做事的方式。然后如果他們與世界其他地方分享,那么整個世界都會進步。開源進展更快。更多的創新可以在開源世界發生,而閉源世界可能很難跟上。運行成本也更低。
我們看到,和我們交談的合作伙伴說:“嗯,我們的客戶在做原型時可能會用閉源 API。但真到部署產品的時候,他們實際上會用 Llama 或其他開源引擎,因為更便宜、更安全、更可控。你可以在本地運行。”有很多優勢。
我們看到一些人最初擔心開源會,比如說,幫助中國人或其他什么,如果你出于某些地緣政治原因認為這是個壞主意,他們的想法發生了很大轉變。
但DeepSeek 的例子表明,中國人并不需要我們。他們自己就能想出非常好的點子。我們都知道中國有非常非常優秀的科學家,但有一件事不太為人所知,那就是整個科學界被引用次數最多的單篇論文是2015 年的一篇關于深度學習的論文,它來自北京。那篇論文叫做 ResNet。它是一種特殊類型的神經網絡架構,基本上,默認情況下,深度學習系統中的每個階段都計算恒等函數;它只是將其輸入復制到其輸出。神經網絡所做的是計算與此恒等函數的偏差。這使得我們能夠訓練出具有數十層,甚至 100 層的極深神經網絡。
那篇論文的第一作者是何愷明。當時他在微軟亞洲研究院工作。那篇論文發表后不久,他加入了加州的FAIR。所以我雇用了他,他在 FAIR 工作了大約八年,最近離開,現在是麻省理工學院的教授。
世界各地都有非常非常優秀的科學家。沒有人能壟斷好點子。當然,硅谷也沒有壟斷好點子。另一個例子實際上是第一個Llama 模型來自巴黎。它來自巴黎的 FAIR 實驗室,一個只有 12 人的小團隊。如果想讓科學技術快速發展,你就必須利用全世界各種各樣的想法、背景和創造力。而開源使得這一切成為可能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.