網易首頁 > 網易號 > 正文申請入駐

Google首席科學家萬字演講回顧AI十年：哪些關鍵技術決定了今天的大模型格局？

2025-04-26 00:14:31　來源: 白駒談人機

北京舉報

分享至

數字開物

2025年04月22日 18:58

Google 首席科學家Jeff Dean今年4 月于在蘇黎世聯邦理工學院發表關于人工智能重要趨勢的演講，本次演講回顧了奠定現代AI基礎的一系列關鍵技術里程碑，包括神經網絡與反向傳播、早期大規模訓練、硬件加速、開源生態、架構革命、訓練范式、模型效率、推理優化等。算力、數據量、模型規模擴展以及算法和模型架構創新對AI能力提升的關鍵作用。

以下是本次演講實錄

經數字開物團隊編譯整理

AI正以前所未有的規模和算法進步改變計算范式

Jeff Dean:

今天我將和大家探討 AI 的重要趨勢。我們會回顧：這個領域是如何發展到今天這個模型能力水平的？在當前的技術水平下，我們能做些什么？以及，我們該如何塑造 AI 的未來發展方向？

這項工作是與 Google 內外的眾多同仁共同完成的，所以并非全是我個人的成果，其中許多是合作研究。有些工作甚至并非由我主導，但我認為它們都非常重要，值得在此與大家分享和探討。

我們先來看一些觀察發現，其中大部分對在座各位而言可能顯而易見。首先，我認為最重要的一點是，機器學習徹底改變了我們對計算機能力的認知和期待。回想十年前，當時的計算機視覺技術尚處初級階段，計算機幾乎談不上擁有“視覺”能力。語音識別雖然可用，但效果遠非理想。而基于語言模型的語言理解能力也相當有限。然而，在過去的 12 到 14 年間，我們持續觀察到一個現象：用于訓練模型的計算資源、數據量以及模型規模的不斷擴大，通常能帶來更好的性能。這幾乎成了一條定律，在過去 15 年里我們反復驗證了這一點：更大的模型、更多的數據，確實能提升計算機在我們所關心的核心能力上的表現。

此外，算法和模型架構的改進也至關重要。這并非僅僅是簡單地投入更多硬件資源的問題。事實上，在過去十年中，算法與模型架構層面的創新所帶來的影響，甚至超過了硬件本身的進步。最后，這一切發展共同導致的結果是：我們期望在計算硬件上運行的計算類型正在發生深刻變化。我們對于如何構建計算硬件以支持當前及未來的應用場景的思考方式，也正在從傳統的以 CPU 為中心的計算模式發生轉變。

首先，我將快速瀏覽一系列關鍵技術進展。

關鍵技術里程碑：奠定現代AI模型的基礎

Jeff Dean:

顯然，源自上世紀的一項關鍵基礎技術是神經網絡。當前在最大規模的機器學習以及我們所見的計算機能力方面的幾乎所有進展，都基于神經網絡計算。這些網絡由人工神經元構成。它們的設計在某些方面借鑒了生物神經元的工作機制，但即便以我們目前對生物神經元的理解來看，人工神經元也只是對其非常粗糙的模擬，而且生物神經元的很多機制我們仍未完全理解。盡管如此，它們仍是構成現代 AI 的基礎模塊之一。

另一項關鍵技術是反向傳播，它是一種優化神經網絡權重的方法。通過將模型實際輸出與期望輸出之間的誤差進行反向傳播，該算法能夠有效地更新神經網絡的權重，以最小化模型在訓練數據上的錯誤。然后，得益于神經網絡的泛化能力，模型就能推廣應用于它在訓練過程中未曾見過的那些問題或具體樣本。所以說，反向傳播和神經網絡這兩項技術，確實是深度學習革命的核心要素。

在 2012 年，我和幾位同事進行了一項研究，核心理念是：如果我們能訓練出規模空前的大型神經網絡，其性能或許會遠超小型網絡。基于這個假設，我們決定嘗試使用無監督學習算法來訓練一個超大規模的神經網絡。我們最終訓練出的這個網絡，其規模大約是 2012 年已知最大神經網絡的 60 倍，動用了 16,000 個 CPU 核心。當時，我們的數據中心里還沒有 GPU，只有大量常規的 CPU 服務器。我們觀察到，采用這種無監督學習方法進行預訓練，再結合一些監督學習進行微調后，模型在相對而言競爭不算非常激烈的 ImageNet 22k 分類任務上，實現了高達 70% 的性能相對提升。大家平時聽到的 ImageNet 結果大多是基于其 1000 個類別的子集。而 22k 這個版本可能更有意思，因為它包含了 22,000 個極為細粒度的類別。這項成果是一次相當顯著的進步，也印證了我們的初始假設：只要投入足夠的訓練算力，更大規模的模型確實能擁有更強的能力。

我們開發了首個大規模神經網絡訓練基礎設施項目，名為 Disbelief (DIST belief)。這個名字一方面因為它是分布式系統，計算任務分布在多臺機器上執行；另一方面也因為當時我們的一些同事對其可行性持懷疑態度，算是個雙關語。實際上，當你訓練這類大型模型，且模型大到單臺計算機無法容納時，存在幾種并行化計算的思路。第一種是模型并行：神經網絡通常包含許多層神經元，可以將模型按層 (水平) 或層內 (垂直) 進行切分，將模型的不同部分部署到不同的計算節點上，并在節點間管理因模型切分產生的通信需求。另一種方式是數據并行：即在不同機器 (或機器組) 上部署模型的多個副本，并將訓練數據分配給不同的模型副本進行處理。這種方式還可以與模型并行結合使用 (即每個模型副本本身就分布在多臺機器上)。

在 Disbelief 系統中，我們采用了一個集中式的架構：一個參數服務器負責接收來自不同模型副本計算出的梯度更新，并將這些更新應用到全局模型參數上。但我們采用了一種并非嚴格遵循數學最優化的方式，即完全異步的更新機制。具體來說，不同的模型副本獲取最新的參數副本，處理一小批數據，計算出相應的梯度，然后將其發送回參數服務器。然而，當某個副本的梯度到達服務器時，全局參數可能已經被其他副本在此期間提交的梯度更新過了。這種做法顯然不符合標準梯度下降算法的數學要求，但實踐證明這種方法是有效的。正是這種方法使我們能夠，即使用 CPU 也能將模型訓練擴展到非常大的規模。

2013 年，我們利用 Disbelief 框架，大規模訓練了一種名為 Word2Vec 的詞嵌入模型，旨在生成詞語的密集向量表示。這項工作的一個重要成果是，通過將詞語表示為高維向量，若采用特定的訓練方法，這種向量表示會展現出兩種非常有用的特性。其中一種訓練方法是利用中心詞的向量表示來預測其上下文中的詞語。另一種方法則相反，利用上下文詞語來預測中心詞。兩種方法的效果大致相當。

當以這種方式訓練得到詞嵌入向量后，你會發現這些高維向量表示具有兩大特性。首先，經過大規模語料訓練后，在這個高維向量空間中，語義相近的詞語其向量表示也趨于鄰近。就好像所有與‘貓科動物’ (如貓、美洲獅、老虎) 相關的詞都被聚集到了這個 (比如) 一千維空間中的某個區域。其次，更有趣的是，向量空間中的方向具有了語義意義。例如，從代表‘國王’的向量到代表‘王后’的向量，其向量差與從‘男人’到‘女人’或從‘公牛’到‘母牛’的向量差，它們的方向大致相同。這意味著有趣的語言學規律或關系，通過向量間的方向關系，在訓練過程中自發地涌現出來。

2014 年，我的三位同事 Ilya Sutskever、Oriol Vinyals 和 Quoc Le 開發了一種基于神經網絡的序列到序列學習模型。其核心思想是處理一個輸入序列 (例如文本、語音)，并生成一個對應的輸出序列。一個典型的應用場景就是機器翻譯：例如，模型首先通過編碼器逐詞讀取輸入的英文句子，從而構建出一個概括整個句子信息的密集向量表示 (通常稱為上下文向量)。接著，模型利用這個上下文向量，通過解碼器開始逐詞生成 (解碼) 對應的法文句子。通過在大量的英法平行句對語料上進行訓練，模型就能學會如何完成翻譯任務，這完全是基于這種端到端的序列到序列神經網絡架構。將編碼器生成的上下文向量作為解碼器的初始狀態，這種方法被證明是有效的。并且隨著所使用的 LSTM (長短期記憶網絡) 規模的增大，實驗表明，模型的翻譯性能也隨之提升。

大約在 2013 年，我開始擔憂起來，因為隨著我們為語音、視覺以及某種程度上的語言構建越來越大的神經網絡，我開始進行一些演算：如果語音識別的效果變得更好，人們可能會廣泛使用它。而如果我們想為系統中的大量用戶提供服務，這可能會帶來問題。所以我做了一個非常粗略的估算：假設我們有 1 億用戶開始每天對著手機說話三分鐘。那時，模型的規模很大，無法在設備端運行，必須部署在我們的數據中心。我發現，部署一個更優的語音模型——當時我們確實有一個更好的模型，能將錯誤率降低 40%，這對于語音識別來說是巨大的性能提升——會遇到困難。我們知道，如果能將這個模型服務于眾多用戶，效果會更好。但是，我的計算結果顯示，對于 1 億用戶，每人每天使用三分鐘，我們需要將 Google 當時擁有的計算機數量翻倍，才能支持這項語音識別模型的改進，而這僅僅是我們眾多產品中的一項改進而已。

于是，我開始與我們技術基礎設施團隊中具備硬件專業知識的同事交流，我們一致認為，為神經網絡推理構建更定制化的硬件是合理的。這就是TPU系列的由來。其最初的版本是專門為推理場景設計的。因此，它使用了非常低的精度，其乘法器僅支持 8 位整數運算。但其核心目標是構建一個在低精度線性代數方面表現卓越的計算單元，它將能高效服務于多種基于神經網絡的模型，并且不需要現代 CPU 中那些使設計變得復雜化的附加特性，例如分支預測器或各種類型的緩存。相反，我們可以專注于構建盡可能快、盡可能小的低精度密集線性代數計算單元。事實證明，一個規模相當大的團隊最終研發出的 TPU，在處理這類任務時，比同期的 CPU 和 GPU 快 15 到 30 倍，同時能效提升了 30 到 80 倍。順便提一下，這篇介紹 TPU 的論文現在是 ISCA 50 年歷史上被引用次數最多的論文，考慮到它在 2017 年才發表，這一點相當了不起。但這確實開啟了我們為機器學習模型探索專用計算硬件的征程。

接著，我們認為，擴大部署規模并同時關注訓練場景，而不僅僅是推理，將非常有意義。因此我們開始構思一種系統，更確切地說，是類似機器學習超級計算機的系統。這些系統在大量芯片之間具備極高速的互連，所有芯片都通過這種定制的高速互連緊密地連接起來。至今，我們已經推出了五代 TPU Pods，它們在推理和訓練兩方面都表現優異。這些 Pods 將數千個芯片連接起來。初代 Pod 包含 256 個芯片，隨后擴展到 1,000 個，再到 4,000 個，而最新的 Pod 則集成了大約 8,000 或 9,000 個芯片，所有這些芯片都通過定制的高速網絡連接。從 TPU v4 開始，這些系統采用了一種非常獨特的光網絡。利用巧妙的光交換技術和鏡面調整，即使兩個各包含 64 個芯片的機架在數據中心機房地面上物理位置并不相鄰，也能讓它們在網絡拓撲上如同緊挨著一樣。關于這些技術的細節，大家可以查閱那篇 ISCA 論文。

我們上周剛剛發布了該系列的最新版本，代號 Ironwood ，我們不再使用數字序號命名，這有時會讓我搞混。Ironwood Pod 的規模相當大，包含 9216 個芯片，每個芯片的算力可達 4614 TFLOPS。因此，單個 Pod 的總算力達到了 42.5 TFLOPS，這是指低精度浮點運算能力，具體來說是 8 位浮點精度。這相較于上一代產品是一個顯著的飛躍。與2018年的首個訓練Pod相比，Ironwood Pod的計算能力在大約七年的時間里提升了約3600倍。

而且重要的是，通過許多巧妙的電路設計、采用更先進的制程工藝以及使用比初代 TPU V2 更低精度的運算，與 2018 年的首個訓練 Pod 相比，我們實現了每浮點運算能效大約 30 倍的提升。

另一個非常重要的趨勢是，機器學習領域的開源工具極大地促進了一個更廣泛的社區參與進來，不僅改進這些工具本身，還利用它們來解決橫跨眾多不同學科的、各式各樣的機器學習問題。例如 TensorFlow、PyTorch 以及 JAX (Google 開發的另一款開源框架，略帶函數式編程風格，大約在 2017 或 2018 年推出)。我認為，這三個軟件包在提升機器學習技術的易用性、以及在不同框架內實現算法表達方式標準化方面，極大地推動了整個領域的進步。

在 2017 年，我的幾位同事有了一項非常重要的發現。在循環模型中，處理過程是高度序列化的：模型一次處理一個 Token，更新其內部狀態，然后才能處理下一個 Token。這種固有的順序性極大地限制了模型處理大規模數據時的并行能力和學習效率。因此，他們提出了一個巧妙的想法：不再采用這種逐步推進并更新單一內部狀態的方式，而是保存處理過程中產生的所有內部狀態。然后，引入一種稱為注意力的機制，該機制允許模型在處理后續 Token 時，能夠回顧并“關注”所有先前處理過的 Token 的狀態。例如，當處理第 117 個 Token 時，模型可以訪問并權衡前 117 個 Token 對應的所有狀態，判斷哪些狀態中的表征信息與當前任務 (通常是預測下一個 Token) 最相關。

這篇提出 Transformer 模型的論文產生了巨大的影響。其影響力巨大的部分原因在于，研究者們最初在機器翻譯任務上證明了：相比當時最先進的 LSTM 或其他模型架構，Transformer 僅需 1/10 到 1/100 的計算量和 1/10 的模型大小，就能取得更優的性能。需要注意的是，性能對比圖通常采用對數刻度，因此圖上看似微小的差距，實際代表著性能上的巨大提升。

所以，這項工作極其重要。如今幾乎所有備受關注的現代大語言模型，都以Transformer架構或其變體作為基礎模型。

大約在2018年，一種理念開始變得非常流行(盡管可能并非始于當年)：即大規模語言建模可以利用自監督數據來完成。以任意一段文本為例，我們可以利用文本的一部分來預測其另一部分。通過這種方式，文本本身就提供了“正確答案”，從而產生了海量的訓練數據。這已經被證實是極其有效的，并且是現代語言模型性能如此強大的主要原因之一：我們可以不斷地輸入更多文本數據進行訓練，從而持續提升模型質量。

目前主要有兩種訓練目標。第一種是自回歸目標：模型根據已有的單詞前綴來預測下一個單詞。當前許多流行的模型都采用這種形式。這種方式可以從文本中生成大量的訓練任務，例如給定 “蘇黎世是”，預測下一個詞；給定 “蘇黎世是那個”，預測下一個詞；給定 “蘇黎世是最大的”，預測下一個詞。模型需要利用其看到的左側上下文信息來預測缺失的單詞。

另一種是類似完形填空的訓練目標 (有時稱為掩碼語言模型, Masked Language Model)。例如，從 “蘇黎世是瑞士最大的城市” 中生成訓練樣本 “蘇黎世 [空白]，最大的 [空白] 在 [空白]”。同一個句子還可以生成不同的訓練樣本，讓模型填充不同的空白，比如 “蘇黎世是那個 [空白] 城市，[空白] 瑞士”。

這兩種訓練目標都非常有用。但自回歸目標往往應用更廣，因為它更符合某些應用場景的自然流程，例如在操作聊天機器人進行對話時。在這種場景下，模型只能根據已經發生的對話內容 (左側文本) 來生成接下來的回應，未來的對話 (右側文本) 尚未發生，是未知的。

2021 年，我的另一些同事開發出一種將圖像處理任務整合進基于Transformer模型框架的方法。在此之前，處理圖像任務的主流方法是使用各種形式的卷積神經網絡 (CNN)。他們的核心思路是：首先將圖像分割成多個小塊。然后，借鑒 Word2Vec 將單詞嵌入為密集向量表示的思想，將這些圖像像素塊也通過類似方式轉換成高維向量來表示。這些圖像塊嵌入的具體內容，例如顏色、紋理、方向等特征，是通過模型學習得到的。一旦獲得了圖像塊嵌入，就可以將它們輸入到標準的Transformer模型的后續層進行處理，就像處理詞嵌入一樣。這樣，原本主要用于文本的Transformer模型就能處理圖像數據了。

正如稍后將提到的，在訓練多模態模型時，這種方法可以很自然地融合文本和圖像信息。模型可以同時接收文本 Token 和圖像塊作為輸入。視覺模型負責生成圖像塊的嵌入，而文本模型 (或其早期部分) 負責生成文本 Token 的嵌入，然后將這些不同來源的嵌入一起送入 Transformer 進行處理。通過可視化注意力操作，我們可以觀察到，當模型被要求描述圖像內容時 (例如識別圖中的飛機或狗)，其注意力機制確實會聚焦于圖像中的相關區域。而當圖像內容比較復雜或模糊時 (例如圖中有一條蛇混雜在很多干擾物中)，注意力會變得不那么集中，模型會審視圖像的更廣泛區域以尋找判別性的視覺線索。這項工作對于統一基于 Transformer 的文本處理和圖像處理框架起到了至關重要的推動作用。

另一項創新是，在 2017 年，我和一些同事開發了一種構建稀疏模型的方法，特別是混合專家模型(MoE)。其核心思想是構建一個容量極大的模型，但在處理每個 Token 或樣本時，并不激活整個模型，而是只激活其中一小部分——即所謂的“專家”。例如，在我們最初的論文中，模型每層有多達 2048 個專家，但每次只激活其中的兩個。這樣做的好處是，模型擁有巨大的潛在容量來存儲和利用大量知識，但計算開銷卻相對較低。選擇激活哪些專家的決策過程本身也是通過反向傳播進行端到端學習的。這使得模型能夠發展出功能專門化的專家，例如，有些專家可能擅長處理日期和時間，另一些專家擅長處理地理信息，還有一些則可能專注于生物學相關的上下文。

事實證明，這種方法非常有效。與 Transformer 帶來的改進類似，MoE 實現了顯著的算法優勢：在達到相同準確率的前提下，所需的訓練計算成本大約降低了 8 倍 (如圖中的線 A 所示)；或者，在消耗相同訓練成本的情況下，可以獲得更高的準確率 (如圖中的線 B 所示)。通常，在解讀這類展示計算預算與準確率得分關系的圖表時，進行水平比較可以看出：達到相同的準確率需要減少多少計算量 (效率提升)。而進行垂直比較則可以看出：在相同的計算量下，模型的質量能提升多少 (效果提升)。

我們持續在稀疏模型上投入了大量工作，因為我們認為這是一個非常重要的整體方向：擁有這些性能優越、容量龐大的模型，但實際運行時可能只激活模型中 1%、2% 或 5% 的參數。

2018 年，我們開始思考能為這些大規模分布式機器學習計算提供哪些更好的軟件框架。我們清楚需要訓練更大規模的模型。圖示的這些帶有黃點的小方塊，可以看作是一個 TPU pod。我們希望能夠訓練這樣一個模型：在軟件層面連接許多 TPU pod，并依賴底層的分布式系統來管理芯片間所需的通信機制。例如，當同一個小方塊內的兩個黃色芯片需要通信時，它們會使用極高速的 TPU 網絡。當左上角方塊中的芯片需要與同一棟建筑內某個 pod 中的芯片通信時，則會使用該建筑內的數據中心網絡。如果需要跨建筑通信，就會用到同一數據中心設施內連接不同建筑的網絡。甚至可以通過更大范圍的廣域網鏈接 (如圖中那個大的橙紅色箭頭所示) 將不同區域的 TPU pod 連接起來。這種優秀的、可擴展的軟件能夠簡化大規模計算的執行過程。事實上，Pathways 為機器學習開發者或研究人員提供的抽象層特點之一在于：你只需要一個單一的 Python 進程。JAX 本身引入了設備的概念。通常，如果你只在一臺包含四個 TPU 芯片的機器上運行，JAX 會視其為一個擁有四個芯片的進程。但是，當你通過 Pathways 運行 JAX 時，整個訓練任務中的所有芯片對 JAX 而言都會呈現為統一的設備。這樣一來，開發者面對的仍是單一的 Python 進程，但其底層仿佛是一個包含成千上萬（例如 10,000 或 20,000 個）TPU 設備的龐大資源池。你可以在這個資源池上運行計算，Pathways 則負責將這些計算任務映射到實際的物理設備上執行。

就在上周，我們將內部使用了大約六年的 Pathway 系統，正式向云客戶開放，供使用我們云 TPU 產品的客戶使用。

我的一些同事還有另一項觀察：在推理時進行更深入的思考（或增加計算步驟）非常有益。這就像小學三年級數學老師要求學生解答問題時要“寫出演算過程”一樣，因為這樣更有可能按正確的順序執行步驟，從而正確地解決問題。事實證明，大語言模型也是如此。如果你只給模型一個簡單的示例問題，比如：“Shawn 有 5 個玩具，圣誕節他從媽媽和爸爸那里各得到了 2 個，現在他有多少個玩具？” 答案是 9。這是輸入中的單樣本示例。然后，你問模型一個新問題：“John 照顧 10 只狗，每只狗每天需要半小時散步和處理排泄。他每周花多少小時照顧狗？” 模型在這個問題上給出了錯誤的答案 50。但是，如果你通過在給出的示例問題中明確展示解題步驟來鼓勵模型“展示其思考過程”，就像這樣：“Shawn 開始有 5 個玩具。如果他從媽媽和爸爸那里各得到 2 個玩具，那么他就多了 4 個玩具。5 + 4 = 9，所以答案是 9。” 這看起來很簡單，但事實證明，這種方式極大地提高了模型的準確性，因為模型被鼓勵去思考解題的每一個步驟，從而以更細化的步驟解決問題。

可以看到，隨著模型規模的增大，如果只使用標準提示，解題準確率會有所提高，但如果使用思維鏈提示，準確率則會顯著提升。這項結果是基于一個大致相當于八年級數學水平問題的基準測試得出的。因此，提示模型展示思考過程能夠提高其在推理任務上的準確性。這也可以看作是一種增加推理階段計算量的方法，因為模型現在需要生成額外的 Token 來展示中間步驟，直至得出最終格式的答案。

2014 年，Jeff Hinton、Oriol Vinyals 和我共同開發了一種稱為知識蒸餾的技術，其核心思想在于“蒸餾神經網絡中的知識”。其思路是：你有一個性能優越的大模型 (教師模型)，并希望將其知識遷移到另一個不同的模型中，通常是遷移到一個更小的模型 (學生模型) 里。訓練小模型的典型方式是執行下一個 Token 預測任務。假設你看到的前綴是 “perform the concerto for [空白]”，而正確的下一個詞是 “violin”。你可以用這個目標來訓練你的語言模型：如果模型正確預測 ‘violin’，效果就很好；如果猜錯了，則會基于訓練目標產生反向傳播誤差。這種方法效果尚可。但如果能利用教師模型，讓它不僅告訴你正確答案 (“violin”)，還能提供一個概率分布，指明它認為在當前語境下哪些詞是更合理的答案 (例如，violin 0.4, piano 0.2, trumpet 0.01, 而 airplane 的概率極低——“Concerto for airplane” 幾乎不可能)，那么你就能獲得更豐富的訓練信號。回顧原始訓練方式中的損失函數或目標設定：對于 “violin” 這個正確答案，目標向量僅在對應 ‘violin’ 的位置為 1，其余皆為 0 (硬目標)。而蒸餾法則能提供一個更豐富的概率分布 (軟目標)。這種極為豐富的梯度信號使我們能在小模型的每個訓練樣本中注入更多知識，從而使其能夠更快地收斂。以一個基于語音識別的對比實驗為例，我們關注的核心指標是測試幀準確率，即模型是否正確預測了音頻幀中的聲音，同時也會考察訓練幀準確率。使用全部訓練數據的基線模型，其測試幀準確率達到 58.9%。如果我們將訓練集縮減到僅有 3% 的數據，訓練幀準確率反而會上升，因為模型對這極小部分數據產生了過擬合。但此時，測試幀準確率會急劇下降，因為過擬合的模型在未見過的新測試樣本上表現不佳。然而，如果我們使用蒸餾過程產生的軟目標來訓練，并且同樣只用 3% 的訓練數據，結果顯示，其訓練幀準確率相當不錯，并且測試幀準確率幾乎與使用全部數據訓練的模型持平！這是一個極佳的特性，因為它意味著可以將大型神經網絡的知識有效遷移至小型神經網絡，使小模型的性能幾乎能與大模型媲美。這篇關于蒸餾的論文曾被 NeurIPS 2014 拒絕。我們后來在一個研討會上發表了它，并上傳到了 arXiv，如今它已有 24,000 次引用。所以，這個結果相當不錯。

2022 年，我和一些同事研究了在 TPU pod 上映射計算任務以實現高效推理的不同方法。其中涉及多種可選策略變體。例如，是將權重固定在網絡的一個維度上）？還是將權重同時固定在兩個維度上，使其分布于二維處理器網格中？或是將權重收集起來，傳輸到計算所需的單元？具體的技術細節并非關鍵，重點在于存在多種不同的實現路徑。事實上，如何選擇最優策略取決于諸多因素。批處理大小便是一個關鍵影響因素，它極大地影響了不同策略的優劣。同時，延遲約束也是重要的考量點。我們探討了幾種技術，例如：Weight Stationary、X Weight Gathered、XY Weight Gathered，甚至還有 XYZ Weight Gathered。圖表底部的小點線展示了不同批處理大小下的最優策略。可以看到，最優策略隨批處理大小變化而變化。這也意味著，根據你選擇的策略，硬件的浮點運算單元利用率也會相應改變，而最優策略的選擇又取決于批處理的大小。對于極小的批處理，最優策略是 2D Weight Stationary——哦抱歉我說反了，應當是小批次采用 2D Weight Stationary，大批次則采用 2D Weight Gathered。這表明，在模型分區、推理執行以及規模化部署方面，存在著諸多復雜的權衡與選擇。

2023年，我的一些同事開發了一種稱為推測解碼的技術。其核心思路是利用一個小型“草稿模型”，其規模通常比目標大模型小10到20倍。這種方法基于一個前提：許多 Token 的預測對于小模型而言相對容易。因此，借助這個極小的草稿模型進行順序預測，其速度遠超直接使用大模型。其具體流程是：首先，用小模型預測后續的 K 個 Token。接著，讓大模型也對這 K 個 Token 進行一次性預測。若小模型預測的前 n 個 Token（n ≤ K）與大模型的預測結果一致，便可以直接采納這 n 個 Token，將生成過程向前推進 n 步。本質上，若僅使用那個龐大且緩慢的大模型，它將按部就班地逐個 Token 進行預測。但采用推測解碼后，可以看到草稿模型能快速地一次性預測四五個詞，隨后由大模型進行驗證和修正預測。只要草稿模型生成的 Token 序列與大模型的驗證結果相匹配，解碼過程就能一次性前進多個 Token。通過讓大模型一次性處理 K 個 Token 的預測，實際上是分攤了加載模型權重所需的內存開銷，因為單次權重加載支撐了 K 個 Token 的預測，而非僅僅一個 Token。

驅動模型進步的綜合因素

Jeff Dean:

模型質量的顯著提升，是多種因素共同作用的結果。更好的加速器硬件功不可沒，無論是 TPU 還是近年來針對機器學習應用大幅改進的 NVIDIA GPU。軟件框架至關重要，它提供了良好的層次結構，使開發者能專注于性能和抽象本身，上層開發者則可基于此構建實用功能，無需過多關注底層細節。模型架構同樣進步巨大，尤其是在Transformer、視Transformer和MOE模型方面，這些已在最先進的模型中廣泛應用。訓練算法層面，無監督學習、自監督學習、異步訓練、蒸餾等技術不斷發展。模型預訓練后的監督微調，以及基于人類反饋或其他計算反饋的強化學習 (RL)，也都是極其重要的方面。此外，思維鏈、推測解碼和推理時間計算擴展等技術，在當今時代均扮演著關鍵角色。

Gemini項目構建領先的多模態模型

Jeff Dean:

在此介紹我們持續訓練的 Gemini 模型，以及這些創新技術在 Gemini 各版本中的應用。Gemini 項目由 Google DeepMind、Google Research 及 Google 其他部門協作發起。我們于 2023 年 2 月啟動，旨在訓練全球最強的多模態模型，并應用于 Google 的各項服務。這些模型能以多種方式助力 Google 的產品，并通過我們的云 API 對外開放。自 2023 年 2 月以來，我們取得了一系列進展：2023 年 12 月發布 Gemini 1.0，隨后不久發布 Gemini 1.5，并持續推出新版本。

我們從一開始就致力于打造多模態模型，因為我們認為純文本模型的功能局限，不如能理解語言、視覺輸入、音頻并能生成這些內容的模型實用。早期版本雖不能生成音頻輸出，但可接收音頻、視頻、圖像和文本輸入，并生成圖像和文本輸出。后續版本已增加生成音頻輸出的能力。

Gemini 1.5 引入了極長的上下文長度，允許用戶輸入長達數百萬 Token 的內容。例如，一份千頁文檔約等于一百萬 Token，這意味著可以將 50 篇研究論文、一本很厚的書或多本書同時放入模型的上下文窗口。對于采用注意力機制的Transformer模型而言，輸入數據信息呈現清晰是一大優勢，使模型能更有效地提取信息、總結和推理，其能力遠超處理其他類型數據。

Gemini 2.0 等模型構建于眾多創新技術之上。我們使用 TPU，利用 pathways 架構進行跨數據中心訓練 (覆蓋不同城市區域)，并結合 JAX 框架。詞語和圖像數據的分布式表示極為重要。同時，Transformer模型、稀疏專家混合技術和蒸餾技術也得到應用，此外還融合了許多其他技術，共同構成了我們的模型訓練與服務方案。

大約一個月前發布的 Gemini 1.5 Pro 是我們的最新模型，因其在多個基準測試中取得顯著進步而廣受好評，其編碼能力相較于之前的 Gemini 模型大幅提升。由 LM Arena (一個伯克利附屬的研究生團隊組織) 運營的平臺可用于比較不同模型的質量。用戶輸入提示后，平臺隨機選擇兩個后臺模型生成響應，并匿名展示給用戶選擇偏好，由此進行大語言模型間的“頭對頭”比較。通過上萬次此類用戶選擇，可以相當準確地評估模型的相對實力 (至少反映了 LM Arena 用戶的偏好)。這種評估方式十分有效，與模型的實際能力高度相關。Gemini 1.5 Pro 因此在 Elo 評分上較我們之前的模型有了顯著提高。

Gemini 1.5 Pro 在網絡上的眾多獨立評估中表現優異，并在一些偏學術的基準測試中取得佳績。(我們在《紐約時報》的 Connections 游戲上表現尚需努力。) 這些排行榜涵蓋了編碼、數學、多模態能力等廣泛領域。我們致力于打造在眾多不同領域都表現出色的通用模型。

用戶對這款模型普遍滿意，雖然有些評價或有溢美之詞，但用戶的喜愛是顯而易見的。

特別地，其長上下文處理能力對編碼任務極為有益，加之模型推理能力的顯著增強。百萬甚至兩百萬 Token 的上下文使得龐大的代碼庫能完整放入上下文窗口，允許模型執行復雜任務，如代碼重構或引入具有特定功能屬性的新特性。這也使得處理其他類型數據成為可能。例如，一位用戶輸入了包含 1000 首詩歌的數據集 (23 萬 Token)，并提出一系列需基于所有詩歌進行推理的問題，模型出色的表現令用戶印象深刻，因為這類任務確有難度。

我們高度關注的一個指標是來自 LM Arena 平臺的 Elo 分數 (Y 軸)，分數越高代表用戶評價中模型的能力越強、質量越高。X 軸表示不同商業模型的成本。理想的模型應位于圖表右上角區域。我們提供一系列不同質量與成本權衡的模型。例如，Flash 模型價格較低，約每百萬 Token 15 美分。最新的 Gemini 1.5 Pro 模型因計算量更大、運行成本更高而相對昂貴，但其質量使其性價比依然很高。我們致力于在質量與成本的帕累托前沿 (Pareto frontier) 提供多樣化選擇，并持續推動模型向圖表右上角區域發展。

Gemini的組織與技術實踐

Jeff Dean:

關于我們的組織方式：Gemini 是一個規模龐大的項目。Gemini 1.5 論文的作者列表很長，足以體現其大規模團隊協作的性質，每位成員都貢獻卓著。我們面臨的挑戰是如何構建高效的團隊結構，確保眾多成員能為一個模型項目有效貢獻力量。

我們采用的策略之一是設立不同領域方向，成員大致歸屬其一。有人專注于預訓練過程，有人負責數據，有人負責安全，有人負責評估。這并非嚴格界限，成員通常對某些領域有更強的歸屬感。項目設有整體的技術負責人，包括我本人、Oriol Vinyals 和 Noam Shazeer。我們還有能力出眾的項目管理和產品管理團隊。Gemini 本質是模型研發，但其產品意義重大，因需部署到 Google 的眾多產品和服務界面。因此，與各產品團隊溝通，了解其功能需求，明確模型表現優異及不足之處，并收集反饋，至關重要。

我們將這些領域大致歸為三類：一是模型開發，含預訓練，即在大規模文本及多模態數據上訓練模型；二是后期訓練，在預訓練后，利用少量數據，通過強化學習或監督微調等技術引導模型展現特定行為 (如回應禮貌、提高數學解題準確率)；三是設備上模型，如在手機上運行的 Gemini 模型，其特性與數據中心模型不同。

核心領域貫穿 Gemini 項目的多個方面，包括：訓練數據、評估、基礎設施、用于研究及生產模型訓練與推理系統的代碼庫、模型服務以及 Gemini 內部的長期研究。我們關注 Gemini 外部的相關研究，同事們會建議將有潛力的技術納入下一代 Gemini 的考量。最后是能力領域，關注模型的特定方面：能否確保安全與行為得當？是否擅長編碼？視覺或音頻任務表現如何？AI Agent 行為是當前重點。國際化也很重要，目標是讓模型在數百種語言中良好運行，而非僅限幾種。以上便是我們大致劃分的領域。

我們團隊大約三分之一的成員在舊金山灣區，我本人在山景城。大約三分之一在倫敦，其余三分之一分布在蘇黎世、紐約市、巴黎、波士頓、班加羅爾、特拉維夫和西雅圖等多個地方，這些是除前兩個地區外人員較為集中的地點。時區差異確實給協作帶來了挑戰。例如，加州西海岸與歐洲倫敦之間，在工作日內有效的“黃金協作時間”非常有限，可能每天僅有兩三個小時是雙方都方便進行會議的。超出這個時間窗口，總有一方會感到不便。特別是我們班加羅爾的同事，他們很難找到與其他地區都能重合的理想協作時段。

然而，這畢竟是一項全球性的事業，成員遍布世界各地也帶來益處。例如，當模型進行大規模訓練時，總有人處于清醒狀態，能夠實時監控訓練進程。很多時候，你向倫敦的同事提出問題時他們可能已經下班，但第二天早上你會發現問題已得到解答，相關工作也已推進。因此，分布式協作既有優勢，也充滿挑戰。

為了實現高效的分布式協作，我們大量利用虛擬 Google Chat 空間進行各種規模的討論和信息共享。我個人就加入了大約 200 個這樣的群組，因此早晨醒來時，經常會收到若干條來自倫敦同事的消息，他們正在積極工作并分享進展。我們還建立了一套相對規范化的“評論請求” (RFC) 流程。RFC 通常是一份 1 到 10 頁的文檔，闡述某項工作、研究思路、已有成果或計劃進行的實驗。大家通過 Google 文檔的協作功能提供反饋。對于部分 RFC，我們有正式流程來評估其價值，決定是否將其納入下一代模型訓練或新的訓練方案中。此外，我們還設有排行榜和通用基線 (common baselines)，依靠可靠數據來決策如何改進模型。

這套機制涉及多輪、大量的小規模實驗。我們將那些在小規模測試中顯現潛力的方案，推進到更大規模進行驗證，觀察其效果是否穩定并符合預期趨勢。基本上每隔幾周，我們會將那些在最大規模上被成功驗證的實驗整合到一個新的候選基線 (candidate baseline) 中。接著運行該候選基線，評估其是否優于之前的基線，并檢查新整合的各項改動之間是否存在非預期的相互作用。然后不斷重復此迭代過程。這基本上就是我們的工作模式，尤其是在開發預訓練方案時所遵循的流程。

除了人員規模擴展的挑戰，計算硬件規模的擴展也相當棘手。舉一個例子：靜默數據損壞 (SDC)。盡管我們已盡最大努力，但鑒于當前機器學習系統的龐大規模和訓練任務的巨大體量，硬件錯誤在所難免，并且有時硬件自身無法檢測到這些錯誤。由于整個系統高度耦合，源自單個故障芯片的不正確計算結果可能擴散并污染整個模型，導致系統非確定性地產生錯誤結果。這種情況可能發生在特定硬件上，也可能由背景輻射等因素隨機觸發于任何硬件。在大規模并行訓練中，尤其使用同步隨機梯度下降法時，此類問題會愈發嚴重，錯誤的計算結果極易傳播。

為此，我們在訓練過程中會監控梯度的范數。若觀察到范數出現劇烈尖峰 (spike)，我們會高度警惕。當然，梯度異常并不一定意味著發生了靜默數據損壞。我們檢測 SDC 的方法之一是：回退幾個訓練步驟，以確定性方式重放計算過程。如果重放得到相同結果，問題很可能源于數據本身，而非硬件故障。但如果得到不同結果，則表明可能存在硬件問題，因為重放過程理應是確定性的。在一個案例中，我們確實觀察到了梯度異常，但重放后發現，同樣的巨大梯度值再次出現，這表明該異常可能并非由硬件隨機錯誤引起。

此外，即使沒有觀察到明顯的異常信號（如梯度尖峰），通過例行或偶然的重放，也可能檢測到靜默數據損壞 (SDCs)。這種情況或許類似于，錯誤僅翻轉了浮點數指數的低位比特，影響較小；而非翻轉高位比特。高位比特翻轉的后果則嚴重得多，可能導致期望值為 0.7 的梯度驟變為10的12次方數量級的巨大誤差。

Gemini多模態與長上下文的應用實例

Jeff Dean:

接下來，我將舉例說明這些模型的能力。首先是代碼修復。模型可以幫助修復代碼中的錯誤 (bugs)。例如，一位用戶上傳了他的整個代碼庫和問題記錄，模型識別出一個緊急問題：某處代碼調用了同一個處理程序兩次。模型隨即給出了修復建議：增加一個標志位，用于檢查該處理程序是否已被調用，僅在未調用時執行調用。

第二個例子是上下文學習。Kalamang 是一種全球僅約 200 人使用的極低資源語言，互聯網上幾乎沒有其書面訓練數據。一位研究者撰寫了關于 Kalamang 語法的博士論文。實驗表明，若將這本論文作為上下文信息提供給模型，再讓其執行英語與 Kalamang 語的互譯任務，模型的表現竟能媲美一位手持同樣語法書和詞典進行翻譯的人類語言學習者。這充分展示了模型強大的上下文學習能力：即便面對訓練中從未接觸過的主題，只要在上下文中獲得相關知識（如此處 400 頁的論文），模型就能在一定程度上理解并應用這些知識完成任務。

還有一個有趣的應用：從書架視頻生成 JSON 數據。你或許未曾想過將視頻作為此類任務的輸入，但模型確實能處理書架視頻，識別上面的書籍，并以 JSON 格式輸出結構化的書籍信息。效果相當不錯。

接下來是視頻理解與摘要能力。模型現已能處理相當長的視頻，百萬 Token 的上下文長度大約可容納兩小時視頻。例如，我們給模型輸入一段體育集錦視頻（包含圖像和音頻，時長約 11 分鐘），并給出提示：“請用表格形式，列出視頻中每個標志性體育時刻的運動項目、相關隊伍/運動員、年份，并簡述其標志性意義。” 模型不僅理解了視頻內容，還輸出了一個精確包含所有要求信息的結構化表格。這已超越簡單的文本摘要，達到了更深層次的文本提取和結構化數據生成水平，完全基于視頻上下文。我認為，人們尚未充分認識到利用此類多模態數據所能實現的各種有趣且實用的功能。

歷史數據數字化是另一個應用實例。我最近看到一個案例，研究人員輸入了一百年前的老式表格樣式的天氣數據（可能為掃描件或圖片），直接向模型發出指令：“請將數據轉換為 JSON 格式。” 模型成功完成了任務。他們用此方法處理了 144 個表格，總成本僅 10 美分，有效“解鎖”了這些塵封已久、難以利用的歷史天氣數據。

下一個能力是通過高級自然語言提示生成代碼。例如，給 Gemini 2.5 模型這樣一個提示：“使用 P5js 探索 Mandelbrot 集 (Mandelbrot set)。” 這是一個非常簡潔的自然語言指令。（此處提及現場演示因網絡問題未能進行）正常情況下，模型會生成一個精美的、可交互的 Mandelbrot 集可視化探索程序。

塑造AI的未來：社會影響與責任

Jeff Dean:

由于時間關系，我將跳過一些內容，直接探討一個至關重要的話題：既然我們擁有了這些強大的模型，它們將對社會意味著什么？

為此，我與其他八位合著者近期合作撰寫了一篇論文，題為《塑造 AI 對數十億生命的影響》。我們的作者團隊匯集了來自學術界、大型科技公司和初創企業的計算機科學家及機器學習專家。論文旨在探討：在有目標導向的研究和政策引導下，人工智能可能對世界產生何種影響？我們反對采取消極的“自由放任”態度，被動等待其未知后果（無論是毀滅性災難還是無限進步）。我們主張采取務實的態度：整個社會，包括研究者、從業者、專家和政策制定者，應共同努力，積極引導和塑造 AI 的發展，以求最大化其益處、最小化其風險。這篇論文的核心即在于探討如何通過集體行動實現這一目標。

為支撐論點，我們訪談了來自就業、教育、醫療健康、信息媒體等七個不同領域的 24 位頂尖專家，包括前總統 Barack Obama、教育家 Sal Khan、諾貝爾獎得主 John Jumper（我們在他獲獎前進行了訪談）、科幻作家 Neil Stevenson、Anthropic CEO Dario Amadei、前國會議員 Bob Walker 等。基于訪談和研究，我們提出了五項旨在確保 AI 服務于公共利益的指導方針。我認為該論文對 AI 在就業、教育、醫療等關鍵領域可能產生的影響，以及我們應如何引導這些影響，進行了深入且有價值的討論。我們所有人都必須攜手合作，確保 AI 朝著正確的方向發展，這一點至關重要。

大語言模型正成為強大的通用工具

Jeff Dean:

最后總結，除了上述內容，我們在論文中還針對一些關鍵領域提出了未來值得努力實現的具體里程碑，為后續研究和發展指明了方向，這也是論文的動機之一。總而言之，大語言模型正日益成為極其強大且實用的工具。隨著投資持續增加、研究人才涌入以及技術成果不斷整合，我們必將見證模型能力的飛速提升。

這將對眾多領域產生深遠影響。其中一個最核心的潛在變革是，能將以往由少數專家掌握的深層專業知識，普及給不同領域的廣大民眾。這無疑是激動人心的前景，但同時也讓一些人感到不安，因為專業知識的廣泛可及性可能帶來新的挑戰。然而，只要我們審慎規劃、有效引導，我相信，人工智能輔助的未來必將一片光明。

現場互動

現場提問：AI 安全是我們都非常關注的問題，但對于大型研究實驗室之外的人來說，如何進行有益且具影響力的工作尚不明確。從確保AI可控發展的角度看，如果您是剛起步的博士生、有經費的教授或能收購初創公司，您會在AI安全領域優先做什么？

Jeff Dean:我認為 AI 安全是一個相當寬泛的話題。當前存在許多擔憂，主要是關于這些模型日益增長的能力，可能會讓一些人做出他們原本無法做到的、帶有惡意或從社會角度看不良的事情，或者說是社會不希望發生的事情。我認為，部分問題可以通過技術手段解決，但同時也需要出臺基于政策和監管的措施，來對其中的某些方面加以限制。我們在論文中討論的一個主題是關于錯誤信息和公共討論。在這方面，AI 模型顯然有能力制造更逼真的錯誤信息，并且讓人們能以更低成本進行大規模制造。錯誤信息并非新鮮事物，一直都可以制造，但現在有了這些工具，使得制造過程更逼真、更快速。這絕對是一個問題。隨之而來的一個研究問題是，如何檢測那些可能由其他機器學習模型生成的錯誤信息？此外，我們也可以從一個更積極的角度來看待這個問題。我們在論文中提出的一個觀點是，已有早期證據表明，AI 模型可以用來促進在線論壇中更具建設性的討論。所以，這是一個值得探索的領域：如何讓 AI 模型能夠鼓勵更積極的對話，并在人們的相互交流中識別錯誤信息。這些是我認為相當有趣的一些方向，但那篇論文里還有很多想法都值得研究。而且我認為，并非所有這些問題的解決方案都必然是純粹技術性的。

現場提問：在日常工作中嘗試使用AI或大語言模型時，常常感到失望。這究竟是LLM需要更多訓練，還是用戶需要學習如何更好地提問？

Jeff Dean:這是個非常好的問題。我傾向于認為兩者兼而有之。我的意思是，首先要認識到，這些模型的進展速度非常快。比如，八個月前的 Gemini 模型遠沒有現在的 Gemini 模型那么強大。所以，有時人們對模型能力的印象是基于過去的經驗——他們曾嘗試讓模型做復雜的事情但失敗了。但現在，同樣的事情可能已經接近實現，甚至可能做得相當不錯。因此，一方面是要關注當前模型的能力，而不是八個月前那些堪稱“古早”的模型。另一方面，是要熟練掌握如何引導 (coax) 模型來滿足你的需求。這很有趣：通過一個精心設計的大約一頁紙的提示 (prompt)，你幾乎可以基于一個通用模型創造出一個完全不同的應用，這和你用另一個不同的一頁紙提示得到的結果會截然不同。例如，一個提示可能會說：“請基于這個視頻內容，為我創建一個教育游戲，反映這個講座視頻中探討的概念。” 在某些情況下，模型確實能創建一個功能完備的游戲軟件，用以闡釋某個講座或科學視頻中的概念。雖然不總是成功，但這大概就是目前技術發展的前沿可能性。當然，對模型進行更多訓練也會有幫助，因為模型會因此變得更強。我想大家已經看到了這一點，從 Gemini 1 到 1.5 再到 (可能指未來的) 2 和 2.5，進步是巨大的。我預計 Gemini 3.0 及之后的模型將比當前的模型強大得多。模型能力不斷提升是整個行業的普遍趨勢。

現場提問：業界擔憂數據可能成為新的瓶頸。您個人對此有何看法？數據真的是瓶頸嗎？如果不是，該如何應對？如何擺脫對抓取整個互聯網數據的依賴？

Jeff Dean:是的，我確實沒有把數據列出來，但它其實一直都非常非常重要。只是對于很多數據相關的工作來說，通常不像硬件或算法那樣有一個明確具體的成果物 (artifact) 可以展示。數據工作的核心在于高質量數據的策劃，我們在 Gemini 項目中就投入了大量時間做這件事。我確實聽到一些擔憂，說我們快要用盡高質量數據，導致無法繼續提升模型能力。但我目前覺得這種說法不太可信。首先，現在還有海量的數據我們根本沒有用于訓練。比如，想想全世界所有的視頻數據，我們目前只用了一小部分視頻數據進行訓練，這可能只占 YouTube 語料庫的極小一部分，而且這還僅僅是全球視頻數據的一部分。所以我認為，我們遠沒有到耗盡原始數據的地步。另外，從機器學習研究的角度看：我認為我們還有很多工作可以做，從而讓模型能從每單位訓練或每個 token 的訓練數據中獲得更大的質量提升。比如，我們剛才在一個內部討論中也談到，假設用兩句話描述兩個數如何相加。模型目前只是通過預測下一個 token 來“吸收”這個信息。但這通常不意味著它真正以一種深入的、算法化的方式理解了加法這個算法。它只是具備了一個用于預測“規則”的下一個 token 的預測器，但在某種意義上，它對算法本身并未真正理解。所以，如果你思考一下真正希望模型能做什么，那應該是：它能讀懂那個算法描述，然后在內部構建一種表示，讓它在需要的時候能夠運行這個算法。這樣的話，就能從那15 個 token 中提取出遠超當前方式的價值。所以我認為在這方面還有很大的提升空間。在這個領域，我還想說的另一點是，在像改進 ImageNet 卷積神經網絡那個時代，人們用一百萬張圖片、一千個類別來訓練模型。當時讓模型更強大的方法之一，就是對訓練數據進行很多很多次的訓練輪。而我們現在擁有的文本數據語料庫非常龐大，以至于目前的計算資源還無法支持我們進行很多次的訓練輪。但隨著硬件能力的提升，未來也許就能對數據進行 50 次訓練輪，而不是僅僅 3 次。這很可能會提升模型的質量，當然具體能提升多少還有待觀察。

現場提問：下一個重大挑戰是什么？我們看到模型在各項基準測試上持續進步，但是否存在某個“非此即彼”式的挑戰，即模型目前尚無法逾越的特定能力門檻，例如形式推理或其他可被視為下一個重大突破的能力？

Jeff Dean:我認為存在一個挑戰，它并非一個涇渭分明的階躍，但卻極其艱巨。那就是我們期望模型具備的能力：能在一定程度上自主運行，并相對獨立地完成我們交給它的復雜任務。例如，你能否讓模型幫我規劃一個為期兩天的蘇黎世旅行，因為我正好有幾天空閑時間想安排些有趣的活動？但這個指令比較模糊，模型可能需要借助工具來弄清楚蘇黎世是什么地方、在那里可以進行哪些活動。目前我們看到，模型能夠將復雜任務分解為數個步驟，或許能有限地調用工具來串聯不同操作，以完成相對簡單的任務。但我們尚未看到模型能處理極其復雜的任務：自主將其分解為 50 個子步驟，調用多種復雜工具，最終完成一項可能需要耗費普通人兩個月時間的龐大工程。我認為，模型當前能以大約 60%至70% 的準確率完成 3到5步的任務，這與我們期望的未來——能以 95% 的準確率、通過 1000 個步驟完成相當于一個月工作量的目標相比，存在著巨大的鴻溝。后者正是人們期望系統達到的能力水平，然而它與我們目前的現狀，以及那些可以想象但眼下絕對無法實現的能力之間，差距極為懸殊。所以，我認為這更像是一個連續發展的過程，而非某個單一的、可以一蹴而就的突破點。不過，大家將會看到模型的能力持續增強，例如，當它們能以 90% 的準確率完成 10 步任務時，這將是一個重要的中間里程碑。

關于本期演講

訪談發布時間：2025年4月20日

原視頻地址：https://youtu.be/q6pAWOG_10k?si=LLTYuXfHiJdKiZ4r

【AI產業及應用討論社群｜僅限受邀加入】

AI算力領域TOP級從業者專屬圈層

√ 與頭部算力企業深度對話

√ 與AI上下游企業深度對話

√ 獲取一手全球AI與算力產業信息

√ 獲取AI熱點及前沿產業獨家信息

√ 隨時了解全球AI領域高管最新觀點及實錄全文

√ 有機會參與AI主題產業交流活動

掃碼驗證身份（需備注姓名/公司/職務）

不止有 DeepSeek，更有 AI產業的未來！

| 文章來源：數字開物

? END?

【專欄】精品再讀

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.