網易首頁 > 網易號 > 正文申請入駐

剛剛，谷歌AI路線圖曝光：竟要拋棄注意力機制？Transformer有致命缺陷！

2025-06-16 16:59:42　來源: 新智元

北京舉報

分享至

新智元報道

編輯：Aeneas KingHZ

【新智元導讀】未來AI路線圖曝光！谷歌發明了Transformer，但在路線圖中承認：現有注意力機制無法實現「無限上下文」，這意味著下一代AI架構，必須「從頭重寫」。Transformer的時代，真的要終結了嗎？在未來，谷歌到底有何打算？

就在最近，谷歌未來的AI路線圖曝光！

谷歌產品負責人Logan Kilpatrick在AI工程師世界博覽會的演講中，介紹了Gemini模型的未來。

在未來，Gemini的全模態是重點，模型正在逐步變成智能體，推理能力還會持續擴展。

要點速覽——

· 全模態（r）

已經原生支持圖像 + 音頻生成，接下來是視頻

·Diffusion的早期實驗（r）

擴散模型相關

· 默認具備Agent能力（m）

一流的工具調用與工具使用能力，但更重要的是，模型正在逐步變成智能體

·推理能力持續擴展（s）

一個又一個研究突破接踵而至

· 更多小模型（s）

很快會有更多內容可以分享

· 無限上下文（r）

以當前注意力機制和上下文處理方式，這是不可能實現的我們需要在核心架構層面進行全新創新，才能實現這一目標

· 大模型

規模即一切

注意，(r)、(s) 和 (m) 表示每個項目在谷歌路線圖中的進展程度：

?(s)= short:短期/即將上線——表示已經在進行中或即將推出的項目

?(m)= medium:中期——仍在開發中的項目，將在未來幾個季度內推出

?(r)= research:研究/長期項目——在發布之前仍處于實驗階段或需要突破性進展

硅谷大廠混戰

AI年中成績單大盤點

可以看出，谷歌現在是春風得意馬蹄疾，Gemini 2.5 Pro讓它穩穩扳回了一局，再次證明了自己在AI領域老大哥的地位。

X上的大V「Chubby」，也對硅谷大廠們進行了一期「年中盤點」。

OpenAI

目前仍處于領先地位，憑借o3、o3 pro以及即將到來的GPT-5，依然地位穩固。他們保持著定期更新，經常發布AI工具，不斷增長的用戶數量說明了一切。

DeepSeek

DeepSeek在r1取得可觀成功后陸續推出了重大更新，但目前全世界仍在等待后續產品r2。關于DeepSeek后期將如何繼續推進，目前尚無線索。

Anthropic

仍然是軟件開發(SWE)領域的領頭羊。如果其CEO所言不虛，智能體和進一步的發展將在未來幾年內實現所有流程的自動化，并由通用智能體來處理。目前，Anthropic 正專注于商業領域（這一點從較低的速率限制上也不難看出），并繼續保持強勁地位。

谷歌

然而，今年最大的贏家可能是谷歌，它幾乎是從后起之秀躍居領先地位。Gemini 已經取得了令人矚目成功。產品的定期更新、許多公告，包括出色的TPU定位，讓谷歌的未來看起來一片光明。

Meta

不可否認，Meta已經落后了。Llama 4失敗了，Behemoth也還沒有發布。小扎組建了新的超級智能團隊，試圖再次迎頭趕上。Alexandr Wang從Scale AI加入Meta是否會成為轉折點？仍有待觀察。

Grok

Grok 3.5也即將上線。目前很難評估。Grok在Colossus集群中顯然處于有利位置。然而，它是否能訓練出更好的模型？仍有待觀察。

這其中評價最高的谷歌，接下來一段時間會有什么大動作？

讓我們仔細看看Logan Kilpatrick的演講內容，從中找出關鍵線索。

全公司公認，Gemini 2.5 Pro是谷歌重大轉折點

這次大會上，前OpenAI成員、谷歌AI Studio產品負責人Logan Kilpatrick的演講干貨滿滿，透露了不少Gemini 2.5 Pro以及將來谷歌Gemini的計劃的細節。

關于Logan Kilpatrick這位哥，還有一件趣事：據說Gemini制作笑話的能力完全是根據他的推文訓練出來的，這就是為什么它們都不好笑。

目前，Logan Kilpatrick負責Gemini API開發及AGI研究

在演講中，Logan Kilpatrick快速講了三部分內容：

關于Gemini 2.5 Pro的一些有趣的發布內容；
回顧過去一年的Gemini進展；
展望未來 —— 模型本身、Gemini App，以及開發者平臺的后續計劃。

關于Gemini 2.5 Pro，他認為它被谷歌內部、也被外部開發者生態認為是一次「轉折點」——

它為Gemini的未來奠定了堅實的基礎。

Gemini的愿景

「統一助手」

Logan Kilpatrick給大家提了一個問題：谷歌過去各產品之間的連接是什么？

大多數人會想到：谷歌賬號。但谷歌賬號本身其實不「保留狀態」，它的作用只是讓你登錄各個獨立產品。

而現在，Gemini正在成為「統一線程」（thread）——串聯起谷歌所有服務的那條線。

Gemini App，很有意思，很酷，體現了谷歌如何思考AI產品的未來。

他相信，谷歌的未來會呈現出這樣的面貌：

Gemini將成為統一接口，連接所有谷歌產品，形成真正的「全域助手」。

目前大多數AI產品，仍然是「用戶主動操作」——你要主動提問，主動請求功能。

但最令人興奮的是AI的下一個階段：

「主動式AI」（Proactive AI）——AI 主動為你發現問題、提供建議、自動處理任務。

而現在，谷歌全力押注新范式轉移：

多模態能力：原生音頻處理已支持Astra和Gemini Live，Veo技術保持業界領先，視頻整合將是下一階段重點
模型進化：從單純的token處理器轉向具備系統化推理能力的智能體，「推理擴展」尤其值得關注
架構創新：包括小模型生態、無限上下文解決方案（需突破現有注意力機制限制）以及早期擴散實驗展現的驚人token處理能力

向「全模態統一模型」邁進

從模型層面看，Gemini最初就被設想為一個統一多模態模型：音頻、圖像、視頻，全都能處理。

在這方面，谷歌取得了很大進展：

谷歌I/O大會宣布了Gemini的原生語音能力（文本轉語音TTS、語音合成、語音交互）；
它已經支持自然對話，聽起來非常自然；
這些能力已集成到Astro與Gemini Live。

Astro是谷歌的研究原型，探索為旗下產品帶來突破性能力的途徑。

目前，Astro集成了下列能力：

谷歌還在推進「Veo」相關能力（Video + Other），它已在多個指標上達到SOTA水平，未來也會并入主線Gemini模型。

此外，谷歌還在研究「基于擴散的推理」（diffusion-based reasoning）—— Gemini Diffusion。但此項目仍屬研究前沿，尚未進入主線，但前景令人期待。

Gemini Diffusion有極高吞吐速率，每秒可采樣1000余token

智能體成為主流

最近，Logan Kilpatrick一直在思考：隨著系統推理能力越來越強，未來AI產品是什么形態？

過去，開發者總是把模型當作黑盒工具：

輸入token，輸出 token；

然后在外部構建各種scaffolding（支架）以增強功能。

但現在，情況變了：

模型自身越來越系統化，越來越能自主做事，不再只是「被動計算器」。

他認為，「推理過程」將成為一個核心變革點：如何擴展模型的推理能力。

他非常期待的問題是：

過去外部做的很多scaffolding，未來是否會被整合進模型的內部推理流程？這將徹底改變開發者構建產品的方式。

更多路線圖：小模型、大模型、無限上下文

除此之外，谷歌還會在以下新產品和研究上發力。

更多「小模型」——輕量級，適合移動端與低功耗設備；
更大的模型——滿足用戶對極致能力的期待；
更重要的是：「無限上下文」的研究突破。

當前的AI模型架構（如Transformer）的重要缺陷之一，就是無法很好地支持無限上下文。

谷歌認為，既然注意力機制無法無限擴展，那就必須有新結構。

即將上線的開發者功能重點如下。

嵌入模型（Embeddings）雖然感覺像「AI早期工具」，但仍是核心組件。 RAG應用背后大多數都依賴embedding。姑給即將發布一款最先進的Gemini嵌入模型，并拓展給更多開發者。
深度研究API（Deep Research API）用戶對「深度研究」功能喜愛有加。谷歌正在將這些能力聚合為專門的 API 接口，面向研究型產品開發者。
Veo3與Imagine 4接入API：很快將上線。

最后一個重點，谷歌計劃重新定位「AI Studio」:

不再是2C產品，而是明確定位為「開發者平臺」。

未來，AI Studio將成為真正的開發工具平臺，內嵌Agent構建能力，例如Jules或開發者專屬代碼Agent，為開發者提供完整構建體驗。

2024：Gemini最瘋狂的一年

對谷歌Gemini團隊來說，過去一年可以說是「最瘋狂的一年」。

在谷歌I/O上，劈柴展示了一頁幻燈片：過去12個月，谷歌Gemini團隊仿佛壓縮了10年的開發工作。

從個人角度出發，Logan Kilpatrick認為谷歌真正的優勢在于：

不僅在做AI基礎研究，還在推進科學、幾何、機器人等多領域的研究，

這些研究最后都會反饋到主線Gemini模型中。

在谷歌I/O演講中，劈柴還展示了另一張幻燈片：在過去一年，谷歌服務器AI推理任務處理量提升了50倍！

Logan Kilpatrick認為：「這說明外部開發者生態對Gemini模型的需求呈爆炸式增長。」

其實背后的關鍵不只是技術，而是組織結構的變革。

2023 年初，谷歌把多個AI研究團隊整合到DeepMind，制定了新方向：

不再僅限于理論研究，而是要做出真正實用的模型，服務于谷歌內部與外部開發者生態。

之后，又邁出第二步，將產品團隊也納入DeepMind。這意味著：

DeepMind負責研發模型、推動研究；
同時也打造產品并將其交付給全球用戶。

最近，谷歌還任命DeepMind的首席技術官Koray Kavukcuoglu擔任新的高級副總裁職位——首席AI架構師。

Koray Kavukcuoglu

與研究團隊密切合作，把尖端模型能力帶到現實世界——

這種「前沿協作」的過程讓Logan Kilpatrick個人非常享受。

這種創新的節奏非常令人興奮，他相信這才剛剛開始。

谷歌DeepMind內部公式很簡單，總結一句話：

找到最優秀的人，發現基礎設施優勢，然后……不斷發布！

參考資料：

https://www.youtube.com/watch?v=U-fMsbY-kHY&t=1676s

https://www.semafor.com/article/06/11/2025/google-names-new-chief-ai-architect-to-advance-developments

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.