全文 4,000字 | 閱讀約18分鐘
(訪談: DeepMind CEO Demis Hassabis和聯(lián)合創(chuàng)始人
Sergey Brin)
2025 年 5 月 21 日 · Google I/O 主論壇后臺
燈光剛亮,主舞臺尚在調(diào)試,谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林(Sergey Brin)卻已悄然現(xiàn)身,與 DeepMind CEO Demis Hassabis 并肩而坐。
這位谷歌聯(lián)合創(chuàng)始人自 2023 年重返一線后鮮少發(fā)聲,這次突然出鏡,不為發(fā)布產(chǎn)品,只為展開一次關于 AGI 的真實對談。
短短 30 分鐘,兩人提出了一個看似簡單、實則徹底顛覆我們認知的問題:
什么才算真正的 AGI?
不是會說話,不是能寫代碼,而是:
能自己思考,而不是馬上給答案;
能看懂世界,而不是死記語料;
能完成任務,而不是等你指令。
Demis 給出的答案,是一句幾乎所有技術人都該牢記的定義:
“AGI 只差三層結(jié)構:推理引擎、世界模型、任務執(zhí)行器?!?/blockquote>這不是簡單的模型升級,而是智能架構的重構。
正如 Google 在 I/O 2025 大會上,一口氣發(fā)布十余項核心產(chǎn)品所展現(xiàn)的節(jié)奏, Google 與 DeepMind 正在通過 Gemini Flash、Astra、Mariner、Veo 等組件,將這三層結(jié)構融入產(chǎn)品底座,逐步實現(xiàn)“可運行的 AGI 平臺”。
而這不僅僅是 Google 一家的判斷——
就在同一天,馬斯克也在卡塔爾經(jīng)濟論壇上說:“我們正在看到數(shù)字超級智能的爆發(fā)?!?/blockquote>我們將基于這場“爐邊對談”與現(xiàn)場發(fā)布內(nèi)容,拆解清楚:
三層結(jié)構各自負責什么、為啥缺一不可;
Gemini 系列產(chǎn)品如何構建智能系統(tǒng)平臺,而非單一助手;
對國內(nèi)創(chuàng)業(yè)者和產(chǎn)品團隊的啟發(fā):你能在哪一層卡位,如何以任務為單位快速落地 AI 產(chǎn)品。
一句話劇透:
AGI 不再是某個“終點模型”,而是一整套“可思考 × 可感知 × 可執(zhí) 行”的平臺入口。 你的真正護城河,只剩下一個問題:你能否比別人更早提對問題。第一層:推理引擎,讓 AI 學會先想后答“我們正在測試一套新方法,你給它越多時間,它表現(xiàn)得越好?!?Demis Hassabis 說這句話時,沒有任何技術術語,但現(xiàn)場鴉雀無聲。
他在講的是 DeepMind 的新系統(tǒng):DeepThink。
這個系統(tǒng)不是靠升級算力,而是通過“思考時間”讓模型變得更強大。換句話說,它不是馬上給答案,而是“像人一樣停下來想一想”,然后才回答。
“如果我們只讓 AlphaGo 下第一步,它是大師水平;但當你給它幾分鐘思考,它就能超越世界冠軍 600 分?!薄狣emis Hassabis這就是 Demis 所說的“推理型 AI”。
過去我們用的大語言模型,是按順序“猜下一個詞”的工具。它生成內(nèi)容很快,但不一定能理解問題的真正含義,也不會計劃——就像一個從不復查答案的考生。
推理型 AI 則不一樣。
它在做出判斷前,會嘗試多走幾步、模擬不同可能性、相互驗證再決定。這更像人類在面對復雜問題時的做法。
謝爾蓋·布林補了一句:“就像我們說話前,會花點時間想一想……雖然我們不總這么做(笑)?!?/p>
這種“AI 先思考、再回答”的設計,就是 AGI 的第一層基礎結(jié)構:推理系統(tǒng)(Reasoning System)。
這就是 AGI 的第一層:推理系統(tǒng)
它讓 AI 從語言工具變成任務思考者。
Demis 舉了個更現(xiàn)實的例子:
“有些任務,比如下圍棋,或者編寫一套復雜程序,AI 如果只是給你第一反應,頂多是普通水平。但你給它空間讓它深入推理幾輪,它能提出比人類更優(yōu)的方案。”
這不再是“提問—回答”的模式,而是“目標—規(guī)劃—執(zhí)行”的節(jié)奏。
這種能力的背后,其實就是一種“自我協(xié)商”的大腦機制。DeepThink 就是讓模型在內(nèi)部進行多個并行推理過程,彼此辯論、彼此修改,最后輸出一個更可靠的結(jié)果。
你可以把它想象成:
一群“AI角色”在模型內(nèi)部開會,各自提出方案、質(zhì)疑、討論,然后才達成一致對外輸出。Demis 說得很直白:“這是我們構建 AGI 路上最重要的一步?!?/p>
第二層:世界模型,讓 AI 真正看懂現(xiàn)實
“不是聊天機器人?!?Demis Hassabis 在談到 AGI 時,強調(diào)了這點。
“如果你想構建真正的智能系統(tǒng),它必須能理解物理環(huán)境,感知世界,而不僅僅是對語言有回應。”
這就是 AGI 的第二層結(jié)構:世界模型。
簡單說,一個智能系統(tǒng)不能只活在詞語堆里,它必須“看得懂這個世界”。
謝爾蓋·布林接著說:
AI 現(xiàn)在的很多錯誤,是因為它只學了大量內(nèi)容,但不理解這些內(nèi)容所對應的真實場景。Demis 舉了一個例子。他提到自己早年開發(fā)過圖形引擎,要手動編程每一道光影、反射和材質(zhì)。但今天的 Veo 3 模型,已經(jīng)能憑提示生成接近真實的物理世界畫面,連光線和物體行為都符合常識。
我驚訝于 Veo 能理解物理學。 它知道液體怎么流,鍋是熱的,光從哪里來。這不是生成內(nèi)容,而是生成“現(xiàn)實感”
這不是“看起來逼真”,而是 AI 正在建立一個對世界有直覺的內(nèi)部模型。
在他看來,這種理解世界的能力,比讓 AI 寫出一段漂亮的文字難多了。
他還提到一個關鍵問題:“我們現(xiàn)在需要的,是能積累常識性知識的系統(tǒng),知道球為什么不會穿過桌子,知道物體有質(zhì)量、有慣性、會掉下來?!?/strong>
布林插了一句很輕,但很有力量:
我們的狗都知道球會從桌子另一側(cè)滾出來,但很多 AI 還不懂。這句話講清了“世界模型”的意義——不是背知識點,而是有對現(xiàn)實的常識感。
Demis 強調(diào),這種能力不僅用于生成視頻,而是構建通用智能系統(tǒng)的根基。
他表示:未來的助手,必須能理解你身邊正在發(fā)生的事。它不能只靠對話,而要看得懂你的位置、目標、操作環(huán)境。
這就是為什么 DeepMind 要從一開始就讓 Gemini 成為多模態(tài)模型——不僅處理文本,也處理圖像、語音、視頻,甚至空間和動作。
如果 AI 能像人一樣看、聽、感受,它就能在真實世界中協(xié)助你做事。
布林也補充了一句耐人尋味的話:
智能眼鏡的真正用途,不是看信息,而是讓 AI 看世界。這一層,叫做“世界模型”,其實更像是AI 的現(xiàn)實感知器官。它不背書,而是“看著”你生活的現(xiàn)場,理解你的意圖和環(huán)境,再決定下一步怎么協(xié)助你。
第三層:執(zhí)行系統(tǒng),讓 AI 不等你指令就去做
“我們一直是這種 Agent (智能體)思想的堅定支持者。” Demis Hassabis 把這句話說得很穩(wěn),也說得很重。
不是聊天,不是推薦,也不是語義理解,而是讓 AI 真正替你完成一件事。
這就是第三層:執(zhí)行系統(tǒng)。
今天我們看到的,是 AI 從對話模型轉(zhuǎn)向任務代理。 你給它一個目標,它規(guī)劃路徑、使用工具、調(diào)用模型,最后替你把事辦了。AI 不再“等你發(fā)指令”,它開始主動理解你的任務
Demis 給出的例子是 Project Astra:
Gemini 透過攝像頭看到一間辦公室,識別白板上的代碼和紙上的筆記,理解用戶正在調(diào)試一個問題,然后提出解決方案。
它并非僅僅解答“‘if’語句出錯時如何處理”這類表面提問,而是能夠主動識別出用戶正在進行代碼調(diào)試的場景,并迅速切換至專門的輔助狀態(tài)。
它不是執(zhí)行一條指令,而是理解你正在處理什么,并給出完整解決過程。布林補了一句:
我們過去說 AI 是助手,其實現(xiàn)在它更像同事。 你不需要不斷下命令,它開始自己找事做。這種 AI,不是插件組合,而是具備執(zhí)行意識的智能體。
Demis 解釋道:“執(zhí)行智能體的核心,是三件事:目標識別、工具調(diào)用、多步推理。”
你說一句“我下周要飛廣州開會”,它不只是訂機票,而是:
推斷你想提前到;
查你常去的酒店;
安排日程,自動整理會議資料;
如果你加了一句“調(diào)用 Gemini 模型”,它會幫你打包代碼、同步日歷、調(diào)試版本庫。
誰構建“AI 執(zhí)行入口”,誰定義下一代平臺
這也是為什么 Demis 多次強調(diào):“模型只是基礎,更關鍵的是執(zhí)行框架的調(diào)度架構。”
布林用了一個更直白的回答:
過去是你使用AI,現(xiàn)在是AI開始協(xié)調(diào)你要完成的事情。他們正在構建的,是一個從目標識別 → 路徑規(guī)劃 → 工具執(zhí)行 → 結(jié)果評估的完整閉環(huán)。這個閉環(huán)背后,是一個真正能接管任務鏈條的AI助手。
而 Gemini Live、Gemini for Chrome、Project Astra、Gemini API 都是這個執(zhí)行生態(tài)的組成部分。
Demis 總結(jié)道:
我們不是在構建一個 App,而是在構建一個可以協(xié)作的操作平臺。系統(tǒng)收口:Google 用 Gemini 重構智能底盤“我們不是在堆產(chǎn)品,而是在構建一套智能系統(tǒng)。” Demis Hassabis 這句話,準確點出了 Gemini 背后的真正方向。
他說的不是發(fā)布策略,而是在劃清一條技術分界線: 現(xiàn)在的 Gemini,不再是一個回答問題的助手,而是一套智能平臺的底層架構。
從 DeepThink 的推理能力,到 Veo/Gemini 的世界理解,再到 Project Astra 的任務執(zhí)行,這三層能力,原本分散,如今被裝進了一個統(tǒng)一的智能框架里。
“我們不是孤立推出工具,而是在打造一個 AI 操作系統(tǒng) ,它能連通模型、感知、動作和目標?!?——Demis HassabisGemini 的目標,從來就不是“答得更快”,而是主動幫你把事辦了。
謝爾蓋·布林點出核心差別:
OpenAI 在做一個更聰明的助手,Google 做的是一個智能平臺。他們不是在優(yōu)化對話,而是在重構“誰來協(xié)調(diào)任務、誰控制節(jié)奏”的底層邏輯:
用戶不再是“提問者”,而是“設定目標的人”;
AI不再是“能聽話的工具”,而是“能動手的合作者”。
Demis 說得很透徹:
模型當然還在進步,但真正關鍵的是——系統(tǒng)怎么調(diào)動它們一起完成事。這也是為什么 Gemini 從一開始就設計為多模態(tài):能理解圖像、聲音、語言、空間……因為如果它看不懂你看到的世界,就無法真正幫你行動。
布林總結(jié)得更清楚:
AI 正在從一個插件,變成一個入口。當推理(思考)、感知(理解)、執(zhí)行(行動)被打包進一個平臺, 你面對的,不再是一個助手,而是一套可以接管復雜任務的 AI 操作系統(tǒng)。
Demis 最后的話像是為這次對談劃上的注腳:
我更愿意把 AGI 看作一套結(jié)構化框架,而不是某個突變時刻。真正的轉(zhuǎn)折點,不是模型突然變聰明的那一刻, 而是我們第一次,看清了 AI 協(xié)作的整張藍圖。
AGI 不是一個“模型”,而是一整套可運行的系統(tǒng)
回看 Demis 和布林的這場對談,他們其實沒在談未來,而是在交代一件更實在的事:
AGI 的結(jié)構已經(jīng)成型,只差最后幾塊拼圖落位。
推理,不只是預測詞語,而是能自己想一步;
感知,不只是生成圖像,而是理解空間、因果、物理世界;
執(zhí)行,不只是回應請求,而是主動完成任務。
三者合一,就是智能的“思維 + 感官 + 動手能力”。
Gemini,不是一個模型的名字,而是這套能力首次在真實系統(tǒng)中的組合落地。
布林沒用炫技語氣,只是淡淡一句:“這是一個 AI 操作系統(tǒng)。” Demis 也只是說:“我們只差一兩個關鍵突破?!?/p>
如果說過去幾年我們是在爭論“AGI 到底存不存在”,
那么 2025 年最大的變化,是:沒人再爭了。
馬斯克在卡塔爾經(jīng)濟論壇上發(fā)言)馬斯克的一句話,正是這個轉(zhuǎn)折的標志:
“我們已經(jīng)接近AGI 了?!?/blockquote>? 是時候重新思考了:
如果AI已經(jīng)能思考、看懂世界、還能完成任務——
你是繼續(xù)凡事親力親為? 還是學會下指令,讓AI來配合你? 科技工具在升級,工作方式也在變革。
而這場變革,不只取決于 Google、OpenAI 或馬斯克,也取決于你今天如何使用它。
? 你可以從這一點開始嘗試:
用現(xiàn)在的 AI,完成一件你從沒交給它做過的事。
比如——
讓它幫你排出一個完整會議日程(時間、議程、路線、內(nèi)容);
讓它復盤你一周任務節(jié)奏,并給出優(yōu)化建議;
或者就給它一段視頻、一個網(wǎng)頁,看看它能幫你理解出什么。
你會發(fā)現(xiàn):
AI 不再只是你點它就動的工具,而是一個理解你、跟上你、替你執(zhí)行的智能伙伴。
不是炫技,而是進入一個新節(jié)奏的前奏:
未來的工作,不再是“我做完交給 AI 總結(jié)”, 而是“我設目標,AI 一路陪跑并完成”。現(xiàn)在的你,就可以先試一次。
本文由AI深度研究院出品,獨家整理于 Google I/O 2025- DAY 1 訪談,未經(jīng)授權,不得轉(zhuǎn)載。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:https://www.youtube.com/watch?v=mri4JFkv6Ow&t=2292s&ab_channel=GoogleforDevelopers
來源:官方媒體/網(wǎng)絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.