繼微軟之后,谷歌也全面擁抱人工智能(AI)智能體(Agent)。在開發者大會上,谷歌宣布要讓智能體全面進駐谷歌的主打業務搜索以及AI助手Gemini,并通過Gemini與搜索結合,推出全新的AI模式搜索。
美東時間5月20日周二,谷歌2025年度I/O開發者大會的主題演講展示了在AI、多模態模型、跨設備整合與開發者工具方面的最新成果。從升級后的 Gemini 2.5 Pro 模型到智能眼鏡的 XR 應用,再到 AI 驅動的搜索與網頁瀏覽體驗。谷歌展現的不僅是模型的性能提升,更是AI從“信息工具”進化為“通用智能體” 的進步。
Google I/O 2025 展示了 Gemini 2.5 作為跨平臺 AI 引擎的全面實力。從“Stitch”到“Casey”,從語音助手到機器人生成,從 Android 到 Web 到 Cloud,每一項更新都緊扣“降低門檻、加速創造”的核心目標。核心發布包括,Gemini 2.5 與 Flash 模型、AI Studio 全新開發體驗 、Android 與 Gemini Nano 深度整合 、 多模態工具 Stitches和實時部署能力。
本次發布內容主要包括:
1. Gemini 2.5 與 Flash 模型的集成演示
Gemini 2.5 Flash 是速度極快、價格友好的 AI 模型,適合原型開發。
新實驗項目 Stitch:通過文本提示自動生成 App UI 設計,并即時轉為代碼。
設計不僅是靜態圖,而是可以編輯的真實界面;可導出至 Figma 或 IDE 中繼續開發。
2. AI Studio 的重大更新
AI Studio 新增原生語音模型,支持 24 種語言與主動音頻識別。
URL Context 功能:模型可從鏈接中提取上下文,支持最多 20 個鏈接。
增強了函數調用與搜索推理功能,可與外部工具協同工作。
展示了如何構建語音助手、游戲等項目,包括自動生成、調試和部署。
3. Keynote Companion(虛擬主持助手)
用 Gemini 構建的虛擬形象 “Casey”,可監聽關鍵詞如“Gemini”并實時更新 UI。
與地圖整合:通過語音指令讓 Casey 展示地點、尋找 Wi-Fi 咖啡館并提供導航。
支持異步函數調用,實現更自然的多輪對話體驗。
實時部署:通過 Cloud Run 一鍵部署應用到線上,并集成至 IDE(如 VS Code)。
4. Android 平臺的 AI 與 UI 創新
推出 Androidify 應用:通過自拍圖像 + Gemini 模型描述人物特征,再生成可愛 Android 機器人形象。
使用 Gemini 的多模態能力(文本 + 圖像)+ Imagine 3 模型實現圖像生成。
云端處理適合高性能任務,設備端使用 Gemini Nano 提供 summarize、rewrite 等輕量功能。
新 UI 系統 Material 3 Expressive:增強界面趣味性,例如“餅干”形狀按鈕。
Android 16 引入“live updates”、性能優化工具 R8 與 baseline profiles、大屏設備支持(如平板、Chromebook)。
谷歌最強通用AI模型Gemini 2.5 Pro
剛開場,登臺的Alphabet兼谷歌CEO 皮查伊(Sundar Pichai)就強調了Gemini的重要性,稱“在谷歌,每天都是Gemini季”,并力推新模型Gemini 2.5 Pro ——“ 迄今為止我們最強大的通用 AI 模型”。
皮查伊說,自上次I/O大會以來,谷歌已推出十多款模型和20項AI功能,谷歌的發貨速度已經是史上最快:
“我們希望盡快將最好的模型和產品交到大家手中,因此我們的發貨速度比以往任何時候都快。”
皮查伊透露,Gemini 2.5 Pro模型已在大語言模型(LLM)測評LLM Arena的所有類別排行榜上名列前茅。Gemini是熱門AI代碼編輯器Cursor上增長最快的模型。
他介紹,一年來,谷歌系統每月處理的token數量激增,從去年的9.7萬億增加到現在的480萬億,增長將近50倍。Gemini的App每月有4 億多活躍用戶。
“智能體模式”將上線Chrome、搜索及Gemini App
皮查伊宣布,谷歌將在Chrome瀏覽器、搜索以及Gemini的App中推出智能體模式(Agent Mode)。
智能體可以與瀏覽器和其他軟件進行交互和操作。谷歌研究的AI智能體Mariner現在可以同時管理多達10個任務,用戶只需向其展示一次任務,它就會學習該任務,并將經驗用于未來的案例。
智能體模式的實驗版即將向Gemini App的訂閱者推出。
皮查伊現場演示Gemini App中的智能體模式,要求它幫用戶找公寓。得到指令后,Gemini搜索房產網Zillow,用電腦調整篩選條件,并使用模型上下文協議MCP預約看房。
皮查伊評價:
“這是一個新興的時代。將研究成果轉化為現實的最佳方式就是讓它真正發揮作用。”
他說,在經用戶許可的情況下,Gemini 現在可以在各種App中以“私密安全”的方式使用個人信息。
Gemini Live語音助手升級 Gemini 2.5 Pro 和 Flash有原生音頻輸出
谷歌高管稱,Gemini App有三大定位:Personal(個性化)、Proactive(主動)、Powerful(強大)。它可主動幫助你準備考試、整理任務、制定旅行計劃,甚至提前生成解釋視頻。
Gemini Live語音助手升級,即日起在Android 和 iOS免費開放,支持 45種以上的語言。它支持語音對話、攝像頭識別與屏幕共享,能在上下班途中與用戶自然聊天或幫你讀懂周圍環境。谷歌稱,Gemini Live的“這些交互是如此自然,以至于你會忘了你在跟 AI 說話。”
在智能體模式下,Gemini Live可幫用戶找房、預約、訂票。谷歌演示,用戶只需說出需求:“我和兩個室友在奧斯汀找房,每人預算 1200 美元”,Gemini 會自動比對 Zillow 房源、篩選洗衣設施、甚至安排看房時間。完全不需要切換 App,AI 就已為你搞定。
Canvas功能讓文檔“變身”成可分享的內容。用戶可以上傳文檔,一鍵生成互動網頁、信息圖,甚至播客內容。“Canvas 不是工具,它是共創空間。”
谷歌Gemini模型的產品策略負責人Tulsee Doshi介紹,Gemini 2.5 Pro 和 Flash現在都有原生音頻輸出,支持兩種聲音。
模型現在可以用更具表現力的方式交談,甚至可以低聲細語。它可以無縫切換到印地語,然后以相同的聲音切換回英語。Gemini API現在就可以提供原生音頻輸出。
Gemini的實時語音助手Gemini Live現在可以區分說話者的聲音和背景音,因此可以做出更恰當的響應。
Google Beam利用AI模型實時拼接視圖創造3D人物
谷歌發布名為Google Beam 的新產品。它是一個AI驅動的視頻通信平臺,讓人們的視頻感覺如同面對面聊天。它是谷歌3D視頻會議系統項目Starline 技術的升級版。谷歌與惠普合作,將Google Beam 系統商業化,今年晚些時候,惠普將推出首批Google Beam設備。
Google Beam 采用六個攝像頭陣列,從不同角度捕捉拍攝對象、比如人物。AI視頻模型將實時拼接這些視圖,渲染成類似 3D 的畫面,從而創建3D 人物。谷歌表示,該系統擁有近乎完美的頭部追蹤技術,精度可達毫米級,以視頻幀率每秒60 幀(fps)的實時渲染速度呈現。
Gemini 2.5 Pro實時翻譯 Google Meet實時語音翻譯周二上線
谷歌高層介紹,Gemini 2.5 Pro 很快就能實現實時翻譯。Gemini模型產品團隊負責人Tulsee Doshi現場進行了實時翻譯的演示,讓AI語音先用英語說話,在說到一半時切換到印地語。
Doshi 還表示,Gemini 2.5 Pro 更加安全,具有針對提示注入這種網絡共計的保護措施。提示注入是指,利用惡意或非預期提示詞誘騙 AI執行不應執行的操作。
谷歌的在線視頻會議服務Google Meet本周二推出實時語音翻譯功能,目前支持英語到西班牙語的互譯,更多語言將在未來幾周內推出。該服務功能首先面向訂閱用戶,今年晚些時候擴大到企業用戶。
更快更輕便Gemini 2.5 Flash 6月初面世 Gemin 2.5 Deep Think有限開放
Gemini 2.5 Flash是一個高效輕量版本的模型,速度比 Pro 快、成本更低,適合常規任務。它支持 “思考預算”(Thinking Budget)機制,讓用戶可以控制輸出質量與響應速度。
谷歌介紹,谷歌的推理模型Gemini 2.5 Flash效率更高。在實現相同性能的情況下,它使用的token更少,這樣一來,效率就提升了22%。如果用戶使用 Gemini 2.5 Flash 進行構建,使用的token會更少的。
谷歌DeepMind的CEO Demis Hassabis表示,Gemini 2.5 Pro將覆蓋教育。Gemini 2.5 Pro在推理方面具有深度思考能力。新推出的AI模型Gemini 2.5 Flash 將于6月投面世。
Gemini 2.5 Deep Think 是 DeepMind 推出的全新 AI 研究模型。Hassabis表示,該模型在多項基準測試中均處于領先地位,初期僅向受信任的測試人員開放。
谷歌編碼智能體Jules開啟公測 Gemini Diffusion用于實驗性研究
Gemini 現在包括模型“原始想法”的“思想摘要”(thought summaries)。Gemini 2.5 Pro 現在有“思考預算”,它存在于 Flash模型中,可以供開發人員控制模型使用多少個token來控制成本和延遲。
上周OpenAI推出了自家的最強寫代碼智能體Codex,本周二谷歌介紹了自研的編碼智能體App Jules。異步編碼代理 Jules 現已開啟公測,任何人都可以注冊。
Gemini 2.5 Pro 可以將用戶繪制的草圖和 3D 動畫編碼到現有的App中,同時更新文件以便使用 AI Studio 生成動畫。
谷歌即將推出一種新的研究模型Gemini Diffusion。這個新模型在回答問題時更加高效、快速。該模型正在面向一小部分人測試。它是谷歌首次將擴散模型用于文本生成的實驗性研究,速度提升 5 倍,可編輯生成文本、代碼與數學邏輯。
Gemini Live如何幫用戶修自行車 Aira實時視覺描述
谷歌演示了一段概念視頻,展示多模態虛擬助手項目Astra加持的Gemini Live功能。它可以幫助用戶進行研究,比如弄清楚如何修理自行車。
Gemini 會進行研究并提供指導,首先找到 PDF 說明書,然后找到 YouTube 視頻,最后搜索自行車店的郵件。用戶可以根據需要給自行車店打電話訂購零件,并查看使用手冊。這基本上就是一個多任務處理的過程。
谷歌還演示了一個名為Aira的項目。它通過智能眼鏡為盲人和視力低的用戶提供實時視覺描述服務。
視頻顯示,當用戶準備在俱樂部現場演奏音樂時,用戶用手機的攝像頭環顧房間,通過在手機上運行的Aira服務,手機可以實時描述房間內的事物。
DeepMind的CEO Hassabis說:“我們正在打造更加個性化、更有主動性和更強大的AI。” 所有這一切將迎來“一個充滿發現和奇跡的新黃金時代”。
谷歌搜索添加AI模式標簽頁 支持長達數百字提問 周二在美上線
皮查伊稱AI概覽(AI Overviews)是谷歌最成功的產品之一,每月有15 億用戶在搜索中使用AI概覽,它推動某些類型的查詢增長了10%。這意味著,谷歌提供生成式AI服務的用戶規模超過其他公司。
Gemini模型將與谷歌搜索集合。它將通過AI模式(AI Mode)增強智能,成為一種強大的新型AI搜索功能,可幫助解答問題。它是搜索中的新標簽頁,也將包含在AI 概覽中。
作為全新的搜索功能,AI模式讓用戶可以提出更長、更復雜的查詢。它支持長達數百字的提問、自動分解查詢意圖、并生成結構化答案。該模式本周二就上線,作為搜索的新標簽頁形勢,向所有美國的用戶推出。
新版本中,用戶可以:
1) 直接通過自然語言發問,系統會提供摘要式、結構化回答。
2) 與搜索結果進行多輪對話,進一步深入了解相關內容。
3) 獲取圖文并茂的“智能回答卡片”,例如自動整理出旅游行程、購物建議、編程指南等。
皮查伊稱:
“我們正在重新定義搜索的未來。不是找到鏈接,而是直接給出答案。”
谷歌搜索負責人Liz Reid介紹,AI模式會得到名為Deep Research的模型加持,谷歌稱之為“深度搜索”(DeepSearch)。該模型將通過邏輯搜索結果和高度相關的內容,更好地整理研究主題。
AI模式的搜索“就像你身邊有一位博學助理。” 它還會結合地圖、評論、視頻等生成圖表和推薦內容。
Reid說,AI 模式將擁有谷歌所有最優秀的 AI 特性和功能。“隨著時間的推移,我們將逐步將 AI 模式的許多尖端特性和功能融入核心搜索體驗。” 她還說,AI 模式現在就將支持AI概覽。
多模態 AI 創作突破:圖像、視頻模型和創作平臺、音頻模型
谷歌推出新一代圖像模型Imagine 4 ,讓圖像質量大幅提升,更強細節捕捉、構圖理解,首次支持精確文本生成。
該模型加入“快速變體”:比前代快10倍,適合創意探索。新版本的Imagine模型更強細節捕捉與構圖理解,可識別中文、英文等復雜字體,實時生成圖像、海報甚至插畫。
谷歌介紹Veo 3 視頻模型。它是谷歌最強視頻生成模型,支持角色一致性、鏡頭控制和原生語音生成,能自動合成環境音、對白、背景音樂。甚至連角色間的對話語音都能生成,畫面還能和角色的口型同步。
Veo 3可控制攝像機角度、剪輯節奏,確保人物一致性、風格統一。
谷歌與導演合作開發了名為Flow的創作平臺,支持一鍵式場景、故事生成。
Flow 平臺支持AI 視頻制作軟件,支持劇本、鏡頭語言、畫面構圖等創作全過程。谷歌與 Darren Aronofsky、Eliza McNitt 等電影人合作推出短片項目。
用戶可上傳角色、設定場景,AI 自動生成鏡頭組接。
谷歌還推出了Lyria 音頻模型和Music AI Sandbox。它支持生成專業音樂、合唱、獨唱,結合 AI Sandbox 成為音樂人創作工具,能結合 Flow、Veo 可用于完整電影原聲音樂生成。
Android XR智能眼鏡和頭顯Moohan
谷歌展示了在擴展現實——XR生態的重要進展,其中之一是智能眼鏡。它是全天候的Gemini 助理
谷歌的智能眼鏡內建攝像頭、骨傳導音響與內嵌顯示,眼鏡可識別物體、翻譯語言、記住你喝的咖啡名字,還能用語音控制 AI 導航、訂位、拍照。
Gentle Monster 和 Warby Parker 將成為首批打造 Android XR 眼鏡的眼鏡合作伙伴。
同時,谷歌的Android XR 平臺與三星聯合推出頭顯Moohan。
該頭顯支持沉浸式地圖、視頻播放、交互式 Gemini AI 等。XR 版本地圖可瞬間“帶你”走遍世界。
谷歌稱,Moohan“不再是Clark Kent摘眼鏡變超人,而是戴上眼鏡,你就擁有 AI 超能力。”
套餐Google AI Ultra月費近245美元 含多種Gemini模型、30 TB存儲空間等
谷歌推出全新的 AI 訂閱套餐Google AI Ultra,訂閱者將擁有最高使用限額,并可訪問谷歌最強大的模型和高級功能。
Google AI Ultra 現已在美國上市,每月價格為 249.99 美元(首次用戶可享受訂閱前三個月的半價優惠。谷歌稱,將很快在更多國家地區推出。
這一套餐包括:
使用Gemini模型,計劃提供 Deep Research 的最高使用限額、Veo 2 的尖端視頻生成功能以及Veo 3 模型的搶先體驗,未來幾周還將獲得增強推理模式 Deep Think 2.5 Pro 版的使用權限;
Whisk,獲得 Whisk Animate 的最高使用限制,它能通過 Veo 2 將您的圖像轉換成生動的八秒視頻;
NotebookLM讓學習者可以用“思維導圖”方式組織資料,今年晚些時候訂閱用戶可獲得最高使用限制和增強的模型功能;
融入Gemini的Gmail、Docs、Vids 等應用,從周三起,就可在Chrome 瀏覽器中直接訪問 Gemini;
YouTube Premium,無廣告、離線和后臺觀看 YouTube 和收聽 YouTube 音樂;
30 TB 存儲空間:為 Google 相冊、云端硬盤和 Gmail 提供海量存儲容量;
還包括Flow平臺和Mariner項目的服務。
?星標華爾街見聞,好內容不錯過?
本文不構成個人投資建議,不代表平臺觀點,市場有風險,投資需謹慎,請獨立判斷和決策。
覺得好看,請點“在看”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.