網易首頁 > 網易號 > 正文申請入駐

直擊谷歌I/O 2025：谷歌AI眼鏡劍指主流市場，未來拍電影全靠“打字”？

2025-05-21 08:27:10　來源: 鈦媒體APP

北京舉報

分享至

文 | 大模型之家

AI能生成分鏡，“拍”電影還會遠嗎？

北京時間5月21日凌晨，在2025年Google I/O開發者大會的主題演講中，谷歌CEO桑達爾·皮查伊以一句輕松的“雙子座季節”開場白，揭開了這場科技盛宴的序幕。他直言，在谷歌的“Gemini時代”，技術突破不再受傳統發布周期束縛，谷歌正以史無前例的速度將最前沿的AI模型推向全球用戶。

皮查伊強調：“我們打破了‘性能與價格不可兼得’的行業魔咒。”Gemini 2.5 Pro在性能飆升的同時，實現了成本的大幅優化。數據顯示，Gemini模型每秒生成輸出令牌數已躋身全球前三，而單位計算成本較前代下降40%。這一突破得益于谷歌第七代TPU芯片的賦能——這款專為大規模推理設計的芯片，性能較前代提升10倍，單計算倉算力達42.5 ExaFLOPS，成為支撐谷歌AI基礎設施的“超級引擎”。

技術突破正轉化為觸手可及的產品體驗。皮查伊公布了一組數據：過去一年間，谷歌每月通過產品和API處理的AI Token數量從9.7萬億激增至480萬億，增幅超50倍；開發者生態同樣迎來爆發式增長，超過700萬開發者通過Gemini API、Google AI Studio和Vertex AI平臺構建應用，較去年增長5倍。其中，Vertex AI平臺上的Gemini使用量更是飆升40倍。

在用戶端，Gemini應用的月活用戶已突破4億，Gemini 2.5 Pro版本的使用量較前代增長45%。搜索領域的革新尤為顯著：AI概覽功能每月覆蓋15億用戶，成為全球規模最大的生成式AI應用場景。皮查伊透露，谷歌搜索的“下一站”將是AI驅動的交互模式升級，用戶將體驗到更自然、更個性化的信息獲取方式。

不僅如此，Google正通過三個研究項目，將實驗轉化為產品：

Project Starlight進化：Google Beam開啟3D通訊時代歷經數年研發，Project Starlight的3D視頻技術正式落地為全新平臺Google Beam。該平臺通過6攝像頭陣列捕捉用戶動作，結合AI生成3D光場顯示，實現毫米級頭部追蹤和60幀實時渲染。皮查伊現場演示了與惠普合作設備的沉浸式通話效果，并宣布首批測試設備將于年內推出。
Project Astra：跨語言對話的“無感翻譯”作為實時語音翻譯技術的集大成者，Google Meet現已支持英語與西班牙語的即時互譯，未來幾周將擴展至更多語種。演示中，系統精準還原了演講者的語氣、節奏甚至表情
Project Marina：智能代理的“操作系統”定位為“網絡交互智能體”的Project Marina，已具備多任務處理和教學-重復學習能力。皮查伊展示了其如何同時管理10項任務，并通過一次演示學習完成復雜操作。該技術將通過Gemini API開放給開發者，首批合作伙伴包括Automation Anywhere和UiPath，預計夏季面向更廣泛用戶推出。

智能體生態：從工具到伙伴的進化

皮查伊將智能體（Agent）視為AI技術的“下一形態”。他現場演示了Gemini應用中的“代理模式”：用戶只需設定需求系統即可自動調用Project Marina完成房源篩選、預約看房等操作，用戶全程無需介入。這一功能將率先向訂閱用戶開放。

更深遠的意義在于谷歌推動的“智能體互聯計劃”：通過開放的Agent-to-Agent協議和Model Context Protocol，不同智能體可共享數據與工具，構建協作生態。皮查伊強調：“這不僅是技術升級，更是對‘人機協作’模式的重新定義。”

Gemini 2.5AI能力系統性躍升，開啟多模態智能紀元

Gemini 2.5 Pro經過近期優化，在自然語言理解、代碼生成、復雜推理及多模態處理（圖像/視頻）等領域全面突破性能邊界，成為行業標桿。而輕量化模型Gemini 2.5 Flash則以22%的推理速度提升和更低資源消耗，提供與Pro相近的能力，計劃6月率先開放開發者接入，重塑效率與成本的平衡。

本次升級的最大亮點在于原生多模態能力落地：

語音交互革新：全新文本轉語音（TTS）技術支持24種語言無縫切換，可精準模擬人類語音中的情緒細節（如語速、語調變化），實現“情感化語音角色”生成。
視覺到3D的極速轉化：用戶僅需上傳草圖并輸入提示詞，系統即可在數十秒內自動解析圖像、生成可交互的3D模型并部署上線，全程無需專業3D開發知識。

此外，谷歌推出AI編程代理“Rose”，支持從代碼生成、錯誤修復到版本遷移的全流程自動化，標志著AI從輔助工具進化為“異步執行開發者”。現場演示的文本生成視頻技術結合新一代低延遲架構，生成效率較前代提升5倍，預示生成式AI在視頻創作領域的爆發潛力。

強化“深度思考”，加速構建世界模型生態

谷歌表示，Gemini 2.5 Pro的核心突破之一，就是引入了“深度思考”（Deep Think）能力，標志著AI向通用智能邁出關鍵一步。

Gemini 2.5 Pro通過集成谷歌最新推理架構，實現復雜任務下的“延時思考”能力。參考AlphaGo的策略性決策邏輯，該模型在分配更多計算資源時，可輸出更具邏輯縱深的分析結果。

作為原生多模態架構，Gemini 2.5 Pro可跨文本、圖像、音視頻進行聯合推理。更關鍵的是，谷歌正基于此構建“世界模型”——一個能實時映射物理規則、預測環境變化的虛擬智能體。現場演示中，Gemini僅憑簡單草圖生成可交互3D場景，并通過Gemini Robotics子模型驅動機械臂完成動態抓取任務，展現AI從認知到行動的閉環能力。

視頻理解模型Veo實現了更多物理世界層面的理解：能精準模擬物體運動軌跡、材質反光特性及重力影響，甚至預測多物體碰撞結果。這一能力將賦能機器人、XR設備及物聯網終端，使AI具備“預演現實”的規劃力。

谷歌現場展示了“Gemini Life”場景：用戶維修自行車時，AI可同步調取說明書、分析故障視頻、搜索教學資料、聯系配件供應商，甚至通過語音交互協調維修流程。這種跨模態、主動式服務模式，預示著AI將從被動工具進化為能自主規劃、串聯任務的“數字伙伴”，重新定義人機協作邊界。

從信息索引到智能助手，Google搜索在AI模式下走向質變

Google強調，AI模式并非獨立產品，而是搜索體系的進化試驗場。其終極目標是將搜索引擎從“信息檢索工具”升級為“思考伙伴”——用戶不再被動接收鏈接，而是與具備判斷力、執行力的智能體協同決策。當搜索能自主拆解問題、整合跨平臺數據、預判用戶需求時，一場關于人機協作的范式革命已悄然到來。

面對用戶查詢方式從關鍵詞向復雜語境的轉變，Google推出基于Gemini 2.5重構的“AI模式”，以多模態推理與全球信息整合能力重塑搜索體驗。

技術層面，AI模式通過Query Decomposition技術實現“查詢拆解”：系統自動識別需深度推理的問題，拆分為數百個子任務，調用定制化Gemini模型執行海量搜索，最終生成結構化報告——融合網頁、知識圖譜、地圖等數據，附帶來源驗證、對比圖表及可視化分析。例如，用戶可一鍵獲取球員使用新型球棒后的擊球率趨勢圖，或跨平臺比對紅襪隊比賽門票價格并完成訂票流程。

個性化則是另一大亮點。Google即將推出“個人情境”功能，搜索結果可以結合Gmail中的行程信息、用戶的偏好數據等做出更貼合生活的推薦。例如，當用戶搜索周末活動建議時，系統會知道其剛剛訂了戶外餐廳，或訂閱了某個畫廊的信息展，并提供匹配推薦。同時，用戶對自己的信息接入權限具有完全控制權。

除了文本和數據的處理能力，AI模式還全面升級了視覺搜索體驗。Google Lens的月活躍用戶已超15億，而AI模式引入了Project Astra的實時視覺交互功能——“實時搜索”。用戶可以通過鏡頭直接展示問題場景，如DIY項目、科學實驗或復雜設備操作，搜索引擎則仿佛“視頻通話中的助手”，在實時畫面中給出精準指引。通過AI眼鏡的多模態互動，正成為“下一代搜索”的關鍵入口。

圖像與視頻生成的質變：Imagen 4與Veo 3齊發

在生成式內容方面，Google帶來了新一代圖像模型Imagen 4和視頻模型Veo 3。Imagen 4強化了圖文混排、細節表現和構圖邏輯，能夠根據簡單的描述生成用于音樂節、品牌活動等場景的高質量海報。而Veo 3則實現了視頻生成的一個質變——首次引入“原聲音頻生成”（Native Audio Generation），不僅畫面栩栩如生，背景音效與角色對話也可一并生成，實現真正意義上的沉浸式內容生產。

Veo 3所展現的能力，標志著生成式AI正在重塑影視制作的整個流程。Google透露，已與電影制作行業展開深入合作，探索AI生成內容的專業化路徑。

谷歌還首次揭示了Gemini Agent模式下的多模態操作方式。這是一個可在Chrome中工作、支持多任務協作的AI代理，能夠實時理解網頁語境、對比評論、自動整理信息，為用戶提供上下文感知的幫助。

會上，谷歌還發布了Lyria，這是一款能夠生成高保真、專業級音頻的新模型。無論是獨唱還是合唱，其生成的音樂在細節和情感表達上都展現出強烈的感染力。

在生成內容日益逼真的背景下，谷歌延續其在媒體透明化上的探索。早在兩年前推出的“SynthID”水印技術，如今已覆蓋超過100億條生成內容，并獲得進一步升級。此次更新引入了多模態檢測器，不僅能識別圖像是否含有隱形水印，也可以判斷音頻、文本及視頻是否部分或完全由AI生成。

這一技術的擴展不僅是技術性的進步，更是回應社會對于AI內容來源可追溯性的迫切需求。谷歌強調，他們正擴大與全球合作伙伴的協作，以將此類可識別機制推廣到更廣泛的生成式媒體生態中。

顛覆創意生成范式，AI視頻創作新引擎 Flow

作為活動的一大亮點，谷歌發布了一款專為創意人士打造的AI視頻制作工具——Flow。這款工具集成了Veo、Imagen和Gemini，是一個從靈感萌芽到成片輸出的完整內容生產引擎，意在重塑創意素材的生成方式。

Flow不僅僅是一個視頻工具，它是一個能與創作者的構思實時互動的AI伙伴。通過自然語言輸入，創作者可以設定人物、場景、情節，甚至詳細到鏡頭調度和畫面風格。谷歌在現場演示了一個案例：一位祖父希望制造一輛“能飛的小汽車”送給孫子。創作者只需描述角色和劇情設定，Flow便可即時生成畫面素材；再通過輕松的拖放和編輯，逐步將片段串聯為完整短片。

創作過程中，用戶不僅可以添加鏡頭，更能定義每一個鏡頭的情緒、節奏與畫面風格。Flow具備保持風格一致性的能力，使得即便是由多個生成模塊構建的作品也具有統一的美術表現力。更重要的是，所有素材都可以被導出至主流視頻剪輯軟件，創作者仍然擁有對最終成品的完全掌控。

谷歌強調，Flow不是在取代導演與編劇的角色，而是在構建一種新的創作流程：靈感涌現時，AI可以立即響應；創作陷入瓶頸時，AI可以提供提示和延展。從某種意義上，它幫助創作者“看見”那些尚未成形的想法。

在AI的輔助下，故事結構在眼前展開，角色仿佛擁有了自己的生命。創作者從“努力去做”，逐漸轉變為“純粹地表達”，這也許正是生成式AI對創意產業最深遠的改變。

Gemini進入XR設備，智能眼鏡走向量產

繼Android 16與WearOS 6的發布后，谷歌正式將AI助手Gemini嵌入到更廣泛的設備形態，從手機走向手表、汽車儀表盤、電視，再一步擴展到全新的XR平臺。

為了應對用戶在不同場景下的使用需求，谷歌發布了XR領域首個Android平臺——Android XR。這一平臺支持從沉浸式頭顯到輕巧便攜的智能眼鏡，打破了傳統單一設備的限制。谷歌明確指出，XR不是一個通用方案，而是一個多形態協同生態。在處理工作或娛樂時，用戶可以佩戴高性能頭顯；而在移動場景中，輕便的眼鏡則成為理想助手。

這一戰略正在由谷歌與三星、高通聯合推進。首款搭載Android XR的設備是三星的Project Moohan頭戴裝置，通過Google Maps XR功能與Gemini整合，用戶只需發出語音指令，便能沉浸式“瞬移”到全球任意地點。在體育應用中，例如MLB，用戶可以仿佛置身球場，實時獲取球員數據和賽事分析。

谷歌在現場演示中首次揭示了新款搭載Android XR的智能眼鏡——這款設備歷經十年探索而成，強調全天佩戴的舒適性與技術集成能力。它內置攝像頭、麥克風、揚聲器和可選的私密顯示鏡片，支持全語音交互，不需掏出手機即可完成導航、搜索、通信等操作。

通過與Gemini聯動，這款眼鏡具備“所見即搜索”的能力。用戶看見一個咖啡杯上的Logo，即可讓Gemini識別品牌、顯示地圖、預約時間，甚至播放相關音樂。這一切，都無需動手操作。現場還展示了實時翻譯功能，不同語言的對話被同時翻譯為英文浮現在鏡片中，打破語言壁壘。

目前，首批智能眼鏡產品已進入可信測試階段，并將在近期開放開發者平臺。谷歌還宣布將與時尚眼鏡品牌Gentle Monster和Wabby Parker合作，打造首批基于Android XR的消費級智能眼鏡，通過可日常佩戴的時尚配件，打入主流市場。

AI普惠時代的谷歌答案：下一步的AI，不再抽象

“十年前，我們談論AI的可能性；今天，我們正在見證其從理論到實踐的轉化”。可以見得，谷歌正通過整合基礎模型研發、三維交互技術、智能代理系統及個性化服務等領域能力，構建全棧AI技術架構。

不難預見，隨著其生態系統向硬件終端的持續滲透，人工智能與物理世界的深度融合進程已呈現明確的發展軌跡，將為產業價值的提升帶來更多確定性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.