文 | 大模型之家
AI能生成分鏡,“拍”電影還會遠嗎?
北京時間5月21日凌晨,在2025年Google I/O開發者大會的主題演講中,谷歌CEO桑達爾·皮查伊以一句輕松的“雙子座季節”開場白,揭開了這場科技盛宴的序幕。他直言,在谷歌的“Gemini時代”,技術突破不再受傳統發布周期束縛,谷歌正以史無前例的速度將最前沿的AI模型推向全球用戶。
皮查伊強調:“我們打破了‘性能與價格不可兼得’的行業魔咒。”Gemini 2.5 Pro在性能飆升的同時,實現了成本的大幅優化。數據顯示,Gemini模型每秒生成輸出令牌數已躋身全球前三,而單位計算成本較前代下降40%。這一突破得益于谷歌第七代TPU芯片的賦能——這款專為大規模推理設計的芯片,性能較前代提升10倍,單計算倉算力達42.5 ExaFLOPS,成為支撐谷歌AI基礎設施的“超級引擎”。
技術突破正轉化為觸手可及的產品體驗。皮查伊公布了一組數據:過去一年間,谷歌每月通過產品和API處理的AI Token數量從9.7萬億激增至480萬億,增幅超50倍;開發者生態同樣迎來爆發式增長,超過700萬開發者通過Gemini API、Google AI Studio和Vertex AI平臺構建應用,較去年增長5倍。其中,Vertex AI平臺上的Gemini使用量更是飆升40倍。
在用戶端,Gemini應用的月活用戶已突破4億,Gemini 2.5 Pro版本的使用量較前代增長45%。搜索領域的革新尤為顯著:AI概覽功能每月覆蓋15億用戶,成為全球規模最大的生成式AI應用場景。皮查伊透露,谷歌搜索的“下一站”將是AI驅動的交互模式升級,用戶將體驗到更自然、更個性化的信息獲取方式。
不僅如此,Google正通過三個研究項目,將實驗轉化為產品:
- Project Starlight進化:Google Beam開啟3D通訊時代歷經數年研發,Project Starlight的3D視頻技術正式落地為全新平臺Google Beam。該平臺通過6攝像頭陣列捕捉用戶動作,結合AI生成3D光場顯示,實現毫米級頭部追蹤和60幀實時渲染。皮查伊現場演示了與惠普合作設備的沉浸式通話效果,并宣布首批測試設備將于年內推出。
- Project Astra:跨語言對話的“無感翻譯”作為實時語音翻譯技術的集大成者,Google Meet現已支持英語與西班牙語的即時互譯,未來幾周將擴展至更多語種。演示中,系統精準還原了演講者的語氣、節奏甚至表情
- Project Marina:智能代理的“操作系統”定位為“網絡交互智能體”的Project Marina,已具備多任務處理和教學-重復學習能力。皮查伊展示了其如何同時管理10項任務,并通過一次演示學習完成復雜操作。該技術將通過Gemini API開放給開發者,首批合作伙伴包括Automation Anywhere和UiPath,預計夏季面向更廣泛用戶推出。
皮查伊將智能體(Agent)視為AI技術的“下一形態”。他現場演示了Gemini應用中的“代理模式”:用戶只需設定需求系統即可自動調用Project Marina完成房源篩選、預約看房等操作,用戶全程無需介入。這一功能將率先向訂閱用戶開放。
更深遠的意義在于谷歌推動的“智能體互聯計劃”:通過開放的Agent-to-Agent協議和Model Context Protocol,不同智能體可共享數據與工具,構建協作生態。皮查伊強調:“這不僅是技術升級,更是對‘人機協作’模式的重新定義。”
Gemini 2.5AI能力系統性躍升,開啟多模態智能紀元
Gemini 2.5 Pro經過近期優化,在自然語言理解、代碼生成、復雜推理及多模態處理(圖像/視頻)等領域全面突破性能邊界,成為行業標桿。而輕量化模型Gemini 2.5 Flash則以22%的推理速度提升和更低資源消耗,提供與Pro相近的能力,計劃6月率先開放開發者接入,重塑效率與成本的平衡。
本次升級的最大亮點在于原生多模態能力落地:
- 語音交互革新:全新文本轉語音(TTS)技術支持24種語言無縫切換,可精準模擬人類語音中的情緒細節(如語速、語調變化),實現“情感化語音角色”生成。
- 視覺到3D的極速轉化:用戶僅需上傳草圖并輸入提示詞,系統即可在數十秒內自動解析圖像、生成可交互的3D模型并部署上線,全程無需專業3D開發知識。
此外,谷歌推出AI編程代理“Rose”,支持從代碼生成、錯誤修復到版本遷移的全流程自動化,標志著AI從輔助工具進化為“異步執行開發者”。現場演示的文本生成視頻技術結合新一代低延遲架構,生成效率較前代提升5倍,預示生成式AI在視頻創作領域的爆發潛力。
強化“深度思考”,加速構建世界模型生態
谷歌表示,Gemini 2.5 Pro的核心突破之一,就是引入了“深度思考”(Deep Think)能力,標志著AI向通用智能邁出關鍵一步。
Gemini 2.5 Pro通過集成谷歌最新推理架構,實現復雜任務下的“延時思考”能力。參考AlphaGo的策略性決策邏輯,該模型在分配更多計算資源時,可輸出更具邏輯縱深的分析結果。
作為原生多模態架構,Gemini 2.5 Pro可跨文本、圖像、音視頻進行聯合推理。更關鍵的是,谷歌正基于此構建“世界模型”——一個能實時映射物理規則、預測環境變化的虛擬智能體。現場演示中,Gemini僅憑簡單草圖生成可交互3D場景,并通過Gemini Robotics子模型驅動機械臂完成動態抓取任務,展現AI從認知到行動的閉環能力。
視頻理解模型Veo實現了更多物理世界層面的理解:能精準模擬物體運動軌跡、材質反光特性及重力影響,甚至預測多物體碰撞結果。這一能力將賦能機器人、XR設備及物聯網終端,使AI具備“預演現實”的規劃力。
谷歌現場展示了“Gemini Life”場景:用戶維修自行車時,AI可同步調取說明書、分析故障視頻、搜索教學資料、聯系配件供應商,甚至通過語音交互協調維修流程。這種跨模態、主動式服務模式,預示著AI將從被動工具進化為能自主規劃、串聯任務的“數字伙伴”,重新定義人機協作邊界。
從信息索引到智能助手,Google搜索在AI模式下走向質變
Google強調,AI模式并非獨立產品,而是搜索體系的進化試驗場。其終極目標是將搜索引擎從“信息檢索工具”升級為“思考伙伴”——用戶不再被動接收鏈接,而是與具備判斷力、執行力的智能體協同決策。當搜索能自主拆解問題、整合跨平臺數據、預判用戶需求時,一場關于人機協作的范式革命已悄然到來。
面對用戶查詢方式從關鍵詞向復雜語境的轉變,Google推出基于Gemini 2.5重構的“AI模式”,以多模態推理與全球信息整合能力重塑搜索體驗。
技術層面,AI模式通過Query Decomposition技術實現“查詢拆解”:系統自動識別需深度推理的問題,拆分為數百個子任務,調用定制化Gemini模型執行海量搜索,最終生成結構化報告——融合網頁、知識圖譜、地圖等數據,附帶來源驗證、對比圖表及可視化分析。例如,用戶可一鍵獲取球員使用新型球棒后的擊球率趨勢圖,或跨平臺比對紅襪隊比賽門票價格并完成訂票流程。
個性化則是另一大亮點。Google即將推出“個人情境”功能,搜索結果可以結合Gmail中的行程信息、用戶的偏好數據等做出更貼合生活的推薦。例如,當用戶搜索周末活動建議時,系統會知道其剛剛訂了戶外餐廳,或訂閱了某個畫廊的信息展,并提供匹配推薦。同時,用戶對自己的信息接入權限具有完全控制權。
除了文本和數據的處理能力,AI模式還全面升級了視覺搜索體驗。Google Lens的月活躍用戶已超15億,而AI模式引入了Project Astra的實時視覺交互功能——“實時搜索”。用戶可以通過鏡頭直接展示問題場景,如DIY項目、科學實驗或復雜設備操作,搜索引擎則仿佛“視頻通話中的助手”,在實時畫面中給出精準指引。通過AI眼鏡的多模態互動,正成為“下一代搜索”的關鍵入口。
圖像與視頻生成的質變:Imagen 4與Veo 3齊發
在生成式內容方面,Google帶來了新一代圖像模型Imagen 4和視頻模型Veo 3。Imagen 4強化了圖文混排、細節表現和構圖邏輯,能夠根據簡單的描述生成用于音樂節、品牌活動等場景的高質量海報。而Veo 3則實現了視頻生成的一個質變——首次引入“原聲音頻生成”(Native Audio Generation),不僅畫面栩栩如生,背景音效與角色對話也可一并生成,實現真正意義上的沉浸式內容生產。
Veo 3所展現的能力,標志著生成式AI正在重塑影視制作的整個流程。Google透露,已與電影制作行業展開深入合作,探索AI生成內容的專業化路徑。
谷歌還首次揭示了Gemini Agent模式下的多模態操作方式。這是一個可在Chrome中工作、支持多任務協作的AI代理,能夠實時理解網頁語境、對比評論、自動整理信息,為用戶提供上下文感知的幫助。
會上,谷歌還發布了Lyria,這是一款能夠生成高保真、專業級音頻的新模型。無論是獨唱還是合唱,其生成的音樂在細節和情感表達上都展現出強烈的感染力。
在生成內容日益逼真的背景下,谷歌延續其在媒體透明化上的探索。早在兩年前推出的“SynthID”水印技術,如今已覆蓋超過100億條生成內容,并獲得進一步升級。此次更新引入了多模態檢測器,不僅能識別圖像是否含有隱形水印,也可以判斷音頻、文本及視頻是否部分或完全由AI生成。
這一技術的擴展不僅是技術性的進步,更是回應社會對于AI內容來源可追溯性的迫切需求。谷歌強調,他們正擴大與全球合作伙伴的協作,以將此類可識別機制推廣到更廣泛的生成式媒體生態中。
顛覆創意生成范式,AI視頻創作新引擎 Flow
作為活動的一大亮點,谷歌發布了一款專為創意人士打造的AI視頻制作工具——Flow。這款工具集成了Veo、Imagen和Gemini,是一個從靈感萌芽到成片輸出的完整內容生產引擎,意在重塑創意素材的生成方式。
Flow不僅僅是一個視頻工具,它是一個能與創作者的構思實時互動的AI伙伴。通過自然語言輸入,創作者可以設定人物、場景、情節,甚至詳細到鏡頭調度和畫面風格。谷歌在現場演示了一個案例:一位祖父希望制造一輛“能飛的小汽車”送給孫子。創作者只需描述角色和劇情設定,Flow便可即時生成畫面素材;再通過輕松的拖放和編輯,逐步將片段串聯為完整短片。
創作過程中,用戶不僅可以添加鏡頭,更能定義每一個鏡頭的情緒、節奏與畫面風格。Flow具備保持風格一致性的能力,使得即便是由多個生成模塊構建的作品也具有統一的美術表現力。更重要的是,所有素材都可以被導出至主流視頻剪輯軟件,創作者仍然擁有對最終成品的完全掌控。
谷歌強調,Flow不是在取代導演與編劇的角色,而是在構建一種新的創作流程:靈感涌現時,AI可以立即響應;創作陷入瓶頸時,AI可以提供提示和延展。從某種意義上,它幫助創作者“看見”那些尚未成形的想法。
在AI的輔助下,故事結構在眼前展開,角色仿佛擁有了自己的生命。創作者從“努力去做”,逐漸轉變為“純粹地表達”,這也許正是生成式AI對創意產業最深遠的改變。
Gemini進入XR設備,智能眼鏡走向量產
繼Android 16與WearOS 6的發布后,谷歌正式將AI助手Gemini嵌入到更廣泛的設備形態,從手機走向手表、汽車儀表盤、電視,再一步擴展到全新的XR平臺。
為了應對用戶在不同場景下的使用需求,谷歌發布了XR領域首個Android平臺——Android XR。這一平臺支持從沉浸式頭顯到輕巧便攜的智能眼鏡,打破了傳統單一設備的限制。谷歌明確指出,XR不是一個通用方案,而是一個多形態協同生態。在處理工作或娛樂時,用戶可以佩戴高性能頭顯;而在移動場景中,輕便的眼鏡則成為理想助手。
這一戰略正在由谷歌與三星、高通聯合推進。首款搭載Android XR的設備是三星的Project Moohan頭戴裝置,通過Google Maps XR功能與Gemini整合,用戶只需發出語音指令,便能沉浸式“瞬移”到全球任意地點。在體育應用中,例如MLB,用戶可以仿佛置身球場,實時獲取球員數據和賽事分析。
谷歌在現場演示中首次揭示了新款搭載Android XR的智能眼鏡——這款設備歷經十年探索而成,強調全天佩戴的舒適性與技術集成能力。它內置攝像頭、麥克風、揚聲器和可選的私密顯示鏡片,支持全語音交互,不需掏出手機即可完成導航、搜索、通信等操作。
通過與Gemini聯動,這款眼鏡具備“所見即搜索”的能力。用戶看見一個咖啡杯上的Logo,即可讓Gemini識別品牌、顯示地圖、預約時間,甚至播放相關音樂。這一切,都無需動手操作。現場還展示了實時翻譯功能,不同語言的對話被同時翻譯為英文浮現在鏡片中,打破語言壁壘。
目前,首批智能眼鏡產品已進入可信測試階段,并將在近期開放開發者平臺。谷歌還宣布將與時尚眼鏡品牌Gentle Monster和Wabby Parker合作,打造首批基于Android XR的消費級智能眼鏡,通過可日常佩戴的時尚配件,打入主流市場。
AI普惠時代的谷歌答案:下一步的AI,不再抽象
“十年前,我們談論AI的可能性;今天,我們正在見證其從理論到實踐的轉化”。可以見得,谷歌正通過整合基礎模型研發、三維交互技術、智能代理系統及個性化服務等領域能力,構建全棧AI技術架構。
不難預見,隨著其生態系統向硬件終端的持續滲透,人工智能與物理世界的深度融合進程已呈現明確的發展軌跡,將為產業價值的提升帶來更多確定性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.