網易首頁 > 網易號 > 正文申請入駐

從算法競技到應用為王：谷歌這場AI發布會透露了什么？

2025-05-21 18:25:49　來源: 通信產業報

北京舉報

分享至

世界模型與谷歌的技術場景野心。

當AlphaGo用策略性決策顛覆圍棋界時，AI的“深度思考”能力初露鋒芒；而今，谷歌Gemini 2.5的發布，標志著這一能力正從封閉的算法競技場走向開放的物理世界。

北京時間周三凌晨，在Google I/O 2025開發者大會上，谷歌以人工智能為核心，重磅發布了一系列令人矚目的新產品和技術，旨在加速AI更加深入融入人們的生活和工作。

谷歌CEO桑達爾·皮查伊披露了過去一年AI業務的運營數據。去年同期，谷歌產品和API每月處理9.7萬億個Token，現在這個數字已經超過480萬億，在谷歌的“Gemini時代”，技術突破不再受傳統發布周期束縛，谷歌正以史無前例的速度將最前沿的AI模型推向全球用戶。

Gemini 2.5系列：AI交互再進化

當前，人工智能領域的競爭愈發激烈，而性能與成本之間的平衡，一直是橫亙在眾多科技企業面前的一道難題。“性能與價格不可兼得”似乎成了行業內難以突破的魔咒。如今，Gemini 2.5系列以其卓越的性能提升和顯著的成本優化，或正打破這一行業困境。

本次Gemini 2.5系列升級的最大亮點，無疑是原生多模態能力的全面落地。

在語音交互方面，Gemini 2.5引入了全新的文本轉語音（TTS），支持多達24種語言的無縫切換。更為驚艷的是，該技術能夠精準模擬人類語音中的情緒細節，諸如語速的快慢、語調的抑揚頓挫等變化，實現了“情感化語音角色”的生成。這意味著，用戶與AI之間的對話將不再是機械、生硬的交流，而是如同與真實的人類伙伴溝通一般自然流暢，極大地提升了交互體驗的質量和真實感。

視覺領域同樣取得了重大突破。如今，用戶僅需上傳一張簡單的草圖，并輸入相關提示詞，系統便能在短短數十秒內自動解析圖像內容，生成可交互的3D模型，并迅速完成部署上線。這一過程全程無需用戶具備專業的3D開發知識，打破了傳統3D建模的技術壁壘。

大會現場，谷歌正式推出AI編程代理“Rose”，Rose支持從代碼生成、錯誤修復到版本遷移的全流程自動化，極大地提高了編程效率和質量。在代碼生成階段，Rose能夠根據自然語言描述，快速生成高質量的代碼，無論是簡單的腳本還是復雜的應用程序框架，都能輕松應對；當代碼出現錯誤時，Rose可以迅速定位問題所在，并提供準確的修復方案，大大節省了開發者排查和解決問題的時間；在版本遷移方面，Rose能夠自動識別代碼版本差異，完成代碼的遷移和適配工作，確保項目在不同版本環境下的穩定運行。

作為Pro版本，谷歌表示，Gemini 2.5 Pro的核心突破之一，便是引入了“深度思考”能力，這一能力的實現標志著AI向通用智能邁出了關鍵一步。

據桑達爾·皮查介紹，Gemini 2.5 Pro在性能飆升的同時，實現了成本的大幅優化。數據顯示，Gemini模型每秒生成輸出令牌數已躋身全球前三，而單位計算成本較前代下降40%。

Gemini 2.5 Pro通過集成谷歌最新推理架構，成功實現了在復雜任務下的“延時思考”能力。參考AlphaGo的策略性決策邏輯，該模型在面對復雜問題時，能夠主動分配更多的計算資源，對問題進行深入分析和推理，從而輸出更具邏輯縱深的分析結果。

作為原生多模態架構，Gemini 2.5 Pro具備跨文本、圖像、音視頻進行聯合推理的強大能力。基于這一優勢，谷歌正全力構建“世界模型”，一個能夠實時映射物理規則、預測環境變化的虛擬智能體。

谷歌還展示了“Gemini Life”場景：當用戶維修自行車時，AI 可同步調取說明書、分析故障視頻、搜索教學資料、聯系配件供應商，甚至通過語音交互協調維修流程。這種跨模態、主動式服務模式，預示著AI將從被動工具進化為能自主規劃、串聯任務的“數字伙伴”，重新定義人機協作邊界。

AI下的新應用與新場景

AI搜索是對傳統搜索引擎的顛覆。谷歌在此次大會上宣布將Gemini 2.5正式引入Google搜索引擎，并面向美國用戶全面開放“AI mode”“AI Search”功能。

在AI Mode下，用戶可通過語音、文字、圖片等多模態方式輸入搜索問題，搜索引擎會自動分解查詢意圖，生成對應的答案，廣泛應用于制定旅游行程、購物建議、編程指南等生活場景。AI Mode還支持一系列全新功能，如深度搜索和實時互動搜索。深度搜索可讓AI模型自動發起上百次搜索，跨領域整合信息并生成引用詳盡的專家級報告，節省大量人工研究時間。實時互動搜索功能基于Gemini模型和Live API技術，支持實時視頻交互。

用戶在AI Mode界面下點擊“Live”圖標后，可通過手機攝像頭對著現實場景提問，AI能實時理解攝像頭畫面內容，結合視覺信息進行分析，以語音形式給出回答，并提供相關資源鏈接。

谷歌展示了基于“Android XR”平臺開發的一系列新AI硬件，包括頭顯XR與眼鏡。其中，Google宣布正與中國AR科技公司XREAL深度戰略合作，聯合發布新一代AR眼鏡——Project Aura。作為全球首款專為Android XR平臺打造的旗艦級AR眼鏡，Project Aura基于OST技術路線，此次聯合發布，集結了Google、XREAL與高通三方技術實力，形成覆蓋“平臺-硬件-芯片”的黃金鐵三角，Google在操作系統與XR生態的全棧布局，XREAL持續領先的輕量化AR眼鏡研發能力，以及高通Snapdragon? XR芯片在空間計算場景中的強勁性能，共同構筑起Android XR生態的堅實根基。

同時，谷歌還推出了眾多創新產品與技術。如專為創意人士打造的新一代圖像模型Imagen4和視頻模型Veo3。Imagen4強化了圖文混排、細節表現和構圖邏輯，能夠根據簡單的描述生成用于音樂節、品牌活動等場景的高質量海報。而Veo3則實現了視頻生成的一個質變——首次引入“原聲音頻生成”背景音效與角色對話也可一并生成，實現真正意義上的沉浸式內容生產。

面向音頻，谷歌還發布了Lyria，這是一款能夠生成高保真、專業級音頻的新模型。無論是獨唱還是合唱，其生成的音樂在細節和情感表達上都展現出強烈的感染力。

值得注意的是，作為活動的重磅環節，谷歌發布了一款專為創意人士打造的AI視頻制作工具——Flow。這款工具集成了Veo、Imagen和Gemini，創作過程中，用戶不僅可以添加鏡頭，更能定義每一個鏡頭的情緒、節奏與畫面風格。Flow具備保持風格一致性的能力，使得即便是由多個生成模塊構建的作品也具有統一的美術表現力。更重要的是，所有素材都可以被導出至主流視頻剪輯軟件，創作者仍然擁有對最終成品的完全掌控。

谷歌的“Gemini時代”

綜觀整場發布會，谷歌正強勢開啟一個全新的“Gemini 時代”。這一時代的顯著特征，便是谷歌通過持續的技術創新和應用普惠，成功構建起技術與場景相互促進的正循環，進而帶動整個產業實現躍進式發展。

Gemini 2.5系列的技術突破，本質上是多模態能力從“模塊化堆砌”向“原生融合”的質變。Pro版本憑借100萬token上下文窗口和DeepThink推理模式，在數學、編程等復雜任務中展現出超越GPT-4o的邏輯縱深能力，同時，谷歌的普惠化策略并非簡單的技術下放，而是通過生態整合重構AI的應用邊界。這種“開箱即用”的體驗，極大降低了前沿技術的使用門檻，使AI從實驗室走向千行百業。

當然，谷歌的真正野心在于構建一個“技術-場景”的雙向增強系統技術創新為應用普惠提供支撐，而海量場景數據反哺模型迭代。開發者通過API調用的每一次推理請求，都在為模型注入新的知識圖譜。這種正循環機制，正在推動AI從“輔助工具”向“認知主體”進化。

從AlphaGo的“策略性決策”到Gemini 2.5的“世界模型”，谷歌正用技術突破重新定義AI的邊界。當AI不僅能理解語言、圖像，還能模擬物理規則、預測環境變化，甚至主動規劃任務時，人機協作的未來已不再是科幻，它正在Gemini 2.5的代碼中悄然生長。

采寫：黨博文

編輯：博文

指導：辛文

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.