世界模型與谷歌的技術場景野心。
當AlphaGo用策略性決策顛覆圍棋界時,AI的“深度思考”能力初露鋒芒;而今,谷歌Gemini 2.5的發布,標志著這一能力正從封閉的算法競技場走向開放的物理世界。
北京時間周三凌晨,在Google I/O 2025開發者大會上,谷歌以人工智能為核心,重磅發布了一系列令人矚目的新產品和技術,旨在加速AI更加深入融入人們的生活和工作。
谷歌CEO桑達爾·皮查伊披露了過去一年AI業務的運營數據。去年同期,谷歌產品和API每月處理9.7萬億個Token,現在這個數字已經超過480萬億,在谷歌的“Gemini時代”,技術突破不再受傳統發布周期束縛,谷歌正以史無前例的速度將最前沿的AI模型推向全球用戶。
Gemini 2.5系列:AI交互再進化
當前,人工智能領域的競爭愈發激烈,而性能與成本之間的平衡,一直是橫亙在眾多科技企業面前的一道難題。“性能與價格不可兼得”似乎成了行業內難以突破的魔咒。如今,Gemini 2.5系列以其卓越的性能提升和顯著的成本優化,或正打破這一行業困境。
本次Gemini 2.5系列升級的最大亮點,無疑是原生多模態能力的全面落地。
在語音交互方面,Gemini 2.5引入了全新的文本轉語音(TTS),支持多達24種語言的無縫切換。更為驚艷的是,該技術能夠精準模擬人類語音中的情緒細節,諸如語速的快慢、語調的抑揚頓挫等變化,實現了“情感化語音角色”的生成。這意味著,用戶與AI之間的對話將不再是機械、生硬的交流,而是如同與真實的人類伙伴溝通一般自然流暢,極大地提升了交互體驗的質量和真實感。
視覺領域同樣取得了重大突破。如今,用戶僅需上傳一張簡單的草圖,并輸入相關提示詞,系統便能在短短數十秒內自動解析圖像內容,生成可交互的3D模型,并迅速完成部署上線。這一過程全程無需用戶具備專業的3D開發知識,打破了傳統3D建模的技術壁壘。
大會現場,谷歌正式推出AI編程代理“Rose”,Rose支持從代碼生成、錯誤修復到版本遷移的全流程自動化,極大地提高了編程效率和質量。在代碼生成階段,Rose能夠根據自然語言描述,快速生成高質量的代碼,無論是簡單的腳本還是復雜的應用程序框架,都能輕松應對;當代碼出現錯誤時,Rose可以迅速定位問題所在,并提供準確的修復方案,大大節省了開發者排查和解決問題的時間;在版本遷移方面,Rose能夠自動識別代碼版本差異,完成代碼的遷移和適配工作,確保項目在不同版本環境下的穩定運行。
作為Pro版本,谷歌表示,Gemini 2.5 Pro的核心突破之一,便是引入了“深度思考”能力,這一能力的實現標志著AI向通用智能邁出了關鍵一步。
據桑達爾·皮查介紹,Gemini 2.5 Pro在性能飆升的同時,實現了成本的大幅優化。數據顯示,Gemini模型每秒生成輸出令牌數已躋身全球前三,而單位計算成本較前代下降40%。
Gemini 2.5 Pro通過集成谷歌最新推理架構,成功實現了在復雜任務下的“延時思考”能力。參考AlphaGo的策略性決策邏輯,該模型在面對復雜問題時,能夠主動分配更多的計算資源,對問題進行深入分析和推理,從而輸出更具邏輯縱深的分析結果。
作為原生多模態架構,Gemini 2.5 Pro具備跨文本、圖像、音視頻進行聯合推理的強大能力。基于這一優勢,谷歌正全力構建“世界模型”,一個能夠實時映射物理規則、預測環境變化的虛擬智能體。
谷歌還展示了“Gemini Life”場景:當用戶維修自行車時,AI 可同步調取說明書、分析故障視頻、搜索教學資料、聯系配件供應商,甚至通過語音交互協調維修流程。這種跨模態、主動式服務模式,預示著AI將從被動工具進化為能自主規劃、串聯任務的“數字伙伴”,重新定義人機協作邊界。
AI下的新應用與新場景
AI搜索是對傳統搜索引擎的顛覆。谷歌在此次大會上宣布將Gemini 2.5正式引入Google搜索引擎,并面向美國用戶全面開放“AI mode”“AI Search”功能。
在AI Mode下,用戶可通過語音、文字、圖片等多模態方式輸入搜索問題,搜索引擎會自動分解查詢意圖,生成對應的答案,廣泛應用于制定旅游行程、購物建議、編程指南等生活場景。AI Mode還支持一系列全新功能,如深度搜索和實時互動搜索。深度搜索可讓AI模型自動發起上百次搜索,跨領域整合信息并生成引用詳盡的專家級報告,節省大量人工研究時間。實時互動搜索功能基于Gemini模型和Live API技術,支持實時視頻交互。
用戶在AI Mode界面下點擊“Live”圖標后,可通過手機攝像頭對著現實場景提問,AI能實時理解攝像頭畫面內容,結合視覺信息進行分析,以語音形式給出回答,并提供相關資源鏈接。
谷歌展示了基于“Android XR”平臺開發的一系列新AI硬件,包括頭顯XR與眼鏡。其中,Google宣布正與中國AR科技公司XREAL深度戰略合作,聯合發布新一代AR眼鏡——Project Aura。作為全球首款專為Android XR平臺打造的旗艦級AR眼鏡,Project Aura基于OST技術路線,此次聯合發布,集結了Google、XREAL與高通三方技術實力,形成覆蓋“平臺-硬件-芯片”的黃金鐵三角,Google在操作系統與XR生態的全棧布局,XREAL持續領先的輕量化AR眼鏡研發能力,以及高通Snapdragon? XR芯片在空間計算場景中的強勁性能,共同構筑起Android XR生態的堅實根基。
同時,谷歌還推出了眾多創新產品與技術。如專為創意人士打造的新一代圖像模型Imagen4和視頻模型Veo3。Imagen4強化了圖文混排、細節表現和構圖邏輯,能夠根據簡單的描述生成用于音樂節、品牌活動等場景的高質量海報。而Veo3則實現了視頻生成的一個質變——首次引入“原聲音頻生成”背景音效與角色對話也可一并生成,實現真正意義上的沉浸式內容生產。
面向音頻,谷歌還發布了Lyria,這是一款能夠生成高保真、專業級音頻的新模型。無論是獨唱還是合唱,其生成的音樂在細節和情感表達上都展現出強烈的感染力。
值得注意的是,作為活動的重磅環節,谷歌發布了一款專為創意人士打造的AI視頻制作工具——Flow。這款工具集成了Veo、Imagen和Gemini,創作過程中,用戶不僅可以添加鏡頭,更能定義每一個鏡頭的情緒、節奏與畫面風格。Flow具備保持風格一致性的能力,使得即便是由多個生成模塊構建的作品也具有統一的美術表現力。更重要的是,所有素材都可以被導出至主流視頻剪輯軟件,創作者仍然擁有對最終成品的完全掌控。
谷歌的“Gemini時代”
綜觀整場發布會,谷歌正強勢開啟一個全新的“Gemini 時代”。這一時代的顯著特征,便是谷歌通過持續的技術創新和應用普惠,成功構建起技術與場景相互促進的正循環,進而帶動整個產業實現躍進式發展。
Gemini 2.5系列的技術突破,本質上是多模態能力從“模塊化堆砌”向“原生融合”的質變。Pro版本憑借100萬token上下文窗口和DeepThink推理模式,在數學、編程等復雜任務中展現出超越GPT-4o的邏輯縱深能力,同時,谷歌的普惠化策略并非簡單的技術下放,而是通過生態整合重構AI的應用邊界。這種“開箱即用”的體驗,極大降低了前沿技術的使用門檻,使AI從實驗室走向千行百業。
當然,谷歌的真正野心在于構建一個“技術-場景”的雙向增強系統技術創新為應用普惠提供支撐,而海量場景數據反哺模型迭代。開發者通過API調用的每一次推理請求,都在為模型注入新的知識圖譜。這種正循環機制,正在推動AI從“輔助工具”向“認知主體”進化。
從AlphaGo的“策略性決策”到Gemini 2.5的“世界模型”,谷歌正用技術突破重新定義AI的邊界。當AI不僅能理解語言、圖像,還能模擬物理規則、預測環境變化,甚至主動規劃任務時,人機協作的未來已不再是科幻,它正在Gemini 2.5的代碼中悄然生長。
采寫:黨博文
編輯:博文
指導:辛文
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.