夢晨 西風 發自 凹非寺
量子位 | 公眾號 QbitAI
原生多模態輸入輸出、智能體、聯網搜索……所有前沿AI能力集成在一起會怎么樣?
谷歌最新版Project Astra展示了終極AI助手的能力:
視頻鏈接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA
實時觀察周圍環境,搜索資料指導小哥修自行車,零件不夠還能自動電話詢問周邊商店有沒有貨。
在最新的I/O大會上,谷歌連續放大招,就好像大招不要錢。
- 現有AI模型全部更新一遍
- 原有的產品用AI重做一遍
- 實驗性新產品也推出了一籮筐
Gemini 2.5 Pro和Gemini 2.5 Flash的預覽版已霸榜競技場前兩名。
視頻生成模型Veo 3,實現視頻與音頻的原生集成,除音樂和音效,甚至是角色間的對話語音都能生成,畫面上還能同步口型。
視頻鏈接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA
圖像生成模型Imagen 4,圖像更加豐富,色彩更加細膩,細節更加逼真。
傳統產品方面,谷歌搜索增加端到端AI搜索模式,整合推理和多模態分析能力,將問題分解為子問題,并同時發出多個查詢,更深入地探索網絡。
視頻鏈接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA
視頻會議Google Meet,支持實時的雙語翻譯配音,并保留對話雙方的音色,首批英語-西班牙語支持已上線,后續將添加更多語言。
視頻鏈接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA
Chrome瀏覽器,直接集成Gemini模型,可快速總結內容,或根據當前網頁上下文完成任務,無需切換標簽頁。
新產品方面,原裸眼3D視頻通話Project Starline,升級為AI驅動的3D視頻通信平臺Google Beam
使用一系列攝像頭從不同角度捕捉畫面。然后借助AI將視頻流合并,在3D光場顯示屏上呈現畫面——頭部追蹤精度可達毫米,幀率高達每秒60幀。
AI視頻模型與光場顯示技術的結合創造了維度感和深度感,使用戶能夠進行眼神交流,觀察微妙的表情,建立理解和信任,就像面對面一樣。
此外還有異步AI代碼助手Jules,它在后臺運行時人類用戶可以專注于其他任務。
AI電影制作工具Flow,集成多款多模態模型,讓創意變成故事。
與墨鏡品牌Gentle Monster和Warby Parker合作打造的AI眼鏡,配備攝像頭、麥克風和揚聲器,可與手機協同工作,無需把手機從兜里掏出來就能訪問APP。
Gemini模型加持下,AI眼鏡能夠看到和聽到你的一舉一動,從而了解你的處境,記住重要事項,并全天提供幫助。
各部分詳情下面一一來看。
Gemini 2.5系列模型全新升級
Gemini 2.5系列,2.5 Pro、Flash均進行了一波升級。
首先來看Gemini 2.5 Pro,除了在學術基準測試中表現出色外,現在還以1415的ELO分數領先于熱門編碼排行榜WebDev Arena,比上一個版本提升142分:
同時霸榜于評估人類偏好各個維度的LMArena:
據介紹,憑借其百萬token上下文窗口,2.5 Pro具有更強的長上下文和視頻理解性能。
2.5 Pro還整合了谷歌與教育專家合作開發的LearnLM模型系列,在評估其教學法和有效性的直接對比中,教育工作者和專家在各種場景中更青睞2.5 Pro。
更值得一提的是,2.5 Pro全新引入了Deep Think增強推理模式。據介紹,該模式使用新的技術,允許模型在回應前同時考慮多種假設。
效果如何?
2.5 Pro在2025年USAMO這種超難數學基準測試上得分驚艷,在編程比賽級別的LiveCodeBench上也有優勢,在測試多模態推理的MMMU基準中獲得84.0%的分數。
不過,谷歌表示Deep Think需要更多時間進行前沿安全評估,目前僅將通過Gemini API向可信測試人員開放該功能。
2.5 Flash也進行了升級,在推理、多模態、代碼和長上下文等關鍵基準測試中均有改進,同時效率更高,在谷歌的評估中使用token減少了20-30%。
全新2.5 Flash現在已在Google AI Studio、Vertex AI和Gemini app中提供preview。
不僅如此,Gemini 2.5系列還引入了不少新功能。
1、原生音頻輸出功能&Live API改進
Live API 推出了視聽輸入和原生音頻對話的preview版本,用戶可以直接構建更自然、更具表現力的Gemini對話體驗。
模型可根據用戶要求調整語調、口音和說話風格,感情變化聽得見。
谷歌還為2.5 Pro和2.5 Flash推出了文本轉語音(TTS)的新功能。首次支持多揚聲器,通過原生音頻輸出實現雙語音合成,即模擬兩個不同的聲音角色同時或交替發聲,支持24種不同語言。
該文本轉語音功能現已在Gemini API中可用。
2、電腦操作能力
谷歌正將Project Mariner的電腦操作能力引入Gemini API和Vertex AI。
支持多任務處理,最多可同時執行10個任務,并且新增 “Learn and Repeat” 功能,讓AI學會自動完成重復性任務。
視頻鏈接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA
3、為提升開發者體驗,Gemini 2.5增加三大實用功能:
- thought summaries,會將模型的原始思考過程整理成帶標題、關鍵細節和模型操作信息(如工具調用)的清晰格式,幫助開發者更透明地了解模型思考過程。
- thinking budgets,讓開發者可以控制模型使用多少token進行思考;
- Gemini SDK兼容MCP工具,實現與開源工具的更輕松集成。
關于谷歌Gemini的下一步,谷歌DeepMind CEO哈薩比斯表示,他們正努力將其最優秀Gemini模型擴展為一個 “世界模型”,使其能像人類大腦一樣通過理解和模擬世界來制定計劃、想象新體驗。
異步代碼助手Jules
異步代碼助手Jules正式進入公測階段,全球開發者無需等待就能體驗。
Jules會把你的代碼庫克隆到安全的谷歌云虛擬機中,全面理解項目上下文,可以寫測試、構建新功能、提供音頻更新日志、修復bug,以及更新依賴版本。
它以異步方式工作,讓你可以專注于其他任務,完成后會展示其計劃、推理過程和更改內容。私有庫中的工作默認保持私密,Jules不會用你的私有代碼進行訓練。
得益于Gemini 2.5 Pro的支持,Jules擁有目前最先進的編碼推理能力。結合云VM系統,它能處理復雜的多文件變更和并發任務。
公測期間完全免費,但有使用限制,平臺成熟后預計將引入付費方案。
視頻鏈接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA
谷歌搜索引入AI Mode
搜索方面,這次I/O大會宣布將AI Mode正式引入搜索引擎,面向美國用戶全面開放。
AI Mode是以Gemini 2.5為核心重構的搜索引擎,集成了Gemini最前沿的能力,提供端到端的AI搜索
它采用query fan-out技術,自動將問題分解為多個子話題并同時搜索,從而比傳統搜索更深入、更全面地挖掘網絡信息。
谷歌預告了AI Mode未來的一系列功能,比如:
Deep Search深度搜索模式,能自動發起上百次搜索,跨領域整合信息并生成引用詳盡的專家級報告,節省大量人工研究時間。
Search Live實時互動搜索,用戶只需在AI Mode下輕觸“Live”圖標,對著手機攝像頭提問,AI就能看懂畫面內容并給出實時的語音解答和相關資源鏈接。
還有Agent能力,用戶想買音樂會門票,只需說一句話,AI Mode就會跨平臺搜羅各大網站的票務信息,鎖定最優選項,填好訂單信息。用戶只需確認符合需求的選項,即可在偏好的網站完成購買。
谷歌還重點展示了AI Mode所帶來的全新購物體驗。
新購物體驗將Gemini的智能與Shopping Graph結合,集成了500億+優質商品信息,可幫助用戶瀏覽、梳理需求并篩選商品。
當用戶決定購買時,全新的智能結賬功能會按照符合預算的價格輕松完成交易。
只需在任意商品頁面點擊“跟蹤價格”,設置尺寸、顏色和預算金額等,當價格下跌時,用戶會收到通知,確認購買細節后點擊“代我購買”,系統就會自動將商品加入購物車,并通過Google Pay安全完成結賬。
另外在購買衣服時,它還提供虛擬試穿工具,支持使用用戶自拍照。只需上傳一張自拍照,就能在海量服飾中隨意試穿,AI模型能精準還原不同材質的垂墜和褶皺。
多模態模型全線升級
在多模態方面,谷歌還重磅推出了最新視頻生成模型Veo 3、圖像生成模型Imagen 4。
Veo 3首次實現原生音畫同步生成,無論是城市街道的車流聲、公園中的鳥鳴,甚至是角色對話,均可通過文本提示生成。
用戶只需用提示講述一個短故事,模型就能生成栩栩如生的視頻片段。
從文本/圖像提示到現實世界物理效果的模擬和精準的口型同步,Veo 3在各維度均表現出眾。
Veo 3已向美國Ultra訂閱用戶開放,企業用戶也可在Vertex AI平臺調用。
視頻鏈接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA
在推出新模型的同時,Veo 2也增添了多項新功能,包括參考驅動視頻生成、相機控制、畫面擴展以及對象添加和移除功能。這些功能已在Flow中提供,未來幾周內將在Vertex AI API中推出,并在未來幾個月內集成到更多產品中。
谷歌最新圖像生成模型Imagen 4則兼具速度與精度,速度比上一代快10倍,生成的圖像在精細細節上表現驚人,從復雜織物、水滴到動物皮毛均清晰逼真,同時擅長寫實與抽象風格。
Imagen 4支持多種縱橫比與最高2K分辨率,文字拼寫與排版能力顯著提升,輕松創作賀卡、海報、漫畫。
目前Imagen 4已在Gemini app、Whisk、Vertex AI等上線。
除此之外,谷歌還介紹了新一代AI電影制作工具Flow,它專為創意人士設計,集成了谷歌最強的視覺模型(Veo、Imagen和Gemini)。
Flow具備卓越的提示遵循能力,可輸出震撼的電影級畫面。背后Gemini模型讓提示輸入直觀易用,用戶可通過日常語言描述創意愿景,支持導入自有素材創建角色,或利用Imagen的文生圖功能在Flow中生成故事要素。
一旦創建了角色或場景,即可以在不同片段與場景中連貫復用這些要素,也可以用單一場景圖像啟動新鏡頭。
視頻鏈接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA
即日起,美國Google AI Pro與Ultra訂閱用戶可率先使用Flow。
One More Thing
在大會現場,CEO Sundar Pichai還透露了這樣一個數據。
去年4月,谷歌產品和模型API合計每月處理9.7T的tokens。
一年時間過去,這個數據增長到50倍,每月處理480T+ tokens。
- 世界采用人工智能的速度比以往任何時候都快。
視頻回放:https://www.youtube.com/watch?v=o8NiE3XMPrM
[1]https://google-i-o-2025-press-site.prezly.com/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.