“它不僅看得見、聽得到,還記得你說(shuō)過(guò)的話,知道什么時(shí)候做出反應(yīng)。”
去年的谷歌 I/O 開發(fā)者大會(huì)上,多模態(tài) AI 助手 Project Astra 首次亮相。當(dāng)時(shí)它更像是一種概念驗(yàn)證。
而在今天的谷歌 I/O 大會(huì)上,Project Astra 以一種更令人驚嘆的方式進(jìn)化了,谷歌 DeepMind 展示了它在實(shí)時(shí)感知、語(yǔ)境理解、邊緣設(shè)備運(yùn)行等方面的全新能力:它能通過(guò)手機(jī)或智能眼鏡識(shí)別物體、追蹤用戶語(yǔ)音指令,并對(duì)環(huán)境中的動(dòng)態(tài)變化做出快速反應(yīng),真正融入人類的現(xiàn)實(shí)生活。
“Astra 可以根據(jù)它看到的事物選擇何時(shí)說(shuō)話。”DeepMind 研究總監(jiān) Greg Wayne 表示,“實(shí)際上,它一直在持續(xù)觀察,然后發(fā)表評(píng)論。”
這意味著:它能夠代表你完成任務(wù),即使你沒(méi)有明確要求;它還可以根據(jù)所看到的內(nèi)容選擇性“發(fā)言”,比如指出作業(yè)中的錯(cuò)誤。
Project Astra 仍然是一個(gè)試驗(yàn)項(xiàng)目,公眾或許很久都沒(méi)有機(jī)會(huì)體驗(yàn)它,但它的升級(jí),代表著谷歌的 AI 戰(zhàn)略野心。它的背后,是谷歌正在以 Gemini 為核心,構(gòu)建一個(gè)貫穿搜索、創(chuàng)作、辦公、助手系統(tǒng)的 AI 應(yīng)用世界。
圖 | 圍繞 Gemini 的更新(來(lái)源:谷歌)
從文本生成圖像與視頻,到智能回復(fù)郵件和工作流整合,再到與用戶實(shí)時(shí)對(duì)話的語(yǔ)音交互——Gemini 已不只是聊天工具,而是逐漸成為谷歌全產(chǎn)品線的大腦。
因此,在 I/O 2025 大會(huì)上,谷歌用來(lái)打頭陣的就是 Gemini。
(來(lái)源:谷歌)
谷歌CEO Sundar Pichai 表示,最新的 Gemini 2.5 Pro 模型(preview-05-06 版)已經(jīng)在 LMArena“屠榜”,所有測(cè)試均排第一。
同時(shí),谷歌還帶來(lái)了新的模型升級(jí)。Gemini 2.5 Pro 新增了一種名為 Deep Think 的強(qiáng)推理模式,該模式專為與數(shù)學(xué)和編程相關(guān)的復(fù)雜查詢而設(shè)計(jì),能夠在回應(yīng)前"考慮多種假設(shè)",但目前僅向可信測(cè)試者開放。
開啟 Deep Think 模型的模型在多模態(tài)推理測(cè)試 MMMU 中獲得了 84% 的準(zhǔn)確率。
該公司還補(bǔ)充說(shuō),該模式在 2025 年美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽 (USAMO) 中取得了“令人印象深刻的成績(jī)”,但并未公布確切分?jǐn)?shù)。
此外,上個(gè)月發(fā)布在 Pixel 手機(jī)上的 Gemini Live 應(yīng)用將登陸所有兼容的 Android 和 iOS 設(shè)備,可通過(guò) Gemini 應(yīng)用程序使用(谷歌透露該應(yīng)用已擁有超過(guò) 4 億月活躍用戶)。
該應(yīng)用允許用戶詢問(wèn) Gemini 關(guān)于截圖的問(wèn)題,以及手機(jī)攝像頭正在捕捉的實(shí)時(shí)視頻內(nèi)容。
Gemini 重塑搜索體驗(yàn)
另一個(gè)新進(jìn)展是,谷歌宣布將 Gemini 進(jìn)一步集成到 Chrome 瀏覽器中。
從5 月 21 日開始,Google AI Pro 和 Ultra 訂閱用戶可以看到 Chrome 中的 Gemini 按鈕,以跨網(wǎng)頁(yè)總結(jié)信息,并幫助他們更好地瀏覽網(wǎng)站。谷歌計(jì)劃今年晚些時(shí)候讓 Gemini 能夠同時(shí)處理多個(gè)標(biāo)簽頁(yè)。
在此基礎(chǔ)上,谷歌宣布了搜索引擎將加入新功能,AI Mode。
這項(xiàng)功能位于單獨(dú)的標(biāo)簽頁(yè)中,旨在處理比傳統(tǒng)搜索更復(fù)雜的查詢。用戶可以利用它比較不同品牌的同類商品,或?qū)ふ易畋阋说拈T票。該功能將首先向美國(guó)用戶開放。
AI Mode 還為購(gòu)物功能帶來(lái)了重大升級(jí)。用戶很快就能上傳一張自己的照片,來(lái)虛擬試穿衣服,查看服裝在真實(shí)人物上的效果。谷歌正在測(cè)試這一新功能,該功能利用“了解人體和服裝細(xì)微差別”的 AI 模型來(lái)實(shí)現(xiàn)試穿效果。
據(jù)谷歌透露,每月已有超過(guò)15 億人次看到 AI 生成的搜索概覽(AI Overviews),而且絕大多數(shù)用戶都以有意義的方式與之互動(dòng)。
AI Mode 將使用 Gemini 2.5 模型,并將很快能夠根據(jù)特定查詢生成自定義圖表和圖形。它還能夠處理后續(xù)問(wèn)題,使搜索體驗(yàn)更加連貫自然。
同時(shí)谷歌還推出了名為 Search Live 的功能,允許用戶通過(guò)選擇 AI Mode 或 Lens 中的 Live 圖標(biāo),實(shí)時(shí)討論手機(jī)攝像頭看到的內(nèi)容。這項(xiàng)功能未來(lái)將從谷歌 Astra 項(xiàng)目中汲取靈感,進(jìn)一步擴(kuò)展搜索引擎的能力范圍。
作為安全增強(qiáng)措施,Chrome 的密碼管理器也將得到更新。如果 Chrome 檢測(cè)到您的密碼已被泄露,瀏覽器將很快能夠“生成強(qiáng)大的替代密碼”,并在支持的網(wǎng)站上自動(dòng)更新它(如果用戶同意)。此功能將于今年晚些時(shí)候推出。
AI 創(chuàng)作工具升級(jí):Imagen 4、Veo 3 和 Flow
接下來(lái),谷歌宣布了圖像生成和視頻生成模型的更新。
AI 創(chuàng)作工具是本次大會(huì)的另一大亮點(diǎn)。谷歌推出了全新圖像生成模型 Imagen 4,在輸出圖像的細(xì)節(jié)、構(gòu)圖和風(fēng)格控制上“實(shí)現(xiàn)了明顯提升”,更擅長(zhǎng)處理布料和毛皮等精細(xì)細(xì)節(jié)。
圖 | Imagen 4 生成的圖片 (來(lái)源:谷歌)
“Imagen 4 可以創(chuàng)建各種寬高比的圖像,分辨率高達(dá) 2k,更適合打印或演示。它在拼寫和排版方面也得到了顯著提升,讓用戶可以更輕松地創(chuàng)作自己的賀卡、海報(bào)甚至漫畫。”谷歌表示。
而新一代視頻生成模型 Veo 3 不僅提高了生成質(zhì)量,而且首次可以生成帶有音頻的視頻,包括城市街道場(chǎng)景背景中的交通噪音、公園里鳥兒的歌唱,甚至人物之間的對(duì)話。
圖 | Veo 3展示(來(lái)源:谷歌)
結(jié)合上述模型的進(jìn)步,谷歌還推出了一款名為 Flow 的新型 AI 電影制作應(yīng)用,類似于 OpenAI Sora。
它是 VideoFX 的升級(jí)版,使用 Veo、Imagen 和 Gemini 來(lái)創(chuàng)建基于文本提示和/或圖像的視頻片段。該工具還提供場(chǎng)景構(gòu)建工具,可將剪輯拼接在一起,創(chuàng)建更長(zhǎng)的 AI 視頻。
Flow 具備攝像機(jī)移動(dòng)和透視控制等功能,允許編輯和擴(kuò)展現(xiàn)有鏡頭,還能將 Veo 模型生成的 AI 視頻內(nèi)容融入更復(fù)雜的項(xiàng)目中。
Flow 從今天開始向美國(guó)的谷歌 AI Pro 和 Ultra 訂閱用戶開放,很快將擴(kuò)大到其他市場(chǎng)。
為了幫助用戶確定內(nèi)容是否由 AI 工具生成,谷歌設(shè)計(jì)了一種工具,名為 SynthID Detector,它可以掃描圖像、音頻、視頻或文本中的 SynthID 水印,并讓用戶知道哪些部分可能帶有水印。早期測(cè)試人員將從今天開始嘗試使用這一工具。
Project Aura:新的 XR 眼鏡
谷歌還展示了自己在 Android XR 領(lǐng)域取得的新進(jìn)展。
圖 | Project Aura 新智能眼鏡(來(lái)源:谷歌)
Android XR 平臺(tái)是谷歌為增強(qiáng)現(xiàn)實(shí)、混合現(xiàn)實(shí)和虛擬現(xiàn)實(shí)開發(fā)的平臺(tái),希望能復(fù)制 Android 系統(tǒng)在智能手機(jī)領(lǐng)域的成功。
基于此,谷歌宣布了第二款官方 Android XR 設(shè)備:Project Aura,一款智能眼鏡。
Xreal 和谷歌正在合作開發(fā) Project Aura,它將是一款使用 Android XR 平臺(tái)的新型智能眼鏡。目前關(guān)于這款眼鏡的信息不多,但它將集成 Gemini,擁有大視場(chǎng),預(yù)計(jì)將使用高通芯片,以及內(nèi)置攝像頭和麥克風(fēng)。
圖 | 新眼鏡演示(來(lái)源:谷歌)
在 Android XR 的演示中,谷歌展示了實(shí)時(shí)翻譯功能,但使用的是與三星共同開發(fā)的智能眼鏡(Project Moohan)于今年初公布的)。
除了上述大更新外,谷歌還在生產(chǎn)力場(chǎng)景中加入了 AI 技術(shù)。
Gmail 將大規(guī)模引入基于 Gemini 的智能回復(fù)功能,可從用戶過(guò)往郵件、谷歌云盤文件中提取背景信息,生成更精準(zhǔn)、定制化的回復(fù)內(nèi)容。用戶在閱讀郵件時(shí),也可調(diào)出 Gemini 側(cè)邊欄,獲取總結(jié)、要點(diǎn)提取和后續(xù)操作建議。
谷歌 Workspace 中的 Docs、Sheets、Slides 等工具也將陸續(xù)集成 Gemini,幫助用戶更高效地處理長(zhǎng)文檔、制作數(shù)據(jù)報(bào)告或撰寫內(nèi)容提案。
谷歌還宣布了一個(gè)新的 3D 視頻會(huì)議項(xiàng)目,Google Beam。目前僅面向企業(yè)客戶。
這套系統(tǒng)也集成了 AI 技術(shù)。它使用光場(chǎng)顯示技術(shù),不需要佩戴任何特殊設(shè)備,而是通過(guò)六個(gè)攝像頭陣列捕捉不同角度,然后用 AI 將這些圖像拼接在一起,使用頭部跟蹤功能跟蹤用戶的動(dòng)作,并以每秒最高 60 幀的速度傳輸。
最后,谷歌推出了高達(dá)每月 250 美元的 AI Ultra 訂閱計(jì)劃。這個(gè)價(jià)格比 OpenAI 的 200 美元 Pro 計(jì)劃還要貴。
谷歌表示,該計(jì)劃將包括對(duì)其最新 AI 工具的早期訪問(wèn)權(quán)限,以及無(wú)限使用對(duì)谷歌來(lái)說(shuō)成本高昂的功能,如 NotebookLM、Deep Research 和最新推出的 Flow,都將解除使用次數(shù)上限。此外,它還提供 30TB 的存儲(chǔ)空間,以及 YouTube Premium 服務(wù)。
可以看出,與嘗試統(tǒng)治 AI 代理生態(tài)系統(tǒng)的微軟不同,谷歌在此次 I/O 大會(huì)上更多展示的是應(yīng)用層面的更新,將以 Gemini 為核心的 AI 技術(shù)全面拓展到自家產(chǎn)品中。
對(duì)于普通用戶而言,這樣或許能夠更直觀地感受到 AI 帶來(lái)的價(jià)值。
參考資料:
https://io.google/2025/
https://deepmind.google/models/project-astra/
https://www.theverge.com/news/669408/google-io-2025-biggest-announcements-ai-gemini
https://www.engadget.com/ai/google-io-2025-recap-ai-updates-android-xr-google-beam-and-everything-else-announced-at-the-annual-keynote-175900229.html
排版:初嘉實(shí)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.