網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Gemini成谷歌新大腦，智能眼鏡復(fù)活，Google I/O 昨晚上了啥菜？

2025-05-21 10:29:01　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

“它不僅看得見、聽得到，還記得你說(shuō)過(guò)的話，知道什么時(shí)候做出反應(yīng)。”

去年的谷歌 I/O 開發(fā)者大會(huì)上，多模態(tài) AI 助手 Project Astra 首次亮相。當(dāng)時(shí)它更像是一種概念驗(yàn)證。

而在今天的谷歌 I/O 大會(huì)上，Project Astra 以一種更令人驚嘆的方式進(jìn)化了，谷歌 DeepMind 展示了它在實(shí)時(shí)感知、語(yǔ)境理解、邊緣設(shè)備運(yùn)行等方面的全新能力：它能通過(guò)手機(jī)或智能眼鏡識(shí)別物體、追蹤用戶語(yǔ)音指令，并對(duì)環(huán)境中的動(dòng)態(tài)變化做出快速反應(yīng)，真正融入人類的現(xiàn)實(shí)生活。

“Astra 可以根據(jù)它看到的事物選擇何時(shí)說(shuō)話。”DeepMind 研究總監(jiān) Greg Wayne 表示，“實(shí)際上，它一直在持續(xù)觀察，然后發(fā)表評(píng)論。”

這意味著：它能夠代表你完成任務(wù)，即使你沒(méi)有明確要求；它還可以根據(jù)所看到的內(nèi)容選擇性“發(fā)言”，比如指出作業(yè)中的錯(cuò)誤。

Project Astra 仍然是一個(gè)試驗(yàn)項(xiàng)目，公眾或許很久都沒(méi)有機(jī)會(huì)體驗(yàn)它，但它的升級(jí)，代表著谷歌的 AI 戰(zhàn)略野心。它的背后，是谷歌正在以 Gemini 為核心，構(gòu)建一個(gè)貫穿搜索、創(chuàng)作、辦公、助手系統(tǒng)的 AI 應(yīng)用世界。

圖 | 圍繞 Gemini 的更新（來(lái)源：谷歌）

從文本生成圖像與視頻，到智能回復(fù)郵件和工作流整合，再到與用戶實(shí)時(shí)對(duì)話的語(yǔ)音交互——Gemini 已不只是聊天工具，而是逐漸成為谷歌全產(chǎn)品線的大腦。

因此，在 I/O 2025 大會(huì)上，谷歌用來(lái)打頭陣的就是 Gemini。

（來(lái)源：谷歌）

谷歌CEO Sundar Pichai 表示，最新的 Gemini 2.5 Pro 模型（preview-05-06 版）已經(jīng)在 LMArena“屠榜”，所有測(cè)試均排第一。

同時(shí)，谷歌還帶來(lái)了新的模型升級(jí)。Gemini 2.5 Pro 新增了一種名為 Deep Think 的強(qiáng)推理模式，該模式專為與數(shù)學(xué)和編程相關(guān)的復(fù)雜查詢而設(shè)計(jì)，能夠在回應(yīng)前"考慮多種假設(shè)"，但目前僅向可信測(cè)試者開放。

開啟 Deep Think 模型的模型在多模態(tài)推理測(cè)試 MMMU 中獲得了 84% 的準(zhǔn)確率。

該公司還補(bǔ)充說(shuō)，該模式在 2025 年美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽 (USAMO) 中取得了“令人印象深刻的成績(jī)”，但并未公布確切分?jǐn)?shù)。

此外，上個(gè)月發(fā)布在 Pixel 手機(jī)上的 Gemini Live 應(yīng)用將登陸所有兼容的 Android 和 iOS 設(shè)備，可通過(guò) Gemini 應(yīng)用程序使用（谷歌透露該應(yīng)用已擁有超過(guò) 4 億月活躍用戶）。

該應(yīng)用允許用戶詢問(wèn) Gemini 關(guān)于截圖的問(wèn)題，以及手機(jī)攝像頭正在捕捉的實(shí)時(shí)視頻內(nèi)容。

Gemini 重塑搜索體驗(yàn)

另一個(gè)新進(jìn)展是，谷歌宣布將 Gemini 進(jìn)一步集成到 Chrome 瀏覽器中。

從5 月 21 日開始，Google AI Pro 和 Ultra 訂閱用戶可以看到 Chrome 中的 Gemini 按鈕，以跨網(wǎng)頁(yè)總結(jié)信息，并幫助他們更好地瀏覽網(wǎng)站。谷歌計(jì)劃今年晚些時(shí)候讓 Gemini 能夠同時(shí)處理多個(gè)標(biāo)簽頁(yè)。

在此基礎(chǔ)上，谷歌宣布了搜索引擎將加入新功能，AI Mode。

這項(xiàng)功能位于單獨(dú)的標(biāo)簽頁(yè)中，旨在處理比傳統(tǒng)搜索更復(fù)雜的查詢。用戶可以利用它比較不同品牌的同類商品，或?qū)ふ易畋阋说拈T票。該功能將首先向美國(guó)用戶開放。

AI Mode 還為購(gòu)物功能帶來(lái)了重大升級(jí)。用戶很快就能上傳一張自己的照片，來(lái)虛擬試穿衣服，查看服裝在真實(shí)人物上的效果。谷歌正在測(cè)試這一新功能，該功能利用“了解人體和服裝細(xì)微差別”的 AI 模型來(lái)實(shí)現(xiàn)試穿效果。

據(jù)谷歌透露，每月已有超過(guò)15 億人次看到 AI 生成的搜索概覽（AI Overviews），而且絕大多數(shù)用戶都以有意義的方式與之互動(dòng)。

AI Mode 將使用 Gemini 2.5 模型，并將很快能夠根據(jù)特定查詢生成自定義圖表和圖形。它還能夠處理后續(xù)問(wèn)題，使搜索體驗(yàn)更加連貫自然。

同時(shí)谷歌還推出了名為 Search Live 的功能，允許用戶通過(guò)選擇 AI Mode 或 Lens 中的 Live 圖標(biāo)，實(shí)時(shí)討論手機(jī)攝像頭看到的內(nèi)容。這項(xiàng)功能未來(lái)將從谷歌 Astra 項(xiàng)目中汲取靈感，進(jìn)一步擴(kuò)展搜索引擎的能力范圍。

作為安全增強(qiáng)措施，Chrome 的密碼管理器也將得到更新。如果 Chrome 檢測(cè)到您的密碼已被泄露，瀏覽器將很快能夠“生成強(qiáng)大的替代密碼”，并在支持的網(wǎng)站上自動(dòng)更新它（如果用戶同意）。此功能將于今年晚些時(shí)候推出。

AI 創(chuàng)作工具升級(jí)：Imagen 4、Veo 3 和 Flow

接下來(lái)，谷歌宣布了圖像生成和視頻生成模型的更新。

AI 創(chuàng)作工具是本次大會(huì)的另一大亮點(diǎn)。谷歌推出了全新圖像生成模型 Imagen 4，在輸出圖像的細(xì)節(jié)、構(gòu)圖和風(fēng)格控制上“實(shí)現(xiàn)了明顯提升”，更擅長(zhǎng)處理布料和毛皮等精細(xì)細(xì)節(jié)。

圖 | Imagen 4 生成的圖片（來(lái)源：谷歌）

“Imagen 4 可以創(chuàng)建各種寬高比的圖像，分辨率高達(dá) 2k，更適合打印或演示。它在拼寫和排版方面也得到了顯著提升，讓用戶可以更輕松地創(chuàng)作自己的賀卡、海報(bào)甚至漫畫。”谷歌表示。

而新一代視頻生成模型 Veo 3 不僅提高了生成質(zhì)量，而且首次可以生成帶有音頻的視頻，包括城市街道場(chǎng)景背景中的交通噪音、公園里鳥兒的歌唱，甚至人物之間的對(duì)話。

圖 | Veo 3展示（來(lái)源：谷歌）

結(jié)合上述模型的進(jìn)步，谷歌還推出了一款名為 Flow 的新型 AI 電影制作應(yīng)用，類似于 OpenAI Sora。

它是 VideoFX 的升級(jí)版，使用 Veo、Imagen 和 Gemini 來(lái)創(chuàng)建基于文本提示和/或圖像的視頻片段。該工具還提供場(chǎng)景構(gòu)建工具，可將剪輯拼接在一起，創(chuàng)建更長(zhǎng)的 AI 視頻。

Flow 具備攝像機(jī)移動(dòng)和透視控制等功能，允許編輯和擴(kuò)展現(xiàn)有鏡頭，還能將 Veo 模型生成的 AI 視頻內(nèi)容融入更復(fù)雜的項(xiàng)目中。

Flow 從今天開始向美國(guó)的谷歌 AI Pro 和 Ultra 訂閱用戶開放，很快將擴(kuò)大到其他市場(chǎng)。

為了幫助用戶確定內(nèi)容是否由 AI 工具生成，谷歌設(shè)計(jì)了一種工具，名為 SynthID Detector，它可以掃描圖像、音頻、視頻或文本中的 SynthID 水印，并讓用戶知道哪些部分可能帶有水印。早期測(cè)試人員將從今天開始嘗試使用這一工具。

Project Aura：新的 XR 眼鏡

谷歌還展示了自己在 Android XR 領(lǐng)域取得的新進(jìn)展。

圖 | Project Aura 新智能眼鏡（來(lái)源：谷歌）

Android XR 平臺(tái)是谷歌為增強(qiáng)現(xiàn)實(shí)、混合現(xiàn)實(shí)和虛擬現(xiàn)實(shí)開發(fā)的平臺(tái)，希望能復(fù)制 Android 系統(tǒng)在智能手機(jī)領(lǐng)域的成功。

基于此，谷歌宣布了第二款官方 Android XR 設(shè)備：Project Aura，一款智能眼鏡。

Xreal 和谷歌正在合作開發(fā) Project Aura，它將是一款使用 Android XR 平臺(tái)的新型智能眼鏡。目前關(guān)于這款眼鏡的信息不多，但它將集成 Gemini，擁有大視場(chǎng)，預(yù)計(jì)將使用高通芯片，以及內(nèi)置攝像頭和麥克風(fēng)。

圖 | 新眼鏡演示（來(lái)源：谷歌）

在 Android XR 的演示中，谷歌展示了實(shí)時(shí)翻譯功能，但使用的是與三星共同開發(fā)的智能眼鏡（Project Moohan）于今年初公布的）。

除了上述大更新外，谷歌還在生產(chǎn)力場(chǎng)景中加入了 AI 技術(shù)。

Gmail 將大規(guī)模引入基于 Gemini 的智能回復(fù)功能，可從用戶過(guò)往郵件、谷歌云盤文件中提取背景信息，生成更精準(zhǔn)、定制化的回復(fù)內(nèi)容。用戶在閱讀郵件時(shí)，也可調(diào)出 Gemini 側(cè)邊欄，獲取總結(jié)、要點(diǎn)提取和后續(xù)操作建議。

谷歌 Workspace 中的 Docs、Sheets、Slides 等工具也將陸續(xù)集成 Gemini，幫助用戶更高效地處理長(zhǎng)文檔、制作數(shù)據(jù)報(bào)告或撰寫內(nèi)容提案。

谷歌還宣布了一個(gè)新的 3D 視頻會(huì)議項(xiàng)目，Google Beam。目前僅面向企業(yè)客戶。

這套系統(tǒng)也集成了 AI 技術(shù)。它使用光場(chǎng)顯示技術(shù)，不需要佩戴任何特殊設(shè)備，而是通過(guò)六個(gè)攝像頭陣列捕捉不同角度，然后用 AI 將這些圖像拼接在一起，使用頭部跟蹤功能跟蹤用戶的動(dòng)作，并以每秒最高 60 幀的速度傳輸。

最后，谷歌推出了高達(dá)每月 250 美元的 AI Ultra 訂閱計(jì)劃。這個(gè)價(jià)格比 OpenAI 的 200 美元 Pro 計(jì)劃還要貴。

谷歌表示，該計(jì)劃將包括對(duì)其最新 AI 工具的早期訪問(wèn)權(quán)限，以及無(wú)限使用對(duì)谷歌來(lái)說(shuō)成本高昂的功能，如 NotebookLM、Deep Research 和最新推出的 Flow，都將解除使用次數(shù)上限。此外，它還提供 30TB 的存儲(chǔ)空間，以及 YouTube Premium 服務(wù)。

可以看出，與嘗試統(tǒng)治 AI 代理生態(tài)系統(tǒng)的微軟不同，谷歌在此次 I/O 大會(huì)上更多展示的是應(yīng)用層面的更新，將以 Gemini 為核心的 AI 技術(shù)全面拓展到自家產(chǎn)品中。

對(duì)于普通用戶而言，這樣或許能夠更直觀地感受到 AI 帶來(lái)的價(jià)值。

參考資料：

https://io.google/2025/

https://deepmind.google/models/project-astra/

https://www.theverge.com/news/669408/google-io-2025-biggest-announcements-ai-gemini

https://www.engadget.com/ai/google-io-2025-recap-ai-updates-android-xr-google-beam-and-everything-else-announced-at-the-annual-keynote-175900229.html

排版：初嘉實(shí)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.