大數據文摘受權轉載自數字生命卡茲克
作者:卡茲克、劉揚
今年,Google算是打了個翻身仗。
不斷的掏出新東西,不斷的讓大家,感受到驚喜。
而萬眾期待的Google I/O開發者大會,終于在今天凌晨1點正式開始了。
這次的大貨,真的持續轟炸了整整兩個小時。。。
接下來,我們詳細的來看看,整個發布會的內容(并不是完整的按照時間線來)。
我一共分為AI模型、Gemini產品、視覺生成、Google搜索、Agent、其他,六大塊來詳述,一共23小項。
我說真的,Google在那kuku輸出了2小時,我人都聽麻了,就這倆小時的發布會光素材分類和整理就讓我從凌晨3點半干到5點半,我特么。。。
那就,開始吧。
零. Google AI Ultra會員
會員發布其實比較晚,但是我依然想把它放在第一個,放在所有部分之前。
因為它代表著Google的整個戰略。
這次,新加了一檔249.99刀每月的超級會員,稱為Google AI Ultra,還好他們沒直接寫250刀。。。
幾乎囊括了所有的這次新發布的產品,包括Gemini 2.5 Pro Deep Think、Veo3、Project Mariner等等,還把NotebookLM、Youtube等等的會員都包了進去。
從這個點來說,終于看到Google開始齊心協力、心往一處使了,從頂層開始發力。
目前前三個月半價,124.99刀每月。
沒啥可說的,第一時間,先氪為敬。
每月花銷繼續增加,AI博主真的是個太燒錢的職業。。。
一. AI模型
>/ 1.Gemini 2.5 Pro
今年I/O大會的明星之一,讓Google提前兩周放出優化版,我當時就寫過一篇評測文章:絕對的親兒子。
直接碾壓了LMArena全部測試項,在語言、推理、代碼等方面全線封神。
特別是WebDev編碼測試里直接拿了個天花板級分數,足足比上代提升了 142點Elo,直接登頂。
官方還拿它玩了個彩蛋,讓Gemini 2.5 Pro自己打通了《寶可夢:藍》,八枚徽章收齊,四大天王+冠軍全通。
讓觀眾戲稱,這尼瑪絕對就是是“人工精靈寶可夢智能(API)”,這塊可能是我英文不行,看了半天沒理解這是一個什么梗。。。
>/ 2.Gemini 2.5 Flash
如果說2.5 Pro是全能冠軍,那2.5 Flash就是速度型選手。
谷歌把這玩意稱為“最高效的勞模模型”。
發布會上發了新版,號稱在推理、代碼和長上下文等幾乎每個維度都有提升,在LMArena榜單上高居第二,綜合表現僅次于旗艦的2.5 Pro。
新的Flash模型大概會在6月上旬上線正式版。
迫不及待的朋友現在就可以在 AI Studio、Vertex AI以及Gemini App先行體驗預覽版,比如AI Studio里,這個Gemini 2.5 Flash Preview 05-20就是。
>/ 3. Gemini 2.5 Pro Deep Think
Gemini 2.5 Pro本身就已經夠厲害了,現在Google又給它加了個超強模式,Deep Think。
在超難的數學和編程基準測試中表現驚人。
這玩意其實大家對OpenAI很熟的話其實完全能找到對應的,就是那個至今依然是我主力模型的o1 pro,用將近幾分鐘的推理時長,來換取更高的質量。
o3 pro沒發,結果Gemini 2.5 Pro Deep Think先發了,不過這兩個哥們都是期貨。
Google也還在搞安全評估,只會先給信任的測試者用。
>/ 4. Gemini Diffusion
谷歌還秀出了一項前沿研究,一個實驗性的文本擴散大模型。
不是傳統的通過預測下一個Token來生成內容,而是通過逐步細化噪聲來并行生成內容。
這種并行生成讓它展現出驚人的低延遲,現場演示版本的 Gemini Diffusion 生成速度比2.0版的 Flash Lite快了五倍,代碼任務質量卻幾乎相等。
二. Gemini產品
>/ 1. Gemini Live
今年他們展示了整合多模態交互的新功能Gemini Live。
基本源自去年的研究Project Astra,它探索的是能理解你周圍世界的通用 AI 助手。
目前Project Astra被整合進Gemini Live,用戶可以對著手機攝像頭或屏幕上的任何內容和 AI 助手對話。
現場還玩了個花活,測試者用攝像頭對著街邊亂指,Gemini Live不僅糾正了用戶把垃圾車當成豪華敞篷車的錯誤認知,還順道給用戶科普了一下,路燈不是瘦高建筑物這種常識。
比較令人激動的是,Sundar Pichai宣布Gemini Live的視覺問答功能,從今天開始即將在Android和iOS平臺全面上線。
>/ 2. Personal Context
一個非常個性化的功能。
得到你授權后,Gemini能打通你的搜索歷史、Gmail、Drive這些Google應用里的信息,真正懂你。
比如它知道,你物理考試快到了,它不僅提醒你,還能根據你的筆記、教授的材料,甚至手寫筆記給你出個性化考題。
>/ 3. DeepResearch和Canvas創作
Deep Research現在能上傳你自己的文件來進行深度研究了。
Canvas也迎來了升級。
可以把研究報告一鍵轉成網頁、信息圖,甚至45種語言的播客。
還能在Canvas里用前端預覽寫出來的代碼,同時分享給你的朋友,這個其實上了有一段時間了。
>/ 4. Gemini現身Chrome
瀏覽網頁時,Gemini能直接理解當前頁面內容并回答你的問題,等于自帶了一個AI總結的網頁插件。
>/ 5. Gemini Agent Mode
針對C端用戶,谷歌在Gemini應用中引入了全新的Agent Mode(代理模式)。
這是一個讓普通用戶也能支使 AI 去網上替自己辦事的功能。
舉個例子,你和室友想找房子,預算、需求一大堆,按以往你得刷無數網頁,現在只需把這些要求一股腦告訴 Agent Mode。
然后你就可以解放雙手,讓Gemini在背后替你上網找房源,它會自動跑去 Zillow等房產網站搜索符合條件的房子,并調用Mariner幫你針對特定條件篩選。
當發現心儀房源時,它還能用自動表單提交幫你預約看房。更牛逼的是,這個智能代理會持續替你刷更新的房源,一直忙活到你喊它停為止。
不過,目前,Gemini應用中的Agent Mode仍在實驗階段,谷歌說很快向訂閱用戶推出實驗版,又是一個餅。
三. 視覺生成
>/ 1. Flow
Flow是這次Google憋出來的一個大招,一個全新的AI電影制作工具,直接把Veo、Imagen和Gemini的能力全揉進去了。
感覺,就是直接對標Sora。
你可以上傳自己的圖片,或者直接用內置的Imagen當場生成素材。然后用一個指令,就能生成一段非常屌的AI視頻。
視頻生成完成以后,你還能直接進行剪輯,還能延長、跳轉下一個鏡頭。
比如你就可以點個點個“+”號,直接描述“在后座加一只10英尺高的雞”,Flow也能給你整出來,而且角色、場景風格還能保持一致。
不過在我氪了125刀進去以后,發現有個功能還是餅。。。
就是你想要做圖生視頻啥的,目前只能用他們自己的Image生成,而不能自己上傳。。。
這限制就有一點大了。
網址在此: https://labs.google/fx/tools/flow
目前只對美國開放,所以想用的話,魔法記得調一下。
>/ 2. Veo3
谷歌去年推出的Veo 2曾讓業界驚嘆不已,在文生視頻這塊真實感確實強到離譜。這一次,他們乘勝追擊發布了新一代的Veo 3。
它在畫質和逼真度上更上一層樓,尤其對物理的理解更深厚了,比如重力、光照、材質這些現實規律。
然而Veo 3 最大的突破在于它首次加入了原生音頻生成。
也就是說,你讓它生成的視頻里不光有畫面,還有背景音效、環境聲甚至角色對話同步出現。
“讓 AI 畫兩個森林里的動物聊天”這曾是天方夜譚,但現在 Veo 3 真能做到。
還有船長的表演和說話,自然的跟真人一樣。
而且,好消息是,Veo 3在發布當天即開放使用,直接上線了上面的Flow平臺。
壞消息是,只有氪了125刀的Ultra會員才能用。。。
而且這玩意血貴,一條視頻150點數,Ultra會員一個月也才12500好像,我隨便跑了下,就只剩9000了。
給大家看看我實測的幾個效果,沒太深入的測,都是隨手跑的。
首先,確實能說話能表演有音效了,這個是真的牛逼。
Prompt:A wide shot, post-apocalyptic setting: Dim industrial floodlights cast harsh shadows over a dusty underground hangar. A battle-scarred rebel commander stands atop a metal crate, addressing a crowd of grim-faced survivors. Commander: “This isn't just about survival anymore. Tonight, we take back Sector 9!”
物理規律史詩級進步,能落地能轉能跑起來了,甚至,還能投籃了。
Prompt:The robot in the high air lands, smashing stones and tumbling, quickly gets up to adjust its posture, locks onto the target, then bursts into accelerated running. The camera follows the action with rotation and sliding, the rhythm of movement is fast, the landing and rolling are smooth without cuts. The scene is a nighttime city alley, with neon lights reflecting off the metal body.
Prompt:The girl jumps and shoots the basketball; the camera follows the ball as it flies from her hand, spinning into the net after soaring over the defender. The ball falls into the hoop's net and slowly bounces back. The audience erupts, cheering loudly. The camera finally zooms in on a close-up of the girl landing with a smile, evoking a passionate and inspiring mood.
>/ 3. Image4
Imagen 4是他們最新一代的文本生成圖像模型。
這代模型他們說畫質有質的飛躍,顏色更豐富、細節更精致,連光影質感和水滴等微小元素都栩栩如生。
過去讓 AI 頭疼的文字嵌入問題(比如在圖上加句子常常變成亂碼)在 Imagen 4 上也有重大改進,能準確生成文本內容,還能聰明地選擇字體樣式,比如把恐龍骨頭做成字母、自動調整間距和版式等等,讓 AI 生成的海報看起來更好看。
目前已經全量上線,普通用戶在Whisk上可用。
網址在此: https://labs.google/fx/zh/tools/whisk
四. Google搜索
>/ 1. AI Overviews
谷歌搜索去年引入的 AI 概覽(AI Overviews)功能在今年 I/O 上交出了一份很牛逼的成績單。
每月已有超過15億用戶在消費搜索生成的AI摘要。
AI Overviews會在你搜索時于結果頂部產出一個由Gemini模型生成的簡述,還附帶信息來源引用。
經過一年的打磨,這些AI概覽的質量和相關性不斷提高,而且隨著最新Gemini 2.5系列模型的應用,生成結果準確性更高、覆蓋面更廣,并支持更復雜的問題了。
目前 AI 概覽功能已經在包括美國、印度在內的40多個國家/地區上線,并支持多語種查詢。
Google還放了一個數據,就是自從有了AI概覽,用戶在搜索上的投入度也有所提升,每日搜索量出現了額外兩位數百分比的增長。
這個增長量,和Google這個體量,還是很恐怖的。
>/ 2. AI Mode
如果說AI概覽還只是小試牛刀,那今天谷歌端上來的主菜,AI Mode,就是對搜索體驗的全面重構。
Sundar Pichai 在臺上宣布,谷歌正在推出一種端到端的AI搜索體驗。
啟用AI Mode后,你可以提出更長更復雜的問題,甚至不像以往那樣非得精簡成關鍵詞。
Google,這個全世界最牛逼的搜索巨頭,終于也全面擁抱AI搜索了。
大會現場直接宣布,AI Mode當天起作為實驗新功能,向美國所有用戶開放。
可以說,AI Mode是谷歌對搜索范式的一次重塑,他們也終于,從“搜索結果列表”轉向“對話式報告”了。
有幾個小的點。
個性化搜索結果:AI Mode能根據你過去的搜索記錄,甚至接入Gmail信息(當然,你得同意),給出更貼心的建議。比如你搜旅游攻略,它知道你喜歡戶外,還會結合你郵件里的航班酒店信息,推薦行程。
Deep Search(深度研究):對于需要深入研究的問題,AI Mode能同時發出幾十甚至上百個搜索請求,然后把信息匯總成一份專家級的、帶引用的報告,一個小型的DeepReaserch。
復雜數據分析與可視化:問棒球運動員的數據,AI Mode不僅能列表格,還能直接生成圖表給你看。 然后大概在今年夏天,會上線更詳細的體育和金融問題的分析。
AI幫你辦事兒:整合了Project Mariner的能力,AI Mode能幫你搞定一些實際操作。比如你想買球賽門票,告訴它你的要求,它能幫你搜遍各大網站,比較價格和座位,最后直接把你引到付款頁面。以后訂餐廳、預約服務也能用。
AI購物更爽:找地毯?AI Mode能根據你的描述(比如家里有四個熊孩子),推薦耐用、易清洗的款式,還會給出購買鏈接和注意事項。最絕的是虛擬試衣功能,上傳你的照片,就能看衣服上身效果,背后是專門為時尚訓練的圖像生成模型。
五. Agent系統
>/ 1. Project Mariner
今年絕對是Agent大年。
Agent技術方面,谷歌發了Project Mariner。
這個研究項目可以看作是 AI 驅動的自動化瀏覽器助手,就是那種一個能在網絡上代替你執行操作的Agent。
去年12月作為早期原型推出以來,Mariner 進步神速,現在它已經學會了多任務處理,能同時監督多達10項任務并行執行。
還引入了一個非常酷炫的“示范并重復 (Teach and Repeat)”功能,就是你示范一次,它便學會流程,以后遇到類似任務就能直接上手。
這是我第一次在Agent產品上,看到了RPA的影子。
這才是王道嘛。
之前的那篇關于RPA的文章,含金量還在增加:
Mariner已開始通過Gemini API向開發者提供其用電腦的能力。
大概今年夏天,會更大范圍開放這一能力供開發者。
>/ 2.Jules
發布會之前就提前發的一個AI編程Agent,目前全球測試中。
誰都能用,每天5次免費額度。
它可以連接 GitHub,自動拉取和提交代碼等等。
不過必須接Github才能用,對我這種開發小白還是非常的不友好。。
六. 其他
>/ 1. NotebookLM
去年和今年最火的項目之一,掀起了AI播客的潮流。
這次在 I/O 大會上谷歌宣布將其正式推出獨立應用,并登陸Android 和 iOS 平臺。現在,無論是在手機還是網頁上,你都可以隨時隨地調用 NotebookLM 來整理筆記和知識。
>/ 2. Gemini融入安卓全家桶
你已經可以通過電源按鈕快速啟動Gemini了。未來幾個月,Gemini還會登陸你的智能手表、汽車儀表盤甚至電視。
>/ 3. Project Moohan頭顯
跟三星聯合打造的Project Moohan頭顯,也是第一款 Android XR設備。今年晚些時候就能買到。
>/ 4. Android XR智能眼鏡
輕便、適合全天佩戴,內置攝像頭、麥克風、揚聲器,甚至可選的鏡內顯示屏。
現場演示了戴著眼鏡,Gemini就能識別你看到的東西(比如墻上的樂隊照片),回答你的問題,播放音樂,導航,甚至識別之前喝過的咖啡品牌并找到咖啡店。
還有實時翻譯功能,兩人用不同母語交流,眼鏡能實時顯示翻譯字幕。
一上來就演示就直接炸場了。
還搞了聯名,Gentle Monster和Warby Parker是首批合作伙伴,Google這么多年還是愛眼鏡的啊。
>/ 4. Google Beam
還記得之前Google那個讓你感覺對方真人就在眼前的3D視頻通話技術嗎?現在它叫Google Beam。
它用一個包含6個攝像頭的陣列從不同角度捕捉你,然后通過AI將這些視頻流融合成逼真的3D體驗,顯示在3D光場顯示器上,還能毫米級精度、每秒60幀實時追蹤頭部。
今年晚些時候,惠普將推出首批Google Beam設備。
>/ 5.Google Meet實時語音翻譯
這項技術能讓不同語言的人進行自然流暢的對話,翻譯能匹配說話者的語氣、語速甚至表情。 現在已經可以直接在Google Meet里用上了,目前支持英語和西班牙語,更多語言和企業版會陸續推出。
>/ 6.TPU Ironwood
第七代TPU,專門為AI的思考和推理大規模應用而設計,性能比上一代提升10倍。今年晚些時候會上線Google Cloud。
>/ 7.SynthID數字水印
為了應對AI生成內容難以辨別的問題,Google升級了SynthID,新的SynthID Detector能檢測圖片、音頻、文本或視頻中是否包含SynthID標記,哪怕只是一小部分。
終于把這個發布會,總結完了。。。
Google這個量,實在是太嚇人了。
真的叫量大管飽。
很多非常有趣的東西,比如Flow、比如Veo3、比如Gemini、比如AI mode等等。
時間關系,今天完全沒法深度體驗和評測。
畢竟,優先第一時間把這篇總結,送到大家手里,才最重要。
后面抽空,可能會繼續寫單個功能的深度體驗稿。
最后容我感慨一句:
Google,好像真的回來了。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.