大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自數(shù)字生命卡茲克
作者:卡茲克、劉揚(yáng)
今年,Google算是打了個(gè)翻身仗。
不斷的掏出新東西,不斷的讓大家,感受到驚喜。
而萬眾期待的Google I/O開發(fā)者大會,終于在今天凌晨1點(diǎn)正式開始了。
這次的大貨,真的持續(xù)轟炸了整整兩個(gè)小時(shí)。。。
接下來,我們詳細(xì)的來看看,整個(gè)發(fā)布會的內(nèi)容(并不是完整的按照時(shí)間線來)。
我一共分為AI模型、Gemini產(chǎn)品、視覺生成、Google搜索、Agent、其他,六大塊來詳述,一共23小項(xiàng)。
我說真的,Google在那kuku輸出了2小時(shí),我人都聽麻了,就這倆小時(shí)的發(fā)布會光素材分類和整理就讓我從凌晨3點(diǎn)半干到5點(diǎn)半,我特么。。。
那就,開始吧。
零. Google AI Ultra會員
會員發(fā)布其實(shí)比較晚,但是我依然想把它放在第一個(gè),放在所有部分之前。
因?yàn)樗碇鳪oogle的整個(gè)戰(zhàn)略。
這次,新加了一檔249.99刀每月的超級會員,稱為Google AI Ultra,還好他們沒直接寫250刀。。。
幾乎囊括了所有的這次新發(fā)布的產(chǎn)品,包括Gemini 2.5 Pro Deep Think、Veo3、Project Mariner等等,還把NotebookLM、Youtube等等的會員都包了進(jìn)去。
從這個(gè)點(diǎn)來說,終于看到Google開始齊心協(xié)力、心往一處使了,從頂層開始發(fā)力。
目前前三個(gè)月半價(jià),124.99刀每月。
沒啥可說的,第一時(shí)間,先氪為敬。
每月花銷繼續(xù)增加,AI博主真的是個(gè)太燒錢的職業(yè)。。。
一. AI模型
>/ 1.Gemini 2.5 Pro
今年I/O大會的明星之一,讓Google提前兩周放出優(yōu)化版,我當(dāng)時(shí)就寫過一篇評測文章:絕對的親兒子。
直接碾壓了LMArena全部測試項(xiàng),在語言、推理、代碼等方面全線封神。
特別是WebDev編碼測試?yán)镏苯幽昧藗€(gè)天花板級分?jǐn)?shù),足足比上代提升了 142點(diǎn)Elo,直接登頂。
官方還拿它玩了個(gè)彩蛋,讓Gemini 2.5 Pro自己打通了《寶可夢:藍(lán)》,八枚徽章收齊,四大天王+冠軍全通。
讓觀眾戲稱,這尼瑪絕對就是是“人工精靈寶可夢智能(API)”,這塊可能是我英文不行,看了半天沒理解這是一個(gè)什么梗。。。
>/ 2.Gemini 2.5 Flash
如果說2.5 Pro是全能冠軍,那2.5 Flash就是速度型選手。
谷歌把這玩意稱為“最高效的勞模模型”。
發(fā)布會上發(fā)了新版,號稱在推理、代碼和長上下文等幾乎每個(gè)維度都有提升,在LMArena榜單上高居第二,綜合表現(xiàn)僅次于旗艦的2.5 Pro。
新的Flash模型大概會在6月上旬上線正式版。
迫不及待的朋友現(xiàn)在就可以在 AI Studio、Vertex AI以及Gemini App先行體驗(yàn)預(yù)覽版,比如AI Studio里,這個(gè)Gemini 2.5 Flash Preview 05-20就是。
>/ 3. Gemini 2.5 Pro Deep Think
Gemini 2.5 Pro本身就已經(jīng)夠厲害了,現(xiàn)在Google又給它加了個(gè)超強(qiáng)模式,Deep Think。
在超難的數(shù)學(xué)和編程基準(zhǔn)測試中表現(xiàn)驚人。
這玩意其實(shí)大家對OpenAI很熟的話其實(shí)完全能找到對應(yīng)的,就是那個(gè)至今依然是我主力模型的o1 pro,用將近幾分鐘的推理時(shí)長,來換取更高的質(zhì)量。
o3 pro沒發(fā),結(jié)果Gemini 2.5 Pro Deep Think先發(fā)了,不過這兩個(gè)哥們都是期貨。
Google也還在搞安全評估,只會先給信任的測試者用。
>/ 4. Gemini Diffusion
谷歌還秀出了一項(xiàng)前沿研究,一個(gè)實(shí)驗(yàn)性的文本擴(kuò)散大模型。
不是傳統(tǒng)的通過預(yù)測下一個(gè)Token來生成內(nèi)容,而是通過逐步細(xì)化噪聲來并行生成內(nèi)容。
這種并行生成讓它展現(xiàn)出驚人的低延遲,現(xiàn)場演示版本的 Gemini Diffusion 生成速度比2.0版的 Flash Lite快了五倍,代碼任務(wù)質(zhì)量卻幾乎相等。
二. Gemini產(chǎn)品
>/ 1. Gemini Live
今年他們展示了整合多模態(tài)交互的新功能Gemini Live。
基本源自去年的研究Project Astra,它探索的是能理解你周圍世界的通用 AI 助手。
目前Project Astra被整合進(jìn)Gemini Live,用戶可以對著手機(jī)攝像頭或屏幕上的任何內(nèi)容和 AI 助手對話。
現(xiàn)場還玩了個(gè)花活,測試者用攝像頭對著街邊亂指,Gemini Live不僅糾正了用戶把垃圾車當(dāng)成豪華敞篷車的錯(cuò)誤認(rèn)知,還順道給用戶科普了一下,路燈不是瘦高建筑物這種常識。
比較令人激動(dòng)的是,Sundar Pichai宣布Gemini Live的視覺問答功能,從今天開始即將在Android和iOS平臺全面上線。
>/ 2. Personal Context
一個(gè)非常個(gè)性化的功能。
得到你授權(quán)后,Gemini能打通你的搜索歷史、Gmail、Drive這些Google應(yīng)用里的信息,真正懂你。
比如它知道,你物理考試快到了,它不僅提醒你,還能根據(jù)你的筆記、教授的材料,甚至手寫筆記給你出個(gè)性化考題。
>/ 3. DeepResearch和Canvas創(chuàng)作
Deep Research現(xiàn)在能上傳你自己的文件來進(jìn)行深度研究了。
Canvas也迎來了升級。
可以把研究報(bào)告一鍵轉(zhuǎn)成網(wǎng)頁、信息圖,甚至45種語言的播客。
還能在Canvas里用前端預(yù)覽寫出來的代碼,同時(shí)分享給你的朋友,這個(gè)其實(shí)上了有一段時(shí)間了。
>/ 4. Gemini現(xiàn)身Chrome
瀏覽網(wǎng)頁時(shí),Gemini能直接理解當(dāng)前頁面內(nèi)容并回答你的問題,等于自帶了一個(gè)AI總結(jié)的網(wǎng)頁插件。
>/ 5. Gemini Agent Mode
針對C端用戶,谷歌在Gemini應(yīng)用中引入了全新的Agent Mode(代理模式)。
這是一個(gè)讓普通用戶也能支使 AI 去網(wǎng)上替自己辦事的功能。
舉個(gè)例子,你和室友想找房子,預(yù)算、需求一大堆,按以往你得刷無數(shù)網(wǎng)頁,現(xiàn)在只需把這些要求一股腦告訴 Agent Mode。
然后你就可以解放雙手,讓Gemini在背后替你上網(wǎng)找房源,它會自動(dòng)跑去 Zillow等房產(chǎn)網(wǎng)站搜索符合條件的房子,并調(diào)用Mariner幫你針對特定條件篩選。
當(dāng)發(fā)現(xiàn)心儀房源時(shí),它還能用自動(dòng)表單提交幫你預(yù)約看房。更牛逼的是,這個(gè)智能代理會持續(xù)替你刷更新的房源,一直忙活到你喊它停為止。
不過,目前,Gemini應(yīng)用中的Agent Mode仍在實(shí)驗(yàn)階段,谷歌說很快向訂閱用戶推出實(shí)驗(yàn)版,又是一個(gè)餅。
三. 視覺生成
>/ 1. Flow
Flow是這次Google憋出來的一個(gè)大招,一個(gè)全新的AI電影制作工具,直接把Veo、Imagen和Gemini的能力全揉進(jìn)去了。
感覺,就是直接對標(biāo)Sora。
你可以上傳自己的圖片,或者直接用內(nèi)置的Imagen當(dāng)場生成素材。然后用一個(gè)指令,就能生成一段非常屌的AI視頻。
視頻生成完成以后,你還能直接進(jìn)行剪輯,還能延長、跳轉(zhuǎn)下一個(gè)鏡頭。
比如你就可以點(diǎn)個(gè)點(diǎn)個(gè)“+”號,直接描述“在后座加一只10英尺高的雞”,F(xiàn)low也能給你整出來,而且角色、場景風(fēng)格還能保持一致。
不過在我氪了125刀進(jìn)去以后,發(fā)現(xiàn)有個(gè)功能還是餅。。。
就是你想要做圖生視頻啥的,目前只能用他們自己的Image生成,而不能自己上傳。。。
這限制就有一點(diǎn)大了。
網(wǎng)址在此: https://labs.google/fx/tools/flow
目前只對美國開放,所以想用的話,魔法記得調(diào)一下。
>/ 2. Veo3
谷歌去年推出的Veo 2曾讓業(yè)界驚嘆不已,在文生視頻這塊真實(shí)感確實(shí)強(qiáng)到離譜。這一次,他們乘勝追擊發(fā)布了新一代的Veo 3。
它在畫質(zhì)和逼真度上更上一層樓,尤其對物理的理解更深厚了,比如重力、光照、材質(zhì)這些現(xiàn)實(shí)規(guī)律。
然而Veo 3 最大的突破在于它首次加入了原生音頻生成。
也就是說,你讓它生成的視頻里不光有畫面,還有背景音效、環(huán)境聲甚至角色對話同步出現(xiàn)。
“讓 AI 畫兩個(gè)森林里的動(dòng)物聊天”這曾是天方夜譚,但現(xiàn)在 Veo 3 真能做到。
還有船長的表演和說話,自然的跟真人一樣。
而且,好消息是,Veo 3在發(fā)布當(dāng)天即開放使用,直接上線了上面的Flow平臺。
壞消息是,只有氪了125刀的Ultra會員才能用。。。
而且這玩意血貴,一條視頻150點(diǎn)數(shù),Ultra會員一個(gè)月也才12500好像,我隨便跑了下,就只剩9000了。
給大家看看我實(shí)測的幾個(gè)效果,沒太深入的測,都是隨手跑的。
首先,確實(shí)能說話能表演有音效了,這個(gè)是真的牛逼。
Prompt:A wide shot, post-apocalyptic setting: Dim industrial floodlights cast harsh shadows over a dusty underground hangar. A battle-scarred rebel commander stands atop a metal crate, addressing a crowd of grim-faced survivors. Commander: “This isn't just about survival anymore. Tonight, we take back Sector 9!”
物理規(guī)律史詩級進(jìn)步,能落地能轉(zhuǎn)能跑起來了,甚至,還能投籃了。
Prompt:The robot in the high air lands, smashing stones and tumbling, quickly gets up to adjust its posture, locks onto the target, then bursts into accelerated running. The camera follows the action with rotation and sliding, the rhythm of movement is fast, the landing and rolling are smooth without cuts. The scene is a nighttime city alley, with neon lights reflecting off the metal body.
Prompt:The girl jumps and shoots the basketball; the camera follows the ball as it flies from her hand, spinning into the net after soaring over the defender. The ball falls into the hoop's net and slowly bounces back. The audience erupts, cheering loudly. The camera finally zooms in on a close-up of the girl landing with a smile, evoking a passionate and inspiring mood.
>/ 3. Image4
Imagen 4是他們最新一代的文本生成圖像模型。
這代模型他們說畫質(zhì)有質(zhì)的飛躍,顏色更豐富、細(xì)節(jié)更精致,連光影質(zhì)感和水滴等微小元素都栩栩如生。
過去讓 AI 頭疼的文字嵌入問題(比如在圖上加句子常常變成亂碼)在 Imagen 4 上也有重大改進(jìn),能準(zhǔn)確生成文本內(nèi)容,還能聰明地選擇字體樣式,比如把恐龍骨頭做成字母、自動(dòng)調(diào)整間距和版式等等,讓 AI 生成的海報(bào)看起來更好看。
目前已經(jīng)全量上線,普通用戶在Whisk上可用。
網(wǎng)址在此: https://labs.google/fx/zh/tools/whisk
四. Google搜索
>/ 1. AI Overviews
谷歌搜索去年引入的 AI 概覽(AI Overviews)功能在今年 I/O 上交出了一份很牛逼的成績單。
每月已有超過15億用戶在消費(fèi)搜索生成的AI摘要。
AI Overviews會在你搜索時(shí)于結(jié)果頂部產(chǎn)出一個(gè)由Gemini模型生成的簡述,還附帶信息來源引用。
經(jīng)過一年的打磨,這些AI概覽的質(zhì)量和相關(guān)性不斷提高,而且隨著最新Gemini 2.5系列模型的應(yīng)用,生成結(jié)果準(zhǔn)確性更高、覆蓋面更廣,并支持更復(fù)雜的問題了。
目前 AI 概覽功能已經(jīng)在包括美國、印度在內(nèi)的40多個(gè)國家/地區(qū)上線,并支持多語種查詢。
Google還放了一個(gè)數(shù)據(jù),就是自從有了AI概覽,用戶在搜索上的投入度也有所提升,每日搜索量出現(xiàn)了額外兩位數(shù)百分比的增長。
這個(gè)增長量,和Google這個(gè)體量,還是很恐怖的。
>/ 2. AI Mode
如果說AI概覽還只是小試牛刀,那今天谷歌端上來的主菜,AI Mode,就是對搜索體驗(yàn)的全面重構(gòu)。
Sundar Pichai 在臺上宣布,谷歌正在推出一種端到端的AI搜索體驗(yàn)。
啟用AI Mode后,你可以提出更長更復(fù)雜的問題,甚至不像以往那樣非得精簡成關(guān)鍵詞。
Google,這個(gè)全世界最牛逼的搜索巨頭,終于也全面擁抱AI搜索了。
大會現(xiàn)場直接宣布,AI Mode當(dāng)天起作為實(shí)驗(yàn)新功能,向美國所有用戶開放。
可以說,AI Mode是谷歌對搜索范式的一次重塑,他們也終于,從“搜索結(jié)果列表”轉(zhuǎn)向“對話式報(bào)告”了。
有幾個(gè)小的點(diǎn)。
個(gè)性化搜索結(jié)果:AI Mode能根據(jù)你過去的搜索記錄,甚至接入Gmail信息(當(dāng)然,你得同意),給出更貼心的建議。比如你搜旅游攻略,它知道你喜歡戶外,還會結(jié)合你郵件里的航班酒店信息,推薦行程。
Deep Search(深度研究):對于需要深入研究的問題,AI Mode能同時(shí)發(fā)出幾十甚至上百個(gè)搜索請求,然后把信息匯總成一份專家級的、帶引用的報(bào)告,一個(gè)小型的DeepReaserch。
復(fù)雜數(shù)據(jù)分析與可視化:問棒球運(yùn)動(dòng)員的數(shù)據(jù),AI Mode不僅能列表格,還能直接生成圖表給你看。 然后大概在今年夏天,會上線更詳細(xì)的體育和金融問題的分析。
AI幫你辦事兒:整合了Project Mariner的能力,AI Mode能幫你搞定一些實(shí)際操作。比如你想買球賽門票,告訴它你的要求,它能幫你搜遍各大網(wǎng)站,比較價(jià)格和座位,最后直接把你引到付款頁面。以后訂餐廳、預(yù)約服務(wù)也能用。
AI購物更爽:找地毯?AI Mode能根據(jù)你的描述(比如家里有四個(gè)熊孩子),推薦耐用、易清洗的款式,還會給出購買鏈接和注意事項(xiàng)。最絕的是虛擬試衣功能,上傳你的照片,就能看衣服上身效果,背后是專門為時(shí)尚訓(xùn)練的圖像生成模型。
五. Agent系統(tǒng)
>/ 1. Project Mariner
今年絕對是Agent大年。
Agent技術(shù)方面,谷歌發(fā)了Project Mariner。
這個(gè)研究項(xiàng)目可以看作是 AI 驅(qū)動(dòng)的自動(dòng)化瀏覽器助手,就是那種一個(gè)能在網(wǎng)絡(luò)上代替你執(zhí)行操作的Agent。
去年12月作為早期原型推出以來,Mariner 進(jìn)步神速,現(xiàn)在它已經(jīng)學(xué)會了多任務(wù)處理,能同時(shí)監(jiān)督多達(dá)10項(xiàng)任務(wù)并行執(zhí)行。
還引入了一個(gè)非??犰诺摹?/strong>示范并重復(fù) (Teach and Repeat)”功能,就是你示范一次,它便學(xué)會流程,以后遇到類似任務(wù)就能直接上手。
這是我第一次在Agent產(chǎn)品上,看到了RPA的影子。
這才是王道嘛。
之前的那篇關(guān)于RPA的文章,含金量還在增加:
Mariner已開始通過Gemini API向開發(fā)者提供其用電腦的能力。
大概今年夏天,會更大范圍開放這一能力供開發(fā)者。
>/ 2.Jules
發(fā)布會之前就提前發(fā)的一個(gè)AI編程Agent,目前全球測試中。
誰都能用,每天5次免費(fèi)額度。
它可以連接 GitHub,自動(dòng)拉取和提交代碼等等。
不過必須接Github才能用,對我這種開發(fā)小白還是非常的不友好。。
六. 其他
>/ 1. NotebookLM
去年和今年最火的項(xiàng)目之一,掀起了AI播客的潮流。
這次在 I/O 大會上谷歌宣布將其正式推出獨(dú)立應(yīng)用,并登陸Android 和 iOS 平臺?,F(xiàn)在,無論是在手機(jī)還是網(wǎng)頁上,你都可以隨時(shí)隨地調(diào)用 NotebookLM 來整理筆記和知識。
>/ 2. Gemini融入安卓全家桶
你已經(jīng)可以通過電源按鈕快速啟動(dòng)Gemini了。未來幾個(gè)月,Gemini還會登陸你的智能手表、汽車儀表盤甚至電視。
>/ 3. Project Moohan頭顯
跟三星聯(lián)合打造的Project Moohan頭顯,也是第一款 Android XR設(shè)備。今年晚些時(shí)候就能買到。
>/ 4. Android XR智能眼鏡
輕便、適合全天佩戴,內(nèi)置攝像頭、麥克風(fēng)、揚(yáng)聲器,甚至可選的鏡內(nèi)顯示屏。
現(xiàn)場演示了戴著眼鏡,Gemini就能識別你看到的東西(比如墻上的樂隊(duì)照片),回答你的問題,播放音樂,導(dǎo)航,甚至識別之前喝過的咖啡品牌并找到咖啡店。
還有實(shí)時(shí)翻譯功能,兩人用不同母語交流,眼鏡能實(shí)時(shí)顯示翻譯字幕。
一上來就演示就直接炸場了。
還搞了聯(lián)名,Gentle Monster和Warby Parker是首批合作伙伴,Google這么多年還是愛眼鏡的啊。
>/ 4. Google Beam
還記得之前Google那個(gè)讓你感覺對方真人就在眼前的3D視頻通話技術(shù)嗎?現(xiàn)在它叫Google Beam。
它用一個(gè)包含6個(gè)攝像頭的陣列從不同角度捕捉你,然后通過AI將這些視頻流融合成逼真的3D體驗(yàn),顯示在3D光場顯示器上,還能毫米級精度、每秒60幀實(shí)時(shí)追蹤頭部。
今年晚些時(shí)候,惠普將推出首批Google Beam設(shè)備。
>/ 5.Google Meet實(shí)時(shí)語音翻譯
這項(xiàng)技術(shù)能讓不同語言的人進(jìn)行自然流暢的對話,翻譯能匹配說話者的語氣、語速甚至表情。 現(xiàn)在已經(jīng)可以直接在Google Meet里用上了,目前支持英語和西班牙語,更多語言和企業(yè)版會陸續(xù)推出。
>/ 6.TPU Ironwood
第七代TPU,專門為AI的思考和推理大規(guī)模應(yīng)用而設(shè)計(jì),性能比上一代提升10倍。今年晚些時(shí)候會上線Google Cloud。
>/ 7.SynthID數(shù)字水印
為了應(yīng)對AI生成內(nèi)容難以辨別的問題,Google升級了SynthID,新的SynthID Detector能檢測圖片、音頻、文本或視頻中是否包含SynthID標(biāo)記,哪怕只是一小部分。
終于把這個(gè)發(fā)布會,總結(jié)完了。。。
Google這個(gè)量,實(shí)在是太嚇人了。
真的叫量大管飽。
很多非常有趣的東西,比如Flow、比如Veo3、比如Gemini、比如AI mode等等。
時(shí)間關(guān)系,今天完全沒法深度體驗(yàn)和評測。
畢竟,優(yōu)先第一時(shí)間把這篇總結(jié),送到大家手里,才最重要。
后面抽空,可能會繼續(xù)寫單個(gè)功能的深度體驗(yàn)稿。
最后容我感慨一句:
Google,好像真的回來了。
以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.