果殼連續(xù)作為受邀媒體在現(xiàn)場參與Google I/O開發(fā)者大會,尤其是進入AI時代這三年,持續(xù)見證了Google對于AI理解和表達的連貫和變化。
在今年的 Google I/O 大會上,Sundar Pichai(Google CEO)公布了一組最新數(shù)據(jù):
Google 的產品和 API 每月處理 token 數(shù)量已超過 480 萬億;
Gemini 活躍開發(fā)者超 700 萬;
Gemini 應用目前的月活躍用戶已超過 4 億。
而作為這四億分之一,我更關心的,是我使用的 AI 如何更適合我?有點像買鞋,或者處對象。Pichai 回答說:它們(AI 智能體)會在每位用戶的控制下代表其執(zhí)行操作 (on your behalf and under your control)。
一切的指向,是 AI 如何服務每一個與眾不同的個體。想象那些曾經(jīng)驚艷過你的科幻智能機器:R2D2 與天行者父子,機器貓和野比大雄,對了,還有最暖的 Javis 和大白(Baymax)……它們溫柔、高效,又忠誠。
于是,Google 開始試著回答這個問題:如何讓每個人也擁有和它們一樣的 AI 助手?
在今年的 I/O 大會上,Google 的答案中不斷重復著三個關鍵詞:Personal(個性化),Proactive(主動性),Powerful(強力的)。
嗯,3P 原則。(……誒,我在說 AI,你在想什么……)
Personal:一個私人助手的自我修養(yǎng)
自動回復這件事本不新鮮,問題是收到自動回復后的第一感覺,一定不是對方的高效,而是撲面而來的冷漠——但我又是個時刻背負著與人為善思想包袱的人,咋整?
于是 Gmail 新發(fā)布了一個名叫“個性化智能回復”功能(夏季上線)。Gemini 可以根據(jù)你過去的電子郵件和 Google 云端硬盤中的信息來起草電子郵件,讓郵件自動回復更符合你的語氣——這也是個好機會,讓你可以反思一下自己線上溝通的語言習慣,到底是溫暖還是冰冷,還是喜歡陰陽怪氣。
Google Meet 發(fā)布了的視頻通話中實時語音翻譯功能。它能實時翻譯你說的話,同時保留你的聲音和語調,不會讓你在說母語和說外語的變化中,尷尬得判若兩人。最開始會支持英語和西班牙語,未來幾周還會有更多語言加入。
對我來說,這項功能最大的利好,就是我那個英語專八的倒霉同事再也不能在我面前得瑟了。
你大概還記得去年我們在 I/O 現(xiàn)場對 Project Astra 的體驗?今年,期貨終于變成了現(xiàn)貨——一條通向真正“世界模型”的通道,通過手機或眼鏡觀察世界、模擬世界、理解世界,甚至再造世界。這比任何單純文字和語音的溝通,都更接近我們理想化的個人助手。
這次,Google 把 Project Astra 放進了名為 Gemini Live(蘋果系統(tǒng)和安卓系統(tǒng)都已經(jīng)可以使用)的應用中。
Live 功能界面
在幾段演示片段里:它可以實時指導你修理自行車,包括線上查找說明書、識別修理位置的具體問題、在堆滿雜物的工具間尋找零件,甚至在有人來叫你吃飯時自動停止,并在之后繼續(xù);你可以舉著孩子從學校帶回來的手工作業(yè),讓 Gemini 幫你發(fā)現(xiàn)其中可以增強優(yōu)化的地方;當你神經(jīng)兮兮地指著自己的影子,問它問啥有人跟蹤自己時,它也能立刻告訴你“別怕,那只是你的影子”,而且保證不會對你翻白眼……
更多時候,你可以在開會時,把老板潦草混亂的板書拍進 Gemini,自動進日歷和備忘錄,然后盡情走神摸魚;或者把你媳婦兒出門前留給你任務紙條拍進鏡頭,自動生成一個周末的 to-do-list,該做的家務和該買的商品一件不落,晚上不會挨揍。
根據(jù)演示展臺工作人員的介紹,這種協(xié)助行為同樣可以是個性化的,對你經(jīng)常面對的問題或經(jīng)常忽略的問題給予重點提示。
偷懶和增效不過是一體兩面,AI 助手大概也不在乎這些。
Proactive:AI 敏而好學,人類不恥長(常)問
Google的大會,那避不開“搜索”。
我一直期望,AI 可以幫我解決一個長期困擾著全人類的世紀難題:今天中午吃點嘛?
打開陳舊算法主宰的各種本地生活應用,只會日復一日地推薦你吃過的和付費推廣店鋪,這種所謂的“主動推薦”讓我每天中午都無比被動——理想的午餐答案一定是既要又要,懂我的口味,又不斷推陳出新。
AI 加持下的搜索,就提供了另一種主動的協(xié)助。今年 I/O 上,Google 為自己的搜索疊加了一個名為 AI Mode 的模式。相比去年上線的 AI Overview,最新的 AI 模式能承載更多的“動作”。
就以我糾結的午飯難題為例吧:
深度搜索 (Deep Search):針對我每天不厭其煩的問題“北京大望路到底有什么午飯可吃”,AI 模式下的 Google 搜索將執(zhí)行數(shù)百次搜索,整合每一次收集出的不同信息,并在幾分鐘內生成專家程度堪比“朝陽區(qū)包打聽”的餐館清單,包含了時間、價格、評價,是否外賣等等;
實時功能 (Search Live):要是我午飯前太忙,連上面的清單都懶得看,還可以使用 AI 模式搜索中 Project Astra 的實時能力——拍一張辦公桌窗外的馬路,說:就在這個范圍內找口吃的;
代理功能 (Agentic Capabilities):忙到出不了門的話(其實都是裝給老板看的),AI 模式搜索可以調用 Project Mariner 的代理能力,在選擇的搜做結果中自動下單叫外賣,這其中就包括了幫你比價、比配送時間、比評價口味等,到底是天橋對面的沙縣,還是樓下拐角的拉面;
個人情境 (Personal Context):根據(jù)我過往的搜索和消費,下單時候可以自動備注多放香菜不要算,贈送的咖啡別加奶,薯條多兩包番茄醬(當然,這些個人歷史信息的使用都會獲得額外的通知);
自定義圖表和圖形:最后的大招,你就是選擇障礙(我看就是不夠餓),那就把上述優(yōu)化結果請 AI 模式拉一個數(shù)據(jù)圖出來,甚至做個“如何尋找午飯難題抓手和構建用餐飛輪”的 ppt,自己訂個會議室好好分析一下吧,看看為什么自己這么事兒事兒的……
為了口吃的這么折騰,是病
最后,話說回來,如果你需要用上面所有功能,才能決定午飯內容,那你的同事早就吃完回來睡了一覺了。如此的話,我勸你還是跟我一樣,餓一頓吧,沒啥。
Gemini 不會厭煩或笑話你,但你自己會低血糖。
Powerful:目標是 Universal AI App
Pichai 在現(xiàn)場提到,Gemini 的終極目標,是成為一個 Universal AI app——也許可以這么理解這個名詞:通用、跨平臺和設備,以及真正的世界模型。
在今年 I/O 現(xiàn)場的發(fā)布中,還有一些體現(xiàn)了這種愿景的新發(fā)布:
首先,最受期待和歡迎的就是 Android XR 的公布,智能眼鏡上的安卓系統(tǒng)。多少人關于 Google Glass 的怨念終于得到了報償:外觀類似蘋果 Vision Pro 的“重型”XR 眼鏡將同三星和高通合作生產,代號 Project Moohan;外觀類似 Rayban Meta 的“輕型眼鏡”將同時尚眼鏡品牌 Gentle Monster 和 Warby Parker 聯(lián)合推出。
在現(xiàn)場“輕型版”原型機的時代體驗中,最大的感受是 Gemini 的交互流暢度的確大大好過其他市面上已有的類似產品。
其次是新發(fā)布的 Imagen4 和 Veo 3,其中最顯著的進步,是 Veo 3 成為了世界上首個原生支持音效、背景噪音和角色對話的視頻生成模型。
在 Pichai 發(fā)布演講的最后,他舉了一個“小例子”,從另一個應用角度展示了 AI“協(xié)助角色”的價值:還記得去年令人震驚的加州山火么?一款通過 Google AI 加持的山火檢測應用,可以將對火險隱患的檢測范圍精確到 270 平方英尺(約 25 平方米),響應時間從原先的 12 小時縮短為 20 分鐘。
這么好的助理,要說貴,也的確不便宜
但也總有人用使喚著“強力助理”,偶爾做一些蠢事,比如我:
幾個小時前,我坐在 I/O 會場,嘗試 Gemini 生成這篇稿件的大綱,為了能快點交差去展區(qū)閑逛,但最終還是推翻了它給我的六個不同版本,自己寫了,寫完一看:嘿,這不跟 Gemini 給我的第一版差不多么……
AI 成為個人助手的時代,我終于活成了我討厭的老板的樣子。
所以,AI 助理也不容易,是吧?我決定給它屬個名,算個績效,以資鼓勵。
作者:Gemini,臥蟲
封面圖和插圖來源:Google和作者
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.