網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

試圖干翻所有 AI 公司，谷歌全家桶到底有多硬核？

2025-06-03 16:46:56　來(lái)源: 科技狐

廣東舉報(bào)

分享至

2025 年，AI 越卷越狠，各家大模型你追我趕。進(jìn)入 Gemini 時(shí)代的谷歌，在自家產(chǎn)品上的應(yīng)用更是全面開(kāi)花。

剛過(guò)去不久的 Google I/O 2025 開(kāi)發(fā)者大會(huì)，不出所料，“AI” 依然是絕對(duì)主角。

去年，“AI” 一詞在大會(huì)上被提及 120 次，今年也毫不遜色，被提及 92 次。

其中，“Gemini” 一詞貫穿全場(chǎng)，高調(diào)亮相 95 次，頻率還反超了 “AI”，儼然成了谷歌新一代 AI 的代名詞。

這次大會(huì)更新，讓老狐眼前一亮，再次刷新了對(duì) AI 潛力的認(rèn)知：這才像谷歌，有老大哥的氣魄。

作為谷歌主力的語(yǔ)言模型，Gemini 2.5 Pro 和 Gemini 2.5 Flash 自三月推出以來(lái)就保持高熱度。

尤其 2.5 Pro，在 WebDev Arena 和 LMArena 等多個(gè)評(píng)測(cè)平臺(tái)上，各個(gè)子任務(wù)幾乎全線領(lǐng)先，屬于實(shí)打?qū)嵉摹鞍駟伟灾鳌薄?/p>

不過(guò)，谷歌并不滿足于“夠用”，而是進(jìn)一步強(qiáng)化 Buff：這次更新加入了全新的 Deep Think 模式。

當(dāng)模型遇到更復(fù)雜的問(wèn)題，Gemini 可以切換到 Deep Think 模式：它會(huì)“多想一會(huì)兒”，犧牲一些響應(yīng)時(shí)間，換取更準(zhǔn)確的推理與回答。

這項(xiàng)機(jī)制讓模型在作答前，就預(yù)先模擬多種可能的解法，推理路徑更深、更穩(wěn)。

按照谷歌公開(kāi)的數(shù)據(jù)，Gemini 2.5 Pro 搭配 Deep Think 后，在數(shù)學(xué)、編程和多模態(tài)推理上的表現(xiàn)，甚至優(yōu)于 OpenAI 的 o3。

比如，它在 2025 年 USAMO 這類難度很高的數(shù)學(xué)測(cè)試中得分驚艷，也在編程比賽和多模態(tài)推理測(cè)試中表現(xiàn)出色。

不過(guò)，Deep Think 目前還在安全評(píng)估階段，只向受信測(cè)試者開(kāi)放。

Gemini 小將 Gemini 2.5 Flash 也迎來(lái)了升級(jí)，在推理、多模態(tài)、編程和長(zhǎng)上下文等關(guān)鍵測(cè)試中都有提升，同時(shí)效率更高，谷歌評(píng)測(cè)顯示其用 token 數(shù)量減少了 20% 到 30%。

全新的 2.5 Flash 版本已經(jīng)在 Google AI Studio、Vertex AI 和 Gemini app 中開(kāi)放預(yù)覽體驗(yàn)。

有了強(qiáng)大模型做基礎(chǔ)，谷歌開(kāi)始在 Gemini 平臺(tái)上玩出更多新花樣。

Gemini 2.5 系列引入了不少新功能，最引人注意的是通過(guò)升級(jí) Live API 實(shí)現(xiàn)的原生音頻輸出。

AI 不光會(huì)說(shuō)話，聲音還帶感情，能聽(tīng)懂對(duì)話情緒，自動(dòng)換語(yǔ)氣，交流更自然。

開(kāi)發(fā)者可以直接用這套語(yǔ)音能力做出更自然的互動(dòng)體驗(yàn)，而且還能調(diào)節(jié)語(yǔ)速、語(yǔ)調(diào)、口音，甚至模擬不同風(fēng)格的說(shuō)話方式。

與此同時(shí)，谷歌還上了多揚(yáng)聲器的文本轉(zhuǎn)語(yǔ)音功能，能模擬兩個(gè)人對(duì)話，支持 24 種語(yǔ)言，現(xiàn)在已經(jīng)在 Gemini API 上能用了。

除了“能說(shuō)”，Gemini 現(xiàn)在也更“能干”了。

谷歌把原本只在實(shí)驗(yàn)項(xiàng)目里的 Project Mariner 加到了 Gemini API 和 Vertex AI 里，AI 可以一次做 10 件事，還能學(xué)會(huì)自動(dòng)完成重復(fù)的任務(wù)。

為了方便開(kāi)發(fā)者，Gemini 2.5 引入了 Thought Summaries 功能，能清晰展示模型的思考過(guò)程和調(diào)用細(xì)節(jié)。

同時(shí)配備 Thinking Budgets，方便控制模型思考時(shí)使用的 token 數(shù)量，避免資源浪費(fèi)。

Gemini SDK 也兼容 MCP 工具，方便與開(kāi)源軟件集成。

谷歌這波升級(jí)不止是做加法，還在試著改變游戲規(guī)則。

他們推出了一個(gè)新模型叫 Gemini Diffusion，完全不用 Transformer 架構(gòu)，跑得更快，用起來(lái)更省。

雖然目前表現(xiàn)剛和之前的 Flash-Lite 持平，但速度快了五倍。

Transformer 用了這么多年，算力又貴又慢，但苦于沒(méi)啥替代手段，大家只能“將就著用”。

如果這套擴(kuò)散模型能繼續(xù)打磨下去，說(shuō)不定真能成為新的主流架構(gòu)。

大模型之外，谷歌在多模態(tài)生成這塊也瘋狂上新，直接覆蓋圖像、視頻、音頻全賽道，真的是“全都要”。

先說(shuō)圖像。最新上線的 Imagen 4，不僅細(xì)節(jié)超清晰，支持寫(xiě)實(shí)和抽象風(fēng)，能做賀卡、海報(bào)，速度還比上一代快了 10 倍。

現(xiàn)在已經(jīng)在 Gemini App、Whisk、Vertex AI 等多個(gè)平臺(tái)上線。

圖像有了，視頻當(dāng)然也不能缺。Veo 3 帶來(lái)了原生“音畫(huà)同步”生成，不光能做高質(zhì)量視頻，甚至連人物對(duì)白、背景音樂(lè)、環(huán)境音都能一起生成。

文本講故事，幾秒出片，連口型都能對(duì)上，像是開(kāi)了電影拍攝外掛。

Veo 3 已向美國(guó) Ultra 用戶開(kāi)放，企業(yè)用戶也可通過(guò) Vertex AI 使用。

音頻方面，Lyria 2 同樣不簡(jiǎn)單。現(xiàn)場(chǎng)演示的一段秘魯風(fēng)格舞曲節(jié)奏明快、旋律自然，完全聽(tīng)不出是 AI 做的，電吉他、鼓點(diǎn)、貝斯配合得一氣呵成。

多個(gè)模型齊發(fā)還不夠，谷歌還推出了電影制作工具 Flow，整合了 Imagen、Veo 和 Gemini 的能力。

只需用自然語(yǔ)言描述故事，還能導(dǎo)入角色素材，F(xiàn)low 就能一鍵生成電影級(jí)的鏡頭，角色、場(chǎng)景還能跨鏡頭連續(xù)復(fù)用，創(chuàng)作流程更像是在“搭樂(lè)高”一樣簡(jiǎn)單。

據(jù)介紹，美國(guó) Google AI Pro 和 Ultra 用戶可優(yōu)先體驗(yàn) Flow。

而在一邊搞底層技術(shù)革新的同時(shí)，谷歌在 AI 落地應(yīng)用上也可圈可點(diǎn)。

全新上線的 AI UI 設(shè)計(jì)工具 Google Stitch，老狐看完只想感嘆一句：設(shè)計(jì)師的飯碗，又不穩(wěn)了。

只需要用自然語(yǔ)言描述需求，它就能自動(dòng)生成完整的網(wǎng)頁(yè)或移動(dòng)端界面，連 HTML/CSS 代碼都能一起打包好，甚至一鍵導(dǎo)出到 Figma，直接接著做交互圖和上線。

不像很多產(chǎn)品還卡在“排隊(duì)申請(qǐng)內(nèi)測(cè)”，Stitch 是直接全量開(kāi)放的，現(xiàn)在就能玩，地址在這兒 stitch.withgoogle.com

有網(wǎng)友拿創(chuàng)客貼首頁(yè)隨手截了張圖，丟進(jìn)去隨口打了句“還原頁(yè)面”，幾秒鐘后，AI 不僅給出了 HTML 文件，跑起來(lái)后還原度居然高得離譜。

其實(shí)這種風(fēng)格的產(chǎn)品更新，在谷歌今年的布局里并不少見(jiàn)。

很多人原以為，AI 會(huì)把傳統(tǒng)搜索打廢，但谷歌的做法恰恰相反：它干脆把搜索重做了一遍。

這次在美國(guó)先上線的全新 AI Mode，就是一個(gè)結(jié)合多模態(tài)和推理能力的搜索新形態(tài)。

這不是簡(jiǎn)單在原有引擎上加個(gè)大模型接口，而是基于 Gemini 2.5，重構(gòu)了整個(gè)搜索邏輯。

它背后采用的是一套叫 query fan-out 的技術(shù)，簡(jiǎn)單來(lái)說(shuō)就是能自動(dòng)把你提的問(wèn)題拆解成多個(gè)子任務(wù)，再同時(shí)搜索、整合信息。

谷歌還提前預(yù)告了 AI Mode 的幾項(xiàng)重磅功能：

比如 Deep Search，AI 會(huì)自己發(fā)起上百次搜索，生成帶引用的深度報(bào)告。

Search Live 支持實(shí)景互動(dòng)，你對(duì)著鏡頭提問(wèn)，它能看圖識(shí)物并語(yǔ)音回答。

還有“幫我買(mǎi)票”這種 Agent 功能，能自動(dòng)跨平臺(tái)比價(jià)、下單。

除了查信息、買(mǎi)門(mén)票，這波升級(jí)對(duì)購(gòu)物體驗(yàn)也進(jìn)行了全面改造。

新的 AI Mode 把 Gemini 的智能能力和 Google 的購(gòu)物知識(shí)圖譜結(jié)合，整合了 500 億+ 商品信息。

用戶只需要告訴它預(yù)算、顏色、尺寸，它就能快速幫你篩選、比價(jià)、下單。

最后，至于大家關(guān)心的價(jià)格，Google 這次也端出了“大杯”和“超大杯”套餐：AI Pro 和 AI Ultra，頂配 Ultra 直接開(kāi)價(jià) 249 美元/月。

聽(tīng)起來(lái)不便宜，但服務(wù)確實(shí)頂：幾乎不限量的使用額度，加上 30TB 的 Google Cloud 云存儲(chǔ)，性價(jià)比對(duì)得起這個(gè)價(jià)，尤其是對(duì)那種靠 AI 吃飯、掙美元花美元的用戶來(lái)說(shuō)，比很多國(guó)內(nèi)會(huì)員都值。

不過(guò)谷歌也清楚，這年頭用戶忠誠(chéng)度稀缺，隔壁 Perplexity、OpenAI、微軟天天虎視眈眈，不追著更新點(diǎn)殺手锏，用戶分分鐘“人走茶涼”。

好在谷歌一直都知道，自己最大底牌就是那些用戶天天離不開(kāi)的工具。AI用得再花哨，最后還得回到搜索、Gmail、Docs 這些剛需里來(lái)。

谷歌干脆一句話：你最常用的，全都給你裝上AI。

參考資料：

差評(píng)、量子位、機(jī)器之心、谷歌等其他網(wǎng)絡(luò)截圖

編輯：不吃麥芽糖

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.