機(jī)器之心報(bào)道
編輯:Panda
剛剛,Gemini 系列模型迎來(lái)了一波更新:
- Gemini 2.5 Pro 穩(wěn)定版發(fā)布且已全面可用,其與 6 月 5 日的預(yù)覽版相比無(wú)變化。
- Gemini 2.5 Flash 穩(wěn)定版發(fā)布且已全面可用,其與 5 月 20 日的預(yù)覽版相比無(wú)變化,但價(jià)格有更新。
- 新推出了Gemini 2.5 Flash-Lite并已開(kāi)啟預(yù)覽。
谷歌 CEO Sundar Pichai 發(fā)推表示新推出的 Gemini 2.5 Flash-Lite 是目前性價(jià)比最高的 2.5 系列模型。
可以看到,谷歌對(duì) 2.5 Flash-Lite 的定位是適合用于「量大且注重成本效率的任務(wù)」。相較之下,2.5 Pro 適合編程和高復(fù)雜度任務(wù),2.5 Flash 則居中,更適合需要較快速度的日常任務(wù)。
據(jù)官方博客介紹,Gemini 2.5 Flash-Lite 同樣是一個(gè)推理模型,同樣支持多模態(tài)輸入和 100 萬(wàn) token 上下文,并支持通過(guò) API 參數(shù)動(dòng)態(tài)控制思考預(yù)算。由于 Flash-Lite 針對(duì)成本和速度進(jìn)行了優(yōu)化,因此與谷歌 DeepMind 的其他模型不同,其「思考」功能默認(rèn)處于關(guān)閉狀態(tài)。除了函數(shù)調(diào)用之外,2.5 Flash-Lite 還支持已有的所有原生工具,例如基于谷歌搜索查找依據(jù)、代碼執(zhí)行和 URL 上下文。
性能上,Gemini 2.5 Flash-Lite 的整體表現(xiàn)自然會(huì)比 2.5 Flash 差一些,而開(kāi)啟思考的版本也比沒(méi)開(kāi)啟的更強(qiáng)。但在少量指標(biāo)上,2.5 Flash-Lite 卻意外地具有少量分?jǐn)?shù)優(yōu)勢(shì),比如 AIME 2025 和 FACTS Grounding。
價(jià)格方面,自然也是與性能掛鉤的。如上圖底部所示,2.5 Flash-Lite 的定價(jià)為每百萬(wàn)輸入 / 輸出 token0.1/0.4美元,而如果是音頻輸入,則為每百萬(wàn)輸入 token 0.5 美元。2.5 Flash 的價(jià)格為每百萬(wàn)輸入 / 輸出 token 0.3/2.5 美元,音頻輸入的則為 1 美元。性能最佳的 2.5 Pro 價(jià)格沒(méi)有變化,還是貴得多:每百萬(wàn)輸入 / 輸出 token 1.25/10 美元。
Gemini 2.5 Flash-Lite 的預(yù)覽版現(xiàn)已在 Google AI Studio 和 Vertex AI 上線,與 2.5 Flash 和 Pro 的穩(wěn)定版本一同提供。用戶也可在 Gemini App 中使用 2.5 Flash 和 Pro。此外,谷歌還為 2.5 Flash-Lite 和 2.5 Flash 的定制版本引入了搜索功能。
另外,谷歌也發(fā)布了新版本的 Gemini 2.5 技術(shù)報(bào)告,從中我們可以看到有關(guān) Gemini 2.5 Flash-Lite 的更多信息,比如在性價(jià)比方面,Gemini 系列共同組成了當(dāng)前 LLM 的佩雷托前沿,是性價(jià)比最高的系列模型
另外,該報(bào)告中還提到了一種名為「智能體恐慌(agent panic)」的現(xiàn)象,即在游戲過(guò)程中,Gemini 2.5 Pro 遇到了多種可能導(dǎo)致模型模擬「恐慌」的情況。
例如,當(dāng)隊(duì)伍中的寶可夢(mèng)生命值或能量值較低時(shí),模型會(huì)反復(fù)提醒自己需要立即治療隊(duì)伍或逃離當(dāng)前地牢。有趣的是,這種模型性能模式似乎與模型推理能力的定性可觀察到的下降相關(guān)——例如,在這種情況持續(xù)期間,在游戲過(guò)程中完全忘記使用探路工具。
報(bào)告地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
作為當(dāng)今 AI 模型的頂流之一,Gemini 更新自然也吸引了萬(wàn)眾矚目,很多用戶已經(jīng)嘗試并分享了自己的體驗(yàn)。
Datasette 開(kāi)發(fā)者、著名技術(shù)博主 Simon Willison 用一篇博客分享了自己的體驗(yàn),下圖從左到右分別為 2.5 Pro、2.5 Flash 和 2.5 Flash-Lite 生成的鵜鶘騎自行車 SVG。
https://simonwillison.net/2025/Jun/17/gemini-2-5/
而輸出 token 數(shù)分別為 4,226、14,500、2,070,對(duì)應(yīng)成本分別為 4.2274、3.6253、0.0829 美分。
另外,他還嘗試了將一個(gè)新的 Twitter Space 的錄音轉(zhuǎn)錄成文本。結(jié)果發(fā)現(xiàn),2.5 Pro 的效果最好,總成本為 18.1 美分,時(shí)間 147.5 秒;2.5 Flash 也不錯(cuò),消耗 10 美分和 72.6 秒。但 2.5 Flash-Lite 卻遭遇了錯(cuò)誤,中途卡住了。
DeepMind 研究 VP 和深度學(xué)習(xí)負(fù)責(zé)人 Oriol Vinyals 則通過(guò)一個(gè)更加亮眼的示例展示了 2.5 Flash-Lite,即所謂的Neural OS / 神經(jīng)操作系統(tǒng)。這看起來(lái)像是一個(gè)操作系統(tǒng)的 UI,但實(shí)際上里面的內(nèi)容是用戶在點(diǎn)擊圖標(biāo)后由 2.5 Flash-Lite 實(shí)時(shí)生成的!
可以說(shuō)這是一種非確定性(non-deterministic)的操作系統(tǒng) —— 當(dāng)你退出一個(gè)文件夾再重新進(jìn)入,里面的內(nèi)容可能就已經(jīng)完全不一樣了!
另外,谷歌開(kāi)發(fā)者 帳號(hào)今天也分享了一些使用 Gemini 2.5 系列模型輔助開(kāi)發(fā)的案例,比如 @splinetool 在其新的 Hana 工具中使用了 Gemini 2.5 Pro 來(lái)革新交互式 3D 設(shè)計(jì)。創(chuàng)作者可以使用自然語(yǔ)言生成對(duì)象和場(chǎng)景,并觀察它們?nèi)绾舞蜩蛉缟爻尸F(xiàn),從而簡(jiǎn)化復(fù)雜的工作流程。
機(jī)器之心也在 Google AI Studio 中簡(jiǎn)單實(shí)驗(yàn)了新推出的 2.5 Flash-Lite。
首先開(kāi)啟 Thinking 模式,使用如下提示詞編寫一個(gè)小游戲:
編寫一個(gè)貪吃蛇小游戲,除了常規(guī)機(jī)制外,里面還要有障礙物。使用鮮艷多彩的顏色。
2.5 Flash-Lite 確實(shí)很快,僅用 17.1 秒就完成了任務(wù),效果也還不錯(cuò),就是障礙物過(guò)多了。
接下來(lái),關(guān)閉 Thinking 模式,丟給它今年上海高考的作文題:
請(qǐng)完成這道作文題:
有學(xué)者用 “專”“轉(zhuǎn)”“傳” 概括當(dāng)下三類文章:“專” 指專業(yè)文章;“轉(zhuǎn)” 指被轉(zhuǎn)發(fā)的通俗文章;“傳” 指獲得廣泛傳播的佳作,甚至是傳世文章。他提出,專業(yè)文章可以變成被轉(zhuǎn)發(fā)的通俗文章,而面對(duì)大量 “轉(zhuǎn)” 文,讀者又不免期待可傳世的文章。
由 “專” 到 “傳”,必定要經(jīng)過(guò) “轉(zhuǎn)” 嗎?請(qǐng)聯(lián)系社會(huì)生活,寫一篇文章,談?wù)勀愕恼J(rèn)識(shí)與思考。
要求:(1)自擬題目;(2)不少于 800 字。
2.5 Flash-Lite 僅用 5.9 秒就完成了任務(wù),至于結(jié)果,就交給你親自品鑒了:
最后,分享一個(gè) Gemini 2.5 技術(shù)報(bào)告的貢獻(xiàn)者和致謝名單中隱藏的彩蛋:
你看出來(lái)了嗎?
https://developers.googleblog.com/en/gemini-2-5-thinking-model-updates/
https://blog.google/products/gemini/gemini-2-5-model-family-expands/
https://x.com/googleaidevs/status/1935103305581207923
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.