機器之心報道
編輯:Panda
剛剛,Gemini 系列模型迎來了一波更新:
- Gemini 2.5 Pro 穩定版發布且已全面可用,其與 6 月 5 日的預覽版相比無變化。
- Gemini 2.5 Flash 穩定版發布且已全面可用,其與 5 月 20 日的預覽版相比無變化,但價格有更新。
- 新推出了Gemini 2.5 Flash-Lite并已開啟預覽。
谷歌 CEO Sundar Pichai 發推表示新推出的 Gemini 2.5 Flash-Lite 是目前性價比最高的 2.5 系列模型。
可以看到,谷歌對 2.5 Flash-Lite 的定位是適合用于「量大且注重成本效率的任務」。相較之下,2.5 Pro 適合編程和高復雜度任務,2.5 Flash 則居中,更適合需要較快速度的日常任務。
據官方博客介紹,Gemini 2.5 Flash-Lite 同樣是一個推理模型,同樣支持多模態輸入和 100 萬 token 上下文,并支持通過 API 參數動態控制思考預算。由于 Flash-Lite 針對成本和速度進行了優化,因此與谷歌 DeepMind 的其他模型不同,其「思考」功能默認處于關閉狀態。除了函數調用之外,2.5 Flash-Lite 還支持已有的所有原生工具,例如基于谷歌搜索查找依據、代碼執行和 URL 上下文。
性能上,Gemini 2.5 Flash-Lite 的整體表現自然會比 2.5 Flash 差一些,而開啟思考的版本也比沒開啟的更強。但在少量指標上,2.5 Flash-Lite 卻意外地具有少量分數優勢,比如 AIME 2025 和 FACTS Grounding。
價格方面,自然也是與性能掛鉤的。如上圖底部所示,2.5 Flash-Lite 的定價為每百萬輸入 / 輸出 token0.1/0.4美元,而如果是音頻輸入,則為每百萬輸入 token 0.5 美元。2.5 Flash 的價格為每百萬輸入 / 輸出 token 0.3/2.5 美元,音頻輸入的則為 1 美元。性能最佳的 2.5 Pro 價格沒有變化,還是貴得多:每百萬輸入 / 輸出 token 1.25/10 美元。
Gemini 2.5 Flash-Lite 的預覽版現已在 Google AI Studio 和 Vertex AI 上線,與 2.5 Flash 和 Pro 的穩定版本一同提供。用戶也可在 Gemini App 中使用 2.5 Flash 和 Pro。此外,谷歌還為 2.5 Flash-Lite 和 2.5 Flash 的定制版本引入了搜索功能。
另外,谷歌也發布了新版本的 Gemini 2.5 技術報告,從中我們可以看到有關 Gemini 2.5 Flash-Lite 的更多信息,比如在性價比方面,Gemini 系列共同組成了當前 LLM 的佩雷托前沿,是性價比最高的系列模型
另外,該報告中還提到了一種名為「智能體恐慌(agent panic)」的現象,即在游戲過程中,Gemini 2.5 Pro 遇到了多種可能導致模型模擬「恐慌」的情況。
例如,當隊伍中的寶可夢生命值或能量值較低時,模型會反復提醒自己需要立即治療隊伍或逃離當前地牢。有趣的是,這種模型性能模式似乎與模型推理能力的定性可觀察到的下降相關——例如,在這種情況持續期間,在游戲過程中完全忘記使用探路工具。
報告地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
作為當今 AI 模型的頂流之一,Gemini 更新自然也吸引了萬眾矚目,很多用戶已經嘗試并分享了自己的體驗。
Datasette 開發者、著名技術博主 Simon Willison 用一篇博客分享了自己的體驗,下圖從左到右分別為 2.5 Pro、2.5 Flash 和 2.5 Flash-Lite 生成的鵜鶘騎自行車 SVG。
https://simonwillison.net/2025/Jun/17/gemini-2-5/
而輸出 token 數分別為 4,226、14,500、2,070,對應成本分別為 4.2274、3.6253、0.0829 美分。
另外,他還嘗試了將一個新的 Twitter Space 的錄音轉錄成文本。結果發現,2.5 Pro 的效果最好,總成本為 18.1 美分,時間 147.5 秒;2.5 Flash 也不錯,消耗 10 美分和 72.6 秒。但 2.5 Flash-Lite 卻遭遇了錯誤,中途卡住了。
DeepMind 研究 VP 和深度學習負責人 Oriol Vinyals 則通過一個更加亮眼的示例展示了 2.5 Flash-Lite,即所謂的Neural OS / 神經操作系統。這看起來像是一個操作系統的 UI,但實際上里面的內容是用戶在點擊圖標后由 2.5 Flash-Lite 實時生成的!
可以說這是一種非確定性(non-deterministic)的操作系統 —— 當你退出一個文件夾再重新進入,里面的內容可能就已經完全不一樣了!
另外,谷歌開發者 帳號今天也分享了一些使用 Gemini 2.5 系列模型輔助開發的案例,比如 @splinetool 在其新的 Hana 工具中使用了 Gemini 2.5 Pro 來革新交互式 3D 設計。創作者可以使用自然語言生成對象和場景,并觀察它們如何栩栩如生地呈現,從而簡化復雜的工作流程。
機器之心也在 Google AI Studio 中簡單實驗了新推出的 2.5 Flash-Lite。
首先開啟 Thinking 模式,使用如下提示詞編寫一個小游戲:
編寫一個貪吃蛇小游戲,除了常規機制外,里面還要有障礙物。使用鮮艷多彩的顏色。
2.5 Flash-Lite 確實很快,僅用 17.1 秒就完成了任務,效果也還不錯,就是障礙物過多了。
接下來,關閉 Thinking 模式,丟給它今年上海高考的作文題:
請完成這道作文題:
有學者用 “專”“轉”“傳” 概括當下三類文章:“專” 指專業文章;“轉” 指被轉發的通俗文章;“傳” 指獲得廣泛傳播的佳作,甚至是傳世文章。他提出,專業文章可以變成被轉發的通俗文章,而面對大量 “轉” 文,讀者又不免期待可傳世的文章。
由 “專” 到 “傳”,必定要經過 “轉” 嗎?請聯系社會生活,寫一篇文章,談談你的認識與思考。
要求:(1)自擬題目;(2)不少于 800 字。
2.5 Flash-Lite 僅用 5.9 秒就完成了任務,至于結果,就交給你親自品鑒了:
最后,分享一個 Gemini 2.5 技術報告的貢獻者和致謝名單中隱藏的彩蛋:
你看出來了嗎?
https://developers.googleblog.com/en/gemini-2-5-thinking-model-updates/
https://blog.google/products/gemini/gemini-2-5-model-family-expands/
https://x.com/googleaidevs/status/1935103305581207923
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.