智東西
編譯 程茜
編輯 心緣
智東西6月18日報道,凌晨,谷歌宣布Gemini 2.5模型全系重磅更新:Gemini 2.5 Pro、Gemini 2.5 Flash發布正式版并進入穩定運行階段,并推出Gemini 2.5 Flash-Lite預覽版。
這意味著Gemini 2.5 Pro、Gemini 2.5 Flash從實驗預覽版變為正式版,可投入企業應用。
Gemini 2.5 Flash Lite在編程、數學、科學、推理和多模態基準測試中全面超越 2.0 Flash-Lite,廣泛任務延遲低于2.0 Flash-Lite和2.0 Flash。谷歌稱這一模型為其最經濟實惠、速度最快的2.5系列模型。
▲Gemini 2.5 Flash Lite基準測試結果
同時,在最新的LMArena排行榜中,Gemini-2.5-Flash-Lite文本排名12,按類別劃分,創意寫作排名第三、編程排名第14、難題提示排名第17。
LMArena公布的性價比圖表中,Gemini 2.5 Pro比Gemini 1.5 Pro的分數高出120多分,高于OpenAI、xAI、Anthropic的其他主流模型。
▲LMArena發布的主流模型性價比對比圖
價格方面,Gemini-2.5-Flash-Lite比Gemini-2.5-Flash便宜30%-60%,輸入價格為0.1美元(折合人民幣約0.7元)/百萬tokens,輸出價格為0.4美元(折合人民幣約2.9元)/百萬tokens。
谷歌還宣布了Gemini 2.5 Flash的最新定價,模型的思考和非思考價格相同,輸入價格為0.3美元(折合人民幣約2.2元)/百萬tokens,輸出價格為2.5美元(折合人民幣約17.9元)/百萬tokens。
谷歌博客中提到,Gemini 2.5 Pro的銷量和需求持續強勁增長,是他們歷來所有型號中最高的。在此基礎上,研究人員對此型號的06-05版進行了穩定化,并維持與之前相同的帕累托前沿價格點。
如果開發者使用的是Gemini 2.5 Pro Preview 05-06,該模型將持續可用至2025年6月19日,之后將關閉,如果使用Gemini 2.5 Pro Preview 06-05,只需將模型字符串更新為“gemini-2.5-pro”即可。
Gemini 2.5 Flash-Lite預覽版現已在谷歌AI Studio和Vertex AI中上線,同時還提供2.5 Flash和Pro穩定版。2.5 Flash和Pro版本均可在Gemini應用中訪問。谷歌還為谷歌搜索功能引入了2.5 Flash-Lite和Flash的定制版本。
技術報告地址:
https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
一、全面超越 2.0 Flash-Lite,支持谷歌原生工具
Gemini 2.5模型是推理模型,能夠在響應之前進行推理,從而提升性能和準確性。每個模型都可以控制思考預算,讓開發者能夠選擇模型在生成響應之前進行“思考”的時間和程度。
谷歌博客中提到,其最新推出的2.5 Flash-Lite預覽版,是2.5系列模型中延遲、成本都最低的模型,它是Gemini 1.5和2.0 Flash模型的經濟高效升級版。
Gemini 2.5 Flash Lite在編程、數學、科學、推理和多模態基準測試中全面超越 2.0 Flash-Lite。它在翻譯和分類等高容量、延遲敏感的任務中表現出色,在廣泛的任務樣本中,延遲低于2.0 Flash-Lite和2.0 Flash。
性能方面,新模型縮短了首個token的獲取時間,同時實現了更高的每秒token解碼速度。該模型適合大規模分類或匯總等高吞吐量任務。
Gemini 2.5 Flash-Lite是一個推理模型,允許通過API參數動態控制思考預算。由于Flash-Lite針對成本和速度進行了優化,因此Gemini 2.5的其他模型不同,“思考”功能默認處于關閉狀態。
新模型具備Gemini 2.5的諸多功能,包括在不同預算下開啟思考模式、連接谷歌搜索和代碼執行等工具、多模態輸入以及100萬個token的上下文長度。
二、Gemini 2.X系列全面超越前代,編程、圖像理解遜于OpenAI
谷歌還一口氣更新了Gemini 2.5系列模型技術報告,全面介紹了Gemini 2.X模型系列:包括Gemini 2.5 Pro和Gemini 2.5 Flash,以及Gemini 2.0 Flash和Flash-Lite模型。
谷歌技術報告中提到,Gemini 2.5 Pro是谷歌最智能的思維模型,展現出強大的推理和編程能力,擅長生成交互式Web應用程序,能夠進行代碼庫級別的理解,并展現出涌現的多模態編程能力。
Gemini 2.5 Flash是混合推理模型,具有可控的思維預算,適用于大多數復雜任務,同時還能控制質量、成本和延遲之間的平衡。
Gemini 2.0 Flash是谷歌專為日常任務打造的快速且經濟高效的非思考模型;Gemini 2.0 Flash-Lite是谷歌速度最快、成本最低的模型,專為大規模使用而構建。
技術報告中,谷歌對比了Gemini 2.5系列與Gemini 1.5、2.0模型的表現,以及Gemini 2.5系列與其他模型的表現,可以看出,Gemini 2.5系列模型在LiveCodeBench、Aider Polyglot和SWE-bench Verified等編程任務上表現出色,并且比之前的模型有了顯著的改進。
除了編程性能之外,Gemini 2.5模型在數學和推理任務上的表現也明顯整體優于Gemini 1.5系列:在AIME 2025測試中,Gemini 2.5 Pro的準確率為88.0%,而Gemini 1.5 Pro的準確率為17.5%;在 GPQA(鉆石級)測試中,Gemini 2.5 Pro的準確率為86.4%。同樣,圖像理解能力也顯著提升。
與其他主流大語言模型相比,Gemini 2.5 Pro在Aider Polyglot編程任務中獲得SOTA。此外,Gemini 2.5 Pro在Humanity’s Last Exam、GPQA(鉆石級)以及SimpleQA和FACTS Grounding事實性基準測試中獲得最高分。Gemini 2.5 Pro在LOFT和MRCR長上下文任務中以128k的上下文長度獲得了SOTA,并且是上表所考察的所有模型中唯一一個支持1M+tokens上下文長度的模型。
不過,在數學方面,Gemini 2.5 Pro的表現略遜色于OpenAI o4-mini,圖像理解方面分數略低于OpenAI-o3 high。
值得注意的是,從性能表現來看,Gemini 2.5 Flash型號已成為Gemini家族中功能第二強大的型號,不僅超越了之前的Flash型號,還超越了一年前發布的Gemini 1.5 Pro型號。
三、首個在TPU v5p架構上訓練的模型系列
Gemini 2.5系列模型采用稀疏混合專家(MoE)模型,原生支持文本、視覺和音頻輸入。稀疏MoE模型通過學習將token動態路由到參數子集(專家),為每個輸入token激活一個模型參數子集;這使得它們能夠將模型總容量與每個token的計算和服務成本分離。
面對訓練不穩定性的問題,Gemini 2.5模型系列重點優化了增強大規模訓練穩定性、信號傳播和優化動態方面取得了顯著進展。
Gemini 2.5模型建立在Gemini 1.5在處理長上下文查詢方面的成功之上,并結合了新的建模進步,使Gemini 2.5 Pro在處理1M tokens的長上下文輸入序列方面性能超過了Gemini 1.5 Pro。
Gemini 2.5 Pro和Gemini 2.5 Flash都可以處理長格式文本、整個代碼庫以及長格式音頻和視頻數據。
Gemini 2.5模型系列是谷歌第一個在TPU v5p架構上進行訓練的模型系列。谷歌采用同步數據并行訓練,在分布在多個數據中心的谷歌TPU v5p加速器的多個8960芯片pod上進行并行化。
其預訓練數據集是大規模、多樣化的數據集合,涵蓋廣泛的領域和模態,其中包括公開可用的Web文檔、代碼(各種編程語言)、圖像、音頻(包括語音和其他音頻類型)和視頻, Gemini 2.0的截止日期為2024年6月, Gemini 2.5的截止日期為2025年1月。
谷歌還使用了新方法來提高過濾和重復數據刪除的數據質量,其訓練后數據集,由精心收集和審查的指令調優數據組成,是多模態數據的集合,除了人類偏好和工具使用數據外,還有成對的指令和響應。
在后訓練方法階段,谷歌研究報道提出,他們利用模型來協助監督微調(SFT)、獎勵建模(RM)和強化學習(RL)階段,從而實現更高效、更細致的數據質量控制。
此外,谷歌還增加了分配給RL的訓練計算,這與對可驗證獎勵和基于模型的生成獎勵的關注相結合,以提供更復雜和可擴展的反饋信號。RL過程的算法更改提高了長時間訓練期間的穩定性。
Gemini推理模型通過強化學習進行訓練,可在推理時使用額外的計算來得出更準確的答案。生成的模型能夠在“思考”階段,在回答問題或查詢之前花費數萬次正向傳遞。
結語:加速模型投入生產,谷歌加速大模型部署
Gemini 2.X以Gemini 1.5系列為基礎,谷歌在打造更接近通用AI助手路線上的探索,可以看出,2.X系列模型的性能表現已經整體超過前代。
此外,谷歌決定一口氣將這些模型從預覽版變為正式版,其新模型強調性能更強勁的推理能力,以及經濟實惠的特點,或許反映出其面臨越來越大的壓力,需要與其他大模型企業快速為消費者和企業部署相應工具的步伐保持一致。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.