新智元報道
編輯:定慧 桃子
【新智元導讀】今天,谷歌旗艦Gemini 2.5三箭齊發(fā),首次亮相輕量版2.5 Flash-Lite。最新70頁技術報告中,爆料了Gemini 2.5在玩寶可夢瀕死時,驚現(xiàn)類人的恐慌,導致推理性能直線下降。
昨夜,Gemini 2.5全家桶三款模型,正式上線。
Gemini 2.5 Pro(正式版,與0605預覽版相比無明顯變化)
Gemini 2.5 Flash(正式版,與0520預覽版相比定價有變)
Gemini 2.5 Flash-Lite(預覽版,最小推理模型)
這次,Gemini 2.5 Flash和Gemini 2.5 Pro正式版上線,與谷歌I/O大會公布的預覽版性能無明顯變化。
2.5 Flash-Lite預覽版則是速度最快、性價比最高的Gemini 2.5系模型。
未開啟思考模式,F(xiàn)lash-Lite版輸入價格僅為0.1美元/百萬token,輸出價格0.4美元/百萬token。
基準測試顯示,2.5 Flash-Lite版(開啟思考模式)在數(shù)學、知識問答、編碼、視覺理解、多語種性能上,足以媲美2.5 Flash。
相較于上一代,2.5 Flash-Lite性能提升顯著,尤其是在數(shù)學、編碼任務中。
在LMArena榜單中,Gemini-2.5-Flash-Lite在文本競技場中位列第12,創(chuàng)意寫作中第 3,編程中第14,在Hard Prompt中第17。
左右滑動查看
谷歌VP一個demo告訴你,2.5 Flash-Lite輸出速度,能快到實時編寫每個界面的代碼。
關于Gemini 2.5家族最新進展,全藏在技術報告中了,接下來讓我們一一拆解。
技術報告:https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
Gemini 2.X家族,一年超進化
谷歌Gemini團隊將這次更新,稱之為「Gemini 2.X模型家族」。
除了如上提到了2.5系列,還包括了2.0系列的一些迭代。
谷歌將Gemini 2.X系列定位于新一代AI模型的發(fā)展方向,與此前的1.X系列相比,2.X系列寄托了谷歌打造通用人工智能的愿景。
值得一提的是,谷歌希望把Gemini打造為真正的融合體系,此前谷歌賬號承載的只是用戶信息,但谷歌賬號本身其實不「保留狀態(tài)」。
Gemini要打造成為一個真正融合在整個谷歌生態(tài)系統(tǒng)中的AI助手,Gemin將看到、聽到甚至預知到你的下一個想法。
Gemini 2.X系列的所有模型均原生支持多模態(tài),并支持超過一百萬Token的長上下文輸入,并具備原生工具使用能力。
這使得它們能夠理解海量數(shù)據(jù)集,并處理來自不同信息源的復雜問題,包括文本、音頻、圖像、視頻,甚至整個代碼倉庫。
Gemini 2.5模型架構
Gemini 2.5模型采用稀疏MoE(Mixture-of-Experts)模型,能夠原生支持文本、視覺和音頻輸入的多模態(tài)處理。
模型架構方面的改進讓Gemini 2.5的能力相較于Gemini 1.5 Pro提升顯著。
Gemini 2.5模型在Gemini 1.5處理長上下文查詢的成功基礎上構建,并融合了新的建模進展。
Gemini 2.5 Pro在處理長達100萬個token的長上下文輸入序列方面超越了Gemini 1.5 Pro。
毋庸置疑,Gemini 2.5 Pro是當前最強模型,在前沿編程、推理基準測試中,刷新了SOTA。
它還具備了頂尖多模態(tài)能力,現(xiàn)可解析「長達3小時」的視頻內容,具備了「長上下文+多模態(tài)+推理」三位一體的特點。
AI價格領導者和制定者
從價格VS性能這張圖中可以看出,谷歌Gemini 2.X在性價比上建立了強大的護城河。
正如論文所言,Gemini 2.X家族完整覆蓋了模型性能-成本帕累托前沿(Pareto frontier)。
Gemini 2.X性能躍升
Gemini 2.X家族模型,在編程、數(shù)學和推理任務上比前代模型都有大幅的躍升。
下面這張多項基準測試圖,全面覆蓋Gemini 2.X的性能。從1.5到2.0,再到2.5,模型在各項指標上表現(xiàn)大幅提升。
而這些變化,僅在過去一年發(fā)生的。
橫向對比之后,再來看縱向對比。Gemini 2.5 Pro在多項基準測試中,幾乎刷新SOTA,尤其是在推理方面。
語音理解上,Gemini 2.5 Pro刷新了SOTA。視頻理解方面,Gemini 2.5 Pro超越了GPT-4.1。
與o3/o4-mini、Claude 4 Opus、DeepSeek-R1相比,只有Gemini 2.5 Flash-Lite每秒輸出的token數(shù)接近350個。
Gemini 2.5最大的改進在于該系列所有模型都原生的融入了動態(tài)「Thinking」能力,能夠根據(jù)推理時間的增加進一步增加能力。
面向特定能力的改進
Gemini 2.5進行了專門「領域」能力的優(yōu)化:代碼處理能力、事實準確性、長文本理解、多語言能力、音頻和視頻處理能力,以及智能體(特別Gemini Deep Research)。
· 代碼能力
Gemini2.0與2.5在代碼能力上實現(xiàn)飛躍,通過優(yōu)化預訓練與后訓練流程,提升多模態(tài)開發(fā)效率與實用性。
· 事實性
Gemini模型始終聚焦提升對信息型提問的事實性回應能力。
Gemini 1.5引入FACTS Grounding成為評估標準,2.0具備調用Google搜索、整合實時信息等功能,2.5更增強多跳推理與工具協(xié)同分析力。
· 長上下文
Gemini 2.5在模型結構和數(shù)據(jù)優(yōu)化下,顯著增強百萬級長上下文處理能力,全面領先于Gemini 1.5。
甚至能從46分鐘視頻中準確回憶1秒事件。
· 多語言能力
多語言能力實現(xiàn)重大飛躍,覆蓋400多種語言。特別在中文、日語、韓語等語言中提升顯著。
· 音頻生成與理解能力雙進化:
Gemini 1.5專注于音頻理解任務(如轉錄、翻譯、問答等),而Gemini 2.5進一步具備音頻生成能力(如文本轉語音和音視頻生成對話)。
模型能實現(xiàn)音頻的流式輸入輸出,支持低延遲對話。
支持超過200種語言。
· 視頻理解與內容生成突破:
將視頻處理效率從每幀258個視覺token優(yōu)化為66個,使模型可在100萬token窗口內處理約3小時視頻。
新能力包括從視頻中自動生成互動應用(如測試題)和p5.js動畫,用于可視化關鍵概念。
· 智能體能力躍升:Gemini Deep Research:
基于Gemini 2.5 Pro的Deep Research Agent可自動瀏覽網(wǎng)頁、解決小眾問題,并具備任務優(yōu)先級排序及「死胡同」識別能力。
在「人類最后考試」(Humanity’s Last Exam benchmark)基準測試中的表現(xiàn)從 7.95% 提升至當前的 26.9%。
如果使用更高算力甚至能達到32.4%,展現(xiàn)出前沿的搜索與推理能力。
想要體驗Gemini的所有系列模型,可以在Google AI Studio上免費使用,各個模型的對應關系如下圖所示。
在Gemini 2.5全面推出后,2.0 Flash/Flash-Lite系列將持續(xù)提供,更高性價比的低延遲響應。
致謝彩蛋
在這份長達70頁的Gemini 2.5技術報告中,致謝名單就有12頁(46-58)。
但如果你仔細觀察就會發(fā)現(xiàn),第一列致謝的貢獻者首字母拼起來是:
「GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH」
翻譯過來就是,GEMINI模型能快速思考并立即給出回應,這也是極客的浪漫吧。
挑戰(zhàn)寶可夢
「絲血」就會「恐慌」
另外,Gemini在玩「寶可夢」游戲中,展現(xiàn)了超強推理能力與長時程任務連貫性的能力。
它在設定超800小時長期目標中,成功挑戰(zhàn)了整個游戲。而且,在第二次自主運行時,完成的時間幾乎縮短一半。
技術報告第4部分,詳細介紹了Gemini挑戰(zhàn)「寶可夢」的驚人旅程。
獨立開發(fā)者Joel Zhang最先發(fā)起,讓Gemini 2.5去通關。AI首次耗時813小時,成功進入了名人堂,成為了寶可夢聯(lián)盟冠軍。
更令人振奮的是,Joel于5月22日讓升級版Gemini 2.5再次開啟全自動二周目挑戰(zhàn)時,它的通關速度大幅提升,僅耗時406.5。
如圖所示,關鍵里程碑時間抽,從游戲開局到擊敗四天王,Gemini智能體效率提升清晰可見。
更有趣的是,報告中稱,Gemini 2.5 Pro在挑戰(zhàn)寶可夢生命值低時,會進入一種「慌亂」的狀態(tài),導致推理能力出現(xiàn)質性下降。
雖然AI沒有情緒,但它的行為卻像人類在壓力下做出倉促決定一樣。
比如,當寶可夢瀕臨死亡時,Gemini可能會突然停止使用某些工具,導致游戲表現(xiàn)下滑。
不過,Gemini 2.5 Pro在解決「巨石謎題」上,展現(xiàn)了超乎尋常的能力。
通過創(chuàng)建專門的智能體工具,如路徑規(guī)劃器/策略師,Gemini能在沒有任何人類干預情況下,一次性解決冠軍之路的復雜巨石謎題。
2.5 Flash-Lite首亮相
速度最快,極致性價比
全新Gemini 2.5 Flash-Lite繼承了Gemini 2.5核心優(yōu)勢功能。
它支持控制思考預算的能力,可開啟/關閉深度思考,還能無縫連接谷歌搜索、代碼執(zhí)行等工具。
與2.0 Flash-Lite不同的是,它科技原生支持多模態(tài)輸入,有100M token上下文。
谷歌稱,這款模型特別擅長翻譯、分類等高吞吐量、低延遲敏感型任務。
下面這個demo中,是Gemini 2.5 Flash-Lite構建研究原型過程。
它能夠將大型PDF立即轉換成交互式Web應用程序,從而更輕松地匯總和理解密集信息。
它還通過了物理模擬測試。
參考資料:
https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
https://x.com/sundarpichai/status/1935004780117807288
https://blog.google/products/gemini/gemini-2-5-model-family-expands/
https://developers.googleblog.com/en/gemini-2-5-thinking-model-updates/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.