新智元報(bào)道
編輯:桃子 犀牛
【新智元導(dǎo)讀】谷歌深夜攜全新Gemini 2.5 Pro強(qiáng)勢(shì)歸來(lái),僅用一個(gè)月碾壓舊版Gemini 2.5。數(shù)學(xué)、編程、推理全面封神,穩(wěn)坐所有榜單第一。
凌晨,谷歌帶著全新的Gemini 2.5 Pro炸場(chǎng)了!
僅一個(gè)月的時(shí)間,Gemini 2.5 Pro(06-05)直接干趴了I/O大會(huì)放出的Gemini 2.5 Pro(05-06)。
果然,能打敗谷歌的,只有谷歌自己。
這次,Gemini 2.5 Pro(06-05)依舊是所有榜一。
在數(shù)學(xué)、編程、推理基準(zhǔn)測(cè)試中,新版模型全部刷新SOTA,完全碾壓o3、Claude 4、DeepSeek-R1。
相較于上一代,Gemini 2.5 Pro整體Elo提升了24分,尤其是在Web Arena上Elo提升了足足35分。
值得一提的是,更新后版本token依舊維持原價(jià),性?xún)r(jià)比極高,輸出價(jià)格僅為o3的四分之一,Claude 4就更別提了。
而且,Gemini 2.5 Pro(06-05)還引入了「思考預(yù)算」,最高達(dá)32k,還改進(jìn)了函數(shù)調(diào)用等功能。
Gemini 2.5數(shù)學(xué)編碼再進(jìn)化,所有榜一
新版Gemini 2.5 Pro(06-05)和舊版Gemini 2.5 Pro(05-06),名字后面版本的時(shí)間,值得玩味。
很明顯,谷歌這次特意選擇在這個(gè)時(shí)間點(diǎn)放出新模型。
根據(jù)官博介紹,此次是Gemini 2.5 Pro的升級(jí)預(yù)覽版,這是谷歌迄今最智能的模型。
升級(jí)基于5月I/O大會(huì)展示的基礎(chǔ)上,這個(gè)模型將在幾周后成為普遍可用的穩(wěn)定版本,適合企業(yè)級(jí)應(yīng)用。
最新的2.5 Pro在LMArena排行榜上Elo分?jǐn)?shù)躍升24分,達(dá)到了1470,穩(wěn)居榜首。
更夸張的是,它在所有領(lǐng)域里都排名第一。
在WebDevArena上實(shí)現(xiàn)了35分的Elo評(píng)分飛躍,達(dá)到1443 分。
它在編程方面表現(xiàn)卓越,在Aider Polyglot等高難度編程基準(zhǔn)測(cè)試中名列前茅。
同時(shí),它在GPQA和「人類(lèi)最后考試」(HLE)等極具挑戰(zhàn)性的基準(zhǔn)測(cè)試中也展現(xiàn)了頂尖性能,這些測(cè)試評(píng)估模型的數(shù)學(xué)、科學(xué)、知識(shí)和推理能力。
谷歌還針對(duì)之前2.5 Pro版本的反饋進(jìn)行了改進(jìn),提升了其風(fēng)格和結(jié)構(gòu)——現(xiàn)在它能提供更有創(chuàng)意、格式更優(yōu)的回答。
開(kāi)發(fā)者可以通過(guò)Google AI Studio和Vertex AI中的Gemini API開(kāi)始使用更新的2.5 Pro進(jìn)行開(kāi)發(fā),此次還新增了「思考預(yù)算」功能,能讓開(kāi)發(fā)者更好地控制成本和延遲。
它也在Gemini app中正式上線。
網(wǎng)友實(shí)測(cè)
Gemini 2.5 Pro(06-05)在真實(shí)任務(wù)中表現(xiàn)如何?
劈柴的一張圖,早已暗示了,Gemini就是獸中之王。
網(wǎng)友們?cè)缫涯θ琳疲_(kāi)始了一波實(shí)測(cè)。
編碼能力碾壓o3、Claude 4并不只是說(shuō)說(shuō)而已,現(xiàn)在,Gemini 2.5 Pro直接通過(guò)了六邊形物理模擬測(cè)試。
更驚艷的是,它還能通過(guò)Three.js創(chuàng)建出3D DNA模型,效果非常逼真。
數(shù)據(jù)科學(xué)家Diego測(cè)試Gemini 2.5 Pro 06-05編寫(xiě)一段Python代碼,可視化單行道中交通燈的工作原理,要求車(chē)輛以隨機(jī)速率進(jìn)入。
代碼運(yùn)行后的效果。
可以看出整體上動(dòng)畫(huà)還是比較精美的,沒(méi)有什么太大的問(wèn)題。
作為對(duì)比,下面是GPT 4.5生成代碼的效果。
不僅畫(huà)面粗糙,車(chē)子也不符合物理規(guī)律。
Diego之前還測(cè)試了Claude Sonnet 3.7和Grok 3,下面是這兩個(gè)模型的表現(xiàn)。
大家可以評(píng)判一下,到底哪個(gè)模型更強(qiáng)。
Claude Sonnet 3.7
Grok 3
參考資料:
https://x.com/sundarpichai/status/1930656033237823862
https://x.com/GoogleDeepMind/status/1930656243346976925
https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/
https://x.com/lmarena_ai/status/1930658518560133435
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.