新智元報道
編輯:桃子 犀牛
【新智元導讀】谷歌深夜攜全新Gemini 2.5 Pro強勢歸來,僅用一個月碾壓舊版Gemini 2.5。數學、編程、推理全面封神,穩坐所有榜單第一。
凌晨,谷歌帶著全新的Gemini 2.5 Pro炸場了!
僅一個月的時間,Gemini 2.5 Pro(06-05)直接干趴了I/O大會放出的Gemini 2.5 Pro(05-06)。
果然,能打敗谷歌的,只有谷歌自己。
這次,Gemini 2.5 Pro(06-05)依舊是所有榜一。
在數學、編程、推理基準測試中,新版模型全部刷新SOTA,完全碾壓o3、Claude 4、DeepSeek-R1。
相較于上一代,Gemini 2.5 Pro整體Elo提升了24分,尤其是在Web Arena上Elo提升了足足35分。
值得一提的是,更新后版本token依舊維持原價,性價比極高,輸出價格僅為o3的四分之一,Claude 4就更別提了。
而且,Gemini 2.5 Pro(06-05)還引入了「思考預算」,最高達32k,還改進了函數調用等功能。
Gemini 2.5數學編碼再進化,所有榜一
新版Gemini 2.5 Pro(06-05)和舊版Gemini 2.5 Pro(05-06),名字后面版本的時間,值得玩味。
很明顯,谷歌這次特意選擇在這個時間點放出新模型。
根據官博介紹,此次是Gemini 2.5 Pro的升級預覽版,這是谷歌迄今最智能的模型。
升級基于5月I/O大會展示的基礎上,這個模型將在幾周后成為普遍可用的穩定版本,適合企業級應用。
最新的2.5 Pro在LMArena排行榜上Elo分數躍升24分,達到了1470,穩居榜首。
更夸張的是,它在所有領域里都排名第一。
在WebDevArena上實現了35分的Elo評分飛躍,達到1443 分。
它在編程方面表現卓越,在Aider Polyglot等高難度編程基準測試中名列前茅。
同時,它在GPQA和「人類最后考試」(HLE)等極具挑戰性的基準測試中也展現了頂尖性能,這些測試評估模型的數學、科學、知識和推理能力。
谷歌還針對之前2.5 Pro版本的反饋進行了改進,提升了其風格和結構——現在它能提供更有創意、格式更優的回答。
開發者可以通過Google AI Studio和Vertex AI中的Gemini API開始使用更新的2.5 Pro進行開發,此次還新增了「思考預算」功能,能讓開發者更好地控制成本和延遲。
它也在Gemini app中正式上線。
網友實測
Gemini 2.5 Pro(06-05)在真實任務中表現如何?
劈柴的一張圖,早已暗示了,Gemini就是獸中之王。
網友們早已摩拳擦掌,開始了一波實測。
編碼能力碾壓o3、Claude 4并不只是說說而已,現在,Gemini 2.5 Pro直接通過了六邊形物理模擬測試。
更驚艷的是,它還能通過Three.js創建出3D DNA模型,效果非常逼真。
數據科學家Diego測試Gemini 2.5 Pro 06-05編寫一段Python代碼,可視化單行道中交通燈的工作原理,要求車輛以隨機速率進入。
代碼運行后的效果。
可以看出整體上動畫還是比較精美的,沒有什么太大的問題。
作為對比,下面是GPT 4.5生成代碼的效果。
不僅畫面粗糙,車子也不符合物理規律。
Diego之前還測試了Claude Sonnet 3.7和Grok 3,下面是這兩個模型的表現。
大家可以評判一下,到底哪個模型更強。
Claude Sonnet 3.7
Grok 3
參考資料:
https://x.com/sundarpichai/status/1930656033237823862
https://x.com/GoogleDeepMind/status/1930656243346976925
https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/
https://x.com/lmarena_ai/status/1930658518560133435
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.