作者|沐風
來源|AI先鋒官
Google終于登頂一次了。
當地時間3月25日,Google直接上線了全新模型Gemini 2.5 Pro。
Google表示,Gemini 2.5 Pro支持100萬個token的上下文窗口,這意味著它一次性能處理相當于兩本《紅樓夢》字數的文本量。
并且,Google還提到,Gemini 2.5 Pro很快將支持兩倍的上下文窗口(即200萬個token)。
Google CEO Sundar Pichai更是直言:“這是我們有史以來最智能的 AI 模型。”
Gemini 2.5 Pro在各大基準測試上實現全面“屠榜”,在所有測試中都穩居第一名,包括常見的編程、數學和科學基準測試。
在Arena排行榜上,Gemini 2.5 Pro還創下了歷史上最大分數飛躍,比Grok-3/GPT-4.5分別高出了39/45分。
在“Humanity's Last Exam”測試中,它獲得了18.8%的最高分數,這是目前為止所有未使用外接工具的大模型中最好的成績。
“Humanity's Last Exam”是一個由全球近千名專家共同設計的多模態基準測試,旨在評估大型語言模型的能力極限,被視為人類給 AI 的終極考驗,該測試包含3000道涵蓋數學、人文學科和自然科學等多個領域的前沿問題。
另外,在人類偏好測試中,它與Grok-3和GPT-4.5在困難提示詞和編程兩大領域拿到了并列第一,而在其他類別中均問鼎榜首。
在網頁開發領域,Gemini 2.5 Pro較上一代Gemini有了巨大的飛躍,同時也是首個超越Claude 3.5 Sonnet的模型,在WebDev Arena上排名第二,仍低于Claude 3.7 Sonnet。
但在KCORES大模型競技場上的評測結果顯示, Gemini 2.5 Pro總體得分 370.6分,超越了 Claude-3.7-Sonnet-Thinking 不少。
由此看來,Gemini 2.5 Pro可能確實擔得起“有史以來最強”的名號。
看完了成績單,那么Gemini 2.5 Pro在實際使用中與DeepSeek-R1相比 表現又會如何呢?
咱們實測見真章。
邏輯推理
問題:五位探險者(A、B、C、D、E)按等級從高到低(A>B>C>D>E)發現100枚金幣。他們需按順序(A→E)提出分配方案,規則如下:
投票:提議者+至少半數同意(含平局)則通過,否則提議者被淘汰。
目標:所有人絕對理性,優先保命,其次多拿金幣,最后多淘汰他人。
若你是A,如何分配金幣以確保方案通過且自身收益最大?需詳細推導過程。
Gemini 2.5 Pro
DeepSeek-R1
此問題涉及逆向思維,分步驟推理,考慮每個人的策略,屬于博弈論的經典問題,同時還涉及邏輯和數學歸納法。
Gemini 2.5 Pro和 DeepSeek-R1都通過一步一步的逆向推理,成功得出了正確答案。
再來一道,問題:兩個人同時來到了河邊,都想過河,但只有一條小船,而且小船只能載一個人。請問:他們能否都過河?
Gemini 2.5 Pro
DeepSeek-R1
這道題存在一個邏輯陷阱,就是“兩個人同時來到了河邊”但不一定在同一邊,Gemini 2.5 Pro 也是成功識破了邏輯陷阱,而 DeepSeek-R1則陷入了邏輯矛盾之中 。
數學問題
問題:設函數 f(x) 在 x=0 處可導,且 f(0)=0,若 x=0 是 f(x) 的極值點,則 f ′(0) 的值為( )。
Gemini 2.5 Pro
DeepSeek-R1
它倆均回答正確,那就再來一道博士資格考試的群論數學問題:有多少個147階的非同構群?
Gemini 2.5 Pro
DeepSeek-R1
Gemini 2.5 Pro給出了正確的解答,而DeepSeek-R1卻被難住了。
小編又將此題發送給了Kimi 1.5,遺憾的是它也未答對。
編程能力
提示詞:Create a beautiful, interactive p5jsdemo (no HTML). llike fish and nebulae.Show me what the fish are thinking.
在官方的示例中,僅僅根據這行提示詞,它就生成了一段p5js的交互式動畫,展示了“宇宙魚”的場景,并且還顯示了魚們都在想什么。
同時,也有用戶用它創建了一個簡單的汽車模擬器:
還有專業人士使用完全相同的提示測試了它和o1 pro:
可以看出,Gemini 2.5 Pro在數學和編程等能力上還是有實力的,但在審美和玩家體驗等軟實力上還有一點欠缺。
今年以來,或許是感受到了來自OpenAI和DeepSeek的持續壓力,谷歌大模型上新速度逐漸加速。
去年12月,谷歌宣布了Gemini 2.0的推出。
今年2月,谷歌旗下AI大模型Gemini系列全面上新,包括正式版Gemini 2.0 Flash、Gemini 2.0 Flash-Lite以及新一代旗艦大模型Gemini 2.0 Pro實驗版,并在Gemini App中推出了其推理模型Gemini 2.0 Flash Thinking實驗版。
現在谷歌又推出Gemini 2.5 Pro,可見更新頻率之頻繁。
目前,Gemini 2.5 Pro已在Google AI Studio和Gemini應用中向Gemini Advanced的訂閱用戶開放,并將很快在Vertex AI上推出,并在未來幾周內宣布公開定價。
有消息稱DeepSeek-R2預計在未來兩個月內推出,期待它帶來新的超越。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.