網易首頁 > 網易號 > 正文申請入駐

谷歌CEO稱其有史最智能模型，實測Gemini 2.5 Pro推理能力竟超DeepSeek-R1

2025-03-27 20:51:54　來源: AI先鋒官

北京舉報

分享至

作者｜沐風

來源｜AI先鋒官

Google終于登頂一次了。

當地時間3月25日，Google直接上線了全新模型Gemini 2.5 Pro。

Google表示，Gemini 2.5 Pro支持100萬個token的上下文窗口，這意味著它一次性能處理相當于兩本《紅樓夢》字數的文本量。

并且，Google還提到，Gemini 2.5 Pro很快將支持兩倍的上下文窗口（即200萬個token）。

Google CEO Sundar Pichai更是直言：“這是我們有史以來最智能的 AI 模型。”

Gemini 2.5 Pro在各大基準測試上實現全面“屠榜”，在所有測試中都穩居第一名，包括常見的編程、數學和科學基準測試。

在Arena排行榜上，Gemini 2.5 Pro還創下了歷史上最大分數飛躍，比Grok-3/GPT-4.5分別高出了39/45分。

在“Humanity's Last Exam”測試中，它獲得了18.8%的最高分數，這是目前為止所有未使用外接工具的大模型中最好的成績。

“Humanity's Last Exam”是一個由全球近千名專家共同設計的多模態基準測試，旨在評估大型語言模型的能力極限，被視為人類給 AI 的終極考驗，該測試包含3000道涵蓋數學、人文學科和自然科學等多個領域的前沿問題。

另外，在人類偏好測試中，它與Grok-3和GPT-4.5在困難提示詞和編程兩大領域拿到了并列第一，而在其他類別中均問鼎榜首。

在網頁開發領域，Gemini 2.5 Pro較上一代Gemini有了巨大的飛躍，同時也是首個超越Claude 3.5 Sonnet的模型，在WebDev Arena上排名第二，仍低于Claude 3.7 Sonnet。

但在KCORES大模型競技場上的評測結果顯示， Gemini 2.5 Pro總體得分 370.6分，超越了 Claude-3.7-Sonnet-Thinking 不少。

由此看來，Gemini 2.5 Pro可能確實擔得起“有史以來最強”的名號。

看完了成績單，那么Gemini 2.5 Pro在實際使用中與DeepSeek-R1相比表現又會如何呢？

咱們實測見真章。

邏輯推理

問題：五位探險者（A、B、C、D、E）按等級從高到低（A＞B＞C＞D＞E）發現100枚金幣。他們需按順序（A→E）提出分配方案，規則如下：

投票：提議者+至少半數同意（含平局）則通過，否則提議者被淘汰。

目標：所有人絕對理性，優先保命，其次多拿金幣，最后多淘汰他人。

若你是A，如何分配金幣以確保方案通過且自身收益最大？需詳細推導過程。

Gemini 2.5 Pro

DeepSeek-R1

此問題涉及逆向思維，分步驟推理，考慮每個人的策略，屬于博弈論的經典問題，同時還涉及邏輯和數學歸納法。

Gemini 2.5 Pro和 DeepSeek-R1都通過一步一步的逆向推理，成功得出了正確答案。

再來一道，問題：兩個人同時來到了河邊，都想過河，但只有一條小船，而且小船只能載一個人。請問：他們能否都過河？

Gemini 2.5 Pro

DeepSeek-R1

這道題存在一個邏輯陷阱，就是“兩個人同時來到了河邊”但不一定在同一邊，Gemini 2.5 Pro 也是成功識破了邏輯陷阱，而 DeepSeek-R1則陷入了邏輯矛盾之中。

數學問題

問題：設函數 f(x) 在 x=0 處可導，且 f(0)=0，若 x=0 是 f(x) 的極值點，則 f ′(0) 的值為（）。

Gemini 2.5 Pro

DeepSeek-R1

它倆均回答正確，那就再來一道博士資格考試的群論數學問題：有多少個147階的非同構群？

Gemini 2.5 Pro

DeepSeek-R1

Gemini 2.5 Pro給出了正確的解答，而DeepSeek-R1卻被難住了。

小編又將此題發送給了Kimi 1.5，遺憾的是它也未答對。

編程能力

提示詞：Create a beautiful, interactive p5jsdemo (no HTML). llike fish and nebulae.Show me what the fish are thinking.

在官方的示例中，僅僅根據這行提示詞，它就生成了一段p5js的交互式動畫，展示了“宇宙魚”的場景，并且還顯示了魚們都在想什么。

同時，也有用戶用它創建了一個簡單的汽車模擬器：

還有專業人士使用完全相同的提示測試了它和o1 pro：

可以看出，Gemini 2.5 Pro在數學和編程等能力上還是有實力的，但在審美和玩家體驗等軟實力上還有一點欠缺。

今年以來，或許是感受到了來自OpenAI和DeepSeek的持續壓力，谷歌大模型上新速度逐漸加速。

去年12月，谷歌宣布了Gemini 2.0的推出。

今年2月，谷歌旗下AI大模型Gemini系列全面上新，包括正式版Gemini 2.0 Flash、Gemini 2.0 Flash-Lite以及新一代旗艦大模型Gemini 2.0 Pro實驗版，并在Gemini App中推出了其推理模型Gemini 2.0 Flash Thinking實驗版。

現在谷歌又推出Gemini 2.5 Pro，可見更新頻率之頻繁。

目前，Gemini 2.5 Pro已在Google AI Studio和Gemini應用中向Gemini Advanced的訂閱用戶開放，并將很快在Vertex AI上推出，并在未來幾周內宣布公開定價。

有消息稱DeepSeek-R2預計在未來兩個月內推出，期待它帶來新的超越。

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AGI真方向?谷歌:智能體在自研世界模型，世界模型is all You Need

機器之心Pro 2025-06-13 10:51:33
16 跟貼 16
谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0

程序員從此不再寫代碼！紅杉專訪Codex團隊，o3白菜價真相曝光

新智元 2025-06-13 09:09:50
38 跟貼 38

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1

科大訊飛：AI孫悟空用日語回答日本老爺爺的提問

智東西 2025-04-18 23:31:04
0 跟貼 0

老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
全球首次，Transformer「混血」速度狂飆65倍！英偉達已下注

新智元 2025-06-14 13:25:54
1 跟貼 1

AI智能體上線，營銷人下線？ | AI無悖論

虎嗅APP 2025-06-15 01:00:27
0 跟貼 0
夸克發布首個高考志愿大模型 AI來做專家

經濟觀察報 2025-06-13 16:59:10
0 跟貼 0
AI云，火山引擎如何“激進”？

鈦媒體APP 2025-06-13 19:09:03
0 跟貼 0
全球程序員炸鍋！老黃倫敦放豪言：編程語言的未來是「Human」

新智元 2025-06-15 09:12:25
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
當大模型接入玩具 AI硬件與情緒消費殊途同歸？

財聯社 2025-06-15 08:24:12
0 跟貼 0
AI壓低創新門檻！不會“低成本迭代”的人正在掉隊

吳曉波頻道 2025-06-15 08:31:25
0 跟貼 0
丟人啊！百度流量只占10%！馬上要被Google反超了

機械狗 2025-06-14 10:30:30
1404 跟貼 1404
拆華為！搶港口！美國在巴拿馬步步緊逼，中方強力介入

評論員杜平 2025-06-14 17:37:24
0 跟貼 0
小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
405 跟貼 405
2025谷歌研究學者計劃名單：吳佳俊、Mamba作者Albert Gu等獲獎

機器之心Pro 2025-06-13 19:36:28
1 跟貼 1
小扎豪擲143億美元賭新「王」！28歲華人億萬富翁入職Meta，與谷歌決裂

新智元 2025-06-14 13:25:43
1 跟貼 1
砸下800萬美元，想將華為基站踢出局，美國這事能搞成嗎？

老喬嘚吧嘚 2025-06-14 12:28:14
1 跟貼 1
扎克伯格豪擲150億美元，投資28歲華裔“天才少年”

上觀新聞 2025-06-15 07:08:11
24 跟貼 24
還拿芯片當籌碼？介文汲：華為打臉美國，芯片被卡脖子已經突破了

青杉依舊啊啊 2025-06-13 01:54:45
0 跟貼 0
谷歌CEO：中國在AI前沿競爭力不容忽視

財聯社 2025-05-19 17:56:27
0 跟貼 0
小鵬絕地翻盤，頭號功臣是她！

華商韜略 2025-03-28 14:19:16
0 跟貼 0
AI理解語言的終極密碼，千問3向量模型開源，性能超谷歌OpenAI

機器之心Pro 2025-06-11 19:17:56
0 跟貼 0
比亞迪李云飛：要忙在正道上，拒絕陰陽

每日經濟新聞 2025-06-06 17:55:12
150 跟貼 150
臺名嘴談印度客機墜毀謝寒冰：波音的股價絕對不會好！

正經娛閱 2025-06-12 22:23:47
1 跟貼 1
蔡崇信∶很幸運能為蘋果提供AI服務

財聯社 2025-02-13 16:19:09
1 跟貼 1
特朗普一句話，定調“波音無罪”，這次空難，印度吃了啞巴虧

南湖70后大叔 2025-06-14 01:41:41
0 跟貼 0
美國沒想到，德法俄也沒想到！中國石油如今竟成為“遙遙領先”

君笙拂兮啊 2025-06-13 16:43:03
0 跟貼 0
美國干脆挑明，拒絕停飛波音，關鍵時刻，莫迪收到中方一份大禮？

快樂彼岸 2025-06-15 01:00:12
0 跟貼 0
最快下個月，中方或訂購百架空客，波音也重獲訂單，美國突然變卦

掌悅君視 2025-06-14 00:09:32
0 跟貼 0
印度戰機吃完敗仗，客機又出大事，還和波音有關？莫迪這回咋收場

快樂彼岸 2025-06-14 01:01:46
0 跟貼 0
靜悄悄的餓了么，戰斗力到底有多強？

華商韜略 2025-04-30 14:18:35
0 跟貼 0
很多家長總以為學計算機就是在學編程

玉辭心 2025-06-14 06:04:28
5 跟貼 5
干就完了！美國擋不住華為成第一，蔡正元：找到華為贏的理由

毒舌事記 2025-06-14 08:43:41
0 跟貼 0
中方話音剛落，特朗普不裝了，不僅要搶運河港口，還要搶華為生意

王又又來了 2025-06-13 19:16:29
0 跟貼 0
匯豐銀行如今怎么樣了呢？

木棉小歷史 2025-06-14 07:18:52
0 跟貼 0
787印度墜機后！波音會死嗎？

翔說航天 2025-06-14 20:12:32
0 跟貼 0

手機 / 數碼

房產 / 家居

谷歌CEO稱其有史最智能模型，實測Gemini 2.5 Pro推理能力竟超DeepSeek-R1

華為Pura80系列首銷：不再嚴重缺貨

印度空難幸存者：機身撞出巨大裂口 爬出去后發生爆炸

印度空難幸存者：機身撞出巨大裂口 爬出去后發生爆炸

約戰天王山，步行者G4輸在了哪？

鳳凰傳奇曾毅塌房？網友：別連累玲花

以伊沖突持續升級，對全球市場影響多大

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

《誅仙世界》首次回應銀價暴跌；騰訊網易紛紛做出違背祖訓的決定

森林幾何 極簡灰調原木風

父親節潑冷水：3種中國式父愛要不得！希望你一個也不占

蘋果Liquid Glass UI影響文字可讀性并提高設計界面難度引發質疑

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸

森林幾何極簡灰調原木風