網易首頁 > 網易號 > 正文申請入駐

以一敵五、屠榜登頂的谷歌Gemini 2.5，居然栽在小學數學題上

2025-03-26 19:57:23　來源: AI好好用

北京舉報

分享至

編輯 | 楊文

今天凌晨，大洋彼岸可真夠熱鬧的。

OpenAI 推出了 GPT-4o 動嘴生圖、P 圖的功能，而谷歌則直接祭出了號稱「最智能的模型」Gemini 2.5。

據谷歌首席科學家 Jeff Dean 介紹，首個版本 Gemini 2.5 Pro Experimental 已集成「思考能力」，是迄今為止性能最強大的 Gemini 模型，尤其擅長高級推理和編碼，并在 @lmarena_ai 排行榜上拿下第一。

到底有多智能？

先來欣賞幾個官方給出的 demo。

Prompt：p5js to explore a Mandelbrot set。

提示詞：用 p5.js 探索曼德博集合。

Prompt：Create an animated bubble chart using Plotly Express of how economic and health indicators have evolved over the years for each continent.

提示詞：使用 Plotly Express 創建動畫氣泡圖，展示各大洲經濟和健康指標隨時間變化。

Prompt:Make me a captivating endless runner gameKey instructions on the screen. p5js scene ,no HTML. l like pixelated dinosaurs and interesting backgrounds.

提示詞：用 p5.js 創作一個迷人的無盡跑酷游戲，畫面上有關鍵操作提示。場景像素風，主角是恐龍，背景要有趣。

Prompt:Create a beautiful, interactive p5js demo (no HTML).l like fish and nebulaeShow me what the fish are thinking.

提示詞：用 p5.js 做個好看的互動演示，別用 HTML。我喜歡魚和星云，能不能展現出魚的想法。

Prompt: p5.js (no HTML) swarm of 30 colorful boids swimming inside a rotating hexagon.like supernova nebulae.

提示詞：用 p5.js 做一個無 HTML 的演示：30 只彩色的 “boids” 在一個旋轉的六邊形內游動，效果像超新星星云。

效果甚是驚艷。

而且谷歌一出手就是免費！

現在普通用戶可以在 AI Studio 中免費使用 Gemini 2.5 Pro，Gemini App 中的 Gemini 高級用戶也能使用它。

鏈接直達：http://aistudio.google.com/app/prompts/

一手實測

現在只要發布新模型，言必稱自家的最智能、最強大，然后佐以各種跑分結果。

對于普通用戶來說，分數、排名都不重要，真正重要的是，它在實際生活中到底好不好使。

既然谷歌稱 Gemini 2.5 是目前地表最強，那我們就來場大亂斗，將它和 o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1 拉出來同臺競技。

1. 一根 10 米長的竹竿能通過高 4.5 米、寬 3.8 米的城門嗎？

如果按照常規的數學邏輯來思考，10 米長的竹竿確實無法通過這個尺寸的城門，但是在現實生活中，我們可以讓竹竿與地面平行穿過城門。

萬萬沒想到，這么一道簡單的竹竿過城門，讓這群曾號稱最強的大模型全軍覆沒。

它們不約而同地想到了勾股定理，也把數值算對了，卻忽略了現實是個三維空間。

來看看各家大模型的具體表現。

Gemini 2.5：

o3-mini：

GPT-4.5：

Claude 3.7 Sonnet：

Grok3：

DeepSeek R1：

2. 我有 6 個雞蛋，碎了 2 個，煎了 2 個，吃了 2 個，最多還剩幾個？

這道題目的關鍵在于理解這些動作之間的關系。

如果把每個動作視為獨立事件，那將一個雞蛋也不剩。

但題目問的是最多還剩幾個，這表明可能有重疊的情況，碎的 2 個雞蛋正好煎了、吃了，因此在最佳情況下，最多還剩 4 個雞蛋。

Gemini 2.5 和 DeepSeek R1 思考一番后，抓住了問題關鍵，最終回答正確。

o3-mini、GPT-4.5 和 Claude3.7 考慮到了動作重疊的情況，但沒有扣住「最多」這個條件，因此回答錯誤。

最搞笑的就是馬斯克家的 Grok3，答案對了，但腦回路清奇，它是從完整的雞蛋里拿出 2 個煎了、吃了，所以最后還剩 2 個完整的雞蛋和 2 個碎雞蛋。

來看看各家大模型的具體表現。

Gemini 2.5：

o3-mini：

GPT-4.5：

Claude3.7 Sonnet：

Grok3：

DeepSeek R1：

3. 兩個人同時來到了河邊，都想過河，但只有一條小船，而且小船只能載一個人。請問：他們能否都過河？

這道題目很容易讓人陷入思維定勢。

同時來到河邊的倆人不一定在河的同一邊，只要抓住這個關鍵點，這道題目就迎刃而解了。

Gemini 2.5、Claude3.7 Sonnet 思路清晰，回答正確。

o3-mini 和 GPT-4.5 雖然都說可以同時過河，但給出的解釋非常牽強，GPT-4.5 甚至說讓船空著漂回去，所以不算對。

Grok3 和 DeepSeek R1 則回答錯誤。

各家大模型具體表現如下。

Gemini 2.5：

o3-mini：

GPT-4.5：

Claude3.7 Sonnet：

Grok3：

DeepSeek R1：

4. 張三去水果店買蘋果，蘋果進價為 20 元，賣價是 30 元。張三付給老板 100 元，老板沒有零錢，就在賣鞋的人那里換了 100 元零錢，找給張三 70 元。后來賣鞋的人發現那 100 元是假幣，于是找老板換回了 100 元。請問水果店老板損失了多少錢？

別看這道題目出現了如此多的數字，故事情節也曲折，但其實水果店老板損失的錢只有兩部分 —— 蘋果進價 20 元和找給買家的 70 元，因此答案時 90 元。

Gemini 2.5、Claude3.7 Sonnet、Grok3 和 DeepSeek R1 都回答正確。

o3-mini 和 GPT-4.5 糾結了半天，徹底被繞進去了，最終得出錯誤答案。

Gemini 2.5：

o3-mini：

GPT-4.5：

Claude3.7 Sonnet：

Grok3：

DeepSeek R1：

5. 多模態測試題，杯子有多高？

對于這道題，大模型們要先識別圖像，然后進行計算。

Gemini 2.5、Claude3.7 Sonnet 和 Grok3 回答正確。

而 o3-mini、GPT4.5 全程胡說八道。

DeepSeek R1 雖然可以上傳圖片，但它只能識別圖片中的文字，無法真正讀懂圖，因此回答錯誤。

各家大模型的具體表現如下。

Gemini 2.5：

o3-mini：

GPT-4.5：

Claude 3.7 Sonnet：

Grok3：

DeepSeek R1：

根據以上測試，我們發現 Gemini 2.5 雖然也會翻車，但正確率達 80%，總體來說數學邏輯推理能力還是挺能打的。

Claude 3.7 Sonnet 稍遜一籌，5 道題目錯了倆。

最慘的就是 OpenAI 家的兩大模型 o3mini 和 GPT-4.5，沒有一道題目是做對的，正確率為 0。

以后我們會帶來更多好玩有用的 AI 評測，也歡迎大家進群交流。

? THE END

轉載請聯系本公眾號獲得授權

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.