編輯 | 楊文
今天凌晨,大洋彼岸可真夠熱鬧的。
OpenAI 推出了 GPT-4o 動嘴生圖、P 圖的功能,而谷歌則直接祭出了號稱「最智能的模型」Gemini 2.5。
據谷歌首席科學家 Jeff Dean 介紹,首個版本 Gemini 2.5 Pro Experimental 已集成「思考能力」,是迄今為止性能最強大的 Gemini 模型,尤其擅長高級推理和編碼,并在 @lmarena_ai 排行榜上拿下第一。
到底有多智能?
先來欣賞幾個官方給出的 demo。
Prompt:p5js to explore a Mandelbrot set。
提示詞:用 p5.js 探索曼德博集合。
Prompt:Create an animated bubble chart using Plotly Express of how economic and health indicators have evolved over the years for each continent.
提示詞:使用 Plotly Express 創建動畫氣泡圖,展示各大洲經濟和健康指標隨時間變化。
Prompt:Make me a captivating endless runner gameKey instructions on the screen. p5js scene ,no HTML. l like pixelated dinosaurs and interesting backgrounds.
提示詞:用 p5.js 創作一個迷人的無盡跑酷游戲,畫面上有關鍵操作提示。場景像素風,主角是恐龍,背景要有趣。
Prompt:Create a beautiful, interactive p5js demo (no HTML).l like fish and nebulaeShow me what the fish are thinking.
提示詞:用 p5.js 做個好看的互動演示,別用 HTML。我喜歡魚和星云,能不能展現出魚的想法。
Prompt: p5.js (no HTML) swarm of 30 colorful boids swimming inside a rotating hexagon.like supernova nebulae.
提示詞:用 p5.js 做一個無 HTML 的演示:30 只彩色的 “boids” 在一個旋轉的六邊形內游動,效果像超新星星云。
效果甚是驚艷。
而且谷歌一出手就是免費!
現在普通用戶可以在 AI Studio 中免費使用 Gemini 2.5 Pro,Gemini App 中的 Gemini 高級用戶也能使用它。
鏈接直達:http://aistudio.google.com/app/prompts/
一手實測
現在只要發布新模型,言必稱自家的最智能、最強大,然后佐以各種跑分結果。
對于普通用戶來說,分數、排名都不重要,真正重要的是,它在實際生活中到底好不好使。
既然谷歌稱 Gemini 2.5 是目前地表最強,那我們就來場大亂斗,將它和 o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1 拉出來同臺競技。
1. 一根 10 米長的竹竿能通過高 4.5 米、寬 3.8 米的城門嗎?
如果按照常規的數學邏輯來思考,10 米長的竹竿確實無法通過這個尺寸的城門,但是在現實生活中,我們可以讓竹竿與地面平行穿過城門。
萬萬沒想到,這么一道簡單的竹竿過城門,讓這群曾號稱最強的大模型全軍覆沒。
它們不約而同地想到了勾股定理,也把數值算對了,卻忽略了現實是個三維空間。
來看看各家大模型的具體表現。
Gemini 2.5:
o3-mini:
GPT-4.5:
Claude 3.7 Sonnet:
Grok3:
DeepSeek R1:
2. 我有 6 個雞蛋,碎了 2 個,煎了 2 個,吃了 2 個,最多還剩幾個?
這道題目的關鍵在于理解這些動作之間的關系。
如果把每個動作視為獨立事件,那將一個雞蛋也不剩。
但題目問的是最多還剩幾個,這表明可能有重疊的情況,碎的 2 個雞蛋正好煎了、吃了,因此在最佳情況下,最多還剩 4 個雞蛋。
Gemini 2.5 和 DeepSeek R1 思考一番后,抓住了問題關鍵,最終回答正確。
o3-mini、GPT-4.5 和 Claude3.7 考慮到了動作重疊的情況,但沒有扣住「最多」這個條件,因此回答錯誤。
最搞笑的就是馬斯克家的 Grok3,答案對了,但腦回路清奇,它是從完整的雞蛋里拿出 2 個煎了、吃了,所以最后還剩 2 個完整的雞蛋和 2 個碎雞蛋。
來看看各家大模型的具體表現。
Gemini 2.5:
o3-mini:
GPT-4.5:
Claude3.7 Sonnet:
Grok3:
DeepSeek R1:
3. 兩個人同時來到了河邊,都想過河,但只有一條小船,而且小船只能載一個人。請問:他們能否都過河?
這道題目很容易讓人陷入思維定勢。
同時來到河邊的倆人不一定在河的同一邊,只要抓住這個關鍵點,這道題目就迎刃而解了。
Gemini 2.5、Claude3.7 Sonnet 思路清晰,回答正確。
o3-mini 和 GPT-4.5 雖然都說可以同時過河,但給出的解釋非常牽強,GPT-4.5 甚至說讓船空著漂回去,所以不算對。
Grok3 和 DeepSeek R1 則回答錯誤。
各家大模型具體表現如下。
Gemini 2.5:
o3-mini:
GPT-4.5:
Claude3.7 Sonnet:
Grok3:
DeepSeek R1:
4. 張三去水果店買蘋果,蘋果進價為 20 元,賣價是 30 元。張三付給老板 100 元,老板沒有零錢,就在賣鞋的人那里換了 100 元零錢,找給張三 70 元。后來賣鞋的人發現那 100 元是假幣,于是找老板換回了 100 元。請問水果店老板損失了多少錢?
別看這道題目出現了如此多的數字,故事情節也曲折,但其實水果店老板損失的錢只有兩部分 —— 蘋果進價 20 元和找給買家的 70 元,因此答案時 90 元。
Gemini 2.5、Claude3.7 Sonnet、Grok3 和 DeepSeek R1 都回答正確。
o3-mini 和 GPT-4.5 糾結了半天,徹底被繞進去了,最終得出錯誤答案。
Gemini 2.5:
o3-mini:
GPT-4.5:
Claude3.7 Sonnet:
Grok3:
DeepSeek R1:
5. 多模態測試題,杯子有多高?
對于這道題,大模型們要先識別圖像,然后進行計算。
Gemini 2.5、Claude3.7 Sonnet 和 Grok3 回答正確。
而 o3-mini、GPT4.5 全程胡說八道。
DeepSeek R1 雖然可以上傳圖片,但它只能識別圖片中的文字,無法真正讀懂圖,因此回答錯誤。
各家大模型的具體表現如下。
Gemini 2.5:
o3-mini:
GPT-4.5:
Claude 3.7 Sonnet:
Grok3:
DeepSeek R1:
根據以上測試,我們發現 Gemini 2.5 雖然也會翻車,但正確率達 80%,總體來說數學邏輯推理能力還是挺能打的。
Claude 3.7 Sonnet 稍遜一籌,5 道題目錯了倆。
最慘的就是 OpenAI 家的兩大模型 o3mini 和 GPT-4.5,沒有一道題目是做對的,正確率為 0。
以后我們會帶來更多好玩有用的 AI 評測,也歡迎大家進群交流。
? THE END
轉載請聯系本公眾號獲得授權
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.