99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

以一敵五、屠榜登頂的谷歌Gemini 2.5,居然栽在小學數學題上

0
分享至


編輯 | 楊文

今天凌晨,大洋彼岸可真夠熱鬧的。

OpenAI 推出了 GPT-4o 動嘴生圖、P 圖的功能,而谷歌則直接祭出了號稱「最智能的模型」Gemini 2.5。

據谷歌首席科學家 Jeff Dean 介紹,首個版本 Gemini 2.5 Pro Experimental 已集成「思考能力」,是迄今為止性能最強大的 Gemini 模型,尤其擅長高級推理和編碼,并在 @lmarena_ai 排行榜上拿下第一。


到底有多智能?

先來欣賞幾個官方給出的 demo。

Prompt:p5js to explore a Mandelbrot set。

提示詞:用 p5.js 探索曼德博集合。

Prompt:Create an animated bubble chart using Plotly Express of how economic and health indicators have evolved over the years for each continent.

提示詞:使用 Plotly Express 創建動畫氣泡圖,展示各大洲經濟和健康指標隨時間變化。

Prompt:Make me a captivating endless runner gameKey instructions on the screen. p5js scene ,no HTML. l like pixelated dinosaurs and interesting backgrounds.

提示詞:用 p5.js 創作一個迷人的無盡跑酷游戲,畫面上有關鍵操作提示。場景像素風,主角是恐龍,背景要有趣。

Prompt:Create a beautiful, interactive p5js demo (no HTML).l like fish and nebulaeShow me what the fish are thinking.

提示詞:用 p5.js 做個好看的互動演示,別用 HTML。我喜歡魚和星云,能不能展現出魚的想法。

Prompt: p5.js (no HTML) swarm of 30 colorful boids swimming inside a rotating hexagon.like supernova nebulae.

提示詞:用 p5.js 做一個無 HTML 的演示:30 只彩色的 “boids” 在一個旋轉的六邊形內游動,效果像超新星星云。

效果甚是驚艷。

而且谷歌一出手就是免費!

現在普通用戶可以在 AI Studio 中免費使用 Gemini 2.5 Pro,Gemini App 中的 Gemini 高級用戶也能使用它。

鏈接直達:http://aistudio.google.com/app/prompts/

一手實測

現在只要發布新模型,言必稱自家的最智能、最強大,然后佐以各種跑分結果。

對于普通用戶來說,分數、排名都不重要,真正重要的是,它在實際生活中到底好不好使。

既然谷歌稱 Gemini 2.5 是目前地表最強,那我們就來場大亂斗,將它和 o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1 拉出來同臺競技。

1. 一根 10 米長的竹竿能通過高 4.5 米、寬 3.8 米的城門嗎?

如果按照常規的數學邏輯來思考,10 米長的竹竿確實無法通過這個尺寸的城門,但是在現實生活中,我們可以讓竹竿與地面平行穿過城門。

萬萬沒想到,這么一道簡單的竹竿過城門,讓這群曾號稱最強的大模型全軍覆沒。

它們不約而同地想到了勾股定理,也把數值算對了,卻忽略了現實是個三維空間。


來看看各家大模型的具體表現。

Gemini 2.5:


o3-mini:


GPT-4.5:


Claude 3.7 Sonnet:


Grok3:


DeepSeek R1:


2. 我有 6 個雞蛋,碎了 2 個,煎了 2 個,吃了 2 個,最多還剩幾個?

這道題目的關鍵在于理解這些動作之間的關系。

如果把每個動作視為獨立事件,那將一個雞蛋也不剩。

但題目問的是最多還剩幾個,這表明可能有重疊的情況,碎的 2 個雞蛋正好煎了、吃了,因此在最佳情況下,最多還剩 4 個雞蛋。

Gemini 2.5 和 DeepSeek R1 思考一番后,抓住了問題關鍵,最終回答正確。

o3-mini、GPT-4.5 和 Claude3.7 考慮到了動作重疊的情況,但沒有扣住「最多」這個條件,因此回答錯誤。

最搞笑的就是馬斯克家的 Grok3,答案對了,但腦回路清奇,它是從完整的雞蛋里拿出 2 個煎了、吃了,所以最后還剩 2 個完整的雞蛋和 2 個碎雞蛋。

來看看各家大模型的具體表現。


Gemini 2.5:


o3-mini:


GPT-4.5:


Claude3.7 Sonnet:


Grok3:


DeepSeek R1:


3. 兩個人同時來到了河邊,都想過河,但只有一條小船,而且小船只能載一個人。請問:他們能否都過河?

這道題目很容易讓人陷入思維定勢。

同時來到河邊的倆人不一定在河的同一邊,只要抓住這個關鍵點,這道題目就迎刃而解了。

Gemini 2.5、Claude3.7 Sonnet 思路清晰,回答正確。

o3-mini 和 GPT-4.5 雖然都說可以同時過河,但給出的解釋非常牽強,GPT-4.5 甚至說讓船空著漂回去,所以不算對。

Grok3 和 DeepSeek R1 則回答錯誤。


各家大模型具體表現如下。

Gemini 2.5:


o3-mini:


GPT-4.5:


Claude3.7 Sonnet:


Grok3:


DeepSeek R1:


4. 張三去水果店買蘋果,蘋果進價為 20 元,賣價是 30 元。張三付給老板 100 元,老板沒有零錢,就在賣鞋的人那里換了 100 元零錢,找給張三 70 元。后來賣鞋的人發現那 100 元是假幣,于是找老板換回了 100 元。請問水果店老板損失了多少錢?

別看這道題目出現了如此多的數字,故事情節也曲折,但其實水果店老板損失的錢只有兩部分 —— 蘋果進價 20 元和找給買家的 70 元,因此答案時 90 元。

Gemini 2.5、Claude3.7 Sonnet、Grok3 和 DeepSeek R1 都回答正確。

o3-mini 和 GPT-4.5 糾結了半天,徹底被繞進去了,最終得出錯誤答案。


Gemini 2.5:


o3-mini:


GPT-4.5:


Claude3.7 Sonnet:


Grok3:


DeepSeek R1:


5. 多模態測試題,杯子有多高?


對于這道題,大模型們要先識別圖像,然后進行計算。

Gemini 2.5、Claude3.7 Sonnet 和 Grok3 回答正確。

而 o3-mini、GPT4.5 全程胡說八道。

DeepSeek R1 雖然可以上傳圖片,但它只能識別圖片中的文字,無法真正讀懂圖,因此回答錯誤。


各家大模型的具體表現如下。

Gemini 2.5:


o3-mini:


GPT-4.5:


Claude 3.7 Sonnet:


Grok3:


DeepSeek R1:



根據以上測試,我們發現 Gemini 2.5 雖然也會翻車,但正確率達 80%,總體來說數學邏輯推理能力還是挺能打的。

Claude 3.7 Sonnet 稍遜一籌,5 道題目錯了倆。

最慘的就是 OpenAI 家的兩大模型 o3mini 和 GPT-4.5,沒有一道題目是做對的,正確率為 0。

以后我們會帶來更多好玩有用的 AI 評測,也歡迎大家進群交流。

? THE END

轉載請聯系本公眾號獲得授權

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兩年巨虧2000多萬!琶洲頂級豪宅保利天悅創下了新的降價速度

兩年巨虧2000多萬!琶洲頂級豪宅保利天悅創下了新的降價速度

小人物看盡人間百態
2025-05-29 19:57:40
喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

米筐投資
2025-05-30 07:18:09
性冷淡離異少婦被65歲兄弟二人強奸,警方一查她竟是連環女殺手

性冷淡離異少婦被65歲兄弟二人強奸,警方一查她竟是連環女殺手

胖胖侃咖
2025-05-30 08:00:11
黃仁勛:沒有美國芯片,中國AI一樣發展!

黃仁勛:沒有美國芯片,中國AI一樣發展!

上觀新聞
2025-05-29 22:08:08
特大事故!東莞驚現"斷頭路"4車道變3車道,有車輛飛出車毀人亡!

特大事故!東莞驚現"斷頭路"4車道變3車道,有車輛飛出車毀人亡!

烏娛子醬
2025-05-29 20:40:13
廣東一女子退貨5萬元手鐲,交給快遞員后被弄丟,商家:沒收到貨無法退款,快遞:沒有運費險 只能賠67.5元,當事人無奈:有運費險 只是做了退貨動作

廣東一女子退貨5萬元手鐲,交給快遞員后被弄丟,商家:沒收到貨無法退款,快遞:沒有運費險 只能賠67.5元,當事人無奈:有運費險 只是做了退貨動作

東方網
2025-05-29 22:45:18
唏噓!四大行浙江一把手全部落馬

唏噓!四大行浙江一把手全部落馬

深藍財經
2025-05-29 18:37:33
網友稱山姆惡意營銷,99的榴蓮有貨故意不賣,不少人大喊退卡

網友稱山姆惡意營銷,99的榴蓮有貨故意不賣,不少人大喊退卡

映射生活的身影
2025-05-30 01:34:02
當老師被殺害以后,媒體沉默了!

當老師被殺害以后,媒體沉默了!

燕梳樓頻道
2025-05-29 22:09:21
重大反轉,殲10不要了?東南亞大國敲定陣風大單,數量追加18架

重大反轉,殲10不要了?東南亞大國敲定陣風大單,數量追加18架

阿傖說事
2025-05-29 15:04:28
林允芭莎“鏡頭簽”在全網火了,秒了22歲趙今麥,星爺真眼光獨具

林允芭莎“鏡頭簽”在全網火了,秒了22歲趙今麥,星爺真眼光獨具

阿纂看事
2025-05-29 17:04:56
國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

上觀新聞
2025-05-29 18:06:09
美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

阿傖說事
2025-05-29 16:03:16
胖東來與“紅內褲”事件博主名譽糾紛案宣判:段某賠償40萬,道歉30天

胖東來與“紅內褲”事件博主名譽糾紛案宣判:段某賠償40萬,道歉30天

極目新聞
2025-05-30 07:32:52
一只鵝引發四萬人混戰61小時!服務器打到排長隊,官方停服勸架!

一只鵝引發四萬人混戰61小時!服務器打到排長隊,官方停服勸架!

17173游戲網
2025-05-29 09:50:46
美國衛生部長:美國新冠死亡率比海地高200倍,海地疫苗接種率僅1.3%

美國衛生部長:美國新冠死亡率比海地高200倍,海地疫苗接種率僅1.3%

風向觀察
2025-05-29 19:26:53
廣西壯族自治區人民代表大會常務委員會任免名單

廣西壯族自治區人民代表大會常務委員會任免名單

魯中晨報
2025-05-30 10:41:09
問定居日本最大的感受?體會到無能為力的時刻,在生活中變少了

問定居日本最大的感受?體會到無能為力的時刻,在生活中變少了

掘金日本房產
2025-05-29 20:33:18
很尷尬!燕郊的房子21年賣203萬,如今跌到80多萬,不敢面對買主

很尷尬!燕郊的房子21年賣203萬,如今跌到80多萬,不敢面對買主

火山詩話
2025-05-30 09:02:36
AC米蘭1年內3度換帥:官宣孔塞桑下課+僅帶隊半年 囧叔11年后回歸

AC米蘭1年內3度換帥:官宣孔塞桑下課+僅帶隊半年 囧叔11年后回歸

風過鄉
2025-05-30 06:23:53
2025-05-30 11:36:49
AI好好用 incentive-icons
AI好好用
探索人工智能應用場景及商業化
2096文章數 4432關注度
往期回顧 全部

科技要聞

榮耀新CEO放話:下半年重返前三,靠譜嗎?

頭條要聞

牛彈琴:美國政府一日三變殺瘋了 全世界目瞪口呆

頭條要聞

牛彈琴:美國政府一日三變殺瘋了 全世界目瞪口呆

體育要聞

當我終于回國時,可能已認不出我的家

娛樂要聞

19歲榮梓杉被曝心肌炎復發情況危急?

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

約合人民幣47.10萬元起 阿維塔11在香港上市

態度原創

游戲
時尚
藝術
旅游
公開課

《東京地下殺手》或今夏發布 制作組發布招聘廣納賢才

和劉亦菲一起來場“時裝出逃”的旅行

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 山东| 马尔康县| 兴文县| 新津县| 尼玛县| 花垣县| 施甸县| 濉溪县| 五大连池市| 枝江市| 东光县| 庄河市| 丰原市| 宕昌县| 富民县| 丰县| 留坝县| 根河市| 增城市| 常德市| 邯郸市| 玉环县| 炎陵县| 喜德县| 呼图壁县| 蓬溪县| 南郑县| 奎屯市| 宁晋县| 沽源县| 陕西省| 迭部县| 通海县| 永川市| 芷江| 晋中市| 泰来县| 枣庄市| 铜鼓县| 太和县| 太原市|