99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

高考數學全卷重賽!新選手Gemini奪冠,豆包DeepSeek并列第二

0
分享至



機器之心報道

編輯:楊文、+0

AI挑戰全套高考數學題來了!

話接上回。高考數學一結束,我們連夜使用六款大模型產品,按照一般用戶截圖提問的方式,挑戰了 14 道最新高考客觀題,不過有網友質疑測評過程不夠嚴謹,所以這次我們加上解答題,重新測一遍。

本次參加挑戰的選手分別是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1 Turbo、o3,并且新增網友們非常期待的 Gemini 2.5 pro。上一次我們使用網頁端測試,這次除 o3 外,其他模型全部調用 API。

在考題選擇上,我們仍然采用 2025 年數學新課標 Ⅰ 卷,包含 14 道客觀題,總計 73 分;5 道解答題,總計 77 分。其中第 6 題由于涉及到圖片,我們就單獨摘出來,后面通過上傳題目截圖的形式針對多模態大模型進行評測。其他文本題目全部轉成 latex 格式,分別投喂給大模型,還是老規矩,不做 System Prompt 引導,不開啟聯網搜索,直接輸出結果。

(注:第 17 題雖然也涉及到圖片,但文字表述足夠清晰,不影響答題,因此也以 latex 格式測評。)

客觀題計分方法按照以往高考判分原則:

  • 單選題每道 5 分,選項正確計分,錯誤不得分;
  • 多選題每道 6 分,全對計 6 分,漏選按正確答案數量計分,如答案為 ABCD,漏選其一扣 1.5 分,錯選不得分;
  • 填空題每道 5 分,填空正確計分,錯誤不得分。

至于解答題,由于現在還未出具體的評分細則,所以我們請數學專業的朋友進行評判,主要還是看大模型的最終答案以及解題步驟中是否有嚴重失誤點。

7 家大模型考試成績如下圖所示。



從客觀題來看,各家大模型幾乎拉不開差距,最大分差也只有 3 分,第 6 題圖像題更是讓這幾家多模態大模型「全軍覆沒」。在上一次測評中,o3 客觀題成績墊底,但有網友表示,這可能是由于某些原因導致后臺自動切換成其他模型,而這一次我們選用的是未「降智」的 o3,選擇題和填空題成績仍是排在最后,當然,65 分的成績相比「降智」版確實有很大提升。

解答題是大模型失分的「重災區」。除了 Gemini 2.5 Pro 拿到全部的分數外,其它模型或多或少均有失分。其中 DeepSeek R1 和 Doubao 最可惜,只丟了一分;o3 則失了 2 分,最終得到 75 分。相較而言,hunyuan-t1-latest 和文心 X1 Turbo 發揮不佳,分別拿到 68 分和 66 分。

從總分上來看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分緊隨其后,并列第二;o3 和 Qwen3 也僅有一分之差,分別排在第三和第四。受解答題的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的總成績排到了最后兩名。

(查看各大模型的測評截圖以及解答題答題情況,請移步:https://jiqizhixin.feishu.cn/docx/PR0PdzYaWoU92QxiJQqc2oe7n2g)

解答題:大模型失分「重災區」

我們先來看看解答題的情況。



第 15 題和第 17 題,一道考查概率問題,一道涉及立體幾何知識,7 家大模型均拿到滿分。

第 16 題是一道數列綜合題,滿分 15 分,只要證明完整、計算過程完整、結果正確就能拿到全部的分數。大模型整體表現不錯,只有 Qwen3 解答正確,但最終答案里面增加了多余的假設求值,扣了一分。



第 18 題這道橢圓方程與幾何就難倒了不少大模型,僅 Doubao、DeepSeek R1 和 Gemini2.5 Pro 拿到滿分 17 分,其他模型各有各的扣分點。Qwen3 前面回答得都不錯,過程也很完整,但偏偏最后一小問|PQ|最大值取約等于 9 的步驟多余,導致結果偏差,扣了一分。



o3 則是第(3)問答案沒化簡丟了一分。



文心 X1 在第 2 問 (2) 正確算出 P 點軌跡,但未證明極值,直接按最遠點計算造成結果錯誤,扣 6 分。



hunyuan-t1-latest 前兩問中回答正確,到了第 3 問完成 P 點軌跡之后就全錯了,一下子丟了 5 分。



對于最后一道壓軸題,Gemini2.5 pro 是唯一全對的大模型。Doubao 只說明了震蕩項的振幅大于 0,但是也有可能震蕩項的相位是反的,那樣的話最大值反而有可能更小,證明過程不夠嚴謹,扣一分。



DeepSeek R1 在第(3)問中分情況討論,得出了兩類解,但對第一類解未做后續說明,扣了一分。



o3 第(2)問思路正確,但因為開閉區間差別,「完全重合」說法錯誤,扣 1 分。



hunyuan-t1-latest 在第(2)問上思路可行但證明過程模糊,扣 2 分,到了第(3)問沒有判斷 phi 取值,又扣了 2 分。



文心 X1 和 Qwen3 也都是在第 2 問和第 3 問上失了分,第 2 問證明模糊扣 2 分,第 3 問則是未具體說明 phi 值扣 2 分,而且文心 X1 比大小還發生錯誤,又扣了 1 分。





客觀題:一道圖像題難倒幾家多模態大模型

在不考慮識圖題(第6題)的情況下,客觀題大模型總體表現都不錯,Doubao、Qwen3、Gemini 2.5 pro、DeepSeek R1 、文心 X1 Turbo 和 hunyuan-t1-latest 均取得了 68 分的高分,只有 o3 在多選題上少選了一項丟了分。



其中,o3 在第 9 題計算過程中,忽視了「正三棱柱」這一關鍵條件。它在建立坐標系時,分別用 (x?, y?, 0) 表示 A 點坐標,用 (c, 0, 0) 表示 C 點坐標,但沒有考慮到:正三棱柱的底面是正三角形,這意味著正三角形的邊長 c 與 x?、y?之間存在關系:c=2x?=2y?/√3。導致對 B 選項的判斷出現錯誤。



接下來看看這道圖片題。



遺憾的是,此次測評的多模態大模型都在這道識圖題上表現不佳。雖然 hunyuan-t1-latest 不是多模態,但我們又測試了 hunyuan-t1-vision ,也在這道題上敗下陣來。



相比之下,Doubao 和 o3 至少正確識別了坐標位置,只是誤判了視風風速方向,而 Gemini 連基本坐標都未能正確識別。







總的來說,這次測評結果顯示,大模型在數學推理能力上有不小的進步,但仍有較大的提升空間。比如不少模型在解答題上丟分,這反映出大模型在復雜推理、嚴謹論證和多步驟計算方面還需加強。

此外,所有參測的多模態大模型在第 6 題的圖像識別上都出現了問題,這也暴露出當前 AI 在圖文結合理解方面的短板。

最后,緊張的高考已經結束,祝福所有考生都能取得理想的成績,有著燦爛的未來!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中央候補委員任上落馬!上周還曾出席公開活動

中央候補委員任上落馬!上周還曾出席公開活動

上觀新聞
2025-06-12 19:24:05
揚子晚報:國足再弱也是國家隊層面,拿南通去挑戰應適可而止

揚子晚報:國足再弱也是國家隊層面,拿南通去挑戰應適可而止

懂球帝
2025-06-12 11:20:17
3勝2負結束征程,人民日報卻點名猛夸樊振東,一席話直戳人心

3勝2負結束征程,人民日報卻點名猛夸樊振東,一席話直戳人心

球盲百小易
2025-06-12 02:04:39
“惡魔醫生”劉翔峰,摘病人器官販賣,將人命當提款機,結局可笑

“惡魔醫生”劉翔峰,摘病人器官販賣,將人命當提款機,結局可笑

體制內老陳
2025-06-12 12:40:56
獨庫公路大堵車后續!原來是云A故意別車,后來被曝墜崖無一生還

獨庫公路大堵車后續!原來是云A故意別車,后來被曝墜崖無一生還

麥小柒
2025-06-12 13:43:16
67歲王朔自曝患病,女兒不讓其死在家里,預測自己會中風死去

67歲王朔自曝患病,女兒不讓其死在家里,預測自己會中風死去

180視角
2025-06-12 14:20:06
快訊!外媒:印度墜毀客機上乘客包括169名印度公民、53名英國公民、1名加拿大公民和7名葡萄牙公民

快訊!外媒:印度墜毀客機上乘客包括169名印度公民、53名英國公民、1名加拿大公民和7名葡萄牙公民

環球網資訊
2025-06-12 18:18:00
江西宜春某商貿市場保安非法拘禁2名未成年人,警方通報

江西宜春某商貿市場保安非法拘禁2名未成年人,警方通報

界面新聞
2025-06-12 20:57:49
華人女企業家劉月婷成新西蘭最富有女性,10年前與他人創立跨境支付公司

華人女企業家劉月婷成新西蘭最富有女性,10年前與他人創立跨境支付公司

紅星新聞
2025-06-12 15:50:18
印度飛英國客機失事機上載有242人,前民航機長:拉起就墜毀太罕見,飛行員誤操作概率低

印度飛英國客機失事機上載有242人,前民航機長:拉起就墜毀太罕見,飛行員誤操作概率低

極目新聞
2025-06-12 19:42:58
特朗普稱中美已達成協議,將對華征收55%關稅,商務部回應

特朗普稱中美已達成協議,將對華征收55%關稅,商務部回應

南方都市報
2025-06-12 17:19:07
上海市委常委會舉行會議:堅決擁護黨中央決定

上海市委常委會舉行會議:堅決擁護黨中央決定

澎湃新聞
2025-06-12 20:48:32
韓國總統史上最快“翻車”:李在明7天破紀錄,青瓦臺魔咒要重演?

韓國總統史上最快“翻車”:李在明7天破紀錄,青瓦臺魔咒要重演?

任紀煙
2025-06-12 15:05:25
歐盟將對兩家中國小型銀行實施制裁,外交部回應

歐盟將對兩家中國小型銀行實施制裁,外交部回應

環球網資訊
2025-06-12 14:55:03
放過可憐的孩子吧,別非要在他們眉心加上那個紅點點了

放過可憐的孩子吧,別非要在他們眉心加上那個紅點點了

李老逵亂擺龍門陣
2025-06-11 09:32:13
知名女歌手演唱會上突然怒懟!臺下歌迷沸了……網友:上海能看嗎

知名女歌手演唱會上突然怒懟!臺下歌迷沸了……網友:上海能看嗎

半島晨報
2025-06-12 21:30:03
這兩天,無數網友們記住了羅帥宇這個名字

這兩天,無數網友們記住了羅帥宇這個名字

清暉有墨
2025-06-12 11:09:37
塔利班不管中國答不答應,先把瓦罕走廊的路,通到了中國家門口

塔利班不管中國答不答應,先把瓦罕走廊的路,通到了中國家門口

蔣福偉
2025-06-12 10:02:04
羅帥宇離世一年終上熱搜!真相就在16斤的材料里,就差你一聲吶喊

羅帥宇離世一年終上熱搜!真相就在16斤的材料里,就差你一聲吶喊

昨夜軍帖
2025-06-12 13:23:43
解說NBA總決賽G3期間遭郭艾倫連續拷打,美娜:我惹你了嗎

解說NBA總決賽G3期間遭郭艾倫連續拷打,美娜:我惹你了嗎

懂球帝
2025-06-12 16:31:03
2025-06-12 22:24:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10630文章數 142337關注度
往期回顧 全部

教育要聞

分數不高,是打工,還是選擇讀專科?

頭條要聞

特朗普發帖稱中美關系非常好 外交部回應

頭條要聞

特朗普發帖稱中美關系非常好 外交部回應

體育要聞

沒有人會不喜歡TJ-麥康奈爾

娛樂要聞

鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊

財經要聞

787客機首起空難 波音飛機事故頻發引質疑

科技要聞

一鏡雙目捅破天,華為最快明年Q2超越蘋果

汽車要聞

方程豹最大SUV比豹8便宜?鈦7搭華為智駕

態度原創

游戲
數碼
藝術
時尚
本地

無畏契約手游試玩會,專訪拳頭與騰訊高層解讀核心策略

數碼要聞

出海品牌 Ocypus 隱翅蟲多款創意冷頭設計一體式水冷散熱器亮相

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

中年女人穿衣要講究,解鎖日本女神的3個技巧,時髦還精致

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 小金县| 永兴县| 巩义市| 长汀县| 乌苏市| 河曲县| 城固县| 泸西县| 黑河市| 大新县| 岳阳县| 静海县| 庆云县| 苗栗县| 绥德县| 宜州市| 吉隆县| 特克斯县| 徐州市| 平顺县| 郯城县| 施秉县| 田林县| 南部县| 科技| 抚宁县| 永寿县| 简阳市| 成都市| 林州市| 芦溪县| 临清市| 成安县| 上饶县| 唐海县| 安龙县| 洛宁县| 新民市| 元阳县| 梅河口市| 军事|