99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

0
分享至

AI挑戰全套高考數學題來了!

高考數學一結束,我們連夜使用六款大模型產品,按照一般用戶截圖提問的方式,挑戰了 14 道最新高考客觀題,不過有網友質疑測評過程不夠嚴謹,所以這次我們加上解答題,重新測一遍。

本次參加挑戰的選手分別是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1 Turbo、o3,并且新增網友們非常期待的 Gemini 2.5 pro。上一次我們使用網頁端測試,這次除 o3 外,其他模型全部調用 API。

在考題選擇上,我們仍然采用 2025 年數學新課標 Ⅰ 卷,包含 14 道客觀題,總計 73 分;5 道解答題,總計 77 分。其中第 6 題由于涉及到圖片,我們就單獨摘出來,后面通過上傳題目截圖的形式針對多模態大模型進行評測。其他文本題目全部轉成 latex 格式,分別投喂給大模型,還是老規矩,不做 System Prompt 引導,不開啟聯網搜索,直接輸出結果。

(注:第 17 題雖然也涉及到圖片,但文字表述足夠清晰,不影響答題,因此也以 latex 格式測評。)

客觀題計分方法按照以往高考判分原則:

單選題每道 5 分,選項正確計分,錯誤不得分;

多選題每道 6 分,全對計 6 分,漏選按正確答案數量計分,如答案為 ABCD,漏選其一扣 1.5 分,錯選不得分;

填空題每道 5 分,填空正確計分,錯誤不得分。

至于解答題,由于現在還未出具體的評分細則,所以我們請數學專業的朋友進行評判,主要還是看大模型的最終答案以及解題步驟中是否有嚴重失誤點。

7 家大模型考試成績如下圖所示。



從客觀題來看,各家大模型幾乎拉不開差距,最大分差也只有 3 分,第 6 題圖像題更是讓這幾家多模態大模型「全軍覆沒」。在上一次測評中,o3 客觀題成績墊底,但有網友表示,這可能是由于某些原因導致后臺自動切換成其他模型,而這一次我們選用的是未「降智」的 o3,選擇題和填空題成績仍是排在最后,當然,65 分的成績相比「降智」版確實有很大提升。

解答題是大模型失分的「重災區」。除了 Gemini 2.5 Pro 拿到全部的分數外,其它模型或多或少均有失分。其中 DeepSeek R1 和 Doubao 最可惜,只丟了一分;o3 則失了 2 分,最終得到 75 分。相較而言,hunyuan-t1-latest 和文心 X1 Turbo 發揮不佳,分別拿到 68 分和 66 分。

從總分上來看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分緊隨其后,并列第二;o3 和 Qwen3 也僅有一分之差,分別排在第三和第四。受解答題的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的總成績排到了最后兩名。

解答題:大模型失分「重災區」

我們先來看看解答題的情況。



第 15 題和第 17 題,一道考查概率問題,一道涉及立體幾何知識,7 家大模型均拿到滿分。

第 16 題是一道數列綜合題,滿分 15 分,只要證明完整、計算過程完整、結果正確就能拿到全部的分數。大模型整體表現不錯,只有 Qwen3 解答正確,但最終答案里面增加了多余的假設求值,扣了一分。



第 18 題這道橢圓方程與幾何就難倒了不少大模型,僅 Doubao、DeepSeek R1 和 Gemini2.5 Pro 拿到滿分 17 分,其他模型各有各的扣分點。Qwen3 前面回答得都不錯,過程也很完整,但偏偏最后一小問|PQ|最大值取約等于 9 的步驟多余,導致結果偏差,扣了一分。



o3 則是第(3)問答案沒化簡丟了一分。



文心 X1 在第 2 問 (2) 正確算出 P 點軌跡,但未證明極值,直接按最遠點計算造成結果錯誤,扣 6 分。



hunyuan-t1-latest 前兩問中回答正確,到了第 3 問完成 P 點軌跡之后就全錯了,一下子丟了 5 分。



對于最后一道壓軸題,Gemini2.5 pro 是唯一全對的大模型。Doubao 只說明了震蕩項的振幅大于 0,但是也有可能震蕩項的相位是反的,那樣的話最大值反而有可能更小,證明過程不夠嚴謹,扣一分。



DeepSeek R1 在第(3)問中分情況討論,得出了兩類解,但對第一類解未做后續說明,扣了一分。



o3 第(2)問思路正確,但因為開閉區間差別,「完全重合」說法錯誤,扣 1 分。



hunyuan-t1-latest 在第(2)問上思路可行但證明過程模糊,扣 2 分,到了第(3)問沒有判斷 phi 取值,又扣了 2 分。



文心 X1 和 Qwen3 也都是在第 2 問和第 3 問上失了分,第 2 問證明模糊扣 2 分,第 3 問則是未具體說明 phi 值扣 2 分,而且文心 X1 比大小還發生錯誤,又扣了 1 分。





客觀題:一道圖像題難倒幾家多模態大模型

在不考慮識圖題(第6題)的情況下,客觀題大模型總體表現都不錯,Doubao、Qwen3、Gemini 2.5 pro、DeepSeek R1 、文心 X1 Turbo 和 hunyuan-t1-latest 均取得了 68 分的高分,只有 o3 在多選題上少選了一項丟了分。



其中,o3 在第 9 題計算過程中,忽視了「正三棱柱」這一關鍵條件。它在建立坐標系時,分別用 (x?, y?, 0) 表示 A 點坐標,用 (c, 0, 0) 表示 C 點坐標,但沒有考慮到:正三棱柱的底面是正三角形,這意味著正三角形的邊長 c 與 x?、y?之間存在關系:c=2x?=2y?/√3。導致對 B 選項的判斷出現錯誤。



接下來看看這道圖片題。



遺憾的是,此次測評的多模態大模型都在這道識圖題上表現不佳。雖然 hunyuan-t1-latest 不是多模態,但我們又測試了 hunyuan-t1-vision ,也在這道題上敗下陣來。



相比之下,Doubao 和 o3 至少正確識別了坐標位置,只是誤判了視風風速方向,而 Gemini 連基本坐標都未能正確識別。







總的來說,這次測評結果顯示,大模型在數學推理能力上有不小的進步,但仍有較大的提升空間。比如不少模型在解答題上丟分,這反映出大模型在復雜推理、嚴謹論證和多步驟計算方面還需加強。

此外,所有參測的多模態大模型在第 6 題的圖像識別上都出現了問題,這也暴露出當前 AI 在圖文結合理解方面的短板。

最后,緊張的高考已經結束,祝福所有考生都能取得理想的成績,有著燦爛的未來!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
決裂!33歲隊長對抗巴薩:拒絕合練+躲健身房 憤怒弗里克背信棄義

決裂!33歲隊長對抗巴薩:拒絕合練+躲健身房 憤怒弗里克背信棄義

風過鄉
2025-07-15 07:59:32
黃仁勛與雷軍合影,35度天氣仍穿皮衣!兩人站在一輛小米汽車前,面帶微笑,顯得十分親切

黃仁勛與雷軍合影,35度天氣仍穿皮衣!兩人站在一輛小米汽車前,面帶微笑,顯得十分親切

和訊網
2025-07-14 16:03:25
年過八旬仍健在的16位老演員,多半都九十歲以上,均是影壇活化石

年過八旬仍健在的16位老演員,多半都九十歲以上,均是影壇活化石

喜歡歷史的阿繁
2025-07-11 00:12:04
六枚導彈封住出口!伊朗總統血濺當場,哈梅內伊壓住親美派了?

六枚導彈封住出口!伊朗總統血濺當場,哈梅內伊壓住親美派了?

獵火照狼山
2025-07-14 22:05:48
吉林大學白求恩第一醫院發布訃告:饒明俐教授逝世

吉林大學白求恩第一醫院發布訃告:饒明俐教授逝世

中國吉林網
2025-07-14 22:40:32
加速下跌,廣州樓市房價跌破2.5萬元

加速下跌,廣州樓市房價跌破2.5萬元

風向觀察
2025-07-14 16:51:35
獅子大開口?巴鐵前高官公開向中國喊話,不給殲-35A就要給殲-20

獅子大開口?巴鐵前高官公開向中國喊話,不給殲-35A就要給殲-20

Ck的蜜糖
2025-07-15 17:12:59
漳州市對兩起事故掛牌督辦,各造成一人死亡

漳州市對兩起事故掛牌督辦,各造成一人死亡

中國基建報
2025-07-15 11:48:56
美參議員威脅,若繼續與俄羅斯進行貿易將面臨500%的關稅,中方回應

美參議員威脅,若繼續與俄羅斯進行貿易將面臨500%的關稅,中方回應

中國基金報
2025-07-15 16:54:01
重大突破!英國發明治禿神器,20天長出90%毛發!

重大突破!英國發明治禿神器,20天長出90%毛發!

徐德文科學頻道
2025-07-11 12:30:54
盤點:德約科維奇在退役前,仍有機會追趕費德勒的四項紀錄

盤點:德約科維奇在退役前,仍有機會追趕費德勒的四項紀錄

網球之家
2025-07-15 12:52:25
朝鮮副國級高官叛逃脫北,曝光金家秘聞:酒池肉林、80萬買軒尼詩

朝鮮副國級高官叛逃脫北,曝光金家秘聞:酒池肉林、80萬買軒尼詩

貓眼觀史
2024-03-25 14:31:14
光頭警長劉澤基:被“港獨”暴徒圍毆,舉槍怒視對方,他后來怎樣

光頭警長劉澤基:被“港獨”暴徒圍毆,舉槍怒視對方,他后來怎樣

浩舞默畫
2025-06-19 07:25:03
證監會正式發聲!7月15日,A股市場還能繼續上攻嗎?

證監會正式發聲!7月15日,A股市場還能繼續上攻嗎?

風口招財豬
2025-07-15 01:19:04
F4合體變“上春山2.0”,朱孝天服裝站位都尷尬,曾公開承認不和

F4合體變“上春山2.0”,朱孝天服裝站位都尷尬,曾公開承認不和

萌神木木
2025-07-13 13:48:04
日本關東軍戰敗,蘇聯俘虜1萬多日本女兵,處理方法令日本人膽寒

日本關東軍戰敗,蘇聯俘虜1萬多日本女兵,處理方法令日本人膽寒

芳芳歷史燴
2025-07-15 03:24:50
把150萬給兒子,女兒一家沒了音訊,10年后我們在女兒舊房前痛哭

把150萬給兒子,女兒一家沒了音訊,10年后我們在女兒舊房前痛哭

半夏解語
2024-06-15 07:00:03
7月15日,2025養老金補發倒計時!工齡25年能拿900?答案來了

7月15日,2025養老金補發倒計時!工齡25年能拿900?答案來了

山藥蛋TV
2025-07-15 11:36:24
原告律師發聲:信托優先,境外資產由宗馥莉繼承不實,遺囑存瑕疵

原告律師發聲:信托優先,境外資產由宗馥莉繼承不實,遺囑存瑕疵

說說史事
2025-07-15 08:10:40
朝鮮最出色女特工,吃住皆最高級,被要求有隨時和外國人結婚的覺悟

朝鮮最出色女特工,吃住皆最高級,被要求有隨時和外國人結婚的覺悟

紀實文錄
2025-07-11 16:59:35
2025-07-15 18:04:49
機械豹
機械豹
科技發燒友,科技新鮮事!
700文章數 10410關注度
往期回顧 全部

教育要聞

成長無憂百問小課堂|暑期該不該制定時間表?

頭條要聞

俄高官稱特朗普的"重大聲明"是"放空炮" 美油應聲下跌

頭條要聞

俄高官稱特朗普的"重大聲明"是"放空炮" 美油應聲下跌

體育要聞

在中國效力10年,45歲的傳奇外援退役了

娛樂要聞

董璇自曝再婚了!二婚老公被扒是張維伊?

財經要聞

國貨美妝能否脫下“平替”外衣

科技要聞

英偉達H20解禁,黃仁勛嚇壞平替?

汽車要聞

六座布局/深淺配色 仰望U8L內飾亮相

態度原創

時尚
本地
數碼
公開課
軍事航空

夏日解暑神器!6款自制冰飲,比奶茶店還好喝!

本地新聞

褲子那里鼓鼓的,當代都市麗人都被女裝做局了

數碼要聞

不止雕妹痛車!還有國風硬件!揭秘技嘉AORUS雕宅萬象BW2025展臺

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普所謂"重大聲明"揭曉:對俄加關稅 對烏"送"導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高碑店市| 房产| 清流县| 富平县| 鸡泽县| 呼图壁县| 武威市| 清水县| 龙岩市| 滁州市| 上杭县| 鄂伦春自治旗| 寻甸| 得荣县| 巴里| 遵化市| 顺义区| 保德县| 皋兰县| 龙里县| 施甸县| 松潘县| 高州市| 乐都县| 连山| 丰原市| 托里县| 万载县| 台州市| 泗洪县| 双柏县| 雷山县| 枣阳市| 舟山市| 伊宁县| 浠水县| 汪清县| 丹寨县| 噶尔县| 阜城县| 敦煌市|