99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

6大模型決戰(zhàn)高考數(shù)學(xué)新一卷:豆包、元寶并列第一,OpenAI o3竟墊底

0
分享至



機器之心報道

編輯:楊文

還在讓大模型寫高考作文?有本事做高考數(shù)學(xué)卷子。

又是一年高考時。

這屆考生上午剛經(jīng)歷了抽象作文的洗禮,下午又被數(shù)學(xué)無情創(chuàng)飛。考試一結(jié)束,「高考數(shù)學(xué)」、「新一卷數(shù)學(xué)大題 難」等詞條就火速沖上微博熱搜,考生們在評論區(qū)集體「哀嚎」:「大題寫到懷疑人生」、「選擇填空送分,大題送命」。





而自從生成式 AI 走紅后,大模型「決戰(zhàn)」高考也成了每年的保留節(jié)目,尤其是在今年這個國內(nèi)外大模型卷邏輯推理的當(dāng)口。趁著各家大模型還來不及「作弊」,我們就用這新鮮出爐的高考數(shù)學(xué)題考考它們。

在考題選擇上,我們采用 2025 年數(shù)學(xué)新課標(biāo) Ⅰ 卷中的 14 道客觀題進行測試,滿分 73 分,包括 8 道單選題、3 道多選題、3 道填空題。為保證公平公正,我們將題目截圖分別投喂給大模型,不做 System Prompt 引導(dǎo),不開啟聯(lián)網(wǎng)搜索,直接輸出結(jié)果,且所有測試模型只有一次答題機會。

(注:在實測中我們發(fā)現(xiàn) DeepSeek 的 OCR 識別出現(xiàn)不少錯誤,所以此次使用其他 AI 將圖片轉(zhuǎn)化為文本問題,再對 DeepSeek 進行測試。)

計分方法也依照高考判分原則:

  • 單選題 8 道,每道 5 分,選項正確計分,錯誤不得分;
  • 多選題 3 道,每道 6 分,全對計 6 分,漏選按正確答案數(shù)量計分,如答案為 ABCD,漏選其一扣 1.5 分,錯選不得分;
  • 填空題 3 道,每道 5 分,填空正確計分,錯誤不得分。

規(guī)則搞清楚了,接下來有請此次的參賽選手:字節(jié)的豆包、深度求索的 DeepSeek、阿里的通義、騰訊的元寶(T1)、百度的文心 X1 Turbo,以及踢館選手 OpenAI 的 o3。

由于目前標(biāo)準(zhǔn)答案尚未公開,本次測試的參考答案是由多位數(shù)學(xué)大牛解答核對。最終各大模型的考試成績?nèi)缦聢D所示。



這 6 家大模型中表現(xiàn)最亮眼的就是豆包和元寶,它倆雖然都「栽」在了第 6 道單選題上,但仍以 68 分的總成績并列第一;DeepSeek 和通義則稍微遜色一些,前者錯了 2 道單選題拿下 63 分,后者則在 1 道單選、1 道多選上失誤最終拿到 62 分;相比之下,文心 X1 頻頻在多選題和填空題上「掉鏈子」,最終只獲得 51 分,正確率僅為 70%。

面對中國的高考數(shù)學(xué)題,o3 表現(xiàn)出明顯的「水土不服」,它僅拿到 34 分,正確率只有 47%。之前就有傳言稱 o3 在某些情況下會觸發(fā)「降智」,如此看來并非空穴來風(fēng),否則這個表現(xiàn)實在令人難以置信。

欲知這 6 大模型的具體答題截圖,請移步鏈接:https://jiqizhixin.feishu.cn/docx/NNBVdmzpmobq8nxNwylcqZNDnEb

6 家頂流模型 PK 高考數(shù)學(xué)

相比于寫作文,高考數(shù)學(xué)才是真正的 AI 照妖鏡。

這是因為高考作文盡管對語言表達、邏輯結(jié)構(gòu)、思辨能力有一定要求,但它本質(zhì)上仍是一個語言生成任務(wù),具有較強的模糊空間和容錯度,而且經(jīng)過這兩年的技術(shù)迭代,大模型個個都練成了「段子手」,寫作文自然是手拿把掐。

而高考數(shù)學(xué)則不同,它需要從已知條件出發(fā),邏輯嚴(yán)密地推導(dǎo)每一個結(jié)論,過程中只要一步出現(xiàn)偏差,最終答案十有八九會出錯。更何況,高考數(shù)學(xué)題還存在「題型常變」「設(shè)問刁鉆」等特點,這些都進一步挑戰(zhàn)了模型的泛化能力和思維深度。

接下來,我們就看看這六款大模型面對不同題目類型的表現(xiàn)。

單選題

高考數(shù)學(xué)包含 8 道單選題,滿分 40 分。

從跑分情況來看,豆包、通義、元寶和文心打成平手,均斬獲 35 分不錯的成績;其次就是 DeepSeek 錯了兩道單選拿下 30 分,表現(xiàn)最拉胯的竟是 o3,光單選題就錯了一半。



作為曾經(jīng)的推理模型「扛把子」,o3 在「送分」的第 2 題上就翻了車。起初它的思路還挺清晰,但從第二步就開始「胡說八道」,最終一頓操作猛如虎,算出個選項里沒有的答案。



DeepSeek 最大的 bug 則是圖片識別,就以第 6 題為例。

原題中本附著一張信息圖,為了省事我們索性就將題目截圖直接丟給 DeepSeek,但它對眼前的圖表視而不見,一個勁地抱怨「題目描述不完整,無法確定答案」,甚至末了還開始蒙答案糊弄人。





其實,這道題通過數(shù)形結(jié)合就能直觀看出,其準(zhǔn)確答案應(yīng)為 2√2。通義作為國產(chǎn) AI 中唯一答對第 6 題的選手,計算方法竟是錯誤的,只不過是歪打正著落在正確選項的區(qū)間。



多選題

多選題曾讓無數(shù)考生頭疼,因為它的正確選項不固定,多答或少答都會扣分,再加上題目里總設(shè)些陷阱,一不小心就會失誤。

高考數(shù)學(xué)多選題有 3 道,總共 18 分。豆包、DeepSeek 和元寶三道題全部滿分,發(fā)揮相當(dāng)穩(wěn)定。



相比于 DeepSeek 動輒幾百秒的思考時間,通義主打一個速度,僅用時 26 秒就直出答案,但步驟分析過于簡略,缺乏必要的驗證環(huán)節(jié),這就很容易失手。比如它在前兩題上答得都很漂亮,卻在下圖這道題上突然智商「掉線」。該題正確答案是 ABC,通義卻給出了 A、D,至于為何不選 B、C,它的解釋非常簡單粗暴,因為「無法通過現(xiàn)有條件直接推導(dǎo)」。



文心 X1 就有點尷尬了。三道題目錯了倆,其中一道還是未響應(yīng)。它和 DeepSeek 犯了同樣的毛病,都是經(jīng)常性地識別不了圖片內(nèi)容。



o3 好像還沒適應(yīng)國內(nèi)高考的「多選套路」,一道題都沒全對,明明是多選它偏做成單選,當(dāng)然這么做也有好處,就是不至于零封,怎么也能得個 4 分。

填空題

或許是這次填空題相對簡單,有四家大模型斬獲滿分,分別是豆包、DeepSeek、通義和元寶。



文心 X1 有點可惜,整個答題思路都是正確的,也算出了公比為 2 或 - 2,但偏偏在最后畫蛇添足,莫名其妙地說了句「通常取正值」,導(dǎo)致一分未得。



有哪些進步?又暴露了哪些問題?

有一說一,各家大模型公司狠砸的真金白銀還真沒白花,今年大模型的數(shù)學(xué)推理能力確實有了明顯的進步。

首先表現(xiàn)在得分上。去年我們也曾讓大模型挑戰(zhàn)高考數(shù)學(xué)題,但彼時它們連高考數(shù)學(xué)及格線都沒過,甚至 9.9 和 9.11 哪個大、strawberry 有幾個 r 都答不對。反觀今年大模型的表現(xiàn),除 o3 外,其他 5 款模型均突破 43.8 分的及格線,甚至豆包和元寶還保持了 93% 的正確率。

其次,增加了反思能力。去年大模型還沒學(xué)會反思,做題時因某個步驟錯誤而無法找到正確選項時,它們不再回頭檢查,而是直接簡單粗暴地表示「沒有正確選項」。而今年的大模型不再是一根筋,只要遇到不對勁的地方就會推倒重來,典型代表就是 DeepSeek,一言不合就驗證,這也導(dǎo)致思考時間漫長,有時做一道題甚至能用時 15 分鐘。



最后,推理步驟更加完善。回顧去年大模型在做高考數(shù)學(xué)題時的表現(xiàn),普遍存在解析過程較為簡略的情況,經(jīng)常會跳步,有時解析過程一長還會陷入死循環(huán)。今年則是除了通義仍然「惜字如金」外,其他大模型都能夠系統(tǒng)性地展示完整的推理鏈路,從問題分析、公式選擇、計算步驟到結(jié)果驗證,每個環(huán)節(jié)都有清晰的邏輯闡述。即使是數(shù)學(xué)基礎(chǔ)相對薄弱的用戶,也能夠通過模型提供的詳細(xì)解析過程,深入理解問題的本質(zhì)和解決思路。



不過,從這次評測中我們也發(fā)現(xiàn)了大模型幾個典型的毛病。

最常見的就是計算細(xì)節(jié)錯誤,即使模型理解了題意,推理方向正確,最后也容易在中間步驟出錯,比如符號看錯、公式套錯、代數(shù)變形不規(guī)范等。

另一個核心問題是公式、圖形與幾何直覺的處理能力不足,比如解析幾何類題目依賴較強的空間感和圖形理解,這對語言模型而言是天然短板。在邏輯推理鏈較長或題型設(shè)計較「逆向」的題目中,模型還可能表現(xiàn)出蒙答案的傾向,看似給出了結(jié)論,但中間鏈條無法自洽或存在明顯漏洞。

此外,對題目條件的敏感度不夠。模型有時會忽略某些隱含條件,導(dǎo)致結(jié)論偏差。尤其在多選題中,模型容易滿足于找到一個正確選項而不窮盡其他可能,從而漏選或誤選。填空題則容易受到「無提示答題」能力的限制,不能推理出完整的結(jié)果。

隨著技術(shù)不斷進化,大模型的數(shù)學(xué)能力也會不斷提高,相信總有一天大模型能彌補「偏科」的毛病。

最后,預(yù)祝各位考生金榜題名,考上理想的大學(xué)!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
姜妍帶火了一種穿搭叫“白T+白裙+平底鞋”,穿衣顯腰,配色大方

姜妍帶火了一種穿搭叫“白T+白裙+平底鞋”,穿衣顯腰,配色大方

明星私服穿搭daily
2025-06-02 23:37:43
開始全面反華?日本11字定調(diào)中國,普京政府選邊站,中方援手到了

開始全面反華?日本11字定調(diào)中國,普京政府選邊站,中方援手到了

書中自有顏如玉
2025-05-15 23:06:56
女跑者真實經(jīng)歷分享:天熱跑步謹(jǐn)慎走光,小心“春光乍泄”

女跑者真實經(jīng)歷分享:天熱跑步謹(jǐn)慎走光,小心“春光乍泄”

馬拉松跑步健身
2025-05-29 13:53:35
胡國珍任湖北理工學(xué)院院長

胡國珍任湖北理工學(xué)院院長

汲古知新
2025-06-09 02:33:06
前勇士球員尼克·楊承認(rèn),他對JR·史密斯毀掉詹姆斯之夜感到困惑

前勇士球員尼克·楊承認(rèn),他對JR·史密斯毀掉詹姆斯之夜感到困惑

好火子
2025-06-09 02:24:01
北約將向烏克蘭增加200億軍援!德國增兵6萬

北約將向烏克蘭增加200億軍援!德國增兵6萬

項鵬飛
2025-06-06 21:27:06
吃相過于難看!韋東奕注冊賬號僅3天,惡心一幕發(fā)生了,官媒曝光

吃相過于難看!韋東奕注冊賬號僅3天,惡心一幕發(fā)生了,官媒曝光

潘撱旅行浪子
2025-06-08 14:42:31
枕頭底下放塊生姜,太厲害了,解決了很多人的煩惱,別忘告訴家人

枕頭底下放塊生姜,太厲害了,解決了很多人的煩惱,別忘告訴家人

阿龍美食記
2025-06-08 15:55:28
殲10C第二批出口訂單曝光,泰國放棄購買,但卻有意采購殲35?

殲10C第二批出口訂單曝光,泰國放棄購買,但卻有意采購殲35?

一頁史書
2025-06-08 15:54:17
Xbox 品牌突破:微軟官宣首款游戲掌機 ROG Xbox Ally / X

Xbox 品牌突破:微軟官宣首款游戲掌機 ROG Xbox Ally / X

IT之家
2025-06-09 01:27:11
山姆偶遇黃景瑜,這位大哥剛下飛機,衣服都沒換,就來逛超市了!

山姆偶遇黃景瑜,這位大哥剛下飛機,衣服都沒換,就來逛超市了!

喜歡歷史的阿繁
2025-06-08 14:34:40
難爆了!考生對2025全國數(shù)學(xué)高考試題的評價不一,到底怎么回事

難爆了!考生對2025全國數(shù)學(xué)高考試題的評價不一,到底怎么回事

史海流年號
2025-06-07 19:23:31
瓜販和女城管起爭執(zhí),激動之下當(dāng)街自砸西瓜;簡陽當(dāng)?shù)鼗貞?yīng):正核查處理

瓜販和女城管起爭執(zhí),激動之下當(dāng)街自砸西瓜;簡陽當(dāng)?shù)鼗貞?yīng):正核查處理

大風(fēng)新聞
2025-06-08 19:53:09
為何考場不開空調(diào)?有家長稱廣西藤縣氣溫34度,這是讓考生蒸桑拿

為何考場不開空調(diào)?有家長稱廣西藤縣氣溫34度,這是讓考生蒸桑拿

火山詩話
2025-06-08 12:45:47
57歲江珊回老家參加婚禮,皮鞋配短襪好土氣,田小潔襯衫滿是褶子

57歲江珊回老家參加婚禮,皮鞋配短襪好土氣,田小潔襯衫滿是褶子

瘋說時尚
2025-06-08 07:55:25
代碼神話崩塌!美國 CS 畢業(yè)生集體破防:我們被時代的鐮刀割慘了

代碼神話崩塌!美國 CS 畢業(yè)生集體破防:我們被時代的鐮刀割慘了

前沿科技學(xué)習(xí)分享圈
2025-06-08 21:39:05
維特斯時期老隊友!張玉寧賽后與印尼歸化球員迪克斯交換球衣

維特斯時期老隊友!張玉寧賽后與印尼歸化球員迪克斯交換球衣

雷速體育
2025-06-08 21:59:22
被上海街頭的韓國男人驚艷了!滿街都是“闊腿褲+德訓(xùn)鞋”,真帥

被上海街頭的韓國男人驚艷了!滿街都是“闊腿褲+德訓(xùn)鞋”,真帥

時尚穿搭生活館
2025-06-04 21:32:40
特朗普深夜發(fā)文怒斥

特朗普深夜發(fā)文怒斥

新京報
2025-06-08 20:39:21
蔡志堅再次收獲IPO:時尚雜志《L'Officiel》母公司紐交所敲鐘

蔡志堅再次收獲IPO:時尚雜志《L'Officiel》母公司紐交所敲鐘

雷遞
2025-06-07 23:55:21
2025-06-09 07:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10599文章數(shù) 142334關(guān)注度
往期回顧 全部

教育要聞

沒有特殊角就不能求面積了嗎?遇到問題就放棄難成大器

頭條要聞

女子花5000多元找收納師后曬圖 網(wǎng)友:我以為是收納前

頭條要聞

女子花5000多元找收納師后曬圖 網(wǎng)友:我以為是收納前

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

與前妻對簿公堂卻暴露了張紀(jì)中的窘境

財經(jīng)要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環(huán)!

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

汽車要聞

復(fù)古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態(tài)度原創(chuàng)

本地
教育
手機
數(shù)碼
公開課

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

教育要聞

今年高考作文題出得妙,既緊貼時代,又給考生足發(fā)揮空間

手機要聞

消息稱蘋果將放寬運營商促銷政策,將允許損壞設(shè)備參與以舊換新

數(shù)碼要聞

5月中國電視整機出貨量283.0萬臺 同比下降2.1%

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 措勤县| 通河县| 扎鲁特旗| 太白县| 云南省| 常熟市| 陆川县| 博爱县| 谢通门县| 苍南县| 中卫市| 梓潼县| 通辽市| 双桥区| 鄂托克前旗| 神池县| 寿光市| 西青区| 松阳县| 嘉定区| 闽侯县| 渝中区| 靖宇县| 永新县| 扶绥县| 牟定县| 马尔康县| 米泉市| 鄂伦春自治旗| 边坝县| 都兰县| 廊坊市| 溧阳市| 阿城市| 葵青区| 汉中市| 咸阳市| 大安市| 刚察县| 高要市| 饶河县|