網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

6大模型決戰(zhàn)高考數(shù)學(xué)新一卷:豆包、元寶并列第一,OpenAI o3竟墊底

2025-06-08 11:17:11　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：楊文

還在讓大模型寫高考作文？有本事做高考數(shù)學(xué)卷子。

又是一年高考時。

這屆考生上午剛經(jīng)歷了抽象作文的洗禮，下午又被數(shù)學(xué)無情創(chuàng)飛。考試一結(jié)束，「高考數(shù)學(xué)」、「新一卷數(shù)學(xué)大題難」等詞條就火速沖上微博熱搜，考生們在評論區(qū)集體「哀嚎」：「大題寫到懷疑人生」、「選擇填空送分，大題送命」。

而自從生成式 AI 走紅后，大模型「決戰(zhàn)」高考也成了每年的保留節(jié)目，尤其是在今年這個國內(nèi)外大模型卷邏輯推理的當(dāng)口。趁著各家大模型還來不及「作弊」，我們就用這新鮮出爐的高考數(shù)學(xué)題考考它們。

在考題選擇上，我們采用 2025 年數(shù)學(xué)新課標(biāo) Ⅰ 卷中的 14 道客觀題進行測試，滿分 73 分，包括 8 道單選題、3 道多選題、3 道填空題。為保證公平公正，我們將題目截圖分別投喂給大模型，不做 System Prompt 引導(dǎo)，不開啟聯(lián)網(wǎng)搜索，直接輸出結(jié)果，且所有測試模型只有一次答題機會。

（注：在實測中我們發(fā)現(xiàn) DeepSeek 的 OCR 識別出現(xiàn)不少錯誤，所以此次使用其他 AI 將圖片轉(zhuǎn)化為文本問題，再對 DeepSeek 進行測試。）

計分方法也依照高考判分原則：

單選題 8 道，每道 5 分，選項正確計分，錯誤不得分；
多選題 3 道，每道 6 分，全對計 6 分，漏選按正確答案數(shù)量計分，如答案為 ABCD，漏選其一扣 1.5 分，錯選不得分；
填空題 3 道，每道 5 分，填空正確計分，錯誤不得分。

規(guī)則搞清楚了，接下來有請此次的參賽選手：字節(jié)的豆包、深度求索的 DeepSeek、阿里的通義、騰訊的元寶（T1）、百度的文心 X1 Turbo，以及踢館選手 OpenAI 的 o3。

由于目前標(biāo)準(zhǔn)答案尚未公開，本次測試的參考答案是由多位數(shù)學(xué)大牛解答核對。最終各大模型的考試成績?nèi)缦聢D所示。

這 6 家大模型中表現(xiàn)最亮眼的就是豆包和元寶，它倆雖然都「栽」在了第 6 道單選題上，但仍以 68 分的總成績并列第一；DeepSeek 和通義則稍微遜色一些，前者錯了 2 道單選題拿下 63 分，后者則在 1 道單選、1 道多選上失誤最終拿到 62 分；相比之下，文心 X1 頻頻在多選題和填空題上「掉鏈子」，最終只獲得 51 分，正確率僅為 70%。

面對中國的高考數(shù)學(xué)題，o3 表現(xiàn)出明顯的「水土不服」，它僅拿到 34 分，正確率只有 47%。之前就有傳言稱 o3 在某些情況下會觸發(fā)「降智」，如此看來并非空穴來風(fēng)，否則這個表現(xiàn)實在令人難以置信。

欲知這 6 大模型的具體答題截圖，請移步鏈接：https://jiqizhixin.feishu.cn/docx/NNBVdmzpmobq8nxNwylcqZNDnEb

6 家頂流模型 PK 高考數(shù)學(xué)

相比于寫作文，高考數(shù)學(xué)才是真正的 AI 照妖鏡。

這是因為高考作文盡管對語言表達、邏輯結(jié)構(gòu)、思辨能力有一定要求，但它本質(zhì)上仍是一個語言生成任務(wù)，具有較強的模糊空間和容錯度，而且經(jīng)過這兩年的技術(shù)迭代，大模型個個都練成了「段子手」，寫作文自然是手拿把掐。

而高考數(shù)學(xué)則不同，它需要從已知條件出發(fā)，邏輯嚴(yán)密地推導(dǎo)每一個結(jié)論，過程中只要一步出現(xiàn)偏差，最終答案十有八九會出錯。更何況，高考數(shù)學(xué)題還存在「題型常變」「設(shè)問刁鉆」等特點，這些都進一步挑戰(zhàn)了模型的泛化能力和思維深度。

接下來，我們就看看這六款大模型面對不同題目類型的表現(xiàn)。

單選題

高考數(shù)學(xué)包含 8 道單選題，滿分 40 分。

從跑分情況來看，豆包、通義、元寶和文心打成平手，均斬獲 35 分不錯的成績；其次就是 DeepSeek 錯了兩道單選拿下 30 分，表現(xiàn)最拉胯的竟是 o3，光單選題就錯了一半。

作為曾經(jīng)的推理模型「扛把子」，o3 在「送分」的第 2 題上就翻了車。起初它的思路還挺清晰，但從第二步就開始「胡說八道」，最終一頓操作猛如虎，算出個選項里沒有的答案。

DeepSeek 最大的 bug 則是圖片識別，就以第 6 題為例。

原題中本附著一張信息圖，為了省事我們索性就將題目截圖直接丟給 DeepSeek，但它對眼前的圖表視而不見，一個勁地抱怨「題目描述不完整，無法確定答案」，甚至末了還開始蒙答案糊弄人。

其實，這道題通過數(shù)形結(jié)合就能直觀看出，其準(zhǔn)確答案應(yīng)為 2√2。通義作為國產(chǎn) AI 中唯一答對第 6 題的選手，計算方法竟是錯誤的，只不過是歪打正著落在正確選項的區(qū)間。

多選題

多選題曾讓無數(shù)考生頭疼，因為它的正確選項不固定，多答或少答都會扣分，再加上題目里總設(shè)些陷阱，一不小心就會失誤。

高考數(shù)學(xué)多選題有 3 道，總共 18 分。豆包、DeepSeek 和元寶三道題全部滿分，發(fā)揮相當(dāng)穩(wěn)定。

相比于 DeepSeek 動輒幾百秒的思考時間，通義主打一個速度，僅用時 26 秒就直出答案，但步驟分析過于簡略，缺乏必要的驗證環(huán)節(jié)，這就很容易失手。比如它在前兩題上答得都很漂亮，卻在下圖這道題上突然智商「掉線」。該題正確答案是 ABC，通義卻給出了 A、D，至于為何不選 B、C，它的解釋非常簡單粗暴，因為「無法通過現(xiàn)有條件直接推導(dǎo)」。

文心 X1 就有點尷尬了。三道題目錯了倆，其中一道還是未響應(yīng)。它和 DeepSeek 犯了同樣的毛病，都是經(jīng)常性地識別不了圖片內(nèi)容。

o3 好像還沒適應(yīng)國內(nèi)高考的「多選套路」，一道題都沒全對，明明是多選它偏做成單選，當(dāng)然這么做也有好處，就是不至于零封，怎么也能得個 4 分。

填空題

或許是這次填空題相對簡單，有四家大模型斬獲滿分，分別是豆包、DeepSeek、通義和元寶。

文心 X1 有點可惜，整個答題思路都是正確的，也算出了公比為 2 或 - 2，但偏偏在最后畫蛇添足，莫名其妙地說了句「通常取正值」，導(dǎo)致一分未得。

有哪些進步？又暴露了哪些問題？

有一說一，各家大模型公司狠砸的真金白銀還真沒白花，今年大模型的數(shù)學(xué)推理能力確實有了明顯的進步。

首先表現(xiàn)在得分上。去年我們也曾讓大模型挑戰(zhàn)高考數(shù)學(xué)題，但彼時它們連高考數(shù)學(xué)及格線都沒過，甚至 9.9 和 9.11 哪個大、strawberry 有幾個 r 都答不對。反觀今年大模型的表現(xiàn)，除 o3 外，其他 5 款模型均突破 43.8 分的及格線，甚至豆包和元寶還保持了 93% 的正確率。

其次，增加了反思能力。去年大模型還沒學(xué)會反思，做題時因某個步驟錯誤而無法找到正確選項時，它們不再回頭檢查，而是直接簡單粗暴地表示「沒有正確選項」。而今年的大模型不再是一根筋，只要遇到不對勁的地方就會推倒重來，典型代表就是 DeepSeek，一言不合就驗證，這也導(dǎo)致思考時間漫長，有時做一道題甚至能用時 15 分鐘。

最后，推理步驟更加完善。回顧去年大模型在做高考數(shù)學(xué)題時的表現(xiàn)，普遍存在解析過程較為簡略的情況，經(jīng)常會跳步，有時解析過程一長還會陷入死循環(huán)。今年則是除了通義仍然「惜字如金」外，其他大模型都能夠系統(tǒng)性地展示完整的推理鏈路，從問題分析、公式選擇、計算步驟到結(jié)果驗證，每個環(huán)節(jié)都有清晰的邏輯闡述。即使是數(shù)學(xué)基礎(chǔ)相對薄弱的用戶，也能夠通過模型提供的詳細(xì)解析過程，深入理解問題的本質(zhì)和解決思路。

不過，從這次評測中我們也發(fā)現(xiàn)了大模型幾個典型的毛病。

最常見的就是計算細(xì)節(jié)錯誤，即使模型理解了題意，推理方向正確，最后也容易在中間步驟出錯，比如符號看錯、公式套錯、代數(shù)變形不規(guī)范等。

另一個核心問題是公式、圖形與幾何直覺的處理能力不足，比如解析幾何類題目依賴較強的空間感和圖形理解，這對語言模型而言是天然短板。在邏輯推理鏈較長或題型設(shè)計較「逆向」的題目中，模型還可能表現(xiàn)出蒙答案的傾向，看似給出了結(jié)論，但中間鏈條無法自洽或存在明顯漏洞。

此外，對題目條件的敏感度不夠。模型有時會忽略某些隱含條件，導(dǎo)致結(jié)論偏差。尤其在多選題中，模型容易滿足于找到一個正確選項而不窮盡其他可能，從而漏選或誤選。填空題則容易受到「無提示答題」能力的限制，不能推理出完整的結(jié)果。

隨著技術(shù)不斷進化，大模型的數(shù)學(xué)能力也會不斷提高，相信總有一天大模型能彌補「偏科」的毛病。

最后，預(yù)祝各位考生金榜題名，考上理想的大學(xué)！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.