機器之心報道
編輯:楊文
還在讓大模型寫高考作文?有本事做高考數(shù)學(xué)卷子。
又是一年高考時。
這屆考生上午剛經(jīng)歷了抽象作文的洗禮,下午又被數(shù)學(xué)無情創(chuàng)飛。考試一結(jié)束,「高考數(shù)學(xué)」、「新一卷數(shù)學(xué)大題 難」等詞條就火速沖上微博熱搜,考生們在評論區(qū)集體「哀嚎」:「大題寫到懷疑人生」、「選擇填空送分,大題送命」。
而自從生成式 AI 走紅后,大模型「決戰(zhàn)」高考也成了每年的保留節(jié)目,尤其是在今年這個國內(nèi)外大模型卷邏輯推理的當(dāng)口。趁著各家大模型還來不及「作弊」,我們就用這新鮮出爐的高考數(shù)學(xué)題考考它們。
在考題選擇上,我們采用 2025 年數(shù)學(xué)新課標(biāo) Ⅰ 卷中的 14 道客觀題進行測試,滿分 73 分,包括 8 道單選題、3 道多選題、3 道填空題。為保證公平公正,我們將題目截圖分別投喂給大模型,不做 System Prompt 引導(dǎo),不開啟聯(lián)網(wǎng)搜索,直接輸出結(jié)果,且所有測試模型只有一次答題機會。
(注:在實測中我們發(fā)現(xiàn) DeepSeek 的 OCR 識別出現(xiàn)不少錯誤,所以此次使用其他 AI 將圖片轉(zhuǎn)化為文本問題,再對 DeepSeek 進行測試。)
計分方法也依照高考判分原則:
- 單選題 8 道,每道 5 分,選項正確計分,錯誤不得分;
- 多選題 3 道,每道 6 分,全對計 6 分,漏選按正確答案數(shù)量計分,如答案為 ABCD,漏選其一扣 1.5 分,錯選不得分;
- 填空題 3 道,每道 5 分,填空正確計分,錯誤不得分。
規(guī)則搞清楚了,接下來有請此次的參賽選手:字節(jié)的豆包、深度求索的 DeepSeek、阿里的通義、騰訊的元寶(T1)、百度的文心 X1 Turbo,以及踢館選手 OpenAI 的 o3。
由于目前標(biāo)準(zhǔn)答案尚未公開,本次測試的參考答案是由多位數(shù)學(xué)大牛解答核對。最終各大模型的考試成績?nèi)缦聢D所示。
這 6 家大模型中表現(xiàn)最亮眼的就是豆包和元寶,它倆雖然都「栽」在了第 6 道單選題上,但仍以 68 分的總成績并列第一;DeepSeek 和通義則稍微遜色一些,前者錯了 2 道單選題拿下 63 分,后者則在 1 道單選、1 道多選上失誤最終拿到 62 分;相比之下,文心 X1 頻頻在多選題和填空題上「掉鏈子」,最終只獲得 51 分,正確率僅為 70%。
面對中國的高考數(shù)學(xué)題,o3 表現(xiàn)出明顯的「水土不服」,它僅拿到 34 分,正確率只有 47%。之前就有傳言稱 o3 在某些情況下會觸發(fā)「降智」,如此看來并非空穴來風(fēng),否則這個表現(xiàn)實在令人難以置信。
欲知這 6 大模型的具體答題截圖,請移步鏈接:https://jiqizhixin.feishu.cn/docx/NNBVdmzpmobq8nxNwylcqZNDnEb
6 家頂流模型 PK 高考數(shù)學(xué)
相比于寫作文,高考數(shù)學(xué)才是真正的 AI 照妖鏡。
這是因為高考作文盡管對語言表達、邏輯結(jié)構(gòu)、思辨能力有一定要求,但它本質(zhì)上仍是一個語言生成任務(wù),具有較強的模糊空間和容錯度,而且經(jīng)過這兩年的技術(shù)迭代,大模型個個都練成了「段子手」,寫作文自然是手拿把掐。
而高考數(shù)學(xué)則不同,它需要從已知條件出發(fā),邏輯嚴(yán)密地推導(dǎo)每一個結(jié)論,過程中只要一步出現(xiàn)偏差,最終答案十有八九會出錯。更何況,高考數(shù)學(xué)題還存在「題型常變」「設(shè)問刁鉆」等特點,這些都進一步挑戰(zhàn)了模型的泛化能力和思維深度。
接下來,我們就看看這六款大模型面對不同題目類型的表現(xiàn)。
單選題
高考數(shù)學(xué)包含 8 道單選題,滿分 40 分。
從跑分情況來看,豆包、通義、元寶和文心打成平手,均斬獲 35 分不錯的成績;其次就是 DeepSeek 錯了兩道單選拿下 30 分,表現(xiàn)最拉胯的竟是 o3,光單選題就錯了一半。
作為曾經(jīng)的推理模型「扛把子」,o3 在「送分」的第 2 題上就翻了車。起初它的思路還挺清晰,但從第二步就開始「胡說八道」,最終一頓操作猛如虎,算出個選項里沒有的答案。
DeepSeek 最大的 bug 則是圖片識別,就以第 6 題為例。
原題中本附著一張信息圖,為了省事我們索性就將題目截圖直接丟給 DeepSeek,但它對眼前的圖表視而不見,一個勁地抱怨「題目描述不完整,無法確定答案」,甚至末了還開始蒙答案糊弄人。
其實,這道題通過數(shù)形結(jié)合就能直觀看出,其準(zhǔn)確答案應(yīng)為 2√2。通義作為國產(chǎn) AI 中唯一答對第 6 題的選手,計算方法竟是錯誤的,只不過是歪打正著落在正確選項的區(qū)間。
多選題
多選題曾讓無數(shù)考生頭疼,因為它的正確選項不固定,多答或少答都會扣分,再加上題目里總設(shè)些陷阱,一不小心就會失誤。
高考數(shù)學(xué)多選題有 3 道,總共 18 分。豆包、DeepSeek 和元寶三道題全部滿分,發(fā)揮相當(dāng)穩(wěn)定。
相比于 DeepSeek 動輒幾百秒的思考時間,通義主打一個速度,僅用時 26 秒就直出答案,但步驟分析過于簡略,缺乏必要的驗證環(huán)節(jié),這就很容易失手。比如它在前兩題上答得都很漂亮,卻在下圖這道題上突然智商「掉線」。該題正確答案是 ABC,通義卻給出了 A、D,至于為何不選 B、C,它的解釋非常簡單粗暴,因為「無法通過現(xiàn)有條件直接推導(dǎo)」。
文心 X1 就有點尷尬了。三道題目錯了倆,其中一道還是未響應(yīng)。它和 DeepSeek 犯了同樣的毛病,都是經(jīng)常性地識別不了圖片內(nèi)容。
o3 好像還沒適應(yīng)國內(nèi)高考的「多選套路」,一道題都沒全對,明明是多選它偏做成單選,當(dāng)然這么做也有好處,就是不至于零封,怎么也能得個 4 分。
填空題
或許是這次填空題相對簡單,有四家大模型斬獲滿分,分別是豆包、DeepSeek、通義和元寶。
文心 X1 有點可惜,整個答題思路都是正確的,也算出了公比為 2 或 - 2,但偏偏在最后畫蛇添足,莫名其妙地說了句「通常取正值」,導(dǎo)致一分未得。
有哪些進步?又暴露了哪些問題?
有一說一,各家大模型公司狠砸的真金白銀還真沒白花,今年大模型的數(shù)學(xué)推理能力確實有了明顯的進步。
首先表現(xiàn)在得分上。去年我們也曾讓大模型挑戰(zhàn)高考數(shù)學(xué)題,但彼時它們連高考數(shù)學(xué)及格線都沒過,甚至 9.9 和 9.11 哪個大、strawberry 有幾個 r 都答不對。反觀今年大模型的表現(xiàn),除 o3 外,其他 5 款模型均突破 43.8 分的及格線,甚至豆包和元寶還保持了 93% 的正確率。
其次,增加了反思能力。去年大模型還沒學(xué)會反思,做題時因某個步驟錯誤而無法找到正確選項時,它們不再回頭檢查,而是直接簡單粗暴地表示「沒有正確選項」。而今年的大模型不再是一根筋,只要遇到不對勁的地方就會推倒重來,典型代表就是 DeepSeek,一言不合就驗證,這也導(dǎo)致思考時間漫長,有時做一道題甚至能用時 15 分鐘。
最后,推理步驟更加完善。回顧去年大模型在做高考數(shù)學(xué)題時的表現(xiàn),普遍存在解析過程較為簡略的情況,經(jīng)常會跳步,有時解析過程一長還會陷入死循環(huán)。今年則是除了通義仍然「惜字如金」外,其他大模型都能夠系統(tǒng)性地展示完整的推理鏈路,從問題分析、公式選擇、計算步驟到結(jié)果驗證,每個環(huán)節(jié)都有清晰的邏輯闡述。即使是數(shù)學(xué)基礎(chǔ)相對薄弱的用戶,也能夠通過模型提供的詳細(xì)解析過程,深入理解問題的本質(zhì)和解決思路。
不過,從這次評測中我們也發(fā)現(xiàn)了大模型幾個典型的毛病。
最常見的就是計算細(xì)節(jié)錯誤,即使模型理解了題意,推理方向正確,最后也容易在中間步驟出錯,比如符號看錯、公式套錯、代數(shù)變形不規(guī)范等。
另一個核心問題是公式、圖形與幾何直覺的處理能力不足,比如解析幾何類題目依賴較強的空間感和圖形理解,這對語言模型而言是天然短板。在邏輯推理鏈較長或題型設(shè)計較「逆向」的題目中,模型還可能表現(xiàn)出蒙答案的傾向,看似給出了結(jié)論,但中間鏈條無法自洽或存在明顯漏洞。
此外,對題目條件的敏感度不夠。模型有時會忽略某些隱含條件,導(dǎo)致結(jié)論偏差。尤其在多選題中,模型容易滿足于找到一個正確選項而不窮盡其他可能,從而漏選或誤選。填空題則容易受到「無提示答題」能力的限制,不能推理出完整的結(jié)果。
隨著技術(shù)不斷進化,大模型的數(shù)學(xué)能力也會不斷提高,相信總有一天大模型能彌補「偏科」的毛病。
最后,預(yù)祝各位考生金榜題名,考上理想的大學(xué)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.