網易首頁 > 網易號 > 正文申請入駐

看好了，這才是7家大模型做高考數學題的真實分數。

2025-06-09 09:05:00　來源: 數字生命卡茲克

天津舉報

分享至

這兩天，很多媒體都在寫用AI考高考題的內容。

我本來真的沒打算卷這個選題，因為知道大家肯定都會寫，都會卷，我也想休息休息，真的就不打算寫了。

但是吧，用AI測語文考試還沒啥，但是看了一些用AI做數學考試的文章，真的給我看的一臉地鐵老頭表情包，就，那個測試方法，也特么太扯淡了。

我覺得既然是考試，那就公平公正的去測試？

當然，你要是玩整活，那就另談了。

結果最后得出一些不太靠譜的結論，我覺得還是蠻誤導大家的。

客觀、公平、公正，是我覺得最核心的標準。

所以我覺得，我想按照我的玩法，再嚴謹一點的測一下大模純數學能力型高考，給大家看一下，真實客觀的評分。

測試試卷為2025年數學全國一卷。

測試規則如下：

1. 不考解答題（因為給我標準答案我也看不懂，不知道咋給分。。）

2. 所有的題目截圖全部使用LaTeX編輯器轉成LaTeX文本格式，再扔給大模型進行回答。

LaTeX是學術界最廣泛使用的數學公式排版語言，能最精確地表達數學符號，我們考的是模型的數學能力，不是考模型的多模態識圖能力，比如DeepSeek根本就沒多模態，用的是OCR提取文本，很可能識別錯誤，所以截圖上傳不公平，一律轉化成LaTeX格式再進行統一測試。

3. 剔除掉單選題第6題，因為這是單選、多選、填空題中唯一有圖表的，轉成文字可能會有理解歧義，同時就一題，影響不大，直接剔除。

4. 單題計分方法也依照高考判分原則：單選題7道，每道5分，選項正確計分，錯誤不得分；多選題3道，每道6分，全對計6分，漏選按正確答案數量計分，如答案為ABCD，漏選其一扣1.5分，錯選不得分；填空題3道，每道5分，填空正確計分，錯誤不得分。

5. 每道題都會使用大模型跑3遍，根據正確比例進行分配，最大程度減少幻覺。比如OpenAI o3模型，做單選題第7題，對2次，錯1次，則實際得分為5*0.66=3.3分。

6. 只開推理、不使用Prompt引導、不開聯網、不允許寫代碼在沙盒進行計算，比如o3，我直接把這幾個功能關掉了。

以上，就是全部規則了。

接下來，請我們的模型考生入場。

測試模型為OpenAI o3、Gemini 2.5 pro、DeepSeek R1 、豆包（ 1.5-thinking-pro） 、元寶（混元T1）、千問3（235B）、訊飛星火X1，均為推理模型。

在晚上凌晨2點開始測試，因為搞API寫腳本反而可能更麻煩，所以直接搞了個表格，復制粘貼測了，以至于喊了我的幾個好朋友@卡爾的AI沃茲、@Max、@貓先生一起測，硬生生測到凌晨4點。

7道單選題、3道多選題、3道填空題，總分一共68分。

我們得出了，我認為，非常公平客觀的，每個模型的考試結果。

沒有收任何家錢，也沒有任何利益關系，全部客觀公正。

如下圖：

看看每一題的具體選項。

第9題是個非常神奇的題目，是個多選題，只有Gemini 2.5 Pro每次都對了，其他的所有大模型，幾乎全都有問題，D選項倒是全都答出來了，但是缺了B。

而那個DeepSeek第11道題錯的那道題，其實并不是真做錯了，明明做對了，但是非要作死的瞎答，比如11題多選題，DeepSeek R1錯了一道題。

但是我給你看看，它其實是這么錯的。

真的，太抽象了。。。

再看看，最終分數。

Gemini確實非常強，在整個邏輯上，沒有一題是錯的。

而豆包、混元、星火位列第二梯隊，在第9題上漏了一個選項，并列屈居第二。

DeepSeek半對半錯了一個多選題，丟了0.7分，排名第五。

而Qwen3和OpenAI o3因為兩個都錯了1次填空題，只能被迫墊底。。

通過我的測試，我相信，大家應該對于模型的數學能力，有一些了解了。

其實，根本拉不開差距，出錯一般也都是小小的幻覺。

高考對于現在絕大多數的推理大模型來說，其實真的就是，沒有特別大的難度，跟2023年的時候，真的是天壤之別。

很多測出來測的非常離譜的文章，其實最后答案錯了，跟推理模型本身沒有半毛錢關系，而是你把截圖扔過去，各種符號啥的識別錯誤。

比如則 \complement_{U} A，硬生生識別成了CuA。

所以，折騰到現在，這場公平、客觀的AI數學高考終于落幕了。

在打完最后一個結果的時候，我松了一口氣。

其實吧，我們不睡覺，熬夜折騰這么久，想得出的并不僅僅是一個簡單的分數。

而是我們我們想知道，怎么才算是一場合格的AI考試。

規則公正，流程嚴謹，技術中立，少一點博眼球的夸張，多一點對真相的執著。

我始終相信，無論是對技術，還是對人生，嚴謹總能讓我們更接近真實。

而真實，總能讓我們更加自由。

睡覺。

起床以后，一定又是美好的一天。

以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克

>/ 投稿或爆料，請聯系郵箱：wzglyay@virxact.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

6大模型決戰高考數學新一卷:豆包、元寶并列第一,OpenAI o3竟墊底

機器之心Pro 2025-06-08 11:17:11
21 跟貼 21
今年全國高考作文題，上海卷最好！

白話頻道 2025-06-08 11:26:16
60 跟貼 60

選擇沒有對錯，高考不是人生的全部

戲京同志 2025-06-09 16:26:55
5 跟貼 5

今年高考錄取分數線有可能會下降，聽聽老師怎么說的

申屠文康 2025-06-09 02:23:38
7 跟貼 7
25年數學高考背后還蘊含有哪些深意

開心的思天 2025-06-09 04:29:49
1 跟貼 1

高考作文準備，都不是白費

弓立軍 2025-06-07 22:46:47
0 跟貼 0

2024年11省市高考狀元，個個都是人中龍鳳，今年會花落誰家呢

故居生活 2025-06-09 08:56:37
0 跟貼 0
崩潰大哭！男生高考數學失誤，母親發聲，評論區惡心的一幕出現了

削桐作琴 2025-06-09 20:37:15
14 跟貼 14

華為小藝迎戰2025高考數學，看看能考多少分？

天極網 2025-06-09 22:51:28
1 跟貼 1
今年高考北京上海作文題，誰更難出天際！

小于愛生活丫 2025-06-09 07:07:32
0 跟貼 0
高考數學考懵考生哭紅雙眼

全球熱點幕后 2025-06-09 03:59:23
0 跟貼 0
高考作文又霸榜，今年高考有啥門道？

小于愛生活丫 2025-06-08 06:28:29
0 跟貼 0
山東高考物理難哭學霸：數學物理難度差異暴露教育真相

神顏販賣機 2025-06-09 03:24:10
0 跟貼 0
今年高考作文《以鳥之姿，鑄民族之魂》出爐，能得高分嗎？

渤海草堂2 2025-06-09 01:05:44
0 跟貼 0
高考數學命題趨勢：從知識記憶到綜合素質的轉變

愛爾愛電影 2025-06-08 06:55:05
0 跟貼 0
6月8日，河北，衡水中學高考生們堅持跑操

生活幫 2025-06-08 14:04:22
0 跟貼 0
2025年高考報名人數首次下降，背后因素解析

秋之潔 2025-06-08 03:08:20
0 跟貼 0
少了偏怪和陌生，2025年高考作文題目，對考生還是比較友好的

托勒密a 2025-06-08 02:56:24
0 跟貼 0
2025高考作文題目解讀，引熱議

老田故事 2025-06-09 20:37:31
0 跟貼 0
河南高考，歷史卷殺瘋考生，家長齊破防！

小于愛生活丫 2025-06-09 07:07:28
0 跟貼 0
高考生請注意！“緊張想拉”這樣辦！#農視點#

農視網 2025-06-06 15:01:34
0 跟貼 0
高考作文又又又難了！今年高考作文，寫的不是套路是靈魂

小Q不是導盲犬 2025-06-09 08:30:42
0 跟貼 0
浙江一女學霸高考后估分635分，查分時卻變成314分，結局令人意外

月下有清風 2025-06-09 23:36:53
0 跟貼 0
安徽啟動網上評卷預計本月25日公布考生成績

中安在線 2025-06-09 23:33:11
0 跟貼 0
2025年高考查分時間陸續公布，多地考生即將知曉成績

愛爾愛電影 2025-06-09 00:55:23
0 跟貼 0
最新！邯鄲高考查分時間來了！

邯鄲早8點 2025-06-09 23:55:30
0 跟貼 0
全國1卷數學考試再升級，140分成為難以逾越的鴻溝

輝煌靠自我 2025-06-09 20:49:27
0 跟貼 0
通關高考數學：排列組合，兩種方法速解，注意分類討論和正難則反

六維坐標系 2025-06-05 18:14:06
0 跟貼 0
高考數學：高中數學總復習，等差數列，借助基本不等式求最值

六維坐標系 2025-06-05 18:17:46
0 跟貼 0
2025年6月9日全國高考統考科目考試結束

精彩一網打盡 2025-06-09 17:32:17
0 跟貼 0
高考：形式公平下的結構性不合理

抽煙不喝酒飲茶不讀書 2025-06-08 05:40:31
19 跟貼 19
三農快評：高考不是農村娃的“獨木橋”，卻是最穩的"墊腳石"

農視網 2025-06-07 13:28:28
1 跟貼 1
高考復讀一年上岸985-普通男孩成長記

小薛帶你成長 2025-06-08 08:55:08
0 跟貼 0
高考語文作文題已經公開，給的信號很明顯，小初高的家長可以看看

毛豆的家 2025-06-09 11:32:33
0 跟貼 0
高三語文老師談新高考，主觀題增多選擇題減少，學生看“閑書”可提高閱讀速度

逛吃青島 2025-06-07 17:46:40
0 跟貼 0
現在高考還能不能改變命運？這是我聽過最好的回答

喜老登 2025-06-09 15:21:37
0 跟貼 0
2025年高考作文北京卷：小詩《輕》及由“第二次呼吸”說開去

木田之光 2025-06-09 23:38:30
4 跟貼 4
7名尖子生高考后估分697,實際得分420,老師集體投訴,結果令人愣住

呆子的故事 2025-06-09 21:53:42
0 跟貼 0
國防部發來硬核高考祝福

胡萊克修斯 2025-06-08 12:15:13
0 跟貼 0
一個高考考點外的“風景”

中安在線 2025-06-10 00:17:10
0 跟貼 0

手機 / 數碼

房產 / 家居

看好了，這才是7家大模型做高考數學題的真實分數。

莫名堂觀察：學生懶得學，老師懶得教

媒體：和紐森正面攤牌 這是特朗普渴望已久的一場戰斗

媒體：和紐森正面攤牌 這是特朗普渴望已久的一場戰斗

雷霆55號秀，NBA第一“概念神”

劉品言閃婚閃孕官宣 崴腳時被照顧打動

重磅級民生文件公布 如何改變你我生活？

中國汽車行業告別"內卷"，從"重慶論壇"開始？

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

泰國武俠試玩Demo上線Steam！來嘗嘗味兒正不正！

今年夏天最流行的裙子，配這4雙鞋才好看！

喜馬拉雅兒童1.2億條聲音，陪伴中國兒童成長

減重專家破解減肥九大謠言！

烏方稱俄發動沖突以來最大空襲

看好了，這才是7家大模型做高考數學題的真實分數。

媒體：和紐森正面攤牌這是特朗普渴望已久的一場戰斗

媒體：和紐森正面攤牌這是特朗普渴望已久的一場戰斗

雷霆55號秀，NBA第一“概念神”

劉品言閃婚閃孕官宣崴腳時被照顧打動

重磅級民生文件公布如何改變你我生活？

中國汽車行業告別"內卷"，從"重慶論壇"開始？

首次搭載奧特能2.0平臺新別克E5即將煥新上市

泰國武俠試玩Demo上線Steam！來嘗嘗味兒正不正！

喜馬拉雅兒童1.2億條聲音，陪伴中國兒童成長

減重專家破解減肥九大謠言！