我們用難哭考生的2025北京中考測了7款大模型的真實(shí)水平

2025-07-05 10:44:21　來源: 快科技

河南舉報

分享至

引言：2025北京中考落下帷幕，11.05萬名考生順利完考。

這是北京新一輪中考改革的首次落地，考試時間從往年的三天壓縮至了兩天。最大的變化有兩個，一是總分值由670分降至510分，二是道德與法治采取開卷考試形式。

總分降低意味著每一分的價值更高，高分段競爭可能更激烈。同時，各學(xué)科命題會更注重考查學(xué)生的核心素養(yǎng)和關(guān)鍵能力。

比如數(shù)學(xué)降低了簡單題的占比，題型創(chuàng)新性強(qiáng)（如新函數(shù)、圓綜題難度大），區(qū)分度提升。語文的試題則特別體現(xiàn)了考生對語言文字基本功、基本的感受能力的考查，引導(dǎo)學(xué)生在情境當(dāng)中去思考如何去運(yùn)用語言文字來解決問題。

從考生網(wǎng)友的反饋來看，三個字，難哭了。

以今年的語文作文為例，兩道題目二選一，作文一聚焦科學(xué)與健康方向——《這樣生活更健康》，作文二則強(qiáng)調(diào)科學(xué)素養(yǎng)與生活實(shí)踐——《一堂科學(xué)課》，題目看著簡單，但想寫出彩并不容易，也難怪有考生直呼："這題我熟，但寫起來太難了！"

看到這兒，相信很多人和我一樣有一個疑問，如果把當(dāng)下各種主流AI大模型當(dāng)作中考考生，它們到底能答出怎樣一份答卷？

我們更好奇的是，作為檢驗(yàn)初中學(xué)業(yè)水平的標(biāo)尺，以當(dāng)下大模型的水準(zhǔn)，是否是傳說中的學(xué)霸尖子生呢。

【7款大模型實(shí)戰(zhàn)2025北京中考，這才是它們的真實(shí)水平】

先介紹一下這次大模型中考的參賽選手和測試方法。

考題：

2025北京中考，語文作文（題目二）、英語作文（題目二）、數(shù)學(xué)全卷。

考生名單：

DeepSeek、字節(jié)豆包、訊飛星火、通義千問、騰訊混元、文心一言、GPT。

選擇這7位，基本都是大家最常用到的大模型，過于小眾的、沒有代表性的，不在此次考察范圍內(nèi)。

測試方法：

為了確保公平，所有參與測試大模型考生統(tǒng)一關(guān)閉聯(lián)網(wǎng)功能，打開深度推理。

語文作文、英語作文以文本形式提問。其中，語文作文評分特邀前人大附中分校語文名師、中考命題高級研究員李豪，以及中考語文資深教研專家、曾參與多所重點(diǎn)中學(xué)語文備考方案制定的重點(diǎn)校特邀講師金宇佳參與評分，由這兩位資深語文教育專家分別進(jìn)行打分，取兩位老師的平均分作為最終評分的形式進(jìn)行實(shí)測。

英語作文評分特邀原咸寧市中考命題專家兼英語學(xué)科命題組長張揚(yáng)，以及10年以上英語教研工作經(jīng)驗(yàn)、多次擔(dān)任北京中考英語閱卷人的石楊兩位專家打分，同樣取平均分。

數(shù)學(xué)題目提問采用圖片掃描和LaTeX格式兩種評判方式。判分與人類考生統(tǒng)一標(biāo)準(zhǔn)：選擇題和填空題只看最終結(jié)果，不考慮模型解題過程是否準(zhǔn)確；解答題分兩種情況，普通解答題采用的是結(jié)果分，證明題則是按步驟給分。

我們先來看看這七款大模型，三科測試的最終結(jié)果：

這里說明一下，語文作文和英語作文，我們都選擇題目二來進(jìn)行考試。

2025年北京中考語文作文的分?jǐn)?shù)為40分。考生需要在兩個題目中選擇一個，要求作文內(nèi)容積極向上，字?jǐn)?shù)在600-800之間。

語文作文第二道是《一堂科學(xué)課》，首先大模型跟這個選題更相關(guān)，相較第一個生活類話題《這樣生活更健康》，更加考驗(yàn)大模型的思辨能力，跟容易考出區(qū)分度。

2025年北京中考英語作文的分?jǐn)?shù)為10分。考生需要在兩個題目中選擇一個，完成一篇不少于50詞的英語文段寫作

英語作文題目一有圖表，這就需要考察OCR能力，但各家大模型的OCR有自研的，也有第三方的，無法統(tǒng)一標(biāo)準(zhǔn)，會對結(jié)果有影響。所以統(tǒng)一選擇沒有圖表的題目二來進(jìn)行作答。

數(shù)學(xué)試卷因?yàn)樯婕暗揭恍┕阶R別，特別是多行的，以及圖形等，這就很考驗(yàn)大模型的文檔信息分析識別與提取，所以此次采用兩種方式進(jìn)行測試，一種是直接用圖片掃描，另一種是用LaTeX格式。

接下來我們仔細(xì)看看單科的成績：

一、數(shù)學(xué)：

小結(jié)：從數(shù)學(xué)成績來看，以圖片格式掃描數(shù)學(xué)試卷，一題一題來測試，訊飛星火、豆包、GPT三款大模型的分?jǐn)?shù)排名前三，都在85分以上，而通義千問、文心一言、Deepseek三款大模型排名靠后，分別為73分、68分、63分。能拿到這個成績并不簡單，此前考生們普遍反映這屆數(shù)學(xué)"文字量太大了根本就寫不完"。

值得注意的是，在圖片格式下，寄予厚望的Deepeek直接就宣布"出局"了，因它存在圖片識別問題，無法正確識別出數(shù)學(xué)算式，所以導(dǎo)致得分最低。

在解答選擇、填空兩種客觀題方面，除了Deepeek填空題得10分外，各家大模型的差別都不大，得分區(qū)間在14-16分。其中訊飛星火X1兩項(xiàng)都拿下滿分，而得分較低的通義千問、文心一言在填空方面卻很擅長，也拿下滿分。

不過，拉開幾款大模型分?jǐn)?shù)的主要是解答題這類主觀題。

測試結(jié)果顯示，滿分68分的解答題，Deepseek僅拿下39分，而豆包得分59分，足足20分的差距。

在整式運(yùn)算、解不等式組、分式化簡求值、方程應(yīng)用和函數(shù)問題方面，各家大模型都表現(xiàn)良好，得分率較高。

而在涉及圖片信息理解的幾何證明與計(jì)算、統(tǒng)計(jì)圖表、函數(shù)圖象問題上，各家大模型均出現(xiàn)丟分情況。這是因?yàn)榇竽Ｐ驮谔幚韴D像題時，常因無法準(zhǔn)確識別圖形元素或理解題目中的視覺暗示，例如，涉及幾何證明、動態(tài)變化等需要空間想象能力的題目，大模型的表現(xiàn)尤為掙扎。

在LaTeX格式下，除GPT外，其他幾款大模型的分?jǐn)?shù)差距不大，得分在78分-89分之間。從整體排名看，訊飛星火、Deepseek、騰訊混元排名前三，文心一言、GPT排名靠后。

值得一提的是，我們此次測試采用的是GPT-o3版本，該模型在LaTeX格式下圖片缺失，所給答案錯誤或無結(jié)果，導(dǎo)致得分較低，而附帶試題圖片和LaTeX格式則會輸出英文解題流程，答案仍不正確，整體分值明顯下降，從86分降為63分。

而Deepseek在LaTeX格式輸入下能正確理解數(shù)學(xué)算式，整體分值顯著提升，分?jǐn)?shù)從63分變?yōu)?4分。

其余5款大模型無論采用圖片格式，還是LaTeX格式，客觀題和主觀題作答情況和丟分點(diǎn)基本保持一致，這也是各家大模型今后要關(guān)注的優(yōu)化重點(diǎn)。

二、語文作文：

小結(jié)：從語文作文最終成績來看，7個主流大模型考生的最低分也有32.5分，最高分甚至來到了37.5分，換算成百分制的話在81-94分之間，平均分接近86分，表現(xiàn)相當(dāng)不錯。從7位考生的解題思路與最終成文也能看出，當(dāng)下AI大模型已具備非常強(qiáng)的"成品"交付能力，面對明確的寫作指令，各平臺均能精準(zhǔn)把握需求，輸出邏輯自洽、主題聚焦的內(nèi)容，有效規(guī)避了偏題跑題等基礎(chǔ)失誤。同時，能融入模擬人類思考的個性化觀點(diǎn)，降低了AI 生成內(nèi)容的機(jī)械感。

當(dāng)然，在細(xì)節(jié)雕琢與文本質(zhì)感層面，各模型的差異性逐漸顯現(xiàn)。

以 GPT為代表的海外模型，盡管擁有強(qiáng)大的語言處理能力，但在中文語境適配性上仍有提升空間，雖然作文主題明確，結(jié)構(gòu)完整，語言流暢，但依然存在立意較淺、內(nèi)容有點(diǎn)脫離實(shí)際、真情實(shí)感不足、部分段落重復(fù)拖沓等問題。

騰訊混元、文心一言、通義千問都能符合題意，中心明確，緊扣"科學(xué)課"主題，但均存在情感表達(dá)流于表面、個別比喻不夠精準(zhǔn)、敘述顯得空泛，真情實(shí)感不足、部分段落重復(fù)拖沓、敘述不夠完整等待改善的問題，在文章立意上還有待拔高，屬于二類卷考生的中上表現(xiàn)。

相較之下，豆包、DeepSeek展現(xiàn)出更出色的創(chuàng)作實(shí)力，均達(dá)到了一類卷的水準(zhǔn)，但距離爐火純青還稍差火候。拿到最高37.5分的訊飛星火，則憑借深刻獨(dú)到的立意、流暢生動的語言脫穎而出，在本次評測中摘得桂冠。兩位專家在點(diǎn)評中給予了高度評價——科學(xué)觀察與情感升華渾然天成，立意高度與現(xiàn)場感尤為突出，堪稱一類卷上乘之作。

以下為各大模型生成的語文作文過程：

訊飛星火：

DeepSeek：

豆包：

通義千問：

文心一言：

GPT：

騰訊混元：

三、英語作文：

小結(jié)：英語作文最終成績顯示，7個主流大模型考生中最低分為7分，最高分甚至拿到滿分10分，若換算為百分制，分?jǐn)?shù)區(qū)間在70-100分，平均分超過84分，雖表現(xiàn)十分亮眼，但平均分稍遜于語文，可見絕大多數(shù)的國產(chǎn)大模型還是更擅長中文寫作。

此外，7-10分的落差也能看出成績差異很大，貌似有大模型考生出現(xiàn)了"偏科"。

其中騰訊混元生成的作文被定義為良好級別，其結(jié)構(gòu)完整，語言表意準(zhǔn)確，但內(nèi)容沒有獨(dú)特的細(xì)節(jié)，缺乏更復(fù)雜的句式、高級詞匯，給人稍顯單一的感覺。若篇章銜接和語言表達(dá)更多樣化、更高級化，有望向卓越級別靠攏。

令人意外的是，來自海外的GPT并未因"母語"優(yōu)勢取得亮眼的成績，在該測試中它僅拿到7.5分。雖然作文覆蓋全部要點(diǎn)，邏輯清晰也清晰，但"論證較簡單"，每個點(diǎn)并未展開更深入的說明；同時句式以簡單句為主，缺乏主從復(fù)合句和特殊句式。

此外，今年大火的DeepSeek雖有地道表達(dá)和亮點(diǎn)，但闡述理由時出現(xiàn)"硬傷"部分沒有和設(shè)想部分完全閉環(huán)，邏輯不夠緊密。

作為對比，通義千問、文心一言在英語寫作中都拿到了9分的高水準(zhǔn)，但文心一言被評為卓越檔，通義千問則落檔為良好。兩款模型在要點(diǎn)上都表現(xiàn)齊全，但亦有不足之處。其中通義千問出現(xiàn)段落不分明，邏輯層次模糊；文心一言則部分句式結(jié)構(gòu)相對復(fù)雜，不利于初中生理解。相比之下，文心一言的缺點(diǎn)顯得"不致命"。

而豆包也出現(xiàn)了同樣的問題，豆包生成的作文部分詞句超出初中生水平，如果做為范文，不具有普適性。雖然豆包得分8.5分，但同樣被評為了卓越檔，由此可見，得分的高低并不是被定檔的唯一因素。

7個大模型測試中，訊飛星火在英語寫作上拿到了滿分10分，兩位評委在點(diǎn)評中給予了高度評價，內(nèi)容完全覆蓋題目要求要點(diǎn)，既寫出了對未來圖書館展望的設(shè)計(jì)，又生動闡述了其重要的功能意義，細(xì)節(jié)豐富。無論是篇章結(jié)構(gòu)，還是語言表達(dá)上，都恰到好處。

以下為各大模型生成的英語作文過程：

訊飛星火：

DeepSeek：

豆包：

通義千問：

文心一言：

GPT：

騰訊混元：

總結(jié)：

這次"大模型中考"中，當(dāng)AI們在作文里講述"科學(xué)課"的故事，用英文以第一人稱寫出切實(shí)建議，在數(shù)學(xué)題中推導(dǎo)公式，我們看到的不僅是代碼與算法的進(jìn)化，更是人類對智慧邊界的不斷探索。

那些接近滿分的作文、嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)推導(dǎo)，證明大模型早已不是簡單的文字搬運(yùn)工，它們正以驚人的速度學(xué)習(xí)、成長，成為我們生活中越來越可靠的數(shù)字伙伴。

也再一次說明，學(xué)生們也需要從死記硬背和機(jī)械刷題轉(zhuǎn)向主動理解、思考與探究，注重知識的融會貫通與靈活運(yùn)用，形成學(xué)科融合的學(xué)習(xí)思維。

但也別忘了，再精妙的算法也寫不出少年們在考場上的緊張心跳，再強(qiáng)大的模型也復(fù)制不了人類靈光乍現(xiàn)的獨(dú)特創(chuàng)意。大模型的"高分答卷"，更像是遞給我們的一張邀請函，邀請我們重新思考學(xué)習(xí)的意義，在技術(shù)浪潮中守住獨(dú)立思考的鋒芒。

未來，人類與AI或許會像并肩作戰(zhàn)的隊(duì)友，用各自的優(yōu)勢，共同書寫出更精彩的答案。這場中考不是終點(diǎn)，而是我們與智能時代攜手同行的新起點(diǎn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.