網易首頁 > 網易號 > 正文申請入駐

我們用難哭考生的2025北京中考測了7款大模型的真實水平

2025-07-05 10:44:21　來源: 快科技

河南舉報

分享至

引言：2025北京中考落下帷幕，11.05萬名考生順利完考。

這是北京新一輪中考改革的首次落地，考試時間從往年的三天壓縮至了兩天。最大的變化有兩個，一是總分值由670分降至510分，二是道德與法治采取開卷考試形式。

總分降低意味著每一分的價值更高，高分段競爭可能更激烈。同時，各學科命題會更注重考查學生的核心素養和關鍵能力。

比如數學降低了簡單題的占比，題型創新性強（如新函數、圓綜題難度大），區分度提升。語文的試題則特別體現了考生對語言文字基本功、基本的感受能力的考查，引導學生在情境當中去思考如何去運用語言文字來解決問題。

從考生網友的反饋來看，三個字，難哭了。

以今年的語文作文為例，兩道題目二選一，作文一聚焦科學與健康方向——《這樣生活更健康》，作文二則強調科學素養與生活實踐——《一堂科學課》，題目看著簡單，但想寫出彩并不容易，也難怪有考生直呼："這題我熟，但寫起來太難了！"

看到這兒，相信很多人和我一樣有一個疑問，如果把當下各種主流AI大模型當作中考考生，它們到底能答出怎樣一份答卷？

我們更好奇的是，作為檢驗初中學業水平的標尺，以當下大模型的水準，是否是傳說中的學霸尖子生呢。

【7款大模型實戰2025北京中考，這才是它們的真實水平】

先介紹一下這次大模型中考的參賽選手和測試方法。

考題：

2025北京中考，語文作文（題目二）、英語作文（題目二）、數學全卷。

考生名單：

DeepSeek、字節豆包、訊飛星火、通義千問、騰訊混元、文心一言、GPT。

選擇這7位，基本都是大家最常用到的大模型，過于小眾的、沒有代表性的，不在此次考察范圍內。

測試方法：

為了確保公平，所有參與測試大模型考生統一關閉聯網功能，打開深度推理。

語文作文、英語作文以文本形式提問。其中，語文作文評分特邀前人大附中分校語文名師、中考命題高級研究員李豪，以及中考語文資深教研專家、曾參與多所重點中學語文備考方案制定的重點校特邀講師金宇佳參與評分，由這兩位資深語文教育專家分別進行打分，取兩位老師的平均分作為最終評分的形式進行實測。

英語作文評分特邀原咸寧市中考命題專家兼英語學科命題組長張揚，以及10年以上英語教研工作經驗、多次擔任北京中考英語閱卷人的石楊兩位專家打分，同樣取平均分。

數學題目提問采用圖片掃描和LaTeX格式兩種評判方式。判分與人類考生統一標準：選擇題和填空題只看最終結果，不考慮模型解題過程是否準確；解答題分兩種情況，普通解答題采用的是結果分，證明題則是按步驟給分。

我們先來看看這七款大模型，三科測試的最終結果：

這里說明一下，語文作文和英語作文，我們都選擇題目二來進行考試。

2025年北京中考語文作文的分數為40分。考生需要在兩個題目中選擇一個，要求作文內容積極向上，字數在600-800之間。

語文作文第二道是《一堂科學課》，首先大模型跟這個選題更相關，相較第一個生活類話題《這樣生活更健康》，更加考驗大模型的思辨能力，跟容易考出區分度。

2025年北京中考英語作文的分數為10分。考生需要在兩個題目中選擇一個，完成一篇不少于50詞的英語文段寫作

英語作文題目一有圖表，這就需要考察OCR能力，但各家大模型的OCR有自研的，也有第三方的，無法統一標準，會對結果有影響。所以統一選擇沒有圖表的題目二來進行作答。

數學試卷因為涉及到一些公式識別，特別是多行的，以及圖形等，這就很考驗大模型的文檔信息分析識別與提取，所以此次采用兩種方式進行測試，一種是直接用圖片掃描，另一種是用LaTeX格式。

接下來我們仔細看看單科的成績：

一、數學：

小結：從數學成績來看，以圖片格式掃描數學試卷，一題一題來測試，訊飛星火、豆包、GPT三款大模型的分數排名前三，都在85分以上，而通義千問、文心一言、Deepseek三款大模型排名靠后，分別為73分、68分、63分。能拿到這個成績并不簡單，此前考生們普遍反映這屆數學"文字量太大了根本就寫不完"。

值得注意的是，在圖片格式下，寄予厚望的Deepeek直接就宣布"出局"了，因它存在圖片識別問題，無法正確識別出數學算式，所以導致得分最低。

在解答選擇、填空兩種客觀題方面，除了Deepeek填空題得10分外，各家大模型的差別都不大，得分區間在14-16分。其中訊飛星火X1兩項都拿下滿分，而得分較低的通義千問、文心一言在填空方面卻很擅長，也拿下滿分。

不過，拉開幾款大模型分數的主要是解答題這類主觀題。

測試結果顯示，滿分68分的解答題，Deepseek僅拿下39分，而豆包得分59分，足足20分的差距。

在整式運算、解不等式組、分式化簡求值、方程應用和函數問題方面，各家大模型都表現良好，得分率較高。

而在涉及圖片信息理解的幾何證明與計算、統計圖表、函數圖象問題上，各家大模型均出現丟分情況。這是因為大模型在處理圖像題時，常因無法準確識別圖形元素或理解題目中的視覺暗示，例如，涉及幾何證明、動態變化等需要空間想象能力的題目，大模型的表現尤為掙扎。

在LaTeX格式下，除GPT外，其他幾款大模型的分數差距不大，得分在78分-89分之間。從整體排名看，訊飛星火、Deepseek、騰訊混元排名前三，文心一言、GPT排名靠后。

值得一提的是，我們此次測試采用的是GPT-o3版本，該模型在LaTeX格式下圖片缺失，所給答案錯誤或無結果，導致得分較低，而附帶試題圖片和LaTeX格式則會輸出英文解題流程，答案仍不正確，整體分值明顯下降，從86分降為63分。

而Deepseek在LaTeX格式輸入下能正確理解數學算式，整體分值顯著提升，分數從63分變為84分。

其余5款大模型無論采用圖片格式，還是LaTeX格式，客觀題和主觀題作答情況和丟分點基本保持一致，這也是各家大模型今后要關注的優化重點。

二、語文作文：

小結：從語文作文最終成績來看，7個主流大模型考生的最低分也有32.5分，最高分甚至來到了37.5分，換算成百分制的話在81-94分之間，平均分接近86分，表現相當不錯。從7位考生的解題思路與最終成文也能看出，當下AI大模型已具備非常強的"成品"交付能力，面對明確的寫作指令，各平臺均能精準把握需求，輸出邏輯自洽、主題聚焦的內容，有效規避了偏題跑題等基礎失誤。同時，能融入模擬人類思考的個性化觀點，降低了AI 生成內容的機械感。

當然，在細節雕琢與文本質感層面，各模型的差異性逐漸顯現。

以 GPT為代表的海外模型，盡管擁有強大的語言處理能力，但在中文語境適配性上仍有提升空間，雖然作文主題明確，結構完整，語言流暢，但依然存在立意較淺、內容有點脫離實際、真情實感不足、部分段落重復拖沓等問題。

騰訊混元、文心一言、通義千問都能符合題意，中心明確，緊扣"科學課"主題，但均存在情感表達流于表面、個別比喻不夠精準、敘述顯得空泛，真情實感不足、部分段落重復拖沓、敘述不夠完整等待改善的問題，在文章立意上還有待拔高，屬于二類卷考生的中上表現。

相較之下，豆包、DeepSeek展現出更出色的創作實力，均達到了一類卷的水準，但距離爐火純青還稍差火候。拿到最高37.5分的訊飛星火，則憑借深刻獨到的立意、流暢生動的語言脫穎而出，在本次評測中摘得桂冠。兩位專家在點評中給予了高度評價——科學觀察與情感升華渾然天成，立意高度與現場感尤為突出，堪稱一類卷上乘之作。

以下為各大模型生成的語文作文過程：

訊飛星火：

DeepSeek：

豆包：

通義千問：

文心一言：

GPT：

騰訊混元：

三、英語作文：

小結：英語作文最終成績顯示，7個主流大模型考生中最低分為7分，最高分甚至拿到滿分10分，若換算為百分制，分數區間在70-100分，平均分超過84分，雖表現十分亮眼，但平均分稍遜于語文，可見絕大多數的國產大模型還是更擅長中文寫作。

此外，7-10分的落差也能看出成績差異很大，貌似有大模型考生出現了"偏科"。

其中騰訊混元生成的作文被定義為良好級別，其結構完整，語言表意準確，但內容沒有獨特的細節，缺乏更復雜的句式、高級詞匯，給人稍顯單一的感覺。若篇章銜接和語言表達更多樣化、更高級化，有望向卓越級別靠攏。

令人意外的是，來自海外的GPT并未因"母語"優勢取得亮眼的成績，在該測試中它僅拿到7.5分。雖然作文覆蓋全部要點，邏輯清晰也清晰，但"論證較簡單"，每個點并未展開更深入的說明；同時句式以簡單句為主，缺乏主從復合句和特殊句式。

此外，今年大火的DeepSeek雖有地道表達和亮點，但闡述理由時出現"硬傷"部分沒有和設想部分完全閉環，邏輯不夠緊密。

作為對比，通義千問、文心一言在英語寫作中都拿到了9分的高水準，但文心一言被評為卓越檔，通義千問則落檔為良好。兩款模型在要點上都表現齊全，但亦有不足之處。其中通義千問出現段落不分明，邏輯層次模糊；文心一言則部分句式結構相對復雜，不利于初中生理解。相比之下，文心一言的缺點顯得"不致命"。

而豆包也出現了同樣的問題，豆包生成的作文部分詞句超出初中生水平，如果做為范文，不具有普適性。雖然豆包得分8.5分，但同樣被評為了卓越檔，由此可見，得分的高低并不是被定檔的唯一因素。

7個大模型測試中，訊飛星火在英語寫作上拿到了滿分10分，兩位評委在點評中給予了高度評價，內容完全覆蓋題目要求要點，既寫出了對未來圖書館展望的設計，又生動闡述了其重要的功能意義，細節豐富。無論是篇章結構，還是語言表達上，都恰到好處。

以下為各大模型生成的英語作文過程：

訊飛星火：

DeepSeek：

豆包：

通義千問：

文心一言：

GPT：

騰訊混元：

總結：

這次"大模型中考"中，當AI們在作文里講述"科學課"的故事，用英文以第一人稱寫出切實建議，在數學題中推導公式，我們看到的不僅是代碼與算法的進化，更是人類對智慧邊界的不斷探索。

那些接近滿分的作文、嚴謹的數學推導，證明大模型早已不是簡單的文字搬運工，它們正以驚人的速度學習、成長，成為我們生活中越來越可靠的數字伙伴。

也再一次說明，學生們也需要從死記硬背和機械刷題轉向主動理解、思考與探究，注重知識的融會貫通與靈活運用，形成學科融合的學習思維。

但也別忘了，再精妙的算法也寫不出少年們在考場上的緊張心跳，再強大的模型也復制不了人類靈光乍現的獨特創意。大模型的"高分答卷"，更像是遞給我們的一張邀請函，邀請我們重新思考學習的意義，在技術浪潮中守住獨立思考的鋒芒。

未來，人類與AI或許會像并肩作戰的隊友，用各自的優勢，共同書寫出更精彩的答案。這場中考不是終點，而是我們與智能時代攜手同行的新起點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.