引言:2025北京中考落下帷幕,11.05萬名考生順利完考。
這是北京新一輪中考改革的首次落地,考試時間從往年的三天壓縮至了兩天。最大的變化有兩個,一是總分值由670分降至510分,二是道德與法治采取開卷考試形式。
總分降低意味著每一分的價值更高,高分段競爭可能更激烈。同時,各學(xué)科命題會更注重考查學(xué)生的核心素養(yǎng)和關(guān)鍵能力。
比如數(shù)學(xué)降低了簡單題的占比,題型創(chuàng)新性強(qiáng)(如新函數(shù)、圓綜題難度大),區(qū)分度提升。語文的試題則特別體現(xiàn)了考生對語言文字基本功、基本的感受能力的考查,引導(dǎo)學(xué)生在情境當(dāng)中去思考如何去運(yùn)用語言文字來解決問題。
從考生網(wǎng)友的反饋來看,三個字,難哭了。
以今年的語文作文為例,兩道題目二選一,作文一聚焦科學(xué)與健康方向——《這樣生活更健康》,作文二則強(qiáng)調(diào)科學(xué)素養(yǎng)與生活實(shí)踐——《一堂科學(xué)課》,題目看著簡單,但想寫出彩并不容易,也難怪有考生直呼:"這題我熟,但寫起來太難了!"
看到這兒,相信很多人和我一樣有一個疑問,如果把當(dāng)下各種主流AI大模型當(dāng)作中考考生,它們到底能答出怎樣一份答卷?
我們更好奇的是,作為檢驗(yàn)初中學(xué)業(yè)水平的標(biāo)尺,以當(dāng)下大模型的水準(zhǔn),是否是傳說中的學(xué)霸尖子生呢。
【7款大模型實(shí)戰(zhàn)2025北京中考,這才是它們的真實(shí)水平】
先介紹一下這次大模型中考的參賽選手和測試方法。
考題:
2025北京中考,語文作文(題目二)、英語作文(題目二)、數(shù)學(xué)全卷。
考生名單:
DeepSeek、字節(jié)豆包、訊飛星火、通義千問、騰訊混元、文心一言、GPT。
選擇這7位,基本都是大家最常用到的大模型,過于小眾的、沒有代表性的,不在此次考察范圍內(nèi)。
測試方法:
為了確保公平,所有參與測試大模型考生統(tǒng)一關(guān)閉聯(lián)網(wǎng)功能,打開深度推理。
語文作文、英語作文以文本形式提問。其中,語文作文評分特邀前人大附中分校語文名師、中考命題高級研究員李豪,以及中考語文資深教研專家、曾參與多所重點(diǎn)中學(xué)語文備考方案制定的重點(diǎn)校特邀講師金宇佳參與評分,由這兩位資深語文教育專家分別進(jìn)行打分,取兩位老師的平均分作為最終評分的形式進(jìn)行實(shí)測。
英語作文評分特邀原咸寧市中考命題專家兼英語學(xué)科命題組長張揚(yáng),以及10年以上英語教研工作經(jīng)驗(yàn)、多次擔(dān)任北京中考英語閱卷人的石楊兩位專家打分,同樣取平均分。
數(shù)學(xué)題目提問采用圖片掃描和LaTeX格式兩種評判方式。判分與人類考生統(tǒng)一標(biāo)準(zhǔn):選擇題和填空題只看最終結(jié)果,不考慮模型解題過程是否準(zhǔn)確;解答題分兩種情況,普通解答題采用的是結(jié)果分,證明題則是按步驟給分。
我們先來看看這七款大模型,三科測試的最終結(jié)果:
這里說明一下,語文作文和英語作文,我們都選擇題目二來進(jìn)行考試。
2025年北京中考語文作文的分?jǐn)?shù)為40分。考生需要在兩個題目中選擇一個,要求作文內(nèi)容積極向上,字?jǐn)?shù)在600-800之間。
語文作文第二道是《一堂科學(xué)課》,首先大模型跟這個選題更相關(guān),相較第一個生活類話題《這樣生活更健康》,更加考驗(yàn)大模型的思辨能力,跟容易考出區(qū)分度。
2025年北京中考英語作文的分?jǐn)?shù)為10分。考生需要在兩個題目中選擇一個,完成一篇不少于50詞的英語文段寫作
英語作文題目一有圖表,這就需要考察OCR能力,但各家大模型的OCR有自研的,也有第三方的,無法統(tǒng)一標(biāo)準(zhǔn),會對結(jié)果有影響。所以統(tǒng)一選擇沒有圖表的題目二來進(jìn)行作答。
數(shù)學(xué)試卷因?yàn)樯婕暗揭恍┕阶R別,特別是多行的,以及圖形等,這就很考驗(yàn)大模型的文檔信息分析識別與提取,所以此次采用兩種方式進(jìn)行測試,一種是直接用圖片掃描,另一種是用LaTeX格式。
接下來我們仔細(xì)看看單科的成績:
一、數(shù)學(xué):
小結(jié):從數(shù)學(xué)成績來看,以圖片格式掃描數(shù)學(xué)試卷,一題一題來測試,訊飛星火、豆包、GPT三款大模型的分?jǐn)?shù)排名前三,都在85分以上,而通義千問、文心一言、Deepseek三款大模型排名靠后,分別為73分、68分、63分。能拿到這個成績并不簡單,此前考生們普遍反映這屆數(shù)學(xué)"文字量太大了根本就寫不完"。
值得注意的是,在圖片格式下,寄予厚望的Deepeek直接就宣布"出局"了,因它存在圖片識別問題,無法正確識別出數(shù)學(xué)算式,所以導(dǎo)致得分最低。
在解答選擇、填空兩種客觀題方面,除了Deepeek填空題得10分外,各家大模型的差別都不大,得分區(qū)間在14-16分。其中訊飛星火X1兩項(xiàng)都拿下滿分,而得分較低的通義千問、文心一言在填空方面卻很擅長,也拿下滿分。
不過,拉開幾款大模型分?jǐn)?shù)的主要是解答題這類主觀題。
測試結(jié)果顯示,滿分68分的解答題,Deepseek僅拿下39分,而豆包得分59分,足足20分的差距。
在整式運(yùn)算、解不等式組、分式化簡求值、方程應(yīng)用和函數(shù)問題方面,各家大模型都表現(xiàn)良好,得分率較高。
而在涉及圖片信息理解的幾何證明與計(jì)算、統(tǒng)計(jì)圖表、函數(shù)圖象問題上,各家大模型均出現(xiàn)丟分情況。這是因?yàn)榇竽P驮谔幚韴D像題時,常因無法準(zhǔn)確識別圖形元素或理解題目中的視覺暗示,例如,涉及幾何證明、動態(tài)變化等需要空間想象能力的題目,大模型的表現(xiàn)尤為掙扎。
在LaTeX格式下,除GPT外,其他幾款大模型的分?jǐn)?shù)差距不大,得分在78分-89分之間。從整體排名看,訊飛星火、Deepseek、騰訊混元排名前三,文心一言、GPT排名靠后。
值得一提的是,我們此次測試采用的是GPT-o3版本,該模型在LaTeX格式下圖片缺失,所給答案錯誤或無結(jié)果,導(dǎo)致得分較低,而附帶試題圖片和LaTeX格式則會輸出英文解題流程,答案仍不正確,整體分值明顯下降,從86分降為63分。
而Deepseek在LaTeX格式輸入下能正確理解數(shù)學(xué)算式,整體分值顯著提升,分?jǐn)?shù)從63分變?yōu)?4分。
其余5款大模型無論采用圖片格式,還是LaTeX格式,客觀題和主觀題作答情況和丟分點(diǎn)基本保持一致,這也是各家大模型今后要關(guān)注的優(yōu)化重點(diǎn)。
二、語文作文:
小結(jié):從語文作文最終成績來看,7個主流大模型考生的最低分也有32.5分,最高分甚至來到了37.5分,換算成百分制的話在81-94分之間,平均分接近86分,表現(xiàn)相當(dāng)不錯。從7位考生的解題思路與最終成文也能看出,當(dāng)下AI大模型已具備非常強(qiáng)的"成品"交付能力,面對明確的寫作指令,各平臺均能精準(zhǔn)把握需求,輸出邏輯自洽、主題聚焦的內(nèi)容,有效規(guī)避了偏題跑題等基礎(chǔ)失誤。同時,能融入模擬人類思考的個性化觀點(diǎn),降低了AI 生成內(nèi)容的機(jī)械感。
當(dāng)然,在細(xì)節(jié)雕琢與文本質(zhì)感層面,各模型的差異性逐漸顯現(xiàn)。
以 GPT為代表的海外模型,盡管擁有強(qiáng)大的語言處理能力,但在中文語境適配性上仍有提升空間,雖然作文主題明確,結(jié)構(gòu)完整,語言流暢,但依然存在立意較淺、內(nèi)容有點(diǎn)脫離實(shí)際、真情實(shí)感不足、部分段落重復(fù)拖沓等問題。
騰訊混元、文心一言、通義千問都能符合題意,中心明確,緊扣"科學(xué)課"主題,但均存在情感表達(dá)流于表面、個別比喻不夠精準(zhǔn)、敘述顯得空泛,真情實(shí)感不足、部分段落重復(fù)拖沓、敘述不夠完整等待改善的問題,在文章立意上還有待拔高,屬于二類卷考生的中上表現(xiàn)。
相較之下,豆包、DeepSeek展現(xiàn)出更出色的創(chuàng)作實(shí)力,均達(dá)到了一類卷的水準(zhǔn),但距離爐火純青還稍差火候。拿到最高37.5分的訊飛星火,則憑借深刻獨(dú)到的立意、流暢生動的語言脫穎而出,在本次評測中摘得桂冠。兩位專家在點(diǎn)評中給予了高度評價——科學(xué)觀察與情感升華渾然天成,立意高度與現(xiàn)場感尤為突出,堪稱一類卷上乘之作。
以下為各大模型生成的語文作文過程:
訊飛星火:
DeepSeek:
豆包:
通義千問:
文心一言:
GPT:
騰訊混元:
三、英語作文:
小結(jié):英語作文最終成績顯示,7個主流大模型考生中最低分為7分,最高分甚至拿到滿分10分,若換算為百分制,分?jǐn)?shù)區(qū)間在70-100分,平均分超過84分,雖表現(xiàn)十分亮眼,但平均分稍遜于語文,可見絕大多數(shù)的國產(chǎn)大模型還是更擅長中文寫作。
此外,7-10分的落差也能看出成績差異很大,貌似有大模型考生出現(xiàn)了"偏科"。
其中騰訊混元生成的作文被定義為良好級別,其結(jié)構(gòu)完整,語言表意準(zhǔn)確,但內(nèi)容沒有獨(dú)特的細(xì)節(jié),缺乏更復(fù)雜的句式、高級詞匯,給人稍顯單一的感覺。若篇章銜接和語言表達(dá)更多樣化、更高級化,有望向卓越級別靠攏。
令人意外的是,來自海外的GPT并未因"母語"優(yōu)勢取得亮眼的成績,在該測試中它僅拿到7.5分。雖然作文覆蓋全部要點(diǎn),邏輯清晰也清晰,但"論證較簡單",每個點(diǎn)并未展開更深入的說明;同時句式以簡單句為主,缺乏主從復(fù)合句和特殊句式。
此外,今年大火的DeepSeek雖有地道表達(dá)和亮點(diǎn),但闡述理由時出現(xiàn)"硬傷"部分沒有和設(shè)想部分完全閉環(huán),邏輯不夠緊密。
作為對比,通義千問、文心一言在英語寫作中都拿到了9分的高水準(zhǔn),但文心一言被評為卓越檔,通義千問則落檔為良好。兩款模型在要點(diǎn)上都表現(xiàn)齊全,但亦有不足之處。其中通義千問出現(xiàn)段落不分明,邏輯層次模糊;文心一言則部分句式結(jié)構(gòu)相對復(fù)雜,不利于初中生理解。相比之下,文心一言的缺點(diǎn)顯得"不致命"。
而豆包也出現(xiàn)了同樣的問題,豆包生成的作文部分詞句超出初中生水平,如果做為范文,不具有普適性。雖然豆包得分8.5分,但同樣被評為了卓越檔,由此可見,得分的高低并不是被定檔的唯一因素。
7個大模型測試中,訊飛星火在英語寫作上拿到了滿分10分,兩位評委在點(diǎn)評中給予了高度評價,內(nèi)容完全覆蓋題目要求要點(diǎn),既寫出了對未來圖書館展望的設(shè)計(jì),又生動闡述了其重要的功能意義,細(xì)節(jié)豐富。無論是篇章結(jié)構(gòu),還是語言表達(dá)上,都恰到好處。
以下為各大模型生成的英語作文過程:
訊飛星火:
DeepSeek:
豆包:
通義千問:
文心一言:
GPT:
騰訊混元:
總結(jié):
這次"大模型中考"中,當(dāng)AI們在作文里講述"科學(xué)課"的故事,用英文以第一人稱寫出切實(shí)建議,在數(shù)學(xué)題中推導(dǎo)公式,我們看到的不僅是代碼與算法的進(jìn)化,更是人類對智慧邊界的不斷探索。
那些接近滿分的作文、嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)推導(dǎo),證明大模型早已不是簡單的文字搬運(yùn)工,它們正以驚人的速度學(xué)習(xí)、成長,成為我們生活中越來越可靠的數(shù)字伙伴。
也再一次說明,學(xué)生們也需要從死記硬背和機(jī)械刷題轉(zhuǎn)向主動理解、思考與探究,注重知識的融會貫通與靈活運(yùn)用,形成學(xué)科融合的學(xué)習(xí)思維。
但也別忘了,再精妙的算法也寫不出少年們在考場上的緊張心跳,再強(qiáng)大的模型也復(fù)制不了人類靈光乍現(xiàn)的獨(dú)特創(chuàng)意。大模型的"高分答卷",更像是遞給我們的一張邀請函,邀請我們重新思考學(xué)習(xí)的意義,在技術(shù)浪潮中守住獨(dú)立思考的鋒芒。
未來,人類與AI或許會像并肩作戰(zhàn)的隊(duì)友,用各自的優(yōu)勢,共同書寫出更精彩的答案。這場中考不是終點(diǎn),而是我們與智能時代攜手同行的新起點(diǎn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.