99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

我們用難哭考生的2025北京中考 測了7款大模型的真實(shí)水平

0
分享至

引言:2025北京中考落下帷幕,11.05萬名考生順利完考。

這是北京新一輪中考改革的首次落地,考試時間從往年的三天壓縮至了兩天。最大的變化有兩個,一是總分值由670分降至510分,二是道德與法治采取開卷考試形式。

總分降低意味著每一分的價值更高,高分段競爭可能更激烈。同時,各學(xué)科命題會更注重考查學(xué)生的核心素養(yǎng)和關(guān)鍵能力。

比如數(shù)學(xué)降低了簡單題的占比,題型創(chuàng)新性強(qiáng)(如新函數(shù)、圓綜題難度大),區(qū)分度提升。語文的試題則特別體現(xiàn)了考生對語言文字基本功、基本的感受能力的考查,引導(dǎo)學(xué)生在情境當(dāng)中去思考如何去運(yùn)用語言文字來解決問題。

從考生網(wǎng)友的反饋來看,三個字,難哭了。

以今年的語文作文為例,兩道題目二選一,作文一聚焦科學(xué)與健康方向——《這樣生活更健康》,作文二則強(qiáng)調(diào)科學(xué)素養(yǎng)與生活實(shí)踐——《一堂科學(xué)課》,題目看著簡單,但想寫出彩并不容易,也難怪有考生直呼:"這題我熟,但寫起來太難了!"

看到這兒,相信很多人和我一樣有一個疑問,如果把當(dāng)下各種主流AI大模型當(dāng)作中考考生,它們到底能答出怎樣一份答卷?

我們更好奇的是,作為檢驗(yàn)初中學(xué)業(yè)水平的標(biāo)尺,以當(dāng)下大模型的水準(zhǔn),是否是傳說中的學(xué)霸尖子生呢。

【7款大模型實(shí)戰(zhàn)2025北京中考,這才是它們的真實(shí)水平】

先介紹一下這次大模型中考的參賽選手和測試方法。

考題:

2025北京中考,語文作文(題目二)、英語作文(題目二)、數(shù)學(xué)全卷。

考生名單:

DeepSeek、字節(jié)豆包、訊飛星火、通義千問、騰訊混元、文心一言、GPT。

選擇這7位,基本都是大家最常用到的大模型,過于小眾的、沒有代表性的,不在此次考察范圍內(nèi)。

測試方法:

為了確保公平,所有參與測試大模型考生統(tǒng)一關(guān)閉聯(lián)網(wǎng)功能,打開深度推理。

語文作文、英語作文以文本形式提問。其中,語文作文評分特邀前人大附中分校語文名師、中考命題高級研究員李豪,以及中考語文資深教研專家、曾參與多所重點(diǎn)中學(xué)語文備考方案制定的重點(diǎn)校特邀講師金宇佳參與評分,由這兩位資深語文教育專家分別進(jìn)行打分,取兩位老師的平均分作為最終評分的形式進(jìn)行實(shí)測。

英語作文評分特邀原咸寧市中考命題專家兼英語學(xué)科命題組長張揚(yáng),以及10年以上英語教研工作經(jīng)驗(yàn)、多次擔(dān)任北京中考英語閱卷人的石楊兩位專家打分,同樣取平均分。

數(shù)學(xué)題目提問采用圖片掃描和LaTeX格式兩種評判方式。判分與人類考生統(tǒng)一標(biāo)準(zhǔn):選擇題和填空題只看最終結(jié)果,不考慮模型解題過程是否準(zhǔn)確;解答題分兩種情況,普通解答題采用的是結(jié)果分,證明題則是按步驟給分。

我們先來看看這七款大模型,三科測試的最終結(jié)果:


這里說明一下,語文作文和英語作文,我們都選擇題目二來進(jìn)行考試。


2025年北京中考語文作文的分?jǐn)?shù)為40分。考生需要在兩個題目中選擇一個,要求作文內(nèi)容積極向上,字?jǐn)?shù)在600-800之間。

語文作文第二道是《一堂科學(xué)課》,首先大模型跟這個選題更相關(guān),相較第一個生活類話題《這樣生活更健康》,更加考驗(yàn)大模型的思辨能力,跟容易考出區(qū)分度。


2025年北京中考英語作文的分?jǐn)?shù)為10分。考生需要在兩個題目中選擇一個,完成一篇不少于50詞的英語文段寫作

英語作文題目一有圖表,這就需要考察OCR能力,但各家大模型的OCR有自研的,也有第三方的,無法統(tǒng)一標(biāo)準(zhǔn),會對結(jié)果有影響。所以統(tǒng)一選擇沒有圖表的題目二來進(jìn)行作答。

數(shù)學(xué)試卷因?yàn)樯婕暗揭恍┕阶R別,特別是多行的,以及圖形等,這就很考驗(yàn)大模型的文檔信息分析識別與提取,所以此次采用兩種方式進(jìn)行測試,一種是直接用圖片掃描,另一種是用LaTeX格式。

接下來我們仔細(xì)看看單科的成績:

一、數(shù)學(xué):


小結(jié):從數(shù)學(xué)成績來看,以圖片格式掃描數(shù)學(xué)試卷,一題一題來測試,訊飛星火、豆包、GPT三款大模型的分?jǐn)?shù)排名前三,都在85分以上,而通義千問、文心一言、Deepseek三款大模型排名靠后,分別為73分、68分、63分。能拿到這個成績并不簡單,此前考生們普遍反映這屆數(shù)學(xué)"文字量太大了根本就寫不完"。

值得注意的是,在圖片格式下,寄予厚望的Deepeek直接就宣布"出局"了,因它存在圖片識別問題,無法正確識別出數(shù)學(xué)算式,所以導(dǎo)致得分最低。

在解答選擇、填空兩種客觀題方面,除了Deepeek填空題得10分外,各家大模型的差別都不大,得分區(qū)間在14-16分。其中訊飛星火X1兩項(xiàng)都拿下滿分,而得分較低的通義千問、文心一言在填空方面卻很擅長,也拿下滿分。

不過,拉開幾款大模型分?jǐn)?shù)的主要是解答題這類主觀題。

測試結(jié)果顯示,滿分68分的解答題,Deepseek僅拿下39分,而豆包得分59分,足足20分的差距。

在整式運(yùn)算、解不等式組、分式化簡求值、方程應(yīng)用和函數(shù)問題方面,各家大模型都表現(xiàn)良好,得分率較高。

而在涉及圖片信息理解的幾何證明與計(jì)算、統(tǒng)計(jì)圖表、函數(shù)圖象問題上,各家大模型均出現(xiàn)丟分情況。這是因?yàn)榇竽P驮谔幚韴D像題時,常因無法準(zhǔn)確識別圖形元素或理解題目中的視覺暗示,例如,涉及幾何證明、動態(tài)變化等需要空間想象能力的題目,大模型的表現(xiàn)尤為掙扎。





在LaTeX格式下,除GPT外,其他幾款大模型的分?jǐn)?shù)差距不大,得分在78分-89分之間。從整體排名看,訊飛星火、Deepseek、騰訊混元排名前三,文心一言、GPT排名靠后。

值得一提的是,我們此次測試采用的是GPT-o3版本,該模型在LaTeX格式下圖片缺失,所給答案錯誤或無結(jié)果,導(dǎo)致得分較低,而附帶試題圖片和LaTeX格式則會輸出英文解題流程,答案仍不正確,整體分值明顯下降,從86分降為63分。

而Deepseek在LaTeX格式輸入下能正確理解數(shù)學(xué)算式,整體分值顯著提升,分?jǐn)?shù)從63分變?yōu)?4分。

其余5款大模型無論采用圖片格式,還是LaTeX格式,客觀題和主觀題作答情況和丟分點(diǎn)基本保持一致,這也是各家大模型今后要關(guān)注的優(yōu)化重點(diǎn)。

二、語文作文:


小結(jié):從語文作文最終成績來看,7個主流大模型考生的最低分也有32.5分,最高分甚至來到了37.5分,換算成百分制的話在81-94分之間,平均分接近86分,表現(xiàn)相當(dāng)不錯。從7位考生的解題思路與最終成文也能看出,當(dāng)下AI大模型已具備非常強(qiáng)的"成品"交付能力,面對明確的寫作指令,各平臺均能精準(zhǔn)把握需求,輸出邏輯自洽、主題聚焦的內(nèi)容,有效規(guī)避了偏題跑題等基礎(chǔ)失誤。同時,能融入模擬人類思考的個性化觀點(diǎn),降低了AI 生成內(nèi)容的機(jī)械感。

當(dāng)然,在細(xì)節(jié)雕琢與文本質(zhì)感層面,各模型的差異性逐漸顯現(xiàn)。

以 GPT為代表的海外模型,盡管擁有強(qiáng)大的語言處理能力,但在中文語境適配性上仍有提升空間,雖然作文主題明確,結(jié)構(gòu)完整,語言流暢,但依然存在立意較淺、內(nèi)容有點(diǎn)脫離實(shí)際、真情實(shí)感不足、部分段落重復(fù)拖沓等問題。

騰訊混元、文心一言、通義千問都能符合題意,中心明確,緊扣"科學(xué)課"主題,但均存在情感表達(dá)流于表面、個別比喻不夠精準(zhǔn)、敘述顯得空泛,真情實(shí)感不足、部分段落重復(fù)拖沓、敘述不夠完整等待改善的問題,在文章立意上還有待拔高,屬于二類卷考生的中上表現(xiàn)。

相較之下,豆包、DeepSeek展現(xiàn)出更出色的創(chuàng)作實(shí)力,均達(dá)到了一類卷的水準(zhǔn),但距離爐火純青還稍差火候。拿到最高37.5分的訊飛星火,則憑借深刻獨(dú)到的立意、流暢生動的語言脫穎而出,在本次評測中摘得桂冠。兩位專家在點(diǎn)評中給予了高度評價——科學(xué)觀察與情感升華渾然天成,立意高度與現(xiàn)場感尤為突出,堪稱一類卷上乘之作。

以下為各大模型生成的語文作文過程:

訊飛星火:


DeepSeek:


豆包:


通義千問:


文心一言:


GPT:


騰訊混元:


三、英語作文:


小結(jié):英語作文最終成績顯示,7個主流大模型考生中最低分為7分,最高分甚至拿到滿分10分,若換算為百分制,分?jǐn)?shù)區(qū)間在70-100分,平均分超過84分,雖表現(xiàn)十分亮眼,但平均分稍遜于語文,可見絕大多數(shù)的國產(chǎn)大模型還是更擅長中文寫作。

此外,7-10分的落差也能看出成績差異很大,貌似有大模型考生出現(xiàn)了"偏科"。

其中騰訊混元生成的作文被定義為良好級別,其結(jié)構(gòu)完整,語言表意準(zhǔn)確,但內(nèi)容沒有獨(dú)特的細(xì)節(jié),缺乏更復(fù)雜的句式、高級詞匯,給人稍顯單一的感覺。若篇章銜接和語言表達(dá)更多樣化、更高級化,有望向卓越級別靠攏。

令人意外的是,來自海外的GPT并未因"母語"優(yōu)勢取得亮眼的成績,在該測試中它僅拿到7.5分。雖然作文覆蓋全部要點(diǎn),邏輯清晰也清晰,但"論證較簡單",每個點(diǎn)并未展開更深入的說明;同時句式以簡單句為主,缺乏主從復(fù)合句和特殊句式。

此外,今年大火的DeepSeek雖有地道表達(dá)和亮點(diǎn),但闡述理由時出現(xiàn)"硬傷"部分沒有和設(shè)想部分完全閉環(huán),邏輯不夠緊密。

作為對比,通義千問、文心一言在英語寫作中都拿到了9分的高水準(zhǔn),但文心一言被評為卓越檔,通義千問則落檔為良好。兩款模型在要點(diǎn)上都表現(xiàn)齊全,但亦有不足之處。其中通義千問出現(xiàn)段落不分明,邏輯層次模糊;文心一言則部分句式結(jié)構(gòu)相對復(fù)雜,不利于初中生理解。相比之下,文心一言的缺點(diǎn)顯得"不致命"。

而豆包也出現(xiàn)了同樣的問題,豆包生成的作文部分詞句超出初中生水平,如果做為范文,不具有普適性。雖然豆包得分8.5分,但同樣被評為了卓越檔,由此可見,得分的高低并不是被定檔的唯一因素。

7個大模型測試中,訊飛星火在英語寫作上拿到了滿分10分,兩位評委在點(diǎn)評中給予了高度評價,內(nèi)容完全覆蓋題目要求要點(diǎn),既寫出了對未來圖書館展望的設(shè)計(jì),又生動闡述了其重要的功能意義,細(xì)節(jié)豐富。無論是篇章結(jié)構(gòu),還是語言表達(dá)上,都恰到好處。

以下為各大模型生成的英語作文過程:

訊飛星火:


DeepSeek:


豆包:


通義千問:


文心一言:


GPT:


騰訊混元:


總結(jié):

這次"大模型中考"中,當(dāng)AI們在作文里講述"科學(xué)課"的故事,用英文以第一人稱寫出切實(shí)建議,在數(shù)學(xué)題中推導(dǎo)公式,我們看到的不僅是代碼與算法的進(jìn)化,更是人類對智慧邊界的不斷探索。

那些接近滿分的作文、嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)推導(dǎo),證明大模型早已不是簡單的文字搬運(yùn)工,它們正以驚人的速度學(xué)習(xí)、成長,成為我們生活中越來越可靠的數(shù)字伙伴。

也再一次說明,學(xué)生們也需要從死記硬背和機(jī)械刷題轉(zhuǎn)向主動理解、思考與探究,注重知識的融會貫通與靈活運(yùn)用,形成學(xué)科融合的學(xué)習(xí)思維。

但也別忘了,再精妙的算法也寫不出少年們在考場上的緊張心跳,再強(qiáng)大的模型也復(fù)制不了人類靈光乍現(xiàn)的獨(dú)特創(chuàng)意。大模型的"高分答卷",更像是遞給我們的一張邀請函,邀請我們重新思考學(xué)習(xí)的意義,在技術(shù)浪潮中守住獨(dú)立思考的鋒芒。

未來,人類與AI或許會像并肩作戰(zhàn)的隊(duì)友,用各自的優(yōu)勢,共同書寫出更精彩的答案。這場中考不是終點(diǎn),而是我們與智能時代攜手同行的新起點(diǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
十大元帥與毛主席的關(guān)系親疏,分為三檔,誰在前,誰在后?

十大元帥與毛主席的關(guān)系親疏,分為三檔,誰在前,誰在后?

諾言卿史錄
2025-07-04 09:15:10
騰訊怒噴華為鴻蒙系統(tǒng)不穩(wěn)定,微信適配堪比重做!

騰訊怒噴華為鴻蒙系統(tǒng)不穩(wěn)定,微信適配堪比重做!

熱點(diǎn)科技
2025-07-03 18:20:36
郭凱敏:與張芝華相伴6年離了婚,轉(zhuǎn)身娶尤勇前妻,他想追求啥?

郭凱敏:與張芝華相伴6年離了婚,轉(zhuǎn)身娶尤勇前妻,他想追求啥?

置身事內(nèi)
2025-06-27 18:14:33
特朗普降服越南:要把中國從全世界供應(yīng)鏈擠出去!刺刀見紅提前!

特朗普降服越南:要把中國從全世界供應(yīng)鏈擠出去!刺刀見紅提前!

愛下廚的阿釃
2025-07-05 14:45:52
兩性關(guān)系:女人多大歲數(shù),就不想男人了,過來人告訴你答案!

兩性關(guān)系:女人多大歲數(shù),就不想男人了,過來人告訴你答案!

小英英情感
2025-07-04 21:55:11
中方邀請李在明參加閱兵,韓外交部回10個字,中韓關(guān)系迎重大考驗(yàn)

中方邀請李在明參加閱兵,韓外交部回10個字,中韓關(guān)系迎重大考驗(yàn)

小笛科技
2025-07-05 16:33:30
中方反制來了!30國收加稅通知,歐盟求饒,特朗普:幸好沒有美國

中方反制來了!30國收加稅通知,歐盟求饒,特朗普:幸好沒有美國

戰(zhàn)旗紅
2025-07-05 23:51:06
新郎接親被堵在門外2小時,給錢也不讓進(jìn),他的舉動讓女方懵了

新郎接親被堵在門外2小時,給錢也不讓進(jìn),他的舉動讓女方懵了

櫻桃講堂
2025-06-26 15:25:28
B-2橫穿中國10省轟炸伊朗,中方雷達(dá)沒發(fā)現(xiàn)?美國這回說了實(shí)話

B-2橫穿中國10省轟炸伊朗,中方雷達(dá)沒發(fā)現(xiàn)?美國這回說了實(shí)話

來科點(diǎn)譜
2025-07-03 16:10:21
8歲女童長江溺亡反轉(zhuǎn)!家人被曝說謊,鄰居救人反被訛,真相曝光

8歲女童長江溺亡反轉(zhuǎn)!家人被曝說謊,鄰居救人反被訛,真相曝光

南南說娛
2025-07-05 10:52:58
南京軍區(qū)司令部被紅衛(wèi)兵包圍,許世友:誰敢沖,來一個斃一個!

南京軍區(qū)司令部被紅衛(wèi)兵包圍,許世友:誰敢沖,來一個斃一個!

燕小姐說歷史
2024-06-28 08:44:08
為了把張格爾押到京師凌遲,道光花了多少代價?四個字:不計(jì)成本

為了把張格爾押到京師凌遲,道光花了多少代價?四個字:不計(jì)成本

丁丁鯉史紀(jì)
2025-07-03 16:11:57
王自如離開格力真相曝光,將他和孟羽童放一起,原來董明珠沒說謊

王自如離開格力真相曝光,將他和孟羽童放一起,原來董明珠沒說謊

傲傲講歷史
2025-06-10 17:40:18
黃霑的歌詞,寫得有多好

黃霑的歌詞,寫得有多好

張佳瑋寫字的地方
2025-07-04 17:02:24
當(dāng)年揭露“三鹿奶粉”的上海記者,4年后辭職,17年后變成了這樣

當(dāng)年揭露“三鹿奶粉”的上海記者,4年后辭職,17年后變成了這樣

清風(fēng)游史
2025-02-14 13:57:07
亨森:字母哥不會干涉管理層決定 除了有次否決米德爾頓換巴特勒

亨森:字母哥不會干涉管理層決定 除了有次否決米德爾頓換巴特勒

直播吧
2025-07-05 18:55:35
星光大道11位歌手現(xiàn)狀:離婚、住橋洞、鋃鐺入獄,沒一個值得同情

星光大道11位歌手現(xiàn)狀:離婚、住橋洞、鋃鐺入獄,沒一個值得同情

小米亞的故事
2025-01-24 14:45:31
三人同日被查,其中一人主動投案!安徽最新反腐通報

三人同日被查,其中一人主動投案!安徽最新反腐通報

鳳凰網(wǎng)安徽
2025-07-05 18:27:03
羅體:若塔意外離世之后,那不勒斯決定暫停與利物浦談判努涅斯

羅體:若塔意外離世之后,那不勒斯決定暫停與利物浦談判努涅斯

雷速體育
2025-07-05 23:06:33
火箭成休賽期最大贏家,簽杜蘭特只是開始,還有聯(lián)盟第一中鋒輪換

火箭成休賽期最大贏家,簽杜蘭特只是開始,還有聯(lián)盟第一中鋒輪換

奕辰說球
2025-07-05 22:36:22
2025-07-06 00:47:00
快科技 incentive-icons
快科技
一起關(guān)注每日科技熱點(diǎn)
97680文章數(shù) 259671關(guān)注度
往期回顧 全部

教育要聞

巨好用!發(fā)現(xiàn)無紙化刷題學(xué)英語絕了…

頭條要聞

外媒:對以襲擊感到憤怒和警惕 沙特將與伊朗保持和解

頭條要聞

外媒:對以襲擊感到憤怒和警惕 沙特將與伊朗保持和解

體育要聞

史上最真實(shí)的F1電影,是怎么拍出來的?

娛樂要聞

汪小菲帶娃出游 馬筱梅小玥兒感情超好

財經(jīng)要聞

特朗普簽署 美國萬億減稅支出法來了

科技要聞

盤古團(tuán)隊(duì)回應(yīng)抄襲事件:嚴(yán)格遵循開源要求

汽車要聞

31.6萬元起售 蔚來新ET5/ET5T/EC6冠軍紀(jì)念版上市

態(tài)度原創(chuàng)

數(shù)碼
家居
時尚
本地
軍事航空

數(shù)碼要聞

同德推出更薄 RTX 5070 (Ti) GamingPro-S 顯卡,RGB 燈僅限正面

家居要聞

合理布局 三口之家的溫馨空間

超適合夏天穿的20條褲子!涼快透氣!賊顯瘦

本地新聞

建筑地標(biāo)如何成為城市人才匯聚的 “強(qiáng)磁場”?

軍事要聞

以方收到哈馬斯對停火提案回應(yīng) 或在多哈間接談判

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 建宁县| 泸西县| 武宣县| 南通市| 和田市| 阜阳市| 衡南县| 锡林郭勒盟| 揭东县| 金寨县| 阿坝| 东兰县| 高要市| 清水县| 梨树县| 伊川县| 凤翔县| 潜江市| 股票| 南通市| 吉水县| 安庆市| 肥乡县| 杂多县| 古丈县| 西乌| 牡丹江市| 海淀区| 溧阳市| 读书| 图们市| 闵行区| 定州市| 安宁市| 陇西县| 白玉县| 东阳市| 葵青区| 五家渠市| 宝山区| 慈利县|