99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

七家主流大模型挑戰2025高考數學:DeepSeek、訊飛星火得分超140

0
分享至

2025年高考還在進行中,昨天已經考完了語文和數學,相信大家也在網上看到了很多關于這兩門學科試卷難度的討論,比如昨天數學考完后,關于“數學難不難”的話題瞬間爆上了熱搜。


當然,試卷的難度對于不同的同學來說可能會有不同的感受,不過作為科技編輯,小編比較感興趣的是,今年的數學試卷對于目前很火的AI來說難不難呢?

想到這,今天我們不妨就這次高考的數學卷來一次大模型之間的比拼,讓各家的大模型化身“高考學子”,完整地做一套高考數學卷,看看它們各自能拿多少分。

在模擬過程中,小編選擇了以下幾名具有代表性的大模型“考生”,分別是:

DeepSeek R1 0528

通義千問Qwen3-235B-A22B

訊飛星火X1-0420

豆包 Seed-Thingking-v1.5

文心X1 Turbo

騰訊混元Hunyuan T1 latest

GPT o3

另外需要說明的是,由于目前網絡流出的試題存在多個版本(回憶題),不完全一致,存在題目不完整的情況,IT之家通過多版本交叉驗證+老師解題驗證的方式進行評測,總分是150分。

同時IT之家還邀請了一位專業的評分老師來輔助我們對大模型的答案進行評分:

“汪鵬:十年高中數學一線教研專家,主導省級數學教學創新課題,精研命題策略與高分突破路徑。”

此外,因DeepSeek網頁版OCR轉寫不穩定,還有騰訊混元在高考時間段不能用拍圖識別的功能,針對類似情況,我們采用OCR轉寫后輸入答題。

由于考題較多,我們無法把所有題目的大模型答題流程和答案都一一呈現,所以這里我們僅挑選一些題目來說明。

話不多說,我們先來看題吧。

1、第1題

首先是比較簡單的選擇題第1題:


這道題比較容易,DeepSeek R1的回答如下:


然后是通義千問:


訊飛星火作答:


豆包也給出了正確答案:


文心一言的答案如下:


騰訊混元的回答:


GPT o3的答案:


對于選擇題第1題,各家大模型都給出了正確的答案,仔細看具體的解題流程可能不同,但不影響答案的正確性。

2、第5題

下面稍微上點難度,選擇題第5題是一道函數題:


DeepSeek :


通義千問:


訊飛星火:


豆包:


文心一言:


騰訊混元:


GPT o3:


這一道選擇題的正確答案是A,全部答對。

接下來我們看更難一點的題,選擇題第8題,這也是一道涉及到對數的函數題:


面對這道題,各家大模型給出的答案如下:

DeepSeek R1:


通義千問:


訊飛星火:


豆包大模型:


文心一言:


騰訊混元:


GPT o3:


這道題目的正確答案是B,豆包大模型和DeepSeek答錯了,其他的大模型均給出了正確的答案。

接下來我們來看解答題,解答題的評分不只看結果,還要看解題的過程,過程不對也會被扣分。這里我們以解答題的第16題來作為例子,這道題已經是解答題中偏中等難度的題目,涉及數列和函數相關的知識點。


我們先看DeepSeek R1,給出的結果沒有扣分項,可以得到滿分(15分):





通義千問的解答和最終答案也是正確的:





訊飛星火的回答,解題過程清晰明了,答案正確:



然后是豆包大模型的回答,同樣步驟和結果都沒什么問題:


文心一言第二個小題答案錯了,只能得到6分:





騰訊混元兩個小題的回答都存在問題,因此這道題只能得0分:




GPT o3的兩個回答解題過程都沒有問題,但是第二個小問的最后結果呈現表達上有點小瑕疵,得14分:



最后是難度更高,挑戰比較大的第18題,


面對這道題,訊飛星火X1、豆包大模型、DeepSeek R1、通義千問、騰訊元寶以及GPT o3的解題過程和答案都沒什么問題,拿到了17分滿分,而文心X1模型的答案存在錯誤,得分為10分。

Deepseek:






通義千問:



訊飛星火:


?豆包大模型:


文心一言:


騰訊混元:


GPT o3:



以上是這次七家大模型挑戰2025高考數學全國1卷的部分題目作答情況的舉例,下面我們再來看這次“考試”各位大模型“考生”的總體得分情況:


可以看到,在這次“考試”中,DeepSeek、訊飛星火兩家表現突出,是唯二突破140分的大模型,穩居國內大模型數學能力的第一梯隊,在考生中也達到了“尖子生”標準。其中,DeepSeek以143分的成績位列榜首,訊飛星火以141分緊隨其后,位居第二,GPT o3則以138分獲得第三名。

本次排名第一的DeepSeek R1模型,是在5月28日升級了最新版本,也是本次評測的模型里最“新”的一位考生,升級后的版本在思考推理、數學能力、響應速度等方面有了大幅提升,但其在實際應用中也暴露出了一些明顯短板。首先在實測中,我們發現DeepSeek 在OCR識別效果不理想,出現不少題目識別錯誤,為確保準確性,我們只能用其他AI將試卷圖片轉化為文本問題,再給到DeepSeek作答;其次,DeepSeek 模型版本較大,導致推理速度慢、資源消耗高,在實際的教學場景中可能面臨響應效率問題。

此外,在這次考試中僅以2分之差緊隨其后的訊飛星火,是在4月20日升級,版本較早,但在模型量級更小(70b)的情況下,其依然取得了141分的高分,并顯著超越了豆包等其他參與測評的國內大模型。尤其值得一提的是,訊飛星火X1是基于全國產算力平臺訓練出來的,可見他們背后的自主技術研發實力值得肯定,訊飛在教育領域長達20多年的資源積累,也體現在了訊飛星火在數學能力上的高效準確。

作為國產大模型的代表,豆包、通義千問等大模型分數緊跟GPT o3,基本上和國際頂尖的模型水平打了個平手。

此次國內外大模型參考“2025高考數學”,也是深度推理模型的一場大考,和去年相比,AI的數學能力有了非常明顯的提升。2025年將是AI應用落地的爆發期,如何讓AI更好的成為我們的幫手,拓展AI在教育領域深度應用的更多可能性,將推理模型的優勢與教學實際深度結合等等,或許就是我們用AI來作答高考試卷背后的用意和價值所在。

本文源自:IT之家

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上證指數剛剛突破3400關口

上證指數剛剛突破3400關口

每日經濟新聞
2025-06-11 09:45:12
臺灣網紅"館長"抵達上海 磁懸浮有靠背 廁所有門

臺灣網紅"館長"抵達上海 磁懸浮有靠背 廁所有門

看看新聞Knews
2025-06-11 14:04:57
70年代的漢字二次簡化,雖然失敗,但很多人的姓氏由此改變

70年代的漢字二次簡化,雖然失敗,但很多人的姓氏由此改變

阿器談史
2025-06-11 01:30:32
從做老鼠藥轉行造車,金魚汽車愣是給我CPU看燒了。

從做老鼠藥轉行造車,金魚汽車愣是給我CPU看燒了。

差評XPIN
2025-06-11 00:06:25
成本15賣1000!年銷30萬坑害全國,央視最新曝光,趕緊告訴家里人

成本15賣1000!年銷30萬坑害全國,央視最新曝光,趕緊告訴家里人

清游說娛
2025-06-10 15:48:57
保時捷女銷冠真容曝光!工作6年還生了娃,同事披露她賣車多原因

保時捷女銷冠真容曝光!工作6年還生了娃,同事披露她賣車多原因

寒士之言本尊
2025-06-05 22:08:25
視后內地大排檔被偷拍一細節惹婚變揣測,與男友人互動極高驚覺性

視后內地大排檔被偷拍一細節惹婚變揣測,與男友人互動極高驚覺性

粵睇先生
2025-06-11 15:20:31
科貝電臺記者:現在回想起來,C羅真是一個團隊型球員

科貝電臺記者:現在回想起來,C羅真是一個團隊型球員

雷速體育
2025-06-11 13:40:35
美媒發現不對勁,除了稀土外,中國手中還有一張王牌沒用

美媒發現不對勁,除了稀土外,中國手中還有一張王牌沒用

科技處長
2025-06-07 10:52:35
上海一保姆隱藏身份工作13年,業主發現她真正身份后,從30樓跳下去

上海一保姆隱藏身份工作13年,業主發現她真正身份后,從30樓跳下去

故事秘棧
2025-05-26 19:16:38
莎拉沒事了!18:5選票法院退回莎拉彈劾案,馬科斯的議員集體反水

莎拉沒事了!18:5選票法院退回莎拉彈劾案,馬科斯的議員集體反水

博覽歷史
2025-06-11 15:36:25
烏克蘭富家女嫁到河南農村,31歲的丈夫因病逝世,她立馬把3個兒子國籍全改了,公婆說:她是恩人!

烏克蘭富家女嫁到河南農村,31歲的丈夫因病逝世,她立馬把3個兒子國籍全改了,公婆說:她是恩人!

LULU生活家
2025-06-09 18:27:46
血型決定壽命長短?美國60萬人研究發現:A型血60歲前或更易中風

血型決定壽命長短?美國60萬人研究發現:A型血60歲前或更易中風

資說
2025-06-05 14:06:05
特朗普發動史上最兇戰爭!比關稅戰狠辣得多的終極對決來了

特朗普發動史上最兇戰爭!比關稅戰狠辣得多的終極對決來了

貓眼觀史
2025-06-10 15:06:30
凈作妖!高考本嚴肅,一些家長整得另類被怒斥,把褲子脫了都沒用

凈作妖!高考本嚴肅,一些家長整得另類被怒斥,把褲子脫了都沒用

火山詩話
2025-06-08 17:04:58
還等得起嗎?塞爾吉尼奧歸化后僅上3場&0球0助,4年后將34歲

還等得起嗎?塞爾吉尼奧歸化后僅上3場&0球0助,4年后將34歲

直播吧
2025-06-10 21:15:09
外媒:世界羽聯主席邀請印尼主辦2027年蘇杯、2028年湯尤杯

外媒:世界羽聯主席邀請印尼主辦2027年蘇杯、2028年湯尤杯

懂球帝
2025-06-11 14:12:41
足協副主席去年介紹選帥情況:專家反復考察,最終意見一致選伊萬

足協副主席去年介紹選帥情況:專家反復考察,最終意見一致選伊萬

直播吧
2025-06-10 22:07:21
淚目!福建一老人手提排骨看望老友敘舊,卻不知老友早已不在人世

淚目!福建一老人手提排骨看望老友敘舊,卻不知老友早已不在人世

二月侃事
2025-06-11 11:10:58
“把我葬在美國,不要回中國”,李詠去世后,留下上億遺產,沒給父母,也沒給妻子...

“把我葬在美國,不要回中國”,李詠去世后,留下上億遺產,沒給父母,也沒給妻子...

LULU生活家
2025-06-10 18:34:50
2025-06-11 16:32:49
金融界 incentive-icons
金融界
投資者信賴的財經金融門戶網站
6881223文章數 544156關注度
往期回顧 全部

教育要聞

教育部:2024年全國共招收研究生135.68萬人

頭條要聞

英國科學家獲得月壤"欣喜若狂":中國的舉動了不起

頭條要聞

英國科學家獲得月壤"欣喜若狂":中國的舉動了不起

體育要聞

一位中國老板,復興了歐洲百年俱樂部

娛樂要聞

唐嫣卷入熱巴換角風波 楊冪也被牽連?

財經要聞

52TOYS難以成為下一個泡泡瑪特

科技要聞

馬斯克罕見"服軟"!為攻擊特朗普的言論后悔

汽車要聞

5萬級5座純電微型車 奇瑞QQ多米正式上市

態度原創

本地
游戲
教育
數碼
軍事航空

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

曝《生化9》擁有兩種視角:第一和第三人稱自由切換

教育要聞

今天來一道復數

數碼要聞

多款RTX 5050筆記本集體現身!2560個CUDA核心、顯存恐生變

軍事要聞

加州請求阻止特朗普政府派兵被駁回

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 项城市| 惠水县| 临夏市| 镇安县| 宾阳县| 洪湖市| 东光县| 贡山| 太康县| 托里县| 阜宁县| 噶尔县| 长兴县| 新化县| 洛川县| 教育| 尚义县| 农安县| 湖北省| 精河县| 容城县| 崇义县| 黄梅县| 雅安市| 凤庆县| 莆田市| 涟水县| 沙湾县| 五家渠市| 青田县| 黄山市| 兴安盟| 涿鹿县| 格尔木市| 平安县| 龙陵县| 驻马店市| 安徽省| 蒙山县| 宿迁市| 中宁县|