99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

七家大模型挑戰 2025 高考數學:DeepSeek、訊飛星火得分超140

0
分享至

2025 年高考還在進行中,昨天已經考完了語文和數學,相信大家也在網上看到了很多關于這兩門學科試卷難度的討論,比如昨天數學考完后,關于“數學難不難”的話題瞬間爆上了熱搜。



當然,試卷的難度對于不同的同學來說可能會有不同的感受,不過作為科技編輯,小編比較感興趣的是,今年的數學試卷對于目前很火的 AI 來說難不難呢?

想到這,今天我們不妨就這次高考的數學卷來一次大模型之間的比拼,讓各家的大模型化身“高考學子”,完整地做一套高考數學卷,看看它們各自能拿多少分。

在模擬過程中,小編選擇了以下幾名具有代表性的大模型“考生”,分別是:

  • ?DeepSeek R1 0528
  • ?通義千問 Qwen3-235B-A22B
  • ?訊飛星火 X1-0420
  • ?豆包 Seed-Thingking-v1.5
  • ?文心 X1 Turbo
  • ?騰訊混元 Hunyuan T1 latest
  • ?GPT o3

另外需要說明的是,由于目前網絡流出的試題存在多個版本(回憶題),不完全一致,存在題目不完整的情況,IT之家通過多版本交叉驗證 + 老師解題驗證的方式進行評測,總分是 150 分。

同時IT之家還邀請了一位專業的評分老師來輔助我們對大模型的答案進行評分:

汪鵬:十年高中數學一線教研專家,主導省級數學教學創新課題,精研命題策略與高分突破路徑。

此外,因 DeepSeek 網頁版 OCR 轉寫不穩定,還有騰訊混元在高考時間段不能用拍圖識別的功能,針對類似情況,我們采用 OCR 轉寫后輸入答題。

由于考題較多,我們無法把所有題目的大模型答題流程和答案都一一呈現,所以這里我們僅挑選一些題目來說明。

話不多說,我們先來看題吧。

1、第 1 題

首先是比較簡單的選擇題第 1 題:



這道題比較容易,DeepSeek R1 的回答如下:



然后是通義千問:



訊飛星火作答:



豆包也給出了正確答案:



文心一言的答案如下:



騰訊混元的回答:



GPT o3 的答案:



對于選擇題第 1 題,各家大模型都給出了正確的答案,仔細看具體的解題流程可能不同,但不影響答案的正確性。

2、第 5 題

下面稍微上點難度,選擇題第 5 題是一道函數題:



各家大模型的答案和截圖過程如下:

DeepSeek :



通義千問:



訊飛星火:



豆包:



文心一言:



騰訊混元:



GPT o3:



這一道選擇題的正確答案是 A,全部答對。

3、第 8 題

接下來我們看更難一點的題,選擇題第 8 題,這也是一道涉及到對數的函數題:



面對這道題,各家大模型給出的答案如下:

DeepSeek R1:



通義千問:



訊飛星火:



豆包大模型:



文心一言:



騰訊混元:



GPT o3:



這道題目的正確答案是 B,豆包大模型和 DeepSeek 答錯了,其他的大模型均給出了正確的答案。

4、第 16 題

接下來我們來看解答題,解答題的評分不只看結果,還要看解題的過程,過程不對也會被扣分。這里我們以解答題的第 16 題來作為例子,這道題已經是解答題中偏中等難度的題目,涉及數列和函數相關的知識點。



我們先看 DeepSeek R1,給出的結果沒有扣分項,可以得到滿分(15 分):









通義千問的解答和最終答案也是正確的:









訊飛星火的回答,解題過程清晰明了,答案正確:





然后是豆包大模型的回答,同樣步驟和結果都沒什么問題:



文心一言第二個小題答案錯了,只能得到 6 分:









GPT o3 的兩個回答解題過程都沒有問題,但是第二個小問的最后結果呈現表達上有點小瑕疵,得 14 分:





5、第 18 題

最后是難度更高,挑戰比較大的第 18 題,



面對這道題,訊飛星火 X1、豆包大模型、DeepSeek R1、通義千問、騰訊元寶以及 GPT o3 的解題過程和答案都沒什么問題,拿到了 17 分滿分,而文心 X1 模型的答案存在錯誤,得分為 10 分。

Deepseek:











通義千問:





訊飛星火:



豆包大模型:



文心一言:



騰訊混元:



GPT o3:





以上是這次七家大模型挑戰 2025 高考數學全國 1 卷的部分題目作答情況的舉例。

可以看到,在這次“考試”中,DeepSeek、訊飛星火兩家表現突出,是唯二突破 140 分的大模型,穩居國內大模型數學能力的第一梯隊,在考生中也達到了“尖子生”標準。其中,DeepSeek 以 143 分的成績位列榜首,訊飛星火以 141 分緊隨其后,位居第二,GPT o3 則以 138 分獲得第三名。

本次排名第一的 DeepSeek R1 模型,是在 5 月 28 日升級了最新版本,也是本次評測的模型里最“新”的一位考生,升級后的版本在思考推理、數學能力、響應速度等方面有了大幅提升,但其在實際應用中也暴露出了一些明顯短板。首先在實測中,我們發現 DeepSeek 在 OCR 識別效果不理想,出現不少題目識別錯誤,為確保準確性,我們只能用其他 AI 將試卷圖片轉化為文本問題,再給到 DeepSeek 作答;其次,DeepSeek 模型版本較大,導致推理速度慢、資源消耗高,在實際的教學場景中可能面臨響應效率問題。

此外,在這次考試中僅以 2 分之差緊隨其后的訊飛星火,是在 4 月 20 日升級,版本較早,但在模型量級更?。?0b)的情況下,其依然取得了 141 分的高分,并顯著超越了豆包等其他參與測評的國內大模型。尤其值得一提的是,訊飛星火 X1 是基于全國產算力平臺訓練出來的,可見他們背后的自主技術研發實力值得肯定,訊飛在教育領域長達 20 多年的資源積累,也體現在了訊飛星火在數學能力上的高效準確。

作為國產大模型的代表,豆包、通義千問、元寶等大模型分數緊跟 GPT o3,基本上和國際頂尖的模型水平打了個平手。

此次國內外大模型參考“2025 高考數學”,也是深度推理模型的一場大考,和去年相比,AI 的數學能力有了非常明顯的提升。2025 年將是 AI 應用落地的爆發期,如何讓 AI 更好的成為我們的幫手,拓展 AI 在教育領域深度應用的更多可能性,將推理模型的優勢與教學實際深度結合等等,或許就是我們用 AI 來作答高考試卷背后的用意和價值所在。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
注意,2025年6月起,中國或將迎來5大降價潮,這些東西要降價了

注意,2025年6月起,中國或將迎來5大降價潮,這些東西要降價了

美家指南
2025-05-16 10:48:38
“她真的很絕望”,高中女孩因腸易激被排擠選擇跳下,家長發文

“她真的很絕望”,高中女孩因腸易激被排擠選擇跳下,家長發文

熙熙說教
2025-06-09 21:16:25
我方專家警告:若中美開戰,只需一天,全球就會知道美國真實水平

我方專家警告:若中美開戰,只需一天,全球就會知道美國真實水平

夏目歷史君
2025-06-12 20:51:27
李嘉誠說:“只有窮人,才會癡迷技術,只有笨人,才會先把事做好

李嘉誠說:“只有窮人,才會癡迷技術,只有笨人,才會先把事做好

伊人河畔
2025-06-08 11:05:34
“平民球隊”的世紀謊言:2004年活塞五虎的真實階級

“平民球隊”的世紀謊言:2004年活塞五虎的真實階級

kio魚
2025-06-14 12:02:15
步行者替補鋒線大將大殺四方拿下高分,他能保持這樣的狀態嗎?

步行者替補鋒線大將大殺四方拿下高分,他能保持這樣的狀態嗎?

稻谷與小麥
2025-06-15 02:05:03
脾胃虛弱不能一股腦只想著健脾,盲目吃健脾芄就是在雪上加霜!

脾胃虛弱不能一股腦只想著健脾,盲目吃健脾芄就是在雪上加霜!

墜入二次元的海洋
2025-06-15 04:06:20
為何中國不接收難民,連華裔也不行?不是太冷酷,是吃過歷史教訓

為何中國不接收難民,連華裔也不行?不是太冷酷,是吃過歷史教訓

扶蘇聊歷史
2025-05-17 15:06:20
蘭州市一地突發塌陷天然氣管道受損 周邊群眾已疏散

蘭州市一地突發塌陷天然氣管道受損 周邊群眾已疏散

新京報
2025-06-14 18:54:31
42歲陳妍希離婚后現身重慶:她穿超短裙,肌膚白得發光,像小姑娘

42歲陳妍希離婚后現身重慶:她穿超短裙,肌膚白得發光,像小姑娘

逍遙史記
2025-05-26 09:48:07
以色列的強大,超乎你的想象,說他是第二個美國也差不多

以色列的強大,超乎你的想象,說他是第二個美國也差不多

晨晨星
2025-04-28 09:15:23
西行新記(一):長安

西行新記(一):長安

平原公子
2025-06-14 11:38:20
中方譴責聲明剛落地,伊朗第4波攻擊就到位了,美軍終于坐不住了

中方譴責聲明剛落地,伊朗第4波攻擊就到位了,美軍終于坐不住了

掌青說歷史
2025-06-14 16:09:23
iOS 26 突然更新,建議所有 iPhone 16 用戶都升級!

iOS 26 突然更新,建議所有 iPhone 16 用戶都升級!

劉奔跑
2025-06-14 23:02:19
陳夢街上買菜被偶遇,沒有網上傳的那么好看,但皮膚白皙氣質出眾

陳夢街上買菜被偶遇,沒有網上傳的那么好看,但皮膚白皙氣質出眾

動物奇奇怪怪
2025-06-14 10:10:29
任正非的講話,讓美國十分驚慌,幾乎一幀一幀分析,令其絕望!

任正非的講話,讓美國十分驚慌,幾乎一幀一幀分析,令其絕望!

Thurman在昆明
2025-06-15 04:25:32
梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

界史
2025-06-14 10:07:54
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
6月14日上海養老金調整新動向,2025年怎么漲?晚年生活添保障!

6月14日上海養老金調整新動向,2025年怎么漲?晚年生活添保障!

山藥蛋TV
2025-06-14 09:48:36
舅媽出軌被外甥意外撞破,外甥答應隱瞞,提出的條件卻讓她......

舅媽出軌被外甥意外撞破,外甥答應隱瞞,提出的條件卻讓她......

歷史八卦社
2025-06-10 23:45:11
2025-06-15 05:31:00
IT之家
IT之家
愛科技,愛這里 - 前沿科技人氣平臺
291084文章數 606296關注度
往期回顧 全部

教育要聞

老師深夜邀約之謎:老師在群里要求四位家長,帶著撲克晚九點到校

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
手機
親子
數碼
公開課

家居要聞

森林幾何 極簡灰調原木風

手機要聞

三星Galaxy Z Fold7渲染圖曝光:很輕薄、相機明顯凸起

親子要聞

沒有禮物的父親節,我就自己來!

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 衡东县| 连州市| 诸暨市| 宜阳县| 威海市| 白沙| 红安县| 湟源县| 虹口区| 柘城县| 茂名市| 水富县| 昭觉县| 黄龙县| 军事| 浮山县| 开鲁县| 汉阴县| 桃园县| 马公市| 甘南县| 海宁市| 桦甸市| 敖汉旗| 高陵县| 从江县| 贵定县| 沅江市| 朝阳市| 阳高县| 乌苏市| 开阳县| 新田县| 康平县| 博客| 泾川县| 万安县| 凤城市| 靖远县| 革吉县| 望城县|