99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

七家大模型挑戰 2025 高考數學:DeepSeek、訊飛星火得分超140

0
分享至

2025 年高考還在進行中,昨天已經考完了語文和數學,相信大家也在網上看到了很多關于這兩門學科試卷難度的討論,比如昨天數學考完后,關于“數學難不難”的話題瞬間爆上了熱搜。



當然,試卷的難度對于不同的同學來說可能會有不同的感受,不過作為科技編輯,小編比較感興趣的是,今年的數學試卷對于目前很火的 AI 來說難不難呢?

想到這,今天我們不妨就這次高考的數學卷來一次大模型之間的比拼,讓各家的大模型化身“高考學子”,完整地做一套高考數學卷,看看它們各自能拿多少分。

在模擬過程中,小編選擇了以下幾名具有代表性的大模型“考生”,分別是:

  • ?DeepSeek R1 0528
  • ?通義千問 Qwen3-235B-A22B
  • ?訊飛星火 X1-0420
  • ?豆包 Seed-Thingking-v1.5
  • ?文心 X1 Turbo
  • ?騰訊混元 Hunyuan T1 latest
  • ?GPT o3

另外需要說明的是,由于目前網絡流出的試題存在多個版本(回憶題),不完全一致,存在題目不完整的情況,IT之家通過多版本交叉驗證 + 老師解題驗證的方式進行評測,總分是 150 分。

同時IT之家還邀請了一位專業的評分老師來輔助我們對大模型的答案進行評分:

汪鵬:十年高中數學一線教研專家,主導省級數學教學創新課題,精研命題策略與高分突破路徑。

此外,因 DeepSeek 網頁版 OCR 轉寫不穩定,還有騰訊混元在高考時間段不能用拍圖識別的功能,針對類似情況,我們采用 OCR 轉寫后輸入答題。

由于考題較多,我們無法把所有題目的大模型答題流程和答案都一一呈現,所以這里我們僅挑選一些題目來說明。

話不多說,我們先來看題吧。

1、第 1 題

首先是比較簡單的選擇題第 1 題:



這道題比較容易,DeepSeek R1 的回答如下:



然后是通義千問:



訊飛星火作答:



豆包也給出了正確答案:



文心一言的答案如下:



騰訊混元的回答:



GPT o3 的答案:



對于選擇題第 1 題,各家大模型都給出了正確的答案,仔細看具體的解題流程可能不同,但不影響答案的正確性。

2、第 5 題

下面稍微上點難度,選擇題第 5 題是一道函數題:



各家大模型的答案和截圖過程如下:

DeepSeek :



通義千問:



訊飛星火:



豆包:



文心一言:



騰訊混元:



GPT o3:



這一道選擇題的正確答案是 A,全部答對。

3、第 8 題

接下來我們看更難一點的題,選擇題第 8 題,這也是一道涉及到對數的函數題:



面對這道題,各家大模型給出的答案如下:

DeepSeek R1:



通義千問:



訊飛星火:



豆包大模型:



文心一言:



騰訊混元:



GPT o3:



這道題目的正確答案是 B,豆包大模型和 DeepSeek 答錯了,其他的大模型均給出了正確的答案。

4、第 16 題

接下來我們來看解答題,解答題的評分不只看結果,還要看解題的過程,過程不對也會被扣分。這里我們以解答題的第 16 題來作為例子,這道題已經是解答題中偏中等難度的題目,涉及數列和函數相關的知識點。



我們先看 DeepSeek R1,給出的結果沒有扣分項,可以得到滿分(15 分):









通義千問的解答和最終答案也是正確的:









訊飛星火的回答,解題過程清晰明了,答案正確:





然后是豆包大模型的回答,同樣步驟和結果都沒什么問題:



文心一言第二個小題答案錯了,只能得到 6 分:









GPT o3 的兩個回答解題過程都沒有問題,但是第二個小問的最后結果呈現表達上有點小瑕疵,得 14 分:





5、第 18 題

最后是難度更高,挑戰比較大的第 18 題,



面對這道題,訊飛星火 X1、豆包大模型、DeepSeek R1、通義千問、騰訊元寶以及 GPT o3 的解題過程和答案都沒什么問題,拿到了 17 分滿分,而文心 X1 模型的答案存在錯誤,得分為 10 分。

Deepseek:











通義千問:





訊飛星火:



豆包大模型:



文心一言:



騰訊混元:



GPT o3:





以上是這次七家大模型挑戰 2025 高考數學全國 1 卷的部分題目作答情況的舉例。

可以看到,在這次“考試”中,DeepSeek、訊飛星火兩家表現突出,是唯二突破 140 分的大模型,穩居國內大模型數學能力的第一梯隊,在考生中也達到了“尖子生”標準。其中,DeepSeek 以 143 分的成績位列榜首,訊飛星火以 141 分緊隨其后,位居第二,GPT o3 則以 138 分獲得第三名。

本次排名第一的 DeepSeek R1 模型,是在 5 月 28 日升級了最新版本,也是本次評測的模型里最“新”的一位考生,升級后的版本在思考推理、數學能力、響應速度等方面有了大幅提升,但其在實際應用中也暴露出了一些明顯短板。首先在實測中,我們發現 DeepSeek 在 OCR 識別效果不理想,出現不少題目識別錯誤,為確保準確性,我們只能用其他 AI 將試卷圖片轉化為文本問題,再給到 DeepSeek 作答;其次,DeepSeek 模型版本較大,導致推理速度慢、資源消耗高,在實際的教學場景中可能面臨響應效率問題。

此外,在這次考試中僅以 2 分之差緊隨其后的訊飛星火,是在 4 月 20 日升級,版本較早,但在模型量級更小(70b)的情況下,其依然取得了 141 分的高分,并顯著超越了豆包等其他參與測評的國內大模型。尤其值得一提的是,訊飛星火 X1 是基于全國產算力平臺訓練出來的,可見他們背后的自主技術研發實力值得肯定,訊飛在教育領域長達 20 多年的資源積累,也體現在了訊飛星火在數學能力上的高效準確。

作為國產大模型的代表,豆包、通義千問、元寶等大模型分數緊跟 GPT o3,基本上和國際頂尖的模型水平打了個平手。

此次國內外大模型參考“2025 高考數學”,也是深度推理模型的一場大考,和去年相比,AI 的數學能力有了非常明顯的提升。2025 年將是 AI 應用落地的爆發期,如何讓 AI 更好的成為我們的幫手,拓展 AI 在教育領域深度應用的更多可能性,將推理模型的優勢與教學實際深度結合等等,或許就是我們用 AI 來作答高考試卷背后的用意和價值所在。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
火車經山西一隧道時吸入煤灰乘客變“煤蛋蛋”,鐵路部門:將加強粉塵整治

火車經山西一隧道時吸入煤灰乘客變“煤蛋蛋”,鐵路部門:將加強粉塵整治

極目新聞
2025-06-08 21:49:31
突然暫停的“國補”背后:一場財政壓力與消費刺激的極限平衡戰

突然暫停的“國補”背后:一場財政壓力與消費刺激的極限平衡戰

我有一鹽
2025-06-09 23:07:02
南京一百年名校突發火情,及時撲滅未造成大的影響

南京一百年名校突發火情,及時撲滅未造成大的影響

大風新聞
2025-06-09 18:59:27
緊急通知:阜陽女孩因遲到錯失英語考試,家長現場目睹悲劇!

緊急通知:阜陽女孩因遲到錯失英語考試,家長現場目睹悲劇!

世界探索發現
2025-06-09 21:41:19
在應急車道換備胎被扣12分,車主問交警:爆胎都不算應急?交警:你的知道規定才行

在應急車道換備胎被扣12分,車主問交警:爆胎都不算應急?交警:你的知道規定才行

汽車指南針
2025-06-09 11:01:26
不迎合、不巴結、不打招呼,校領導、系主任,統通給韋神讓路

不迎合、不巴結、不打招呼,校領導、系主任,統通給韋神讓路

明月聊史
2025-06-09 16:40:58
29歲金鐘碩死因曝光,錢被騙光和女友吵架后自殺,姐姐發文揭真相

29歲金鐘碩死因曝光,錢被騙光和女友吵架后自殺,姐姐發文揭真相

開開森森
2025-06-09 10:41:59
「小丑」爆猥褻未成年! 9受害女出面控惡行:要求吐口水在陰莖

「小丑」爆猥褻未成年! 9受害女出面控惡行:要求吐口水在陰莖

ETtoday星光云
2025-06-09 13:09:08
缺誰誰尷尬!葡萄牙棄用25歲前鋒,連贏德國+西班牙,歐國聯奪冠

缺誰誰尷尬!葡萄牙棄用25歲前鋒,連贏德國+西班牙,歐國聯奪冠

球場沒跑道
2025-06-09 09:10:18
江蘇省2025年養老金調整即將開始,工齡35年和42年漲錢能差多少?

江蘇省2025年養老金調整即將開始,工齡35年和42年漲錢能差多少?

暖心人社
2025-06-09 21:18:39
到底準不準?高盛又一次對中國樓市預測:房價將再次下跌25%

到底準不準?高盛又一次對中國樓市預測:房價將再次下跌25%

正經說個事兒
2025-06-07 16:01:45
2025年底前要穩妥有序退出!部分地區銀行贈送實物攬存被叫停

2025年底前要穩妥有序退出!部分地區銀行贈送實物攬存被叫停

貝殼財經
2025-06-09 17:13:03
烏軍突襲黑海的俄軍特種部隊基地!擊毀赫爾松軍船

烏軍突襲黑海的俄軍特種部隊基地!擊毀赫爾松軍船

項鵬飛
2025-06-09 21:19:06
人口學家梁建章警告:如果不盡早干預,40年后印度人口將是中國3倍

人口學家梁建章警告:如果不盡早干預,40年后印度人口將是中國3倍

贏梯
2025-06-07 08:56:07
李連杰罕見談4個女兒:前倆養的很湊合,利智生的,疼愛卻很笨拙

李連杰罕見談4個女兒:前倆養的很湊合,利智生的,疼愛卻很笨拙

頭號劇委會
2025-06-09 19:03:18
潘偉力:伊萬團隊太緊張,換人沒通過中方教練,所以認錯了人

潘偉力:伊萬團隊太緊張,換人沒通過中方教練,所以認錯了人

懂球帝
2025-06-09 19:53:10
王震擬授大將卻成上將?戰功之外,賀龍的這個態度才是關鍵

王震擬授大將卻成上將?戰功之外,賀龍的這個態度才是關鍵

詩意世界
2025-06-08 23:51:23
俄羅斯真正危機被曝光,沖突3年從中國賺的錢,都進了寡頭的口袋

俄羅斯真正危機被曝光,沖突3年從中國賺的錢,都進了寡頭的口袋

武事匯
2025-06-07 14:32:57
479架!!俄羅斯發動“最大規模”夜襲

479架!!俄羅斯發動“最大規模”夜襲

占豪
2025-06-10 01:46:05
湖南省副省長、長沙市市長周海兵,任國家發改委副主任

湖南省副省長、長沙市市長周海兵,任國家發改委副主任

新京報
2025-06-09 17:10:09
2025-06-10 02:35:00
IT之家
IT之家
愛科技,愛這里 - 前沿科技人氣平臺
290155文章數 606278關注度
往期回顧 全部

教育要聞

莫名堂觀察:學生懶得學,老師懶得教

頭條要聞

洛杉磯已經失控 有人用可致命煙花攻擊警察

頭條要聞

洛杉磯已經失控 有人用可致命煙花攻擊警察

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

科技要聞

中國汽車行業告別"內卷",從"重慶論壇"開始?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

藝術
教育
親子
本地
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

走進上海一年花費30萬的私立學校

親子要聞

喜馬拉雅兒童1.2億條聲音,陪伴中國兒童成長

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 平果县| 江阴市| 辉南县| 海口市| 镇雄县| 集贤县| 名山县| 通渭县| 石屏县| 平阳县| 光泽县| 永春县| 天台县| 东方市| 溧水县| 佛教| 岗巴县| 普兰县| 公安县| 六安市| 马鞍山市| 芜湖市| 平陆县| 塔城市| 射洪县| 横峰县| 五原县| 拉孜县| 汝南县| 伊金霍洛旗| 安西县| 辰溪县| 讷河市| 长武县| 郯城县| 余姚市| 元朗区| 辰溪县| 淳化县| 阿拉善左旗| 大足县|