2025年高考還在進行中,昨天已經考完了語文和數學,相信大家也在網上看到了很多關于這兩門學科試卷難度的討論,比如昨天數學考完后,關于“數學難不難”的話題瞬間爆上了熱搜。
當然,試卷的難度對于不同的同學來說可能會有不同的感受,不過作為科技編輯,小編比較感興趣的是,今年的數學試卷對于目前很火的AI來說難不難呢?
想到這,今天我們不妨就這次高考的數學卷來一次大模型之間的比拼,讓各家的大模型化身“高考學子”,完整地做一套高考數學卷,看看它們各自能拿多少分。
在模擬過程中,小編選擇了以下幾名具有代表性的大模型“考生”,分別是:
DeepSeek R1 0528
通義千問Qwen3-235B-A22B
訊飛星火X1-0420
豆包 Seed-Thingking-v1.5
文心X1 Turbo
騰訊混元Hunyuan T1 latest
GPT o3
另外需要說明的是,由于目前網絡流出的試題存在多個版本(回憶題),不完全一致,存在題目不完整的情況,IT之家通過多版本交叉驗證+老師解題驗證的方式進行評測,總分是150分。
同時IT之家還邀請了一位專業的評分老師來輔助我們對大模型的答案進行評分:
“汪鵬:十年高中數學一線教研專家,主導省級數學教學創新課題,精研命題策略與高分突破路徑。”
此外,因DeepSeek網頁版OCR轉寫不穩定,還有騰訊混元在高考時間段不能用拍圖識別的功能,針對類似情況,我們采用OCR轉寫后輸入答題。
由于考題較多,我們無法把所有題目的大模型答題流程和答案都一一呈現,所以這里我們僅挑選一些題目來說明。
話不多說,我們先來看題吧。
1、第1題
首先是比較簡單的選擇題第1題:
這道題比較容易,DeepSeek R1的回答如下:
然后是通義千問:
訊飛星火作答:
豆包也給出了正確答案:
文心一言的答案如下:
騰訊混元的回答:
GPT o3的答案:
對于選擇題第1題,各家大模型都給出了正確的答案,仔細看具體的解題流程可能不同,但不影響答案的正確性。
2、第5題
下面稍微上點難度,選擇題第5題是一道函數題:
DeepSeek :
通義千問:
訊飛星火:
豆包:
文心一言:
騰訊混元:
GPT o3:
這一道選擇題的正確答案是A,全部答對。
接下來我們看更難一點的題,選擇題第8題,這也是一道涉及到對數的函數題:
面對這道題,各家大模型給出的答案如下:
DeepSeek R1:
通義千問:
訊飛星火:
豆包大模型:
文心一言:
騰訊混元:
GPT o3:
這道題目的正確答案是B,豆包大模型和DeepSeek答錯了,其他的大模型均給出了正確的答案。
接下來我們來看解答題,解答題的評分不只看結果,還要看解題的過程,過程不對也會被扣分。這里我們以解答題的第16題來作為例子,這道題已經是解答題中偏中等難度的題目,涉及數列和函數相關的知識點。
我們先看DeepSeek R1,給出的結果沒有扣分項,可以得到滿分(15分):
通義千問的解答和最終答案也是正確的:
訊飛星火的回答,解題過程清晰明了,答案正確:
然后是豆包大模型的回答,同樣步驟和結果都沒什么問題:
文心一言第二個小題答案錯了,只能得到6分:
騰訊混元兩個小題的回答都存在問題,因此這道題只能得0分:
GPT o3的兩個回答解題過程都沒有問題,但是第二個小問的最后結果呈現表達上有點小瑕疵,得14分:
最后是難度更高,挑戰比較大的第18題,
面對這道題,訊飛星火X1、豆包大模型、DeepSeek R1、通義千問、騰訊元寶以及GPT o3的解題過程和答案都沒什么問題,拿到了17分滿分,而文心X1模型的答案存在錯誤,得分為10分。
Deepseek:
通義千問:
訊飛星火:
?豆包大模型:
文心一言:
騰訊混元:
GPT o3:
以上是這次七家大模型挑戰2025高考數學全國1卷的部分題目作答情況的舉例,下面我們再來看這次“考試”各位大模型“考生”的總體得分情況:
可以看到,在這次“考試”中,DeepSeek、訊飛星火兩家表現突出,是唯二突破140分的大模型,穩居國內大模型數學能力的第一梯隊,在考生中也達到了“尖子生”標準。其中,DeepSeek以143分的成績位列榜首,訊飛星火以141分緊隨其后,位居第二,GPT o3則以138分獲得第三名。
本次排名第一的DeepSeek R1模型,是在5月28日升級了最新版本,也是本次評測的模型里最“新”的一位考生,升級后的版本在思考推理、數學能力、響應速度等方面有了大幅提升,但其在實際應用中也暴露出了一些明顯短板。首先在實測中,我們發現DeepSeek 在OCR識別效果不理想,出現不少題目識別錯誤,為確保準確性,我們只能用其他AI將試卷圖片轉化為文本問題,再給到DeepSeek作答;其次,DeepSeek 模型版本較大,導致推理速度慢、資源消耗高,在實際的教學場景中可能面臨響應效率問題。
此外,在這次考試中僅以2分之差緊隨其后的訊飛星火,是在4月20日升級,版本較早,但在模型量級更小(70b)的情況下,其依然取得了141分的高分,并顯著超越了豆包等其他參與測評的國內大模型。尤其值得一提的是,訊飛星火X1是基于全國產算力平臺訓練出來的,可見他們背后的自主技術研發實力值得肯定,訊飛在教育領域長達20多年的資源積累,也體現在了訊飛星火在數學能力上的高效準確。
作為國產大模型的代表,豆包、通義千問等大模型分數緊跟GPT o3,基本上和國際頂尖的模型水平打了個平手。
此次國內外大模型參考“2025高考數學”,也是深度推理模型的一場大考,和去年相比,AI的數學能力有了非常明顯的提升。2025年將是AI應用落地的爆發期,如何讓AI更好的成為我們的幫手,拓展AI在教育領域深度應用的更多可能性,將推理模型的優勢與教學實際深度結合等等,或許就是我們用AI來作答高考試卷背后的用意和價值所在。
本文源自:IT之家
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.