2025 年,七家主流大模型也加入了高考這場沒有硝煙的 “戰(zhàn)爭”,本以為會是一場勢均力敵的較量,卻沒想到 DeepSeek 和訊飛星火竟一騎絕塵,率先突破 140 分,讓其他模型望塵莫及!
2025 年高考數(shù)學剛剛落下帷幕,關于試卷難度的討論在網(wǎng)絡上熱度爆棚。而一場特別的 “考試” 也隨之展開,七位 AI 大模型 “考生” 受邀參與,它們分別是 DeepSeek R10528、通義千問 Qwen3 - 235B - A22B、訊飛星火 X1 - 0420、豆包 Seed - Thinking - v1.5、文心 X1 Turbo、騰訊混元 Hunyuan T1 latest 以及 GPT o3。
為確保本次 “考試” 評測的準確性,不僅采用了多版本交叉驗證,還邀請了擁有十年高中數(shù)學教研經(jīng)驗的專家汪鵬老師負責評分。
考試開始,在基礎的選擇題部分,各模型都表現(xiàn)不錯,均順利答對。然而,隨著題目難度上升,差異逐漸顯現(xiàn)。在涉及對數(shù)函數(shù)的選擇題中,DeepSeek 和豆包出現(xiàn)了錯誤。
在解答題第 16 題中,DeepSeek、通義千問、訊飛星火和豆包表現(xiàn)優(yōu)異,展示了清晰的解題過程,獲得滿分,而文心 X1 和騰訊混元則出現(xiàn)了不同程度的錯誤。
難度更高的第 18 題,訊飛星火、豆包、DeepSeek、通義千問和 GPT o3 獲得滿分,文心 X1 因答案錯誤失分。
最終成績揭曉,DeepSeek 以 143 分的成績勇奪榜首,訊飛星火以 141 分緊隨其后,GPT o3 以 138 分位居第三。這場大模型的 “高考數(shù)學之戰(zhàn)”,讓我們看到了 AI 在數(shù)學領域的強大實力與無限潛力。
那么問題來了,隨著 AI 技術(shù)不斷發(fā)展,未來它們能否在教育領域徹底顛覆傳統(tǒng)教學模式呢?讓我們拭目以待。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.