5月28日,權威大模型測評機構SuperCLUE《中文大模型基準測評2025年5月報告》全新出爐!
豆包1.5·深度思考模型(Doubao-1.5-thinking-pro)和商湯日日新 V6多模態模型(SenseNova-V6 Reasoner)共同摘得金牌,超越Gemini 2.5 Flash Preview,在國內大模型第一梯隊領跑。
位居第二梯隊的大模型包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1以及DeepSeek-V3。
來自SuperCLUE
報告指出,國內外第一梯隊大模型在中文領域的通用能力差距正在縮小。在國產大模型中,
Doubao-1.5-thinking-pro-205415、SenseNova V6 Reasoner表現最為亮眼。國內推理模型競爭格局初露端倪。
SuperCLUE是行業權威的通用大模型的綜合性測評基準。本次2025年5月報告聚焦通用能力測評,涵蓋數學推理、科學推理、代碼生成、智能體Agent、精確指令遵循、文本理解與創作六大任務,總量為1579道多輪簡答題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.