智東西
編譯 程茜
編輯 心緣
智東西6月17日消息,今日,AI基準(zhǔn)測試平臺(tái)LMArena公布最新WebDev Arena排行榜,新版DeepSeek-R1編程能力沖上第一。
從榜單可以看出,新版DeepSeek-R1與Claude Opus 4、Gemini 2.5 Pro并列第一。
自今年2月底,Anthropic發(fā)布首款混合推理模型與最佳編碼模型Claude 3.7 Sonnet,到5月發(fā)布Claude 4,此前,WebDev Arena榜單第一幾乎被Anthropic家的Claude系列模型壟斷。
此次,新版DeepSeek-R1沖上榜一與Claude Opus 4并列,佐證了其在編程方面的能力提升。
此外,文本領(lǐng)域,新版DeepSeek-R1在開源模型中排名第一,整體排名第6,與Claude Opus 4、GPT-4.1、Gemini-2.5-flash并列。
按類別劃分,新版DeepSeek-R1在編程方面排名第2,在困難提示方面排名第4,在數(shù)學(xué)方面排名第5。
新DeepSeek-R1于5月28日開源,從DeepSeek當(dāng)時(shí)發(fā)布的基準(zhǔn)測試結(jié)果來看,其整體表現(xiàn)已接近OpenAI-o3與谷歌Gemini-2.5-Pro等模型。
完整榜單:https://lmarena.ai/leaderboard
LMArena評(píng)論區(qū)對(duì)新版DeepSeek-R1沖上榜一給予了很高的評(píng)價(jià):
DeepSeek-R1在WebDev Arena上的性能現(xiàn)已追平Claude Opus 4,鑒于Claude長期以來作為編程導(dǎo)向型AI的標(biāo)桿地位,這是一個(gè)值得關(guān)注的里程碑,這標(biāo)志著開源AI迎來了關(guān)鍵時(shí)刻。
結(jié)語:AI編程模型、產(chǎn)品加速迭代,開啟群雄混戰(zhàn)
當(dāng)下,全球AI編程的熱度空前高漲,AI加速滲透到AI編程環(huán)節(jié)中,為開發(fā)者帶來空前的生產(chǎn)力提升。這一背景下,各路AI編程模型、產(chǎn)品快速迭代。
今日凌晨,月之暗面推出針對(duì)軟件工程任務(wù)的全新開源代碼大模型Kimi-Dev-72B,還有此前OpenAI、谷歌、微軟、Anthropic、阿里等企業(yè)紛紛亮出相應(yīng)模型、產(chǎn)品。與此同時(shí),新版DeepSeek-R1登頂編程能力榜單,意味著國內(nèi)外AI編程競爭態(tài)勢愈發(fā)火熱。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.