機(jī)器之心報(bào)道
編輯:杜偉
在開源模型領(lǐng)域,DeepSeek 又帶來了驚喜。
上個(gè)月 28 號(hào),DeepSeek 來了波小更新,其 R1 推理模型升級(jí)到了最新版本(0528),并公開了模型及權(quán)重。
這一次,R1-0528 進(jìn)一步改進(jìn)了基準(zhǔn)測(cè)試性能,提升了前端功能,減少了幻覺,支持 JSON 輸出和函數(shù)調(diào)用。
今天,業(yè)界知名、但近期也陷入爭(zhēng)議(曾被指出對(duì) OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基準(zhǔn)測(cè)試平臺(tái) LMArena 公布了最新的性能排行榜,其中DeepSeek-R1(0528)的成績(jī)尤為引人矚目
其中,在文本基準(zhǔn)測(cè)試(Text)中,DeepSeek-R1(0528)整體排名第 6,在開放模型中排名第一。
具體到以下細(xì)分領(lǐng)域:
- 在硬提示詞(Hard Prompt)測(cè)試中排名第 4
- 在編程(Coding)測(cè)試中排名第 2
- 在數(shù)學(xué)(Math)測(cè)試中排名第 5
- 在創(chuàng)意性寫作(Creative Writing)測(cè)試中排名第 6
- 在指令遵循(Intruction Fellowing)測(cè)試中排名第 9
- 在更長(zhǎng)查詢(Longer Query)測(cè)試中排名第 8
- 在多輪(Multi-Turn)測(cè)試中排名第 7
此外,在 WebDev Arena 平臺(tái)上,DeepSeek-R1(0528)與 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等閉源大模型并列第一,在分?jǐn)?shù)上更是超過了 Claude Opus 4。
WebDev Arena 是 LMArena 團(tuán)隊(duì)開發(fā)的實(shí)時(shí) AI 編程競(jìng)賽平臺(tái),讓各家大語(yǔ)言模型進(jìn)行網(wǎng)頁(yè)開發(fā)挑戰(zhàn),衡量的是人類對(duì)模型構(gòu)建美觀且功能強(qiáng)大的 Web 應(yīng)用能力的偏好。
DeepSeek-R1(0528)表現(xiàn)出來的強(qiáng)大性能激起了更多人使用的欲望。
還有人表示,鑒于 Claude 長(zhǎng)期以來一直是 AI 編程領(lǐng)域的基準(zhǔn),如今 DeepSeek-R1(0528)在性能上與 Claude Opus 相當(dāng),這是一個(gè)里程碑時(shí)刻,也是開源 AI 的關(guān)鍵時(shí)刻。
DeepSeek-R1(0528)在完全開放的 MIT 協(xié)議下提供了領(lǐng)先的性能,并能與最好的閉源模型媲美。雖然這一突破在 Web 開發(fā)中最為明顯,但其影響可能延伸到更廣泛的編程領(lǐng)域。
不過,原始性能并不能定義現(xiàn)實(shí)世界的表現(xiàn)。雖然 DeepSeek-R1(0528)在技術(shù)能力上可能與 Claude 相當(dāng),但其是否可以在日常工作流程中提供媲美 Claude 的用戶體驗(yàn),這些需要更多的實(shí)際驗(yàn)證。
高強(qiáng)度使用過 DeepSeek-R1(0528)的小伙伴,可以在評(píng)論區(qū)留言,談一談自己的體驗(yàn)感受。
https://lmarena.ai/leaderboard/text
https://x.com/lmarena_ai/status/1934650639906197871
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.