機器之心報道
編輯:杜偉
在開源模型領域,DeepSeek 又帶來了驚喜。
上個月 28 號,DeepSeek 來了波小更新,其 R1 推理模型升級到了最新版本(0528),并公開了模型及權重。
這一次,R1-0528 進一步改進了基準測試性能,提升了前端功能,減少了幻覺,支持 JSON 輸出和函數調用。
今天,業界知名、但近期也陷入爭議(曾被指出對 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基準測試平臺 LMArena 公布了最新的性能排行榜,其中DeepSeek-R1(0528)的成績尤為引人矚目
其中,在文本基準測試(Text)中,DeepSeek-R1(0528)整體排名第 6,在開放模型中排名第一。
具體到以下細分領域:
- 在硬提示詞(Hard Prompt)測試中排名第 4
- 在編程(Coding)測試中排名第 2
- 在數學(Math)測試中排名第 5
- 在創意性寫作(Creative Writing)測試中排名第 6
- 在指令遵循(Intruction Fellowing)測試中排名第 9
- 在更長查詢(Longer Query)測試中排名第 8
- 在多輪(Multi-Turn)測試中排名第 7
此外,在 WebDev Arena 平臺上,DeepSeek-R1(0528)與 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等閉源大模型并列第一,在分數上更是超過了 Claude Opus 4。
WebDev Arena 是 LMArena 團隊開發的實時 AI 編程競賽平臺,讓各家大語言模型進行網頁開發挑戰,衡量的是人類對模型構建美觀且功能強大的 Web 應用能力的偏好。
DeepSeek-R1(0528)表現出來的強大性能激起了更多人使用的欲望。
還有人表示,鑒于 Claude 長期以來一直是 AI 編程領域的基準,如今 DeepSeek-R1(0528)在性能上與 Claude Opus 相當,這是一個里程碑時刻,也是開源 AI 的關鍵時刻。
DeepSeek-R1(0528)在完全開放的 MIT 協議下提供了領先的性能,并能與最好的閉源模型媲美。雖然這一突破在 Web 開發中最為明顯,但其影響可能延伸到更廣泛的編程領域。
不過,原始性能并不能定義現實世界的表現。雖然 DeepSeek-R1(0528)在技術能力上可能與 Claude 相當,但其是否可以在日常工作流程中提供媲美 Claude 的用戶體驗,這些需要更多的實際驗證。
高強度使用過 DeepSeek-R1(0528)的小伙伴,可以在評論區留言,談一談自己的體驗感受。
https://lmarena.ai/leaderboard/text
https://x.com/lmarena_ai/status/1934650639906197871
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.