網易首頁 > 網易號 > 正文申請入駐

LMArena模型榜單出爐!DeepSeek-R1編程能力趕超了Claude Opus 4

2025-06-17 10:16:13　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：杜偉

在開源模型領域，DeepSeek 又帶來了驚喜。

上個月 28 號，DeepSeek 來了波小更新，其 R1 推理模型升級到了最新版本（0528），并公開了模型及權重。

這一次，R1-0528 進一步改進了基準測試性能，提升了前端功能，減少了幻覺，支持 JSON 輸出和函數調用。

今天，業界知名、但近期也陷入爭議（曾被指出對 OpenAI、谷歌及 Meta 的大模型存在偏袒）的大模型公共基準測試平臺 LMArena 公布了最新的性能排行榜，其中DeepSeek-R1（0528）的成績尤為引人矚目

其中，在文本基準測試（Text）中，DeepSeek-R1（0528）整體排名第 6，在開放模型中排名第一。

具體到以下細分領域：

在硬提示詞（Hard Prompt）測試中排名第 4
在編程（Coding）測試中排名第 2
在數學（Math）測試中排名第 5
在創意性寫作（Creative Writing）測試中排名第 6
在指令遵循（Intruction Fellowing）測試中排名第 9
在更長查詢（Longer Query）測試中排名第 8
在多輪（Multi-Turn）測試中排名第 7

此外，在 WebDev Arena 平臺上，DeepSeek-R1（0528）與 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等閉源大模型并列第一，在分數上更是超過了 Claude Opus 4。

WebDev Arena 是 LMArena 團隊開發的實時 AI 編程競賽平臺，讓各家大語言模型進行網頁開發挑戰，衡量的是人類對模型構建美觀且功能強大的 Web 應用能力的偏好。

DeepSeek-R1（0528）表現出來的強大性能激起了更多人使用的欲望。

還有人表示，鑒于 Claude 長期以來一直是 AI 編程領域的基準，如今 DeepSeek-R1（0528）在性能上與 Claude Opus 相當，這是一個里程碑時刻，也是開源 AI 的關鍵時刻。

DeepSeek-R1（0528）在完全開放的 MIT 協議下提供了領先的性能，并能與最好的閉源模型媲美。雖然這一突破在 Web 開發中最為明顯，但其影響可能延伸到更廣泛的編程領域。

不過，原始性能并不能定義現實世界的表現。雖然 DeepSeek-R1（0528）在技術能力上可能與 Claude 相當，但其是否可以在日常工作流程中提供媲美 Claude 的用戶體驗，這些需要更多的實際驗證。

高強度使用過 DeepSeek-R1（0528）的小伙伴，可以在評論區留言，談一談自己的體驗感受。

https://lmarena.ai/leaderboard/text

https://x.com/lmarena_ai/status/1934650639906197871

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

月之暗面又開源了！登頂全球第一，還超了新版DeepSeek-R1

智東西 2025-06-17 13:40:13
1 跟貼 1
搜索智能體RAG落地不佳?UIUC開源s3，僅需2.4k樣本，訓練快效果好

機器之心Pro 2025-06-17 10:18:37
0 跟貼 0

Kimi新模型拿下代碼開源SOTA，僅僅72B，發布即開源

量子位 2025-06-17 12:58:38
0 跟貼 0

Deepseek與Excel才是絕配，分享7個技巧，讓你秒變辦公達人！

Excel從零到一 2025-06-16 20:35:14
2 跟貼 2
正保財會學習機：搭載正保財稅與DeepSeek雙核大模型

芥末堆看教育 2025-06-16 18:41:04
0 跟貼 0

陜西移動延安分公司開展醫療領域 DeepSeek專題培訓講座賦能三大醫療機構智慧升級

陽光報陽光網 2025-06-16 16:13:16
0 跟貼 0

男子點助教通宵玩臺球，不結賬從另一扇門偷溜：助教是在向我學習

星視頻 2025-06-17 00:23:09
426 跟貼 426
同一天開源新模型，一推理一編程，MiniMax和月之暗面開卷了

機器之心Pro 2025-06-17 11:43:49
1 跟貼 1

“救命藥”漲價282倍，國家出手了

中國新聞周刊 2025-06-16 21:23:05
8984 跟貼 8984
斯坦福團隊打造開源基準庫，模型科研編程能力一測便知

DeepTech深科技 2025-06-16 20:07:13
0 跟貼 0
動物專家將野鹿模型，放到了農田里面，來吸引附近猛獸的襲擊

雙喜聊劇 2025-06-15 16:28:31
0 跟貼 0
Transformer八子初創：AI橫掃NP難題競賽，Top 2%選手竟是智能體！

新智元 2025-06-17 13:47:14
0 跟貼 0
降風阻提續航增加用戶爽點動態體驗2025款歐拉好貓

BAO愛車工作室 2025-06-16 18:49:47
7 跟貼 7
哈工大、度小滿開源EFFIVLM-BENCH基準測試框架

機器之心Pro 2025-06-16 14:37:58
0 跟貼 0
Claude與人類共著論文，蘋果再遭打臉！實驗黑幕曝光

新智元 2025-06-16 14:04:32
1 跟貼 1
騰訊開源最強3D生成模型，消費級顯卡就能跑

量子位 2025-06-14 19:13:18
13 跟貼 13
飛書一個聊天框，激活了機器之心編輯部的知識資產

機器之心Pro 2025-05-21 15:39:31
0 跟貼 0
Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0
電視劇拍攝現場用激光筆清場導致游客眼睛受傷當地街道辦：已約談

閃電新聞 2025-06-16 16:20:44
3869 跟貼 3869
這幾句翻譯可以找DeepSeek來幫忙，王毅回應中美關系用中國古話

大師觀歷史 2025-06-16 16:43:00
0 跟貼 0
100萬斤土豆被哄搶后續：種植戶更新動態，不知自己已經諒解村民

鋭娛之樂 2025-06-17 09:27:35
1185 跟貼 1185
豆包1.5·深度思考模型上線(2)

機器之心Pro 2025-04-17 19:53:58
0 跟貼 0
是時候展現真正技術了！降龍十八掌就這原理，這是我老師肯定及格

旅行指南者 2025-06-16 09:16:20
0 跟貼 0
Midjourney入局視頻生成，圖像模型V7不斷更新，視覺卷王實錘了

量子位 2025-06-17 14:32:23
0 跟貼 0
國外嫁接技術竟和國內差別如此之大

情感顏彩繪 2025-06-14 14:17:11
1 跟貼 1
要不是車給力，這技術夠吃幾回席了，就這個走位三噸重！

搞笑者大聯盟 2025-06-17 11:56:27
1 跟貼 1
牛彈琴：戰火還在猛烈繼續哈梅內伊最新發布一張圖片

現代快報 2025-06-17 08:35:28
370 跟貼 370
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
大爺不會做肺功能測定護士喊指令比大爺還用力

河南都市頻道 2025-06-15 14:06:01
0 跟貼 0
更適合AI開發者的算力本出現了！

智東西 2025-04-09 20:39:59
0 跟貼 0
王炸MCP工具，AI助手們記憶本地共享

機器之心Pro 2025-05-15 18:59:51
0 跟貼 0
LeCun評圖像、視頻模型，別用生成式架構了，這條路走不通

機器之心Pro 2025-05-16 16:48:59
0 跟貼 0
成本直降90%,對話就能創造專屬本地Agent

機器之心Pro 2025-04-02 10:51:13
0 跟貼 0
【MOE架構全解析】DeepSeekV1-V3如何優化Moe架構！Llama4 qwen3 如何創新

盧菁老師 2025-06-14 17:22:50
0 跟貼 0
沖擊自回歸，擴散模型正在改寫下

機器之心Pro 2025-06-04 11:06:04
0 跟貼 0
氛圍編碼已成王道，打字創建應用，兩分鐘編寫掃雷

機器之心Pro 2025-03-31 18:25:16
0 跟貼 0
33min搞定整頁證明，陶哲軒飛升成AI工具神，他的AI和我的不一樣

機器之心Pro 2025-05-13 19:31:33
0 跟貼 0
第一個免費可用的智能Agent產品全量上線

機器之心Pro 2025-03-31 14:26:34
0 跟貼 0
央媒曝光問題后，山西、河南、云南三地開展調查整改，處理相關責任人

政知新媒體 2025-06-16 21:46:12
35 跟貼 35
《劍星》PC版徹底撕開平臺虛偽面紗，視頻尺度再大也能過審了

街機時代 2025-06-16 15:00:03
45 跟貼 45

手機 / 數碼

房產 / 家居

LMArena模型榜單出爐!DeepSeek-R1編程能力趕超了Claude Opus 4

日賺1億、存貨1544億，比亞迪的實力與枷鎖

伊朗電視臺遇襲 堅持譴責以色列的主播獲贊"女英雄"

伊朗電視臺遇襲 堅持譴責以色列的主播獲贊"女英雄"

FMVP之爭？杰倫40+6創紀錄 決戰連獻關鍵分

52歲楊坤戀情疑曝光，前女友已去世

618國補貼錢反漲價 美的深陷價格魔術漩渦

高級感拉滿 極氪9X全新配色“極晝白”亮相

態度原創

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

蘋果上線iOS 18.6 Beta版本 國行版AI遙遙無期

內塔尼亞胡：不排除干掉哈梅內伊

日賺1億、存貨1544億，比亞迪的實力與枷鎖

伊朗電視臺遇襲堅持譴責以色列的主播獲贊"女英雄"

伊朗電視臺遇襲堅持譴責以色列的主播獲贊"女英雄"

FMVP之爭？杰倫40+6創紀錄決戰連獻關鍵分

618國補貼錢反漲價美的深陷價格魔術漩渦

高級感拉滿極氪9X全新配色“極晝白”亮相

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

蘋果上線iOS 18.6 Beta版本國行版AI遙遙無期