網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

新版DeepSeek-R1深夜整大活！編程能力暴漲，實(shí)測(cè)直逼Claude 4，網(wǎng)友玩瘋直呼太強(qiáng)了

2025-05-29 10:45:57　來源: 智東西

北京舉報(bào)

分享至

智東西
作者李水青
編輯云鵬

智東西5月29日?qǐng)?bào)道，今天凌晨，DeepSeek-R1-0528在Hugging Face上開源。

地址：
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

此前昨日晚間，DeepSeek官方推送通知，R1模型已經(jīng)完成小版本試升級(jí)，可在官方網(wǎng)站、APP、小程序測(cè)試（打開深度思考）體驗(yàn)。

針對(duì)DeepSeek-R1-0528，DeepSeek尚未放出模型卡介紹更多功能。但多方用戶體驗(yàn)后提到，DeepSeek-R1-0528在編程、邏輯推理、交互能力等方面均有顯著提升。

已有開發(fā)者對(duì)DeepSeek-R1-0528進(jìn)行了基準(zhǔn)測(cè)試，稱這是開源領(lǐng)域的重大勝利。代碼測(cè)試平臺(tái)Live CodeBench顯示，其性能接近OpenAI在4月中旬發(fā)布的o4 mini和o3模型高版本。

▲DeepSeek-R1-0528性能接近o3模型高版本

測(cè)試地址：
https://livecodebench.github.io/leaderboard.html

同時(shí)有文本召回測(cè)試結(jié)果顯示，32k以內(nèi)文本DeepSeek-R1-0528比之前的R1要好不少，但是60k下降了不少。這意味著在32k以內(nèi)針對(duì)給定的材料使用新R1提問讓它回答的話，準(zhǔn)確度會(huì)好不少。

▲DeepSeek-R1-0528基于材料回復(fù)更準(zhǔn)確

測(cè)試地址：
https://fiction.live/stories/Fiction-liveBench-May-22-2025/oQdzQvKHw8JyXbN87

多位開發(fā)者通過案例體驗(yàn)稱，DeepSeek-R1-0528效果基本追平Claude 4，有些情況下表現(xiàn)更好。

“直接看效果, 我就提兩點(diǎn), 注意平面的橙色漫反射, 以及控制面板的美觀程度。這倆是用同一個(gè)提示詞一次性生成的，Claude 4 sonnet生成了542行, DeepSeek-R1-0528生成了728行。幀率和運(yùn)動(dòng)角度細(xì)節(jié)也值得關(guān)注?！币晃婚_發(fā)者在X平臺(tái)上稱。

▲DeepSeek-R1-0528與Claude 4 sonnet進(jìn)行效果比較

有開發(fā)者讓DeepSeek-R1-0528、Claude 4和DeepSeek-V3-0324在飛機(jī)大戰(zhàn)游戲生成對(duì)比效果。新版R1在之前的基礎(chǔ)上，自己新增了很多道具，畫面也比之前更好了。

▲開發(fā)者放出DeepSeek-R1-0528在飛機(jī)大戰(zhàn)游戲程序的表現(xiàn)

此外，根據(jù)測(cè)試者反饋，DeepSeek-R1-0528能夠一次性生成超千行無Bug代碼，且在HTML/CSS/JS動(dòng)態(tài)交互實(shí)現(xiàn)（如天氣卡片動(dòng)畫、數(shù)據(jù)可視化）中更加精準(zhǔn)。

DeepSeek-R1-0528在風(fēng)格上更接近OpenAI o3，是目前開源大模型中性能頂尖的版本之一。有測(cè)試者認(rèn)為，該版本的性能可能原本計(jì)劃作為R2發(fā)布，但因競(jìng)爭壓力而以R1升級(jí)版形式推出。

來源：Hugging Face、X平臺(tái)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.