智東西
作者 李水青
編輯 云鵬
智東西5月29日?qǐng)?bào)道,今天凌晨,DeepSeek-R1-0528在Hugging Face上開源。
地址:
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
此前昨日晚間,DeepSeek官方推送通知,R1模型已經(jīng)完成小版本試升級(jí),可在官方網(wǎng)站、APP、小程序測(cè)試(打開深度思考)體驗(yàn)。
針對(duì)DeepSeek-R1-0528,DeepSeek尚未放出模型卡介紹更多功能。但多方用戶體驗(yàn)后提到,DeepSeek-R1-0528在編程、邏輯推理、交互能力等方面均有顯著提升。
已有開發(fā)者對(duì)DeepSeek-R1-0528進(jìn)行了基準(zhǔn)測(cè)試,稱這是開源領(lǐng)域的重大勝利。代碼測(cè)試平臺(tái)Live CodeBench顯示,其性能接近OpenAI在4月中旬發(fā)布的o4 mini和o3模型高版本。
▲DeepSeek-R1-0528性能接近o3模型高版本
測(cè)試地址:
https://livecodebench.github.io/leaderboard.html
同時(shí)有文本召回測(cè)試結(jié)果顯示,32k以內(nèi)文本DeepSeek-R1-0528比之前的R1要好不少,但是60k下降了不少。這意味著在32k以內(nèi)針對(duì)給定的材料使用新R1提問讓它回答的話,準(zhǔn)確度會(huì)好不少。
▲DeepSeek-R1-0528基于材料回復(fù)更準(zhǔn)確
測(cè)試地址:
https://fiction.live/stories/Fiction-liveBench-May-22-2025/oQdzQvKHw8JyXbN87
多位開發(fā)者通過案例體驗(yàn)稱,DeepSeek-R1-0528效果基本追平Claude 4,有些情況下表現(xiàn)更好。
“直接看效果, 我就提兩點(diǎn), 注意平面的橙色漫反射, 以及控制面板的美觀程度。這倆是用同一個(gè)提示詞一次性生成的,Claude 4 sonnet生成了542行, DeepSeek-R1-0528生成了728行。幀率和運(yùn)動(dòng)角度細(xì)節(jié)也值得關(guān)注?!币晃婚_發(fā)者在X平臺(tái)上稱。
▲DeepSeek-R1-0528與Claude 4 sonnet進(jìn)行效果比較
有開發(fā)者讓DeepSeek-R1-0528、Claude 4和DeepSeek-V3-0324在飛機(jī)大戰(zhàn)游戲生成對(duì)比效果。新版R1在之前的基礎(chǔ)上,自己新增了很多道具,畫面也比之前更好了。
▲開發(fā)者放出DeepSeek-R1-0528在飛機(jī)大戰(zhàn)游戲程序的表現(xiàn)
此外,根據(jù)測(cè)試者反饋,DeepSeek-R1-0528能夠一次性生成超千行無Bug代碼,且在HTML/CSS/JS動(dòng)態(tài)交互實(shí)現(xiàn)(如天氣卡片動(dòng)畫、數(shù)據(jù)可視化)中更加精準(zhǔn)。
DeepSeek-R1-0528在風(fēng)格上更接近OpenAI o3,是目前開源大模型中性能頂尖的版本之一。有測(cè)試者認(rèn)為,該版本的性能可能原本計(jì)劃作為R2發(fā)布,但因競(jìng)爭壓力而以R1升級(jí)版形式推出。
來源:Hugging Face、X平臺(tái)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.