智東西
作者 李水青
編輯 云鵬
智東西5月29日報道,今天凌晨,DeepSeek-R1-0528在Hugging Face上開源。
地址:
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
此前昨日晚間,DeepSeek官方推送通知,R1模型已經完成小版本試升級,可在官方網站、APP、小程序測試(打開深度思考)體驗。
針對DeepSeek-R1-0528,DeepSeek尚未放出模型卡介紹更多功能。但多方用戶體驗后提到,DeepSeek-R1-0528在編程、邏輯推理、交互能力等方面均有顯著提升。
已有開發者對DeepSeek-R1-0528進行了基準測試,稱這是開源領域的重大勝利。代碼測試平臺Live CodeBench顯示,其性能接近OpenAI在4月中旬發布的o4 mini和o3模型高版本。
▲DeepSeek-R1-0528性能接近o3模型高版本
測試地址:
https://livecodebench.github.io/leaderboard.html
同時有文本召回測試結果顯示,32k以內文本DeepSeek-R1-0528比之前的R1要好不少,但是60k下降了不少。這意味著在32k以內針對給定的材料使用新R1提問讓它回答的話,準確度會好不少。
▲DeepSeek-R1-0528基于材料回復更準確
測試地址:
https://fiction.live/stories/Fiction-liveBench-May-22-2025/oQdzQvKHw8JyXbN87
多位開發者通過案例體驗稱,DeepSeek-R1-0528效果基本追平Claude 4,有些情況下表現更好。
“直接看效果, 我就提兩點, 注意平面的橙色漫反射, 以及控制面板的美觀程度。這倆是用同一個提示詞一次性生成的,Claude 4 sonnet生成了542行, DeepSeek-R1-0528生成了728行。幀率和運動角度細節也值得關注?!币晃婚_發者在X平臺上稱。
▲DeepSeek-R1-0528與Claude 4 sonnet進行效果比較
有開發者讓DeepSeek-R1-0528、Claude 4和DeepSeek-V3-0324在飛機大戰游戲生成對比效果。新版R1在之前的基礎上,自己新增了很多道具,畫面也比之前更好了。
▲開發者放出DeepSeek-R1-0528在飛機大戰游戲程序的表現
此外,根據測試者反饋,DeepSeek-R1-0528能夠一次性生成超千行無Bug代碼,且在HTML/CSS/JS動態交互實現(如天氣卡片動畫、數據可視化)中更加精準。
DeepSeek-R1-0528在風格上更接近OpenAI o3,是目前開源大模型中性能頂尖的版本之一。有測試者認為,該版本的性能可能原本計劃作為R2發布,但因競爭壓力而以R1升級版形式推出。
來源:Hugging Face、X平臺
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.