作者|沐風(fēng)
來源|AI先鋒官
臨近端午假期,DeepSeek官方宣布DeepSeek R1模型已完成小版本試升級,歡迎前往官方網(wǎng)頁、App、小程序測試(打開深度思考),API接口和使用方式保持不變。
果然符合DeepSeek的作風(fēng),節(jié)前搞事。
緊接著,在今天凌晨,官方又在HuggingFace上開源了DeepSeek-R1-0528。
開源地址:
https://huggingface.co/DeepSeek-ai/DeepSeek-R1-0528/tree/main
不過,DeepSeek官方此次并沒有公布版本更新的具體內(nèi)容。
有消息稱,該模型是基于DeepSeek-V3-0324訓(xùn)練(參數(shù)為660B)。
據(jù)眾多開發(fā)者測試發(fā)現(xiàn),DeepSeek-R1-0528目前提升最為明顯的也是代碼能力。
在代碼測試平臺Live CodeBench中,其性能幾乎媲美OpenAI的o3-high和o4-mini(Medium)超越了Gemini 2.5 Flash。
AI博主同時也是KCORES開源硬件項目聯(lián)合創(chuàng)始人“karminski-牙醫(yī)”使用DeepSeek-R1-0528和Claude-4-Sonnet進行了對比測試。
在Prompt相同,且一次性生成的情況下, Claude-4-Sonnet生成了542行, DeepSeek-R1-0528生成了728行。
從平面的橙色漫反射、控制面板的美觀程度、撞擊后的運動方向等效果上看,DeepSeek-R1-0528更加出色。
另外,根據(jù)其他網(wǎng)友的測試結(jié)果顯示,DeepSeek-R1-0528在前端設(shè)計的審美、編碼能力上也已經(jīng)達到了Claude 4 Sonnet水準。
例如:
大家可以自行對比。
X博主Haider.更是直接稱贊到“這是我在這個任務(wù)上測試過的最好的模型”,他讓DeepSeek-R1-0528構(gòu)建一個單詞評分系統(tǒng)。
DeepSeek-R1-0528簡要思考后,一次性生成兩個文件,一個是主程序,一個是測試腳本,代碼結(jié)構(gòu)清晰,邏輯閉環(huán),首次運行就順利通過,沒有報錯。
該博主稱,此前,o3是唯一能完成這個任務(wù)的模型,DeepSeek-R1-0528是第二個,堪稱是完成這個任務(wù)的最佳型。
不過,DeepSeek-R1-0528在編程能力的全面性上還是有一點點不足。
例如,缺少多模態(tài)能力,它不能像Claud那樣通過截圖來描述代碼錯誤,調(diào)試比較麻煩。
但即便如此,它在代碼生成方面已經(jīng)穩(wěn)穩(wěn)站在了Claude 3.7和Claude 4之間的水平。
另外,它的進步也遠不止于代碼能力。
“karminski-牙醫(yī)”還對其進行了文本召回測試。
發(fā)現(xiàn)DeepSeek-R1-0528在上下文32K以內(nèi)比之前的R1模型要好不少,但是在60K的上下文中效果下降了不少。
這意味著在32K以內(nèi)針對給定的材料向DeepSeek-R1-0528提問問題,它回答的準確度會更好。
同時,也有開發(fā)者總結(jié)此次更新的另外幾個亮點:
·能像Google模型一樣深度推理文本生成優(yōu)化;
·寫作任務(wù),更自然、格式更好;
·不僅僅是快速,而且深思熟慮;
·單任務(wù)處理時長可達30-60分鐘。
不過,最具爭議的一點是,思考時間更長,有網(wǎng)友實測后,R1思考時長超過了25分鐘。
有網(wǎng)友認為,它的思考過程之所以很長,是為了彌補推理能力,導(dǎo)致響應(yīng)速度比較慢。
但也有網(wǎng)友認為,長思考可以讓它給出的答案更加準確。
例如,有網(wǎng)友提到,DeepSeek-R1-0528是目前唯一一個能穩(wěn)定正確回答“9.9-9.11 等于多少?”的模型。
雖然官方稱此次R1是“小版本試升級”,但在網(wǎng)友看來卻是一次實打?qū)嵉恼嫔墶?/p>
許多網(wǎng)友不禁讓感嘆,如果這是R1,那么R2會有多好?
但此次DeepSeek-R1-0528的發(fā)布也意味著R2恐怕還得再等等。
DeepSeek該不會覺得只要不是模型架構(gòu)更新,只是能力變強就不算大版本升級?
掃碼邀請進群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.