昨天凌晨,全球知名的開源大模型平臺DeepSeek發布了其R1系列的最新0528版本。該版本尚未伴隨詳細說明,僅以低調的方式對外開放。預計很快DeepSeek將發布官方模型卡,詳細介紹新版本的功能和特點。
開源地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
不過,已有用戶急于體驗新版R1,并進行了測試。在知名代碼評測平臺Live CodeBench上,R1的表現被認為能夠與OpenAI最新高版本的o3模型相提并論。
部分用戶對新版R1的風格進行了對比測試,發現其表現幾乎與OpenAI的o3模型相當。R1-05-28在回應中展現出了類似于o3-2.5專業風格的特征,諸如箭頭和星號的使用與o3風格高度一致,且在結尾部分以“why it works”的表述增加了說服力。盡管OpenAI付出了很多努力,DeepSeek仍成功實現了這一目標。如果這已經達到了o3的水平,那么未來的R2版本將會更加智能,令人期待。
Hyperbolic Labs的聯合創始人兼CEO表示,新版R1依然是唯一能夠正確回答9.9和9.11哪個更大的模型。
知名AI評論員Haider表示,大師兄DeepSeek強勢回歸。新版DeepSeek R1在編程能力上表現非常出色。他曾進行過一個編程挑戰,要求模型創建一個單詞評分系統。經過短暫推理后,模型生成了兩個文件:一份結構清晰的代碼和一份可執行的測試用例,且這些測試用例首次運行就全部通過。此前只有o3模型能夠達到這樣的水準,而現在沒有其他模型能夠超越。這是他在該任務中遇到過的表現最優的模型。
我持續對它進行測試,發現它表現非常出色,不過目前響應速度似乎有所放緩,思考時間變長了。
如果其他基準測試能證實這一點,我猜測DeekSeek本來打算將新版R1命名為R2發布。不過,鑒于他們最近推出的產品已經遙遙領先,直接用R2這個名稱可能會讓用戶產生過高期待,難免會感到失望。因此,他們可能選擇將這個版本繼續作為全新的R1發布。現在的問題是,我們還需要等待多久才能見到真正意義上的R2版本。
最新的DeepSeek R1表現相當出色。它現在具備了像o3那樣修正自身思考過程(CoT)的能力,同時也能夠像Claude一樣富有創造性地構建完整的世界觀。這些是在之前的R1版本中無法實現的功能。
看到新版R1在編程方面表現如此出色,令我感到非常驚訝。用相同的提示測試了最新的Opus 4,結果發現Opus 4僅僅略微領先一些。這個差距令人感到頗為震撼……
我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,讓AI助力您的未來發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.