今天凌晨,全球著名開源大模型平臺DeepSeek開源了R1最新0528版本。
DeepSeek目前沒有對該版本進行任何說明,又只是“悄悄”地開放了模型。估計很快會放出模型卡介紹更多功能。
開源地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
但已經有網友迫不及待的對新版R1進行測試,在著名代碼測試平臺Live CodeBench中顯示,其性能可以媲美OpenAI最新的o3模型高版本。
也有網友對新版R1的風格進行了測試,幾乎和OpenAI的o3差不多。
R1-05-28具有 o3-2.5 專業風格的響應。箭頭/星號的使用與 o3 風格非常一致,結尾處 “why it works”的表述更具說服力。
盡管 OpenAI付出了努力,但DeepSeek依然出色地完成了這一點。如果這就是 o3 水平,那么 R2 將會有多智能呢?
Hyperbolic Labs聯合創始人兼首席執行官表示,新版R1仍然是唯一能回答9.9和9.11哪個最大的模型。
知名AI評論、分享人Haider表示,大師兄DeepSeek又回來了~
新版本的 DeepSeek R1 在編程方面簡直令人難以置信。
我進行了一項編程挑戰,要求模型構建一個單詞評分系統。模型短暫推理后,給了我兩個文件:整潔的代碼和可運行的測試用例。兩者第一次運行就完美通過。
此前只有 o3 模型能做到這一點,但現在沒有其他模型能做到了。這是我在這項任務中測試過的最佳模型。
我一直在測試它,它非常智能,但現在似乎思考時間更長了。
如果這能被其他基準測試證實,我可以想象原本DeekSeek是想把新版R1作為R2發布的,但鑒于最近發布的產品已經遠遠領先,若再用 R2 這個標簽可能會讓人失望。
因此,他們可能決定將其作為新的 R1 版本發布。那么唯一的問題就是,我們還要等多久才能看到真正的 R2 呢。
新的 DeepSeek R1實際上相當不錯。它現在能夠像 o3一樣糾正自己的思維鏈(CoT),并能像Claude一樣創造性地構建世界觀。這在之前的R1版本中是做不到的。
看到新版R1的編程能力這么好,我很震驚。用同樣的提示測試了最新的Opus 4,結果 Opus 4 只是稍好一點。這太可怕了……
在DeepSeek放出官方模型卡之后,「AIGC開放社區」會為大家做更深的解讀。
本文素材來源網絡,如有侵權請聯系刪除
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.