超出所有人的期待。
千呼萬喚始出來,DeepSeek 迎來了推理模型更新。
昨晚,DeepSeek 官方宣布其 R1 推理模型升級到了最新版本(0528),并在今天凌晨公開了模型及權重。
HuggingFace 鏈接:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
模型文件上傳時間是凌晨 1 點,不知 DeepSeek 工程師們是不是加班到了最后一刻。也有網友表示,這回又在端午節假期前發新模型,簡直比放假通知還靠譜。
這次更新的升級版 R1 參數量高達 6850 億,體量巨大,雖然開源了出來,但大多數人只能圍觀。如果「滿血版」不進行蒸餾,是肯定無法在消費級硬件上本地運行的。
不過這種不說話直接放鏈接的態度還是引來了網友們的普遍歡迎。
根據 DeepSeek 的小范圍通知,更新后的 R1 版本采用 MIT 許可證,這意味著它可以用于商業用途,從版本號看來這是一個「小」升級,不過人們大量實測后發現,新版大模型的性能提升頗為明顯。
我們也能在新版 DeepSeek-R1 模型的配置文件中看到更多但并不出人意料的信息,包括采用了 DeepSeek-V3 作為基礎模型以及 MoE、隱藏層大小、量化等配置。
我們現在已經可以在 DeepSeek 的網頁端和 App 上直接用上這個最新版本的大模型。
有網友總結表示,新的 DeepSeek-R1-0528 可以進行更加深度的推理,輸出的文本更加自然,結構更有層次感,它展現出了獨特的推理風格,不僅速度很快,而且進行了充分的思考。與上周發布的 Claude4 類似,現在的 DeepSeek 也可以進行長時間的思考了,據說能持續 30-60 分鐘。
已經有一些網友實測時遇到了 DeepSeek 的長考,這 deep research 可夠深度的:
基準評分,成績大幅提升
DeepSeek R1 發布以來,大模型領域的格局已經發生了變化。原版 R1 的成績如今已不再領先,R1-0528 的出現修正了結果。
R1-0528 模型的第一個 Benchmark 成績是 LiveCodeBench,它超越了 O3-Mini,幾乎與 O3(High)的評分相當,在編程任務上相比上個版本有了顯著的提升。
要知道 DeepSeek 模型是完全開源的,App 目前為止也完全免費,這可以說是開源的勝利。
另外,其在 Extended NYT Connections 基準上的成績也已經出爐,相比于前一代 DeepSeek-R1,最新的 0528 版本的提升非常明顯,從 38.6 增至了 49.8,接近 Claude Opus 4 Thinking 16k;不過在該基準上,DeepSeek-R1-0528 仍舊沒有擠進 OpenAI o 系列模型占據的第一梯隊。
目前,ChatBot Arena 上也已經更新了新版本的 DeepSeek R1,讓我們看看大家充分測試過后它的排名能爬到多高。
網友實測:代碼能力大幅提升
雖然 DeepSeek-R1-0528 才剛出來不久,但已經有不少網友分享了自己的實測結果。
比如開發者 Haider 就通過一個編程挑戰賽(構建一個詞評分系統)挑戰了當前主流的前沿模型,結果發現,目前只有 o3 和新版 DeepSeek-R1 能夠完成這個挑戰。這不禁讓他感嘆:DeepSeek is so back...
也有網友通過一個小球撞墻實驗直觀地對比了 Claude-4-Sonnet 與 DeepSeek-R1-0528 的實際表現。可以看到,DeepSeek-R1 生成的代碼在模擬物理碰撞方面表現會更好一些。
Hyperbolic Labs CTO 和聯創 Yuchen Jin 也進行了簡單測試,發現 R1-0528 是目前唯一一個始終能正確回答「what is 9.9 - 9.11?」的模型。
下面是他錄制的演示視頻:
機器之心也做了一次簡單的嘗試,讓其用 Python 編寫了一個可以將 Word 文檔中的圖片提取到固定路徑的小程序。
可以看到,DeepSeek-R1 用一分多鐘完成了任務,那實際效果如何呢?很遺憾,出現了一個報錯:
這是一個簡單的句法錯誤,下面我們直接將其反饋給 R1-0528。結果出現了一個有趣的現象,對于這個簡單報錯,R1 模型思考的時間(212 秒)遠遠超過了之前寫出整個程序的時間。
查看其思考過程可知,新版本的 R1 與之前的版本一樣存在過度思考的問題,即反復思考和驗證原本很簡單的問題。
不過好在,修改后的程序成功完成了指定任務,就是這 UI 字體有點不協調:
我們還進行了另一些簡單測試。整體來說,我們感覺新版 DeepSeek-R1 相比前一版本確實提升不小,完成一個任務所需的對話輪次也少了許多。
最后,盡管 R1 這次提升很大,網友們還是期待 DeepSeek 盡快放出 R2。
一個小版本更新就如此驚艷,DeepSeek R2 會是什么樣子?這一次,我們是不是要等到國慶節?
文中視頻鏈接:https://mp.weixin.qq.com/s/14YOsEZ_Kr6MD-7qvm3Hgg
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.