網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek-R1今天一次小更新，顛覆了大模型格局，網(wǎng)友：盡快放R2

2025-05-29 11:38:46　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

超出所有人的期待。

千呼萬喚始出來，DeepSeek 迎來了推理模型更新。

昨晚，DeepSeek 官方宣布其 R1 推理模型升級(jí)到了最新版本（0528），并在今天凌晨公開了模型及權(quán)重。

HuggingFace 鏈接：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

模型文件上傳時(shí)間是凌晨 1 點(diǎn)，不知 DeepSeek 工程師們是不是加班到了最后一刻。也有網(wǎng)友表示，這回又在端午節(jié)假期前發(fā)新模型，簡直比放假通知還靠譜。

這次更新的升級(jí)版 R1 參數(shù)量高達(dá) 6850 億，體量巨大，雖然開源了出來，但大多數(shù)人只能圍觀。如果「滿血版」不進(jìn)行蒸餾，是肯定無法在消費(fèi)級(jí)硬件上本地運(yùn)行的。

不過這種不說話直接放鏈接的態(tài)度還是引來了網(wǎng)友們的普遍歡迎。

根據(jù) DeepSeek 的小范圍通知，更新后的 R1 版本采用 MIT 許可證，這意味著它可以用于商業(yè)用途，從版本號(hào)看來這是一個(gè)「小」升級(jí)，不過人們大量實(shí)測后發(fā)現(xiàn)，新版大模型的性能提升頗為明顯。

我們也能在新版 DeepSeek-R1 模型的配置文件中看到更多但并不出人意料的信息，包括采用了 DeepSeek-V3 作為基礎(chǔ)模型以及 MoE、隱藏層大小、量化等配置。

我們現(xiàn)在已經(jīng)可以在 DeepSeek 的網(wǎng)頁端和 App 上直接用上這個(gè)最新版本的大模型。

有網(wǎng)友總結(jié)表示，新的 DeepSeek-R1-0528 可以進(jìn)行更加深度的推理，輸出的文本更加自然，結(jié)構(gòu)更有層次感，它展現(xiàn)出了獨(dú)特的推理風(fēng)格，不僅速度很快，而且進(jìn)行了充分的思考。與上周發(fā)布的 Claude4 類似，現(xiàn)在的 DeepSeek 也可以進(jìn)行長時(shí)間的思考了，據(jù)說能持續(xù) 30-60 分鐘。

已經(jīng)有一些網(wǎng)友實(shí)測時(shí)遇到了 DeepSeek 的長考，這 deep research 可夠深度的：

基準(zhǔn)評(píng)分，成績大幅提升

DeepSeek R1 發(fā)布以來，大模型領(lǐng)域的格局已經(jīng)發(fā)生了變化。原版 R1 的成績?nèi)缃褚巡辉兕I(lǐng)先，R1-0528 的出現(xiàn)修正了結(jié)果。

R1-0528 模型的第一個(gè) Benchmark 成績是 LiveCodeBench，它超越了 O3-Mini，幾乎與 O3（High）的評(píng)分相當(dāng)，在編程任務(wù)上相比上個(gè)版本有了顯著的提升。

要知道 DeepSeek 模型是完全開源的，App 目前為止也完全免費(fèi)，這可以說是開源的勝利。

另外，其在 Extended NYT Connections 基準(zhǔn)上的成績也已經(jīng)出爐，相比于前一代 DeepSeek-R1，最新的 0528 版本的提升非常明顯，從 38.6 增至了 49.8，接近 Claude Opus 4 Thinking 16k；不過在該基準(zhǔn)上，DeepSeek-R1-0528 仍舊沒有擠進(jìn) OpenAI o 系列模型占據(jù)的第一梯隊(duì)。

目前，ChatBot Arena 上也已經(jīng)更新了新版本的 DeepSeek R1，讓我們看看大家充分測試過后它的排名能爬到多高。

網(wǎng)友實(shí)測：代碼能力大幅提升

雖然 DeepSeek-R1-0528 才剛出來不久，但已經(jīng)有不少網(wǎng)友分享了自己的實(shí)測結(jié)果。

比如開發(fā)者 Haider 就通過一個(gè)編程挑戰(zhàn)賽（構(gòu)建一個(gè)詞評(píng)分系統(tǒng)）挑戰(zhàn)了當(dāng)前主流的前沿模型，結(jié)果發(fā)現(xiàn)，目前只有 o3 和新版 DeepSeek-R1 能夠完成這個(gè)挑戰(zhàn)。這不禁讓他感嘆：DeepSeek is so back...

也有網(wǎng)友通過一個(gè)小球撞墻實(shí)驗(yàn)直觀地對(duì)比了 Claude-4-Sonnet 與 DeepSeek-R1-0528 的實(shí)際表現(xiàn)。可以看到，DeepSeek-R1 生成的代碼在模擬物理碰撞方面表現(xiàn)會(huì)更好一些。

Hyperbolic Labs CTO 和聯(lián)創(chuàng) Yuchen Jin 也進(jìn)行了簡單測試，發(fā)現(xiàn) R1-0528 是目前唯一一個(gè)始終能正確回答「what is 9.9 - 9.11?」的模型。

下面是他錄制的演示視頻：

機(jī)器之心也做了一次簡單的嘗試，讓其用 Python 編寫了一個(gè)可以將 Word 文檔中的圖片提取到固定路徑的小程序。

可以看到，DeepSeek-R1 用一分多鐘完成了任務(wù)，那實(shí)際效果如何呢？很遺憾，出現(xiàn)了一個(gè)報(bào)錯(cuò)：

這是一個(gè)簡單的句法錯(cuò)誤，下面我們直接將其反饋給 R1-0528。結(jié)果出現(xiàn)了一個(gè)有趣的現(xiàn)象，對(duì)于這個(gè)簡單報(bào)錯(cuò)，R1 模型思考的時(shí)間（212 秒）遠(yuǎn)遠(yuǎn)超過了之前寫出整個(gè)程序的時(shí)間。

查看其思考過程可知，新版本的 R1 與之前的版本一樣存在過度思考的問題，即反復(fù)思考和驗(yàn)證原本很簡單的問題。

不過好在，修改后的程序成功完成了指定任務(wù)，就是這 UI 字體有點(diǎn)不協(xié)調(diào)：

我們還進(jìn)行了另一些簡單測試。整體來說，我們感覺新版 DeepSeek-R1 相比前一版本確實(shí)提升不小，完成一個(gè)任務(wù)所需的對(duì)話輪次也少了許多。

最后，盡管 R1 這次提升很大，網(wǎng)友們還是期待 DeepSeek 盡快放出 R2。

一個(gè)小版本更新就如此驚艷，DeepSeek R2 會(huì)是什么樣子？這一次，我們是不是要等到國慶節(jié)？

文中視頻鏈接：https://mp.weixin.qq.com/s/14YOsEZ_Kr6MD-7qvm3Hgg

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.