網易首頁 > 網易號 > 正文申請入駐

DeepSeek R1悄悄更新！用「小版本」干翻大模型

2025-05-29 17:08:49　來源: 字母榜

北京舉報

分享至

雖然DeepSeek-R2并沒有像2個月之前盛傳的那樣，在5月甚至之前準時赴約。但是，DeepSeek正在不斷地用小升級追趕其他廠商的大版本。

昨天DeepSeek官方的一則「R1已完成小版本試升級」的消息，在各個AI討論群里炸開了花。這回的DeepSeek-R1-0528版本在各個社區引發震動的最主要原因是：它真的不是一次小更新！

目前該升級版的DeepSeek-R1-0528已經全量上線官方網頁、APP、小程序等等，API也已經可以接入。

關于DeepSeek官方多么有誠意，我們已經在V3版本的升級上看到了——模型性能大幅提升只是開胃小菜，成本價格比更是再度優化。這回的更新也是一樣，新版本的DeepSeek-R1主要在編程能力上大幅提升。據一家LLM API接入網站OpenRouter，這回的新版本R1的輸入輸出價格幾乎與先前版本毫無變化！

在智能水平上，新版本DeepSeek-R1-0528在 Extended NYT Connections 基準測試上相比原始 DeepSeek R1有了大幅提升：38.6 → 49.8。

它真的很難說是「小升級」

現在，全網都在瘋狂拿它跟全面替代AI coding真神的Claude 4對比，發現：這倆模型竟然不相上下？甚至有一張在Livecodebench上DeepSeek-R1-0528與o3-high旗鼓相當的基準測試對比圖，在網上瘋傳。許多網友認為這回更新后的DeepSeek-R1-0528在代碼生成等編程領域的實力已經進入第一梯隊了。

我們搜集了全網最有趣的實測體驗，看看這回的DeepSeek-R1-0528到底將AI coding的能力拓展了多少：

有X網友@karminski3設置了一個「DeepSeek-R1-0528 VS Claude-4-sonnet」挑戰賽，用彈球撞擊墻面的效果作對比。

實測下來發現：DeepSeek方的彈球看起來甚至還有光澤，撞碎墻面后的粒子效果幾乎能與Claude-4-sonnet一較高下，控制面板的美觀度也都非常在線。

值得一提的是，在這次的測試中，兩個大模型使用了同一個Prompt，DeepSeek-R1-0528 生成了728行，而Claude-4-sonnet生成了542行。

更新后的R1-0528在粒子效果的表現上尤其好。粒子效果通常會涉及復雜的動態動畫和物理模擬，像是物體運動、碰撞、光影變化等等。這足以說明R1-0528在生成復雜動態動畫能力上有了很大的突破。

X網友MILO，就做了個可交互的粒子動態動畫平臺，我們也進去體驗了下。我們注意到除了畫面中央的炫酷粒子爆炸外，右上角的粒子數計算也以一種很匹配的方式同步進行著。

在全棧網頁開發上，「小升級」之后的DeepSeek-R1-0528所表現出來的能力也有了很明顯的提升。

比如，X上有網友@DomLiu給 DeepSeek-R1-0528 一個全棧網頁開發Prompt，就能在幾秒鐘內從零開始構建了一個完整的應用程序。

這段提示詞還非常的簡單：構建一個 three.js 應用程序，用于加載具有實時顏色/材質/配件控制的 3D 模型。直觀的用戶界面。流暢的相機視角。

更為驚艷的是下面這個Case，同樣是這位網友，他幾乎將DeepSeek-R1玩出了花，這也證明小升級后的DeepSeek-R1-0528到底在編程能力上有多強。

簡單來說，他使用升級后的DeepSeek-R1做了一個3D畫廊，有這些功能：

程序化幾何生成，動態場景生成系統，多彩動態光影效果，相機動畫與過渡，虛擬畫廊導航體驗。

有實際用過Trae、Cursor、Windsurf等一眾AI coding的朋友肯定都懂一個具有強大自主編程能力的基座大模型到底意味著什么？——編程效率的指數級提升。

3D藝術畫廊非常直觀地顯示了DeepSeek-R1-0528在面對復雜任務時的自主編程能力。

我們也實際上手測試了下，發現升級后的DeepSeek-R1-0528在面對非常簡單的提示詞時也能做出很快的反應，并自主地豐富功能。

比如，我只給了它一句：

生成一個蘋果官網風格的前端網頁。

它只經過14秒的思考，就輕松理清了蘋果官網風格設計頁面的設計思路：

· 使用蘋果標志性的深空灰/銀色調

· 大字體標題和簡潔文案

· 高清產品圖像與漸變背景

· 懸浮動畫效果

· 響應式布局

最主要的是，很短時間內它就已經生成了462行代碼，做出來的效果也與我所設想的非常相近：

除了純代碼能力之外，DeepSeek-R1-0528在前端審美上也有了很大的提升。

比如下面這個原生iOS風格界面設計，采用了抹茶綠色主題，融合現代美學，看起來搭配很流暢。

除了產品應用UI風格之外，DeepSeek-R1-0528在HTML網頁的前端網格上也有了很大的提升。

下面兩組新版本的介紹網頁中，深色是DeepSeek-R1-0528生成，在美觀度上更具科技感和視覺沖擊力，也非常符合AI大模型本來的調性；白色則是由Claude4生成：

思維鏈似乎改變了，出現了一些「副作用」

這回DeepSeek-R1-0528的強勢開源，甚至讓各國網友都重溫了下今年年初R1發布時的情景?，F在的DeepSeek-R1-0528已經擁有了Claude系列的強自主編程能力，同時網友們在實際測試中也注意到它的思維鏈模式似乎發生了改變。

很多實測后的網友都發現這回的升級版DeepSeek-R1-0528的思考過程實在是太長了，很容易出現過度思考的現象。

比如，網友們發現了一個有趣的測試題：「估算一下π/7」，發現DeepSeek-R1-0528的思考推理過程有些太漫長了。

我們也實際測試了下，面對這樣的一個小問題，DeepSeek-R1-0528的深度思考時間達到了148秒。并且，其推理過程顯得冗余性很大。

DeepSeek-R1-0528在面對「估算一下π/7」這個問題時的思維鏈到底有多長，你可以直觀感受下：

雖然各國網友都直觀感受到了升級后的DeepSeek-R1-0528在推理能力上消耗的時間變得長了，但推理結果精度的提升也是顯而易見的。經過優化的DeepSeek-R1-0528在處理復雜問題時，已經展現出了更強的邏輯分析能力和更細致的推理過程，這使得輸出的答案不僅更加準確，還在深度和廣度上都有了顯著改進。

比如，X網友@baalatejakataru在實際編程過程中發現新的 DeepSeek-R1-0528想得太多，但是出錯時能夠快速地自我糾正，還能夠很好地寫新興系統編程語言——Zig，表現很不錯。

DeepSeek官方這回同樣延續了之前發布即開源的策略，R1-0528已經正式開源。除了開源動作之外，更新后的R1仍然采用寬松的MIT許可證，意味著它可用于商業用途。

這次DeepSeek-R1-0528的升級，進一步印證了當下大模型行業的趨勢：大版本固然令人期待，但持續穩定的小步迭代同樣無法讓人裝作看不見。

雖然DeepSeek-R2尚未如期而至，也引發了全網對于這一版本的疑惑。但是通過強化編程能力、優化前端審美，DeepSeek團隊持續的小步快跑，無疑讓業界重新審視小版本升級的巨大價值。盡管思維鏈的冗長帶來了一些「副作用」，但其帶來的精度提升和自我糾錯能力依然讓人無法忽視這次的版本升級。

在未來，DeepSeek-R1-0528的這種不改變大架構，而是通過「小升級、小迭代」就能達成明顯效果的方式可能將會成為主流，「大版本號盲目崇拜」已經被破除。

下一次「小升級」，或許就是另一場風暴的開始。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.