網易首頁 > 網易號 > 正文申請入駐

重新定義「小版本」！全面實測新版 DeepSeek R1，我們挖出了這些隱藏亮點

2025-05-29 12:06:09　來源: AppSo

廣東舉報

分享至

DeepSeek 猝不及防地更新了，不是 R2，而是 R1 v2。

官方的通告也很「DeepSeek」，甚至可以說有點佛系，在微信交流群發了一句：

「DeepSeek R1 模型已完成小版本試升級，歡迎前往官方網頁、APP、小程序測試(打開深度思考)，API 接口和使用方式保持不變。」

看起來平平無奇，但真一頓實測下來，這個「小版本」恐怕還是過于謙虛了。

全球最大 AI 開源社區 Hugging Face 已經開源了這個新版本，名字也很實在：DeepSeek-R1-0528。不過截至目前，模型卡還沒同步更新。

有需求的開發者可以自己動手部署，附上開源地址：https://huggingface.co/DeepSeek-ai/DeepSeek-R1-0528/tree/main

特點總結：

推理能力大幅提升，代碼水平暴漲

?? 寫作表現更有人味，格式更規范

思考過程不僅快，還有條理、講邏輯

?? 支持長時間思考，一項任務可持續 30 到 60 分鐘

根據編碼基準測試 LiveCodeBench 的最新結果，這一版 R1 的表現已經和 OpenAI o3 High 已經五五開了，而且，它的進步也遠不止于代碼能力。

當然，驗證一款模型是否真正「可用」，還得看它在真實場景下的表現，我們也照例跑了幾個案例。

編程：網頁、游戲、UI，啥都能做

【掃雷游戲】考察編程、邏輯推理

比方說，我們參考網友@ ty_1215 的提示詞，讓新版 R1 設計一個掃雷游戲，結果不但邏輯完整，生成代碼結構工整，直接就能拿來跑。

雖然這個任務比較簡單，但在邏輯推理和編程結構的處理上，也算是超出了我的預期。

【音樂播放器】考察審美、功能規劃

再讓它模仿 QQ 音樂播放器的 UI 設計，給它指個方向，它咔咔就是一通輸出，不僅有播放器主體，還帶歌詞、播放按鈕、封面圖、進度條。

理解任務只是基本操作，但拆解指示設計出符合審美且功能完整的界面就難上加難了，最終交出的成果也給我一種它能做得更好的既視感。

【太陽系模擬】考察圖形渲染和物理模擬

再放飛一點，讓它模擬一個太陽系，包括太陽、八大行星和月球，能展示公轉軌道、自轉動畫，還要求背景得帶上動態的星星。

生成的效果雖然顏色配得土了點，但搭配漫天的星星，整個空間氛圍感直接拉滿，尤其是那個可縮放可旋轉的視角，完全可以作為中小學科普動畫的原型演示。

寫作：喜大普奔，終于不油膩啦

【風格模仿】考察寫作、深度理解

除了寫代碼，新版 R1 寫文章的水準也有大幅度提升。一句話概括，就是更有人味了。

春節期間，我們讓 DeepSeek R1 以《百年孤獨》的風格寫春節面對七大姑八大姨的故事，當時就發現，舊版 R1 文筆最大的毛病太愛堆砌意象，拽大詞，讀著有點油。

這次用 R1 v2 復刻同一個問題，風格明顯收斂不少，語言更自然，意象不突兀，有文學感但不矯情，讀起來更自然了。

最近看到一句文言文版的「懂的都懂」，我心想，新版 R1 停留在字面意思就已經實屬不易了，結果出乎意料，它不僅提供字面意思，還深挖了個深層含義，以及甚至從哲學角度開始思考。

類似的，我們 3 月份的時候讓 Deepseek R1 對《紅樓夢》脂批中的「情榜」進行解讀，發現它的深度思考過程邏輯性較弱，零散地整合了不同網頁的觀點。

而且，「泛靈論」「理性超越」「異化」等非口語化的詞匯還是頻繁出現，分析內容也較為機械干癟。

這次拿同樣的問題問 R1 v2，觀察它的深度思考過程，發現思考過程的邏輯性更清楚完整，不再是對網頁信息的零散整合，且有關注到「用戶可能沒意識到但值得深挖的點」。

最重要的是，它在生成回答時自行「注意避免學術腔」，也添加了生動的場景例證。

思維鏈及推理：依然靠譜，還更清楚

語言能力的進步，不僅對于文本生成很重要，更加是滲透在每個環節——尤其是思維鏈。

思維鏈反映的是模型是怎么想的、為什么得出這個結論，以及它怎么表達自己這一系列經過。

DeepSeek 這次的升級，并不只是「答對題」這么簡單。更重要的是，它在推理路徑上的一些細節變化，開始顯露出新的能力結構。

【雞兔同籠】：考察推理理解、解法多樣性

雞兔同籠是非常經典的「必考題」，沒有模型能逃得過。新 R1 的表現展現出很好的穩健性：一開始用設元 + 解方程，體現出結構化建模能力。后面補了一種邏輯回推法——一種典型的奧數思維訓練套路。

兩種方法互補，驗算結果，保證正確。在整個思維鏈展開中，每一個變量意義、每一步計算、每一個代入都交代得明明白白。尤其是中間過程的口語化表達，非常適合給不那么擅長數學的讀者閱讀。

不過，整個過程里沒有出現自我糾錯？這不應該啊，再上個題試試。

【計算時針角度】考察混合題型、基本幾何知識

這題看下來，可以拍著良心說，CoT 的進步相當明顯。

首先有清晰的結構意識，先講「表面方法」，用基本角度計算；再引入「常用公式」進行驗證；最后還能進行反向校正，驗證。

「時針角度」的計算是非常理想的模型測試題，因為除了要計算數值，也要有簡單的幾何概念。新 R1 不僅能完成計算，還體現基本的幾何空間感。

整個過程中，多次出現了「我再確認一下」「有時候會有人算錯」「我可能漏掉了什么」這些自查，說明模型現在并不只是一股腦的列數據，而是有「我正在思考」的姿態——雖然只是姿態，但這不就是 CoT 的核心嗎？

【語義陷阱推理】考察分詞能力、嵌套推理拆解

這看似一個腦筋急轉彎，但實際上，所謂的「真話假話」之間互相嵌套，在推理上要真正理解「最少」和「最多」的語義。

這也就意味著不能武斷地分詞，必須考慮每一種情況。因此這道題的思維鏈和解答都是最長的——超過了四千字。

語義理解沒有翻車，這點很不錯。從兩個互斥的假設出發，來一點點完成推理，考慮了盡可能多種場景和可能性。

在「總是說謊」這個條件解釋上，新 R1 沒有過多解釋。實際上，中文里它是會引發歧義的，「總是」二字會誤導模型以為是「過去一直都說謊」而非「當下說謊」。它這次沒踩坑，可能有一定概率是靠「幻覺」躲過去了。

不過，這一題是真實暴露出了問題：無論是思維鏈，還是最后的解答，敘述方式都是典型的「語言模型思維鏈+流水賬排查」，寫得跟個五年級數學作業一樣，洋洋灑灑也啰啰嗦嗦……

如果生成一個鏈條圖、思維導圖，可能會更清楚。

總體講，新 R1「腦子」比以前清楚了，推理一如既往的靠譜。在代數推導、假設排除等環節表現穩定。推理路徑整體連貫，基本能準確理解語義陷阱類題目中的邏輯關系。

思維鏈的表現來看，相比于之前的略顯冰冷的「理工腦袋」敘述方式，這一次的 CoT 有點像是把模型的「腦內小劇場」擺了出來。但要更貼近「人類思維風格」的表達，還需在精煉、組織與重點識別上繼續優化。

除了我們的測試，網友們的反饋也進一步驗證了新版 R1 的進步。

以經典的小球測試為例，從網友 @flavioAd 發的測試結果來看，新舊模型差距相當明顯：舊版 R1 的球動作生硬、彈跳粘線，像是被釘死在軌道上；新版 R1 的球運動更自然、重力感更強。

用網友的話來說，「這個新版的球有自我意識，自己決定什么時候彈跳」

另一個測試來自博主 @karminski3，他拿 DeepSeek-R1-0528 和 Claude-4-Sonnet 測試了一個球體撞墻的案例。

同樣的提示詞，Claude 輸出了 542 行代碼，DeepSeek 直接來 728 行，功能更全、細節更細，尤其是控制面板的配色、反射、FPS 表現……有點工業設計作業的即視感。

模型的基礎常識能力在此次更新中有所升級。網友 @Yuchenj_UW 提到， DeepSeek-R1-0528 是目前唯一一個能穩定正確回答「9.9 - 9.11 等于多少？」的模型。

網友的梗也沒落下。有人調侃 DeepSeek 寫代碼像 freestyle：如果數學天才陶哲軒 DeepSeek 強強聯合，說不定真能出個「專輯」。當然，他所說的專輯不是音樂，而是一份能解決當代數學難題的論文。

知名 X 博主 @slow_developer 也加入了實測陣營，稱贊「DeepSeek 真是王者歸來……」他為 R1 v2 設計了一道中等復雜度的任務：構建一個單詞評分系統。

DeepSeek R1 簡單思考了一下，一次性生成兩個文件，一個是主程序，一個是測試腳本，代碼結構清晰，邏輯閉環，首次運行就順利通過，沒有報錯。

目前據他測試，只有 OpenAI 的 o3 模型曾經能做到這種穩定輸出，DeepSeek R1 v2 是第二個。

網友 @mishig25 的案例則演示了 R1 v2 在 Hugging Face Playground 上完整跑通 Chat Template，實現結構化函數調用的過程。

從解析用戶意圖、觸發具體函數，到最后組合成回答的完整流程，DeepSeek 全程干凈利落，表現出極強的指令理解 + 執行能力。

簡言之，別被 DeepSeek-R1-0528 這個樸實無華的名字忽悠了。

壞消息是，新版 R1 的發布意味著 R2 恐怕還得再等等，好消息是，新版 R1 表面看著是個「小版本」，實則是一次能打的真升級，不管是可用性、穩定性，還是復雜任務的完成度，全都肉眼可見地往上抬了一檔。

如果你還在苦等 R2，不妨先認真看看 R1 v2。用過一次，就真的回不去了。不過 DeepSeek 啊，咱就是說...那「服務器繁忙」的提示，能少點不？

模型是好用，咱也得能用上才行啊！

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Cursor 1.0首個大版本來襲！自動捉bug，秒改屎山代碼，AI編程分水嶺已至

新智元 2025-06-05 12:26:08
43 跟貼 43
USB-C太混亂！微軟終于看不下去了，WHCP能解？

雷科技 2025-06-05 12:08:58
9 跟貼 9

訓練步數翻倍=推理能力質變，小模型突破推理極限

機器之心Pro 2025-06-04 19:08:50
1 跟貼 1

效率飆漲177%！清華、螞蟻聯合開源全異步RL新成果，8B/14B模型斬獲同尺寸SOTA

智東西 2025-06-05 20:02:52
5 跟貼 5
智能體大潮洶涌，但留給天工和階躍們的時間不多了

雷科技 2025-06-05 21:09:48
0 跟貼 0

DeepMind揭驚人答案：智能體就是世界模型！跟Ilya 2年前預言竟不謀而合

新智元 2025-06-05 17:10:50
2 跟貼 2

女司機開口要150的水，男收費員秒懂：沖奶粉是吧

大象新聞 2025-06-05 19:15:34
73 跟貼 73
DeepSeek接入智慧小浪，「評論羅伯特」爆梗進化！背后大模型全揭秘

新智元 2025-06-04 14:51:39
2 跟貼 2

爆改大模型訓練，華為打出昇騰+鯤鵬組合拳

虎嗅APP 2025-06-04 19:00:08
1 跟貼 1
MIT團隊開發AI文生圖Agent，模擬人類素描，還可人機交互創作

DeepTech深科技 2025-06-05 15:01:15
0 跟貼 0
Gemini 2.5彎道超車背后的靈魂人物

鈦媒體APP 2025-06-05 17:34:43
0 跟貼 0
Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0
古城孤魂的閑言碎語006

古城孤魂 2025-06-05 14:36:22
2 跟貼 2
如果梁文鋒也和董小姐一樣進協和4+4，還會有DeepSeek嗎？

洞見青年 2025-06-04 10:50:31
3 跟貼 3
美國一票否決加沙停火協議草案中方代表：非常失望

魯中晨報 2025-06-05 08:26:06
20080 跟貼 20080
看似無害的提問偷走RAG記憶，IKEA：隱蔽高效數據提取攻擊新范式

機器之心Pro 2025-06-04 19:20:28
0 跟貼 0
爆火AI編程Windsurf突遭Claude全面斷供，開發者大量退訂！直接打臉OpenAI

新智元 2025-06-04 19:34:56
6 跟貼 6
ai也不看好！DeepSeek預測國足vs印尼：勝率僅3成，國足0-1或1-1

直播吧 2025-06-05 13:58:02
2 跟貼 2
DeepSeek預測5大高危崗位，第1個淘汰率已超85%

腦袋空空的泡芙 2025-06-04 21:21:52
0 跟貼 0
柯南漫畫1145話：朗姆展現推理能力，柯南的確不如他

二次元那些事 2025-06-04 22:34:46
2 跟貼 2
碟中諜8邏輯紊亂的無病呻吟中，倒是把一件最危險的事說對了

劉曉非說 2025-06-02 15:56:04
11 跟貼 11
結局詳細復盤！《血謎拼圖》推理的缺憾，新拼圖埋下第二季伏筆？

霧風誌 2025-06-05 12:37:55
0 跟貼 0
【DeepSeek談藝】文禎非 | 讓繪畫回到本源，讓畫面自然生長

文化視界網 2025-06-05 16:06:01
0 跟貼 0
【DeepSeek談藝】王鐵牛·油畫 | 在平凡中見深刻，在靜謐中蘊力量

文化視界網 2025-06-05 17:59:26
0 跟貼 0
DeepSeek視角下的全球景觀設計領域最具影響力的十大國際景觀獎項

AR建筑門戶 2025-06-06 01:06:41
0 跟貼 0
10行代碼，AIME24/25提高15%！揭秘大模型強化學習熵機制

機器之心Pro 2025-06-05 18:59:11
1 跟貼 1
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
語義的表征

白駒談人機 2025-06-04 02:37:37
0 跟貼 0
飛書一個聊天框，激活了機器之心編輯部的知識資產

機器之心Pro 2025-05-21 15:39:31
0 跟貼 0
AI 時代的超級應用，是一個超級框

愛范兒 2025-03-13 11:56:19
0 跟貼 0
河南一水庫水位下降現千佛石窟，有1043尊石佛幾乎全部被敲掉頭部，水庫管理人員：汛期將至，禁止參觀

魯中晨報 2025-06-02 10:19:03
4026 跟貼 4026
拿下2000臺人形機器人訂單、總合同額超1億，松延動力創始人詳解技術秘籍

智東西 2025-06-05 21:44:01
1 跟貼 1
上海宣布：南北高架打通新通道，通行提速！終于不用堵了→

魯中晨報 2025-06-05 20:00:00
127 跟貼 127
蔣雨融哈佛演講持續發酵！郭正亮：其內容毫無邏輯可言！

藍色齒輪 2025-06-04 13:08:37
0 跟貼 0
印尼軍購風云：陣風勝出背后的戰場邏輯與米格29的興衰沉浮

最新聲音 2025-06-04 04:20:54
0 跟貼 0
氛圍編碼已成王道，打字創建應用，兩分鐘編寫掃雷

機器之心Pro 2025-03-31 18:25:16
0 跟貼 0
豆包1.5·深度思考模型上線(2)

機器之心Pro 2025-04-17 19:53:58
0 跟貼 0
沒想到吧，立方和公式可以這樣使用

三樂大掌柜 2025-06-02 22:07:06
1 跟貼 1
2025湖北武漢PLC編程自動化工控培訓機構選哪家最好

發光的向日葵 2025-06-04 09:28:43
0 跟貼 0
生而為BMW 終為BMW人

MCAuto 2025-06-01 19:00:00
0 跟貼 0

AppSo

讓智能手機更好用的秘密

5362文章數 26570關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

房產

藝術

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

重新定義「小版本」！全面實測新版 DeepSeek R1，我們挖出了這些隱藏亮點

對話盛景網聯彭志強：跳出SaaS虧損黑洞！從“賣工具”到“賣結果”的AI RaaS轉型法則

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

提前無緣美加墨世界杯 國足眾將賽后落淚

陳赫宴請好友，李乃文攜妻子罕見亮相

習近平同美國總統特朗普通電話

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

通知！高考期間部分學校周邊部分路段采取交通管控

再奪荔灣銷冠！誰是主城改善標準制定者，終于有了答案！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

普京明確：沒有人會與“恐怖分子”談判

27歲女子被咬傷身亡三亞衛健委再通報搶救全過程

27歲女子被咬傷身亡三亞衛健委再通報搶救全過程

提前無緣美加墨世界杯國足眾將賽后落淚

旗艦+大六座+百萬級阿維塔全新SUV預計明年量產