DeepSeek 猝不及防地更新了,不是 R2,而是 R1 v2。
官方的通告也很「DeepSeek」,甚至可以說有點佛系,在微信交流群發了一句:
「DeepSeek R1 模型已完成小版本試升級,歡迎前往官方網頁、APP、小程序測試(打開深度思考),API 接口和使用方式保持不變。」
看起來平平無奇,但真一頓實測下來,這個「小版本」恐怕還是過于謙虛了。
全球最大 AI 開源社區 Hugging Face 已經開源了這個新版本,名字也很實在:DeepSeek-R1-0528。不過截至目前,模型卡還沒同步更新。
有需求的開發者可以自己動手部署,附上開源地址:https://huggingface.co/DeepSeek-ai/DeepSeek-R1-0528/tree/main
特點總結:
推理能力大幅提升,代碼水平暴漲
?? 寫作表現更有人味,格式更規范
思考過程不僅快,還有條理、講邏輯
?? 支持長時間思考,一項任務可持續 30 到 60 分鐘
根據編碼基準測試 LiveCodeBench 的最新結果,這一版 R1 的表現已經和 OpenAI o3 High 已經五五開了,而且,它的進步也遠不止于代碼能力。
當然,驗證一款模型是否真正「可用」,還得看它在真實場景下的表現,我們也照例跑了幾個案例。
編程:網頁、游戲、UI,啥都能做
【掃雷游戲】考察編程、邏輯推理
比方說,我們參考網友@ ty_1215 的提示詞,讓新版 R1 設計一個掃雷游戲,結果不但邏輯完整,生成代碼結構工整,直接就能拿來跑。
雖然這個任務比較簡單,但在邏輯推理和編程結構的處理上,也算是超出了我的預期。
【音樂播放器】考察審美、功能規劃
再讓它模仿 QQ 音樂播放器的 UI 設計,給它指個方向,它咔咔就是一通輸出,不僅有播放器主體,還帶歌詞、播放按鈕、封面圖、進度條。
理解任務只是基本操作,但拆解指示設計出符合審美且功能完整的界面就難上加難了,最終交出的成果也給我一種它能做得更好的既視感。
【太陽系模擬】考察圖形渲染和物理模擬
再放飛一點,讓它模擬一個太陽系,包括太陽、八大行星和月球,能展示公轉軌道、自轉動畫,還要求背景得帶上動態的星星。
生成的效果雖然顏色配得土了點,但搭配漫天的星星,整個空間氛圍感直接拉滿,尤其是那個可縮放可旋轉的視角,完全可以作為中小學科普動畫的原型演示。
寫作:喜大普奔,終于不油膩啦
【風格模仿】考察寫作、深度理解
除了寫代碼,新版 R1 寫文章的水準也有大幅度提升。一句話概括,就是更有人味了。
春節期間,我們讓 DeepSeek R1 以《百年孤獨》的風格寫春節面對七大姑八大姨的故事,當時就發現,舊版 R1 文筆最大的毛病太愛堆砌意象,拽大詞,讀著有點油。
這次用 R1 v2 復刻同一個問題,風格明顯收斂不少,語言更自然,意象不突兀,有文學感但不矯情,讀起來更自然了。
最近看到一句文言文版的「懂的都懂」,我心想,新版 R1 停留在字面意思就已經實屬不易了,結果出乎意料,它不僅提供字面意思,還深挖了個深層含義,以及甚至從哲學角度開始思考。
類似的,我們 3 月份的時候讓 Deepseek R1 對《紅樓夢》脂批中的「情榜」進行解讀,發現它的深度思考過程邏輯性較弱,零散地整合了不同網頁的觀點。
而且,「泛靈論」「理性超越」「異化」等非口語化的詞匯還是頻繁出現,分析內容也較為機械干癟。
這次拿同樣的問題問 R1 v2,觀察它的深度思考過程,發現思考過程的邏輯性更清楚完整,不再是對網頁信息的零散整合,且有關注到「用戶可能沒意識到但值得深挖的點」。
最重要的是,它在生成回答時自行「注意避免學術腔」,也添加了生動的場景例證。
思維鏈及推理:依然靠譜,還更清楚
語言能力的進步,不僅對于文本生成很重要,更加是滲透在每個環節——尤其是思維鏈。
思維鏈反映的是模型是怎么想的、為什么得出這個結論,以及它怎么表達自己這一系列經過。
DeepSeek 這次的升級,并不只是「答對題」這么簡單。更重要的是,它在推理路徑上的一些細節變化,開始顯露出新的能力結構。
【雞兔同籠】:考察推理理解、解法多樣性
雞兔同籠是非常經典的「必考題」,沒有模型能逃得過。新 R1 的表現展現出很好的穩健性:一開始用設元 + 解方程,體現出結構化建模能力。后面補了一種邏輯回推法——一種典型的奧數思維訓練套路。
兩種方法互補,驗算結果,保證正確。在整個思維鏈展開中,每一個變量意義、每一步計算、每一個代入都交代得明明白白。尤其是中間過程的口語化表達,非常適合給不那么擅長數學的讀者閱讀。
不過,整個過程里沒有出現自我糾錯?這不應該啊,再上個題試試。
【計算時針角度】考察混合題型、基本幾何知識
這題看下來,可以拍著良心說,CoT 的進步相當明顯。
首先有清晰的結構意識,先講「表面方法」,用基本角度計算;再引入「常用公式」進行驗證;最后還能進行反向校正,驗證。
「時針角度」的計算是非常理想的模型測試題,因為除了要計算數值,也要有簡單的幾何概念。新 R1 不僅能完成計算,還體現基本的幾何空間感。
整個過程中,多次出現了「我再確認一下」「有時候會有人算錯」「我可能漏掉了什么」這些自查,說明模型現在并不只是一股腦的列數據,而是有「我正在思考」的姿態——雖然只是姿態,但這不就是 CoT 的核心嗎?
【語義陷阱推理】考察分詞能力、嵌套推理拆解
這看似一個腦筋急轉彎,但實際上,所謂的「真話假話」之間互相嵌套,在推理上要真正理解「最少」和「最多」的語義。
這也就意味著不能武斷地分詞,必須考慮每一種情況。因此這道題的思維鏈和解答都是最長的——超過了四千字。
語義理解沒有翻車,這點很不錯。從兩個互斥的假設出發,來一點點完成推理,考慮了盡可能多種場景和可能性。
在「總是說謊」這個條件解釋上,新 R1 沒有過多解釋。實際上,中文里它是會引發歧義的,「總是」二字會誤導模型以為是「過去一直都說謊」而非「當下說謊」。它這次沒踩坑,可能有一定概率是靠「幻覺」躲過去了。
不過,這一題是真實暴露出了問題:無論是思維鏈,還是最后的解答,敘述方式都是典型的「語言模型思維鏈+流水賬排查」,寫得跟個五年級數學作業一樣,洋洋灑灑也啰啰嗦嗦……
如果生成一個鏈條圖、思維導圖,可能會更清楚。
總體講,新 R1「腦子」比以前清楚了,推理一如既往的靠譜。在代數推導、假設排除等環節表現穩定。推理路徑整體連貫,基本能準確理解語義陷阱類題目中的邏輯關系。
思維鏈的表現來看,相比于之前的略顯冰冷的「理工腦袋」敘述方式,這一次的 CoT 有點像是把模型的「腦內小劇場」擺了出來。但要更貼近「人類思維風格」的表達,還需在精煉、組織與重點識別上繼續優化。
除了我們的測試,網友們的反饋也進一步驗證了新版 R1 的進步。
以經典的小球測試為例,從網友 @flavioAd 發的測試結果來看,新舊模型差距相當明顯:舊版 R1 的球動作生硬、彈跳粘線,像是被釘死在軌道上;新版 R1 的球運動更自然、重力感更強。
用網友的話來說,「這個新版的球有自我意識,自己決定什么時候彈跳」
另一個測試來自博主 @karminski3,他拿 DeepSeek-R1-0528 和 Claude-4-Sonnet 測試了一個球體撞墻的案例。
同樣的提示詞,Claude 輸出了 542 行代碼,DeepSeek 直接來 728 行,功能更全、細節更細,尤其是控制面板的配色、反射、FPS 表現……有點工業設計作業的即視感。
模型的基礎常識能力在此次更新中有所升級。網友 @Yuchenj_UW 提到, DeepSeek-R1-0528 是目前唯一一個能穩定正確回答 「9.9 - 9.11 等于多少?」的模型。
網友的梗也沒落下。有人調侃 DeepSeek 寫代碼像 freestyle:如果數學天才陶哲軒 DeepSeek 強強聯合,說不定真能出個「專輯」。當然,他所說的專輯不是音樂,而是一份能解決當代數學難題的論文。
知名 X 博主 @slow_developer 也加入了實測陣營,稱贊「DeepSeek 真是王者歸來……」他為 R1 v2 設計了一道中等復雜度的任務:構建一個單詞評分系統。
DeepSeek R1 簡單思考了一下,一次性生成兩個文件,一個是主程序,一個是測試腳本,代碼結構清晰,邏輯閉環,首次運行就順利通過,沒有報錯。
目前據他測試,只有 OpenAI 的 o3 模型曾經能做到這種穩定輸出,DeepSeek R1 v2 是第二個。
網友 @mishig25 的案例則演示了 R1 v2 在 Hugging Face Playground 上完整跑通 Chat Template,實現結構化函數調用的過程。
從解析用戶意圖、觸發具體函數,到最后組合成回答的完整流程,DeepSeek 全程干凈利落,表現出極強的指令理解 + 執行能力。
簡言之,別被 DeepSeek-R1-0528 這個樸實無華的名字忽悠了。
壞消息是,新版 R1 的發布意味著 R2 恐怕還得再等等,好消息是,新版 R1 表面看著是個「小版本」,實則是一次能打的真升級,不管是可用性、穩定性,還是復雜任務的完成度,全都肉眼可見地往上抬了一檔。
如果你還在苦等 R2,不妨先認真看看 R1 v2。用過一次,就真的回不去了。不過 DeepSeek 啊,咱就是說...那「服務器繁忙」的提示,能少點不?
模型是好用,咱也得能用上才行啊!
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.