網易首頁 > 網易號 > 正文申請入駐

不只是“小升級”！DeepSeek-R1新版獲海外盛贊，每經記者親測挑戰三大編程任務

2025-05-29 18:53:11　來源: 每日經濟新聞

四川舉報

分享至

5月29日凌晨，DeepSeek-R1-0528正式在Hugging Face平臺開源。此前一日（5月28日），DeepSeek官方宣布DeepSeek-R1模型已完成小版本試升級，用戶可通過官方網頁、App、小程序進行測試（打開深度思考），API接口和使用方式保持不變。

在此次更新中，模型代碼能力的提升最為顯著。知名代碼測試平臺LiveCodeBench顯示，更新后的R1性能可以媲美OpenAI o3模型的高版本。

除代碼能力外，R1新版本模型的文本理解與推理能力亦實現跨越式升級。其上下文長度拓展至128k，長文本提取的準確率也有顯著提升。

《每日經濟新聞》記者（以下簡稱“每經記者”）通過俄羅斯方塊游戲開發、太陽系模擬與交互展示，以及設計英偉達最新財報網頁這三項任務對R1新版本進行了實測，發現DeepSeek-R1-0528的編程能力確實強大，對物理世界的理解以及文本的提取都相當準確。

知名AI評論人Haider在社交媒體上評價稱，這是開源的一大勝利。

瑞士IT咨詢公司CTOL Digital Solutions首席執行官Max Zhang則表示，在這一“小”進步之后，我們確實可以期待更大突破（DeepSeek-R2）的到來。

圖片來源：Hugging Face

“小升級”實現“大跨越”：升級后的R1性能媲美o3模型高版本

DeepSeek延續了其一貫的低調風格，此次升級率先在微信群進行官宣，并輕描淡寫地將其定義為“小版本升級”。

然而，眾多開發者實測后發現，此次的“小”升級，并不小。升級后的DeepSeek-R1，模型能力可以說實現了跨越式提升。

圖片來源：DeepSeek官方微信群截圖

編碼能力方面，代碼測試平臺LiveCodeBench顯示，更新后的DeepSeek-R1性能接近OpenAI在4月中旬發布的o4-mini和o3模型高版本。

據測試者反饋，DeepSeek-R1-0528能夠一次性生成超千行無Bug代碼，且在HTML/CSS/JS動態交互實現（如天氣卡片動畫、數據可視化）中更加精準。

圖片來源：代碼測試平臺LiveCodeBench

除代碼能力外，新版本模型的文本理解與推理能力亦實現跨越式升級。其上下文長度拓展至128k，長文本提取的準確率也有顯著提升。

在Extended NYT Connections基準測試中，相比于前一代DeepSeek-R1，最新的0528版本的提升非常明顯，得分從38.6%大幅升至49.8%。

圖片來源：X

目前，ChatBot Arena也已經“上架”了最新版本的DeepSeek-R1，但還沒有任何的測試結果。

圖片來源：X

記者實測編程能力

為了更全面地測試DeepSeek-R1-0528的編程能力，每經記者設計了三項不同難度和類型的編程任務，包括網頁游戲制作、物理世界模擬、財報可視化，來檢驗其在實際場景中的表現。

任務一：俄羅斯方塊游戲開發

作為一款經典的休閑游戲，俄羅斯方塊游戲的開發涉及圖形繪制、游戲邏輯處理、用戶交互等多個方面，能夠很好地考察模型對于綜合編程知識的掌握和運用能力。

每經記者首先向DeepSeek-R1提出需求：“請幫我開發一個網頁端俄羅斯方塊小游戲，要求包含游戲分數、彩色方塊及多個關卡。”

DeepSeek僅思考了7秒，就開始輸出代碼。然而，初步生成的游戲無法正常運作，雖有預設的分數與關卡顯示，但游戲區域內并沒有俄羅斯方塊。

圖片來源：由DeepSeek生成

隨后，記者調整提示詞，僅提了最基礎的要求，“請幫我寫個俄羅斯方塊游戲（網頁端），直接可以上手玩。”

簡潔的指令似乎對DeepSeek-R1-0528更加奏效。這次R1思考9秒，用時約3分30秒便生成了代碼。

圖片來源：由DeepSeek生成

從游戲頁面來看，色彩搭配鮮明且協調，不同顏色的方塊在深色背景下十分醒目，游戲區域布局合理，操作說明也清晰明了。

在游戲邏輯方面，方塊的下落、移動和旋轉都很流暢，沒有出現延遲或卡頓現象。

可以說，已經具備了一個成熟俄羅斯方塊游戲應有的功能和體驗。

任務二：太陽系模擬與交互展示

接下來，難度升級。對于大模型而言，對物理世界進行準確模擬長期以來都是一項極具挑戰性的任務。

此次，記者特意選取“行星軌道運動的物理模擬”這一任務，在考察其編碼能力的同時，也考察DeepSeek-R1-0528對物理世界的理解能力。

記者向R1提出要求——寫一個太陽系模擬網頁，并且網頁可交互展示。

因為任務更復雜，R1思考時間也相應變長，耗時54秒后開始輸出代碼。

圖片來源：由DeepSeek生成

可以看出，R1的整體完成度極高，完全可以作為中小學科普動畫的原型演示。

從界面呈現看，太陽居于中心，八大行星依照各自軌道有序排布，色彩搭配也符合人們對天體的認知。此外，行星的大小比例、相對位置都比較精準。

在交互功能方面，右側控制面板設計簡潔且功能豐富。

同時，頁面“行星信息”板塊還以簡潔明了的文字介紹了太陽及各大行星的關鍵特征，如太陽的質量、直徑，水星的公轉周期、表面溫度等，兼具科普性與趣味性。

任務三：設計英偉達最新財報網頁

最后，每經記者上傳了英偉達2026財年第一財季財報的文檔，要求R1根據財報中的內容，制作一個可交互的網頁。

財報中數據繁雜，文本較長，非常考察模型準確提取文本的能力。

圖片來源：由DeepSeek生成

DeepSeek-R1生成的網頁令人眼前一亮。在視覺呈現上，網頁采用了標志性的“英偉達綠”，顏色搭配協調。

數據方面，基本做到了準確無誤，很少出現“幻覺”情況。此外，模型還繪制了柱狀圖、餅圖等圖表，讓復雜的數據變得一目了然。

盡管可能還存在一些細微的提升空間。比如，在漲跌幅的顏色上，我們通常用紅色表示上漲，綠色表示下跌。但可能由于記者投喂的是美股公司財報（美股一般用綠色表示上漲，紅色表示下跌），R1用了與之對應的顏色來展示漲跌幅。

整體來看，R1已充分彰顯其在復雜任務處理上的卓越潛力。

“全球AI競賽關鍵節點”！DeepSeek-R1新版獲海外盛贊

DeepSeek最新發布的R1模型升級版在全球AI領域掀起熱議，多位國際主流科技大佬及行業高管紛紛發聲，盛贊其技術突破。

機器學習研究者kalomaze實測后贊嘆道，“DeepSeek太出色了。”

Hyperbolic Labs聯合創始人兼首席技術官Yuchen Jin表示，新版R1似乎是唯一能回答9.9減9.11等于幾的模型。

知名AI評論人Haider直呼，這是開源的一大勝利。“DeepSeek王者歸來了。新版本的DeepSeek-R1在編程方面簡直令人難以置信，這是我測試過的最佳模型。”

AI撰稿人喬治·霍普金（George Hopkin）表示，DeepSeek的R1模型更新后，推理和輸出能力大幅提升，標志著中國在全球AI競賽中的影響力日益增強。

瑞士IT咨詢公司CTOL Digital Solutions首席執行官Max Zhang指出，DeepSeek的最新版R1模型，正悄然成為谷歌Gemini 2.5 Pro的強勁競爭對手。“這一發展不僅僅是技術進步，更是全球AI競賽中的一個關鍵節點。該模型憑借其雙倍輸出能力和增強的數學推理能力，展示了中國在AI領域的快速崛起。”

DeepSeek此次更新的亮眼表現，為DeepSeek的下一代模型R2注入更多想象空間。Max Zhang表示，在這一“小”進步之后，我們確實可以期待更大突破的到來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.