雖然DeepSeek-R2并沒有像2個月之前盛傳的那樣,在5月甚至之前準時赴約。但是,DeepSeek正在不斷地用小升級追趕其他廠商的大版本。
昨天DeepSeek官方的一則「R1已完成小版本試升級」的消息,在各個AI討論群里炸開了花。這回的DeepSeek-R1-0528版本在各個社區(qū)引發(fā)震動的最主要原因是:它真的不是一次小更新!
目前該升級版的DeepSeek-R1-0528已經(jīng)全量上線官方網(wǎng)頁、APP、小程序等等,API也已經(jīng)可以接入。
關于DeepSeek官方多么有誠意,我們已經(jīng)在V3版本的升級上看到了——模型性能大幅提升只是開胃小菜,成本價格比更是再度優(yōu)化。這回的更新也是一樣,新版本的DeepSeek-R1主要在編程能力上大幅提升。據(jù)一家LLM API接入網(wǎng)站OpenRouter,這回的新版本R1的輸入輸出價格幾乎與先前版本毫無變化!
在智能水平上,新版本DeepSeek-R1-0528在 Extended NYT Connections 基準測試上相比原始 DeepSeek R1有了大幅提升:38.6 → 49.8。
01
它真的很難說是「小升級」
現(xiàn)在,全網(wǎng)都在瘋狂拿它跟全面替代AI coding真神的Claude 4對比,發(fā)現(xiàn):這倆模型竟然不相上下?甚至有一張在Livecodebench上DeepSeek-R1-0528與o3-high旗鼓相當?shù)幕鶞蕼y試對比圖,在網(wǎng)上瘋傳。許多網(wǎng)友認為這回更新后的DeepSeek-R1-0528在代碼生成等編程領域的實力已經(jīng)進入第一梯隊了。
我們搜集了全網(wǎng)最有趣的實測體驗,看看這回的DeepSeek-R1-0528到底將AI coding的能力拓展了多少:
有X網(wǎng)友@karminski3設置了一個「DeepSeek-R1-0528 VS Claude-4-sonnet」挑戰(zhàn)賽,用彈球撞擊墻面的效果作對比。
實測下來發(fā)現(xiàn):DeepSeek方的彈球看起來甚至還有光澤,撞碎墻面后的粒子效果幾乎能與Claude-4-sonnet一較高下,控制面板的美觀度也都非常在線。
值得一提的是,在這次的測試中,兩個大模型使用了同一個Prompt,DeepSeek-R1-0528 生成了728行,而Claude-4-sonnet生成了542行。
更新后的R1-0528在粒子效果的表現(xiàn)上尤其好。粒子效果通常會涉及復雜的動態(tài)動畫和物理模擬,像是物體運動、碰撞、光影變化等等。這足以說明R1-0528在生成復雜動態(tài)動畫能力上有了很大的突破。
X網(wǎng)友MILO,就做了個可交互的粒子動態(tài)動畫平臺,我們也進去體驗了下。我們注意到除了畫面中央的炫酷粒子爆炸外,右上角的粒子數(shù)計算也以一種很匹配的方式同步進行著。
在全棧網(wǎng)頁開發(fā)上,「小升級」之后的DeepSeek-R1-0528所表現(xiàn)出來的能力也有了很明顯的提升。
比如,X上有網(wǎng)友@DomLiu給 DeepSeek-R1-0528 一個全棧網(wǎng)頁開發(fā)Prompt,就能在幾秒鐘內(nèi)從零開始構建了一個完整的應用程序。
這段提示詞還非常的簡單:構建一個 three.js 應用程序,用于加載具有實時顏色/材質(zhì)/配件控制的 3D 模型。直觀的用戶界面。流暢的相機視角。
更為驚艷的是下面這個Case,同樣是這位網(wǎng)友,他幾乎將DeepSeek-R1玩出了花,這也證明小升級后的DeepSeek-R1-0528到底在編程能力上有多強。
簡單來說,他使用升級后的DeepSeek-R1做了一個3D畫廊,有這些功能:
程序化幾何生成,動態(tài)場景生成系統(tǒng),多彩動態(tài)光影效果,相機動畫與過渡,虛擬畫廊導航體驗。
有實際用過Trae、Cursor、Windsurf等一眾AI coding的朋友肯定都懂一個具有強大自主編程能力的基座大模型到底意味著什么?——編程效率的指數(shù)級提升。
3D藝術畫廊非常直觀地顯示了DeepSeek-R1-0528在面對復雜任務時的自主編程能力。
我們也實際上手測試了下,發(fā)現(xiàn)升級后的DeepSeek-R1-0528在面對非常簡單的提示詞時也能做出很快的反應,并自主地豐富功能。
比如,我只給了它一句:
生成一個蘋果官網(wǎng)風格的前端網(wǎng)頁。
它只經(jīng)過14秒的思考,就輕松理清了蘋果官網(wǎng)風格設計頁面的設計思路:
· 使用蘋果標志性的深空灰/銀色調(diào)
· 大字體標題和簡潔文案
· 高清產(chǎn)品圖像與漸變背景
· 懸浮動畫效果
· 響應式布局
最主要的是,很短時間內(nèi)它就已經(jīng)生成了462行代碼,做出來的效果也與我所設想的非常相近:
除了純代碼能力之外,DeepSeek-R1-0528在前端審美上也有了很大的提升。
比如下面這個原生iOS風格界面設計,采用了抹茶綠色主題,融合現(xiàn)代美學,看起來搭配很流暢。
除了產(chǎn)品應用UI風格之外,DeepSeek-R1-0528在HTML網(wǎng)頁的前端網(wǎng)格上也有了很大的提升。
下面兩組新版本的介紹網(wǎng)頁中,深色是DeepSeek-R1-0528生成,在美觀度上更具科技感和視覺沖擊力,也非常符合AI大模型本來的調(diào)性;白色則是由Claude4生成:
02
思維鏈似乎改變了,出現(xiàn)了一些「副作用」
這回DeepSeek-R1-0528的強勢開源,甚至讓各國網(wǎng)友都重溫了下今年年初R1發(fā)布時的情景?,F(xiàn)在的DeepSeek-R1-0528已經(jīng)擁有了Claude系列的強自主編程能力,同時網(wǎng)友們在實際測試中也注意到它的思維鏈模式似乎發(fā)生了改變。
很多實測后的網(wǎng)友都發(fā)現(xiàn)這回的升級版DeepSeek-R1-0528的思考過程實在是太長了,很容易出現(xiàn)過度思考的現(xiàn)象。
比如,網(wǎng)友們發(fā)現(xiàn)了一個有趣的測試題:「估算一下π/7」,發(fā)現(xiàn)DeepSeek-R1-0528的思考推理過程有些太漫長了。
我們也實際測試了下,面對這樣的一個小問題,DeepSeek-R1-0528的深度思考時間達到了148秒。并且,其推理過程顯得冗余性很大。
DeepSeek-R1-0528在面對「估算一下π/7」這個問題時的思維鏈到底有多長,你可以直觀感受下:
雖然各國網(wǎng)友都直觀感受到了升級后的DeepSeek-R1-0528在推理能力上消耗的時間變得長了,但推理結果精度的提升也是顯而易見的。經(jīng)過優(yōu)化的DeepSeek-R1-0528在處理復雜問題時,已經(jīng)展現(xiàn)出了更強的邏輯分析能力和更細致的推理過程,這使得輸出的答案不僅更加準確,還在深度和廣度上都有了顯著改進。
比如,X網(wǎng)友@baalatejakataru在實際編程過程中發(fā)現(xiàn)新的 DeepSeek-R1-0528想得太多,但是出錯時能夠快速地自我糾正,還能夠很好地寫新興系統(tǒng)編程語言——Zig,表現(xiàn)很不錯。
DeepSeek官方這回同樣延續(xù)了之前發(fā)布即開源的策略,R1-0528已經(jīng)正式開源。除了開源動作之外,更新后的R1仍然采用寬松的MIT許可證,意味著它可用于商業(yè)用途。
這次DeepSeek-R1-0528的升級,進一步印證了當下大模型行業(yè)的趨勢:大版本固然令人期待,但持續(xù)穩(wěn)定的小步迭代同樣無法讓人裝作看不見。
雖然DeepSeek-R2尚未如期而至,也引發(fā)了全網(wǎng)對于這一版本的疑惑。但是通過強化編程能力、優(yōu)化前端審美,DeepSeek團隊持續(xù)的小步快跑,無疑讓業(yè)界重新審視小版本升級的巨大價值。盡管思維鏈的冗長帶來了一些「副作用」,但其帶來的精度提升和自我糾錯能力依然讓人無法忽視這次的版本升級。
在未來,DeepSeek-R1-0528的這種不改變大架構,而是通過「小升級、小迭代」就能達成明顯效果的方式可能將會成為主流,「大版本號盲目崇拜」已經(jīng)被破除。
下一次「小升級」,或許就是另一場風暴的開始。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.