在端午節(jié)來臨前夕,DeepSeek悄悄完成了一次小版本升級,當(dāng)前版本為DeepSeek-R1-0528。
迄今為止,DeepSeek最震動世界的動作還是1月發(fā)布R1。而之后DeepSeek的熱度就開始下降,使用率也有所回落,并且引發(fā)了一些質(zhì)疑。
今年3月,DeepSeek放出了 DeepSeek-V3-0324 模型。時隔兩月,DeepSeek再次進行模型更新。
我們不禁好奇,這次更新又會給我們帶來怎樣的驚喜?
圖源:微博
四大實用升級,普通人也用得到
根據(jù)DeepSeek官方公告,DeepSeek-R1-0528使用2024年12月所發(fā)布的DeepSeek V3 Base模型作為基座,但在后訓(xùn)練過程中投入了更多算力,顯著提升模型的思維深度與推理能力。
這次更新,DeepSeek主要升級了幾個十分實用的功能。
第一,DeepSeek的思考能力深化。
根據(jù)官方介紹,更新后的 R1 模型在數(shù)學(xué)、編程與通用邏輯等多個基準(zhǔn)測評中取得了當(dāng)前國內(nèi)所有模型中首屈一指的優(yōu)異成績,并且在整體表現(xiàn)上已接近其他國際頂尖模型,如 o3 與 Gemini-2.5-Pro。
圖源:DeepSeek官網(wǎng)
最左邊那欄是測試集,可以看到DeepSeek-R1-0528 在各項評測集上均取得了優(yōu)異表現(xiàn)。
并且,相較于舊版 R1,新版模型在復(fù)雜推理任務(wù)中的表現(xiàn)有了顯著提升。例如在 AIME 2025 測試中,新版模型準(zhǔn)確率由舊版的 70% 提升至 87.5%。
舉個例子,DeepSeek-R1-0528現(xiàn)在也能做對數(shù)字新難題“9.9-9.11=?”了。
圖源:DeepSeek
要知道,這種看似簡單的數(shù)學(xué)題能難倒o3、Gemini 2.5 pro、Claude 4等一眾頂流大模型。
另外,這次更新中,上下文長度擴展至164K tokens,支持單任務(wù)最長60分鐘的深度思考,這意味著處理復(fù)雜任務(wù)的能力提升了。
DeepSeek表示,DeepSeek-R1-0528的思維鏈對于學(xué)術(shù)界推理模型的研究和工業(yè)界針對小模型的開發(fā)都將具有重要意義。
第一,新版 DeepSeek R1 針對“幻覺”問題進行了優(yōu)化。
“AI幻覺”(AI Hallucination)這一現(xiàn)象,表現(xiàn)為模型輸出與輸入無關(guān)、違背事實或邏輯的內(nèi)容,例如虛構(gòu)事實、編造引用、錯誤數(shù)據(jù)等。
在一定測試樣本中,AI輸出包含幻覺內(nèi)容的比例就是幻覺率。
相信不少人在網(wǎng)上都看過這樣的吐槽:本來想要借助DeepSeek寫文章,結(jié)果發(fā)現(xiàn)它給出的參考文獻根本不存在!
這就是AI幻覺。
AI幻覺常見表現(xiàn)就是捏造不存在的研究論文或作者,或是提供錯誤的歷史事件、日期或科學(xué)結(jié)論,以及生成與上下文無關(guān)的矛盾回答。
原因有三方面:訓(xùn)練數(shù)據(jù)噪聲或偏差;模型過度依賴統(tǒng)計模式而非真實理解;提示模糊或引導(dǎo)不當(dāng)。
總而言之,幻覺率是評估AI可靠性的重要指標(biāo)。
而舊版相比,更新后的模型在改寫潤色、總結(jié)摘要、閱讀理解等場景中,幻覺率降低了 45~50% 左右,能夠有效地提供更為準(zhǔn)確、可靠的結(jié)果。
不得不說,這是很實用的一大進步。
第二,新版 DeepSeek R1在創(chuàng)意寫作、代碼生角色扮演等功能上有了很大的優(yōu)化。
舊版 R1 的基礎(chǔ)上,更新后的 R1 模型針對議論文、小說、散文等文體進行了進一步優(yōu)化,能夠輸出篇幅更長、結(jié)構(gòu)內(nèi)容更完整的長篇作品,同時呈現(xiàn)出更加貼近人類偏好的寫作風(fēng)格。
圖源:DeepSeek官網(wǎng)
而在編程測評中,R1-0528與OpenAI的o3-high版本表現(xiàn)接近,部分任務(wù)甚至超越Claude 4 Sonnet等頂尖模型。
例如,生成帶有動畫效果的天氣卡片代碼時,R1的設(shè)計細(xì)節(jié)和交互動畫完成度優(yōu)于Claude。
圖源:微博
第四,DeepSeek-R1-0528 支持工具調(diào)用(不支持在 thinking 中進行工具調(diào)用)。
根據(jù)官方介紹,當(dāng)前模型 Tau-Bench 測評成績?yōu)?airline 53.5% / retail 63.9%,與 OpenAI o1-high 相當(dāng),但與 o3-High 以及 Claude 4 Sonnet 仍有差距。
圖源:DeepSeek官網(wǎng)
總結(jié)一下,根據(jù)中國經(jīng)濟網(wǎng)報道,升級主要有四個方面。
首先,響應(yīng)質(zhì)量優(yōu)化。
對復(fù)雜推理、多步驟計算更準(zhǔn)確;長文理解與生成更連貫、邏輯更清晰;數(shù)學(xué)、編程等專業(yè)性輸出更可靠。
其次,響應(yīng)速度小幅提升。
在網(wǎng)頁端、App、API 接口中響應(yīng)更敏捷,尤其在處理超長文本輸入時,延遲有所降低(約提升 10%~20%)。
再次,對話穩(wěn)定性增強。
上下文記憶更穩(wěn)定,尤其在超長對話中,并且減少偶爾“遺忘設(shè)定”或“跑偏”的情況。
最后,API 和接口兼容性保持穩(wěn)定。
如公告所說:API 調(diào)用方式、參數(shù)、返回結(jié)構(gòu)完全不變,用戶無需調(diào)整現(xiàn)有集成,即可無縫使用新版本。
換句話說,日常生活中,現(xiàn)在的DeepSeek-R1-0528 已經(jīng)足夠應(yīng)對大多數(shù)問題,而在學(xué)習(xí)和工作中,DeepSeek-R1-0528的可靠性大大提升、使用體驗也變好了。
強如DeepSeek,叫板國外AI大模型
在現(xiàn)在這個人人都在卷AI的時候,DeepSeek還保留著獨特的優(yōu)勢。
首先,在開源策略上,更新后的DeepSeek-R1依然選擇開源。
DeepSeek采用MIT協(xié)議開源,允許免費商用,甚至不用公開自己的修改代碼,極大降低了AI應(yīng)用門檻。
其次,DeepSeek成本優(yōu)勢顯著,開發(fā)者狂喜。
其API價格僅為OpenAI o1的1/50(輸入token)至1/27(輸出token),也就是同樣處理字?jǐn)?shù)的文本,用R1需要的成本比用OpenAI低很多,
因此,在性價比方面,DeepSeek稱第二,沒人敢稱第一。
最后,DeepSeek與國內(nèi)應(yīng)用市場的適配度很高。
目前DeepSeek已經(jīng)接入許多應(yīng)用,例如華為小藝、騰訊元寶等,有著廣泛的用戶基礎(chǔ)。
并且國產(chǎn)硬件,如華為昇騰910B芯片已完成適配,支持本地化部署,徹底擺脫對英偉達(dá)的依賴。
然而,DeepSeek還有許多可以優(yōu)化的空間。
圖源:微博
一方面,測評顯示,R1在編程能力上與o3-high接近,數(shù)學(xué)推理優(yōu)于Gemini 2.5 Pro,但工具調(diào)用能力仍存在差距。
另一方面,暫不支持圖片、語音等多模態(tài)輸入,在日常使用中有局限性。
另外,在創(chuàng)意寫作、多輪對話等場景,R1和頂級模型仍有差距。盡管幻覺率降低,模型在長文本對話中仍可能出現(xiàn)邏輯錯誤,并且部分用戶反饋服務(wù)響應(yīng)存在延遲,“服務(wù)器繁忙,請稍后重試”恐怕也是人們對DeepSeek的重要印象之一。
圖源:微博
迄今為止,DeepSeek最震動世界的動作還是1月發(fā)布R1。
3月份DeepSeek放出的 DeepSeek-V3-0324 模型,主要優(yōu)化了代碼方面的功能。該模型全面超越 Claude-3.7-Sonnet,在數(shù)學(xué)、代碼類相關(guān)評測集上超過 GPT-4.5。
而當(dāng)前,市場最關(guān)心的依然是R2模型發(fā)布。
4月初,DeepSeek聯(lián)手清華大學(xué)發(fā)布一篇論文,提出一種名為自我原則點評調(diào)優(yōu)(SPCT)的新學(xué)習(xí)方。同時,研究者引入了元獎勵模型(meta RM),進一步提升推理擴展性能。
上述論文引發(fā)了DeepSeek的R2是否很快面世的猜測。
而這次版本升級,再次激起了人們對R2的期待。
有人認(rèn)為,這次的小版本升級可能意味著,R2還遠(yuǎn)未準(zhǔn)備好推出。
也有人認(rèn)為,這次優(yōu)化這么多功能都只是一次“小版本升級”,那么R2如果出來,其影響力想必不會輸給R1。
圖源:微博
DeepSeek-R1的升級像一場靜水深流的變革——它沒有渲染“顛覆世界”的野心,卻用更長的思考時間、更低的犯錯率、更貼近普通人的成本,悄悄改寫了“強者恒強”的AI敘事。
這一次,我們看到的不是參數(shù)競賽的喧囂,也不是資本游戲的狂歡,而是一個樸素的真相:真正的進步,往往藏在“夠用就好”的克制里。
技術(shù)的光芒,本就該照進這些具體而微的生活褶皺里。
作者 | 劉峰
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.