網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek重磅升級，影響太大，沖上熱搜

2025-06-03 14:22:46　來源: 科技頭版Pro

廣東舉報

分享至

在端午節(jié)來臨前夕，DeepSeek悄悄完成了一次小版本升級，當(dāng)前版本為DeepSeek-R1-0528。

迄今為止，DeepSeek最震動世界的動作還是1月發(fā)布R1。而之后DeepSeek的熱度就開始下降，使用率也有所回落，并且引發(fā)了一些質(zhì)疑。

今年3月，DeepSeek放出了 DeepSeek-V3-0324 模型。時隔兩月，DeepSeek再次進行模型更新。

我們不禁好奇，這次更新又會給我們帶來怎樣的驚喜？

圖源：微博

四大實用升級，普通人也用得到

根據(jù)DeepSeek官方公告，DeepSeek-R1-0528使用2024年12月所發(fā)布的DeepSeek V3 Base模型作為基座，但在后訓(xùn)練過程中投入了更多算力，顯著提升模型的思維深度與推理能力。

這次更新，DeepSeek主要升級了幾個十分實用的功能。

第一，DeepSeek的思考能力深化。

根據(jù)官方介紹，更新后的 R1 模型在數(shù)學(xué)、編程與通用邏輯等多個基準(zhǔn)測評中取得了當(dāng)前國內(nèi)所有模型中首屈一指的優(yōu)異成績，并且在整體表現(xiàn)上已接近其他國際頂尖模型，如 o3 與 Gemini-2.5-Pro。

圖源：DeepSeek官網(wǎng)

最左邊那欄是測試集，可以看到DeepSeek-R1-0528 在各項評測集上均取得了優(yōu)異表現(xiàn)。

并且，相較于舊版 R1，新版模型在復(fù)雜推理任務(wù)中的表現(xiàn)有了顯著提升。例如在 AIME 2025 測試中，新版模型準(zhǔn)確率由舊版的 70% 提升至 87.5%。

舉個例子，DeepSeek-R1-0528現(xiàn)在也能做對數(shù)字新難題“9.9-9.11=？”了。

圖源：DeepSeek

要知道，這種看似簡單的數(shù)學(xué)題能難倒o3、Gemini 2.5 pro、Claude 4等一眾頂流大模型。

另外，這次更新中，上下文長度擴展至164K tokens，支持單任務(wù)最長60分鐘的深度思考，這意味著處理復(fù)雜任務(wù)的能力提升了。

DeepSeek表示，DeepSeek-R1-0528的思維鏈對于學(xué)術(shù)界推理模型的研究和工業(yè)界針對小模型的開發(fā)都將具有重要意義。

第一，新版 DeepSeek R1 針對“幻覺”問題進行了優(yōu)化。

“AI幻覺”（AI Hallucination）這一現(xiàn)象，表現(xiàn)為模型輸出與輸入無關(guān)、違背事實或邏輯的內(nèi)容，例如虛構(gòu)事實、編造引用、錯誤數(shù)據(jù)等。

在一定測試樣本中，AI輸出包含幻覺內(nèi)容的比例就是幻覺率。

相信不少人在網(wǎng)上都看過這樣的吐槽：本來想要借助DeepSeek寫文章，結(jié)果發(fā)現(xiàn)它給出的參考文獻根本不存在！

這就是AI幻覺。

AI幻覺常見表現(xiàn)就是捏造不存在的研究論文或作者，或是提供錯誤的歷史事件、日期或科學(xué)結(jié)論，以及生成與上下文無關(guān)的矛盾回答。

原因有三方面：訓(xùn)練數(shù)據(jù)噪聲或偏差；模型過度依賴統(tǒng)計模式而非真實理解；提示模糊或引導(dǎo)不當(dāng)。

總而言之，幻覺率是評估AI可靠性的重要指標(biāo)。

而舊版相比，更新后的模型在改寫潤色、總結(jié)摘要、閱讀理解等場景中，幻覺率降低了 45～50% 左右，能夠有效地提供更為準(zhǔn)確、可靠的結(jié)果。

不得不說，這是很實用的一大進步。

第二，新版 DeepSeek R1在創(chuàng)意寫作、代碼生角色扮演等功能上有了很大的優(yōu)化。

舊版 R1 的基礎(chǔ)上，更新后的 R1 模型針對議論文、小說、散文等文體進行了進一步優(yōu)化，能夠輸出篇幅更長、結(jié)構(gòu)內(nèi)容更完整的長篇作品，同時呈現(xiàn)出更加貼近人類偏好的寫作風(fēng)格。

圖源：DeepSeek官網(wǎng)

而在編程測評中，R1-0528與OpenAI的o3-high版本表現(xiàn)接近，部分任務(wù)甚至超越Claude 4 Sonnet等頂尖模型。

例如，生成帶有動畫效果的天氣卡片代碼時，R1的設(shè)計細(xì)節(jié)和交互動畫完成度優(yōu)于Claude。

圖源：微博

第四，DeepSeek-R1-0528 支持工具調(diào)用（不支持在 thinking 中進行工具調(diào)用）。

根據(jù)官方介紹，當(dāng)前模型 Tau-Bench 測評成績?yōu)?airline 53.5% / retail 63.9%，與 OpenAI o1-high 相當(dāng)，但與 o3-High 以及 Claude 4 Sonnet 仍有差距。

圖源：DeepSeek官網(wǎng)

總結(jié)一下，根據(jù)中國經(jīng)濟網(wǎng)報道，升級主要有四個方面。

首先，響應(yīng)質(zhì)量優(yōu)化。

對復(fù)雜推理、多步驟計算更準(zhǔn)確；長文理解與生成更連貫、邏輯更清晰；數(shù)學(xué)、編程等專業(yè)性輸出更可靠。

其次，響應(yīng)速度小幅提升。

在網(wǎng)頁端、App、API 接口中響應(yīng)更敏捷，尤其在處理超長文本輸入時，延遲有所降低（約提升 10%～20%）。

再次，對話穩(wěn)定性增強。

上下文記憶更穩(wěn)定，尤其在超長對話中，并且減少偶爾“遺忘設(shè)定”或“跑偏”的情況。

最后，API 和接口兼容性保持穩(wěn)定。

如公告所說：API 調(diào)用方式、參數(shù)、返回結(jié)構(gòu)完全不變，用戶無需調(diào)整現(xiàn)有集成，即可無縫使用新版本。

換句話說，日常生活中，現(xiàn)在的DeepSeek-R1-0528 已經(jīng)足夠應(yīng)對大多數(shù)問題，而在學(xué)習(xí)和工作中，DeepSeek-R1-0528的可靠性大大提升、使用體驗也變好了。

強如DeepSeek，叫板國外AI大模型

在現(xiàn)在這個人人都在卷AI的時候，DeepSeek還保留著獨特的優(yōu)勢。

首先，在開源策略上，更新后的DeepSeek-R1依然選擇開源。

DeepSeek采用MIT協(xié)議開源，允許免費商用，甚至不用公開自己的修改代碼，極大降低了AI應(yīng)用門檻。

其次，DeepSeek成本優(yōu)勢顯著，開發(fā)者狂喜。

其API價格僅為OpenAI o1的1/50（輸入token）至1/27（輸出token），也就是同樣處理字?jǐn)?shù)的文本，用R1需要的成本比用OpenAI低很多，

因此，在性價比方面，DeepSeek稱第二，沒人敢稱第一。

最后，DeepSeek與國內(nèi)應(yīng)用市場的適配度很高。

目前DeepSeek已經(jīng)接入許多應(yīng)用，例如華為小藝、騰訊元寶等，有著廣泛的用戶基礎(chǔ)。

并且國產(chǎn)硬件，如華為昇騰910B芯片已完成適配，支持本地化部署，徹底擺脫對英偉達(dá)的依賴。

然而，DeepSeek還有許多可以優(yōu)化的空間。

圖源：微博

一方面，測評顯示，R1在編程能力上與o3-high接近，數(shù)學(xué)推理優(yōu)于Gemini 2.5 Pro，但工具調(diào)用能力仍存在差距。

另一方面，暫不支持圖片、語音等多模態(tài)輸入，在日常使用中有局限性。

另外，在創(chuàng)意寫作、多輪對話等場景，R1和頂級模型仍有差距。盡管幻覺率降低，模型在長文本對話中仍可能出現(xiàn)邏輯錯誤，并且部分用戶反饋服務(wù)響應(yīng)存在延遲，“服務(wù)器繁忙，請稍后重試”恐怕也是人們對DeepSeek的重要印象之一。

圖源：微博

迄今為止，DeepSeek最震動世界的動作還是1月發(fā)布R1。

3月份DeepSeek放出的 DeepSeek-V3-0324 模型，主要優(yōu)化了代碼方面的功能。該模型全面超越 Claude-3.7-Sonnet，在數(shù)學(xué)、代碼類相關(guān)評測集上超過 GPT-4.5。

而當(dāng)前，市場最關(guān)心的依然是R2模型發(fā)布。

4月初，DeepSeek聯(lián)手清華大學(xué)發(fā)布一篇論文，提出一種名為自我原則點評調(diào)優(yōu)（SPCT）的新學(xué)習(xí)方。同時，研究者引入了元獎勵模型（meta RM），進一步提升推理擴展性能。

上述論文引發(fā)了DeepSeek的R2是否很快面世的猜測。

而這次版本升級，再次激起了人們對R2的期待。

有人認(rèn)為，這次的小版本升級可能意味著，R2還遠(yuǎn)未準(zhǔn)備好推出。

也有人認(rèn)為，這次優(yōu)化這么多功能都只是一次“小版本升級”，那么R2如果出來，其影響力想必不會輸給R1。

圖源：微博

DeepSeek-R1的升級像一場靜水深流的變革——它沒有渲染“顛覆世界”的野心，卻用更長的思考時間、更低的犯錯率、更貼近普通人的成本，悄悄改寫了“強者恒強”的AI敘事。

這一次，我們看到的不是參數(shù)競賽的喧囂，也不是資本游戲的狂歡，而是一個樸素的真相：真正的進步，往往藏在“夠用就好”的克制里。

技術(shù)的光芒，本就該照進這些具體而微的生活褶皺里。

作者 | 劉峰

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

開源Qwen凌晨暴擊閉源Claude！刷新AI編程SOTA，支持1M上下文

量子位 2025-07-23 08:37:45
12 跟貼 12
阿里正式發(fā)布 Qwen3-Coder，這是其迄今為止最具代理能力的代碼模型

華爾街見聞官方 2025-07-23 09:17:03
5 跟貼 5

造福or替代程序員？實測阿里新模型

虎嗅APP 2025-07-23 22:42:47
3 跟貼 3

Qwen3小升級即SOTA，開源大模型王座快變中國內(nèi)部賽了

量子位 2025-07-22 13:06:32
24 跟貼 24
10% KV無損數(shù)學(xué)推理！開源方法解決推理大模型「記憶過載」難題

量子位 2025-06-16 16:27:36
6 跟貼 6

英偉達(dá)GPU被曝嚴(yán)重漏洞，致模型準(zhǔn)確率暴跌99.9%

量子位 2025-07-23 15:34:19
2 跟貼 2

微信能自動發(fā)消息了？不愛打字的用戶有福了！

雷科技 2025-07-23 12:22:56
3 跟貼 3
TRAE推出SOLO模式，業(yè)內(nèi)首個「Context Engineer」來了

量子位 2025-07-22 11:57:15
20 跟貼 20

最近大火的雕塑家李沐之古希臘雕像全假論的邏輯事實荒誕（三）

王小東 2025-07-21 17:16:54
11 跟貼 11
新的CodeBuddy IDE測了，我們感受到騰訊搞定創(chuàng)意人士的野心

機器之心Pro 2025-07-23 17:38:17
2 跟貼 2
AI編程平臺Lovable成立8個月估值18億美元，成歐洲最新獨角獸

DeepTech深科技 2025-07-23 18:33:44
0 跟貼 0
杭州市余杭區(qū)部分小區(qū)供水異常調(diào)查情況通報

界面新聞 2025-07-23 17:44:30
24544 跟貼 24544
半年不到，DeepSeek已跌落神壇！用戶都去哪了？

雷科技 2025-07-23 16:30:03
58 跟貼 58
現(xiàn)在還可以買房嗎？一條視頻告訴你買房的邏輯和真相

來訪曼 2025-07-23 03:10:52
1 跟貼 1
36天3次信號，更猛烈的樓市刺激政策要來了？房地產(chǎn)邏輯變了

金梅煮酒 2025-07-22 19:03:00
6 跟貼 6
印度一枚布拉莫斯導(dǎo)彈，被巴基斯坦拆解，相關(guān)參數(shù)全部破譯

全局觀 2025-07-21 16:11:47
0 跟貼 0
金牌模型三位核心華人光速離職！谷歌IMO奪金24h即遭小扎閃電抄家

新智元 2025-07-23 10:24:25
11 跟貼 11
醉酒父親街頭摟著亭亭玉立女兒不時親手親臉:我生的

臺海大林 2025-07-23 08:47:56
6253 跟貼 6253
AI音頻生成重要突破！清華×生數(shù)科技最新研究被ACM頂會收錄

智東西 2025-07-23 20:13:42
1 跟貼 1
計算機ETF（512720）連續(xù)5日凈流入！AIAgent加速落地，資金積極布局計算機板塊

每日經(jīng)濟新聞 2025-07-23 15:36:03
0 跟貼 0
我產(chǎn)假被踢出群，服務(wù)器崩潰億級大單難保，領(lǐng)導(dǎo)35萬外包見我傻了

二十一號故事鋪 2025-07-23 20:05:03
0 跟貼 0
八成用戶選純電的零跑C11，開起來到底怎么樣？

AL 頻道 2025-07-21 18:23:13
4 跟貼 4
迷你四驅(qū)車創(chuàng)始人田宮俊作去世，開創(chuàng)了日本塑料拼裝模型

澎湃新聞 2025-07-22 18:31:06
0 跟貼 0
【DeepSeek談藝】劉曙光·油畫 | 藝術(shù)語言的突破與演進

文化視界網(wǎng) 2025-07-22 16:58:54
1 跟貼 1
真正的智能體軟件工程師：OpenAI研發(fā)A-SWE能寫代碼、測試質(zhì)量、修復(fù)Bug

量子位 2025-04-14 19:04:43
0 跟貼 0
封關(guān)后到海南出差、旅游等不需要額外辦理證件

央視新聞客戶端 2025-07-23 10:42:44
7282 跟貼 7282
周杰回應(yīng)易立競“開得起玩笑”論：清醒通透，邏輯在線盡顯高智商

澤哥說動漫 2025-07-23 08:23:46
0 跟貼 0
主鋼筋被切斷？長沙一小區(qū)多棟精裝房存在安全隱患！住建局已介入

封面新聞 2025-07-23 12:58:04
2501 跟貼 2501
物流業(yè)deepseek時刻，中國無人車火爆全球

華商韜略 2025-06-17 10:58:23
0 跟貼 0
癌癥中晚期11年患者：帶瘤生存靠什么？穩(wěn)住腫瘤不長大的核心邏輯

女人的偽裝 2025-07-21 01:09:15
0 跟貼 0
24省份半年報陸續(xù)出爐：廣東穩(wěn)居首位四川守住第五

時代周報 2025-07-23 15:24:30
2551 跟貼 2551
印巴沖突，打出中國軍工的Deepseek時刻

東方寒兔 2025-07-22 17:47:45
0 跟貼 0
大運會女籃：中國隊加時71-67逆轉(zhuǎn)波蘭，晉級決賽

懂球帝 2025-07-24 02:22:18
1 跟貼 1
AI刪庫跑路！硅谷CEO控訴Replit引熱議

量子位 2025-07-22 18:54:56
0 跟貼 0
人機編程大戰(zhàn)，人類苦戰(zhàn)三天險勝OpenAI

機器之心Pro 2025-07-18 18:21:43
0 跟貼 0
女子被兩男子強行塞車內(nèi)絕望大喊救救他要把我送精神病院我不去

爆料視頻 2025-07-23 10:04:44
3435 跟貼 3435
“瀕死感”爆棚！有醫(yī)院僅一周30多人被“放倒”，最小才7歲！這個習(xí)慣趕緊改

極目新聞 2025-07-23 08:39:33
429 跟貼 429
外網(wǎng)熱議：印度防長批準(zhǔn)五代機執(zhí)行模型計劃.mp4

野模之家 2025-07-21 14:20:50
1 跟貼 1
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
7號臺風(fēng)生成，直奔浙江！剛剛確認(rèn)：這天起影響寧波，務(wù)必當(dāng)心

魯中晨報 2025-07-23 11:20:05
267 跟貼 267

科技頭版Pro

一起見證改變世界的力量

411文章數(shù) 146關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

旅游

教育

手機

健康

家居要聞

手機 / 數(shù)碼

房產(chǎn) / 家居

DeepSeek重磅升級，影響太大，沖上熱搜

別自嗨了！XREAL徐馳：AI眼鏡只有5歲智商

宗馥莉被質(zhì)疑讀的是“野雞大學(xué)” 校方回應(yīng)

宗馥莉被質(zhì)疑讀的是“野雞大學(xué)” 校方回應(yīng)

英格蘭最紅球星 也是加勒比島國驕傲

汪峰森林北同游日本 各帶各娃互不耽誤

律師解析娃哈哈遺產(chǎn)案:遺囑是最大變數(shù)

德系大招放盡 場地極限測試全新奧迪A5L

態(tài)度原創(chuàng)

晨曦生活 明媚而放松

熱聞|清明假期將至，熱門目的地有哪些?

撿漏王誕生！黑龍江一考生389分上211鄭州大學(xué)，讓人羨慕

4699華為Pura80預(yù)售開啟，絲絨小直屏

呼吸科專家破解呼吸道九大謠言！

英格蘭最紅球星也是加勒比島國驕傲

汪峰森林北同游日本各帶各娃互不耽誤

德系大招放盡場地極限測試全新奧迪A5L

晨曦生活明媚而放松