網易首頁 > 網易號 > 正文申請入駐

DeepSeek-R1 重磅更新：幻覺降低近 50%，深度思考、推理能力提升

2025-05-29 22:58:35　來源: FounderPark

北京舉報

分享至

「DeepSeek 一更新，我們就知道又要放假了。」

昨天，DeepSeek 宣布其 R1 系列推理模型小版本升級，最新版本 DeepSeek-R1-0528 參數量高達 6850 億，模型在思維深度和推理方面的能力顯著提升。

剛剛，DeepSeek 公布了 R1-0528 在各類基準測評上的具體得分情況。R1-0528 在數學、編程與通用邏輯等多個基準測評中成績亮眼，整體表現接近 o3 與 Gemini-2.5-Pro。

同時，DeepSeek 通過蒸餾 DeepSeek-R1-0528 的思維鏈后訓練 Qwen3-8B Base 得到了一個 8B 模型。該模型在數學測試 AIME 2024 中僅次于 DeepSeek-R1-0528，超越 Qwen3-8B（+10.0%），與 Qwen3-235B 相當。

此外，值得一提的是，DeepSeek 對 R1-0528 版本的模型幻覺問題進行了優化，與舊版相比，更新后的模型在改寫潤色、總結摘要、閱讀理解等場景中，幻覺率降低了 45～50% 左右。

目前，DeepSeek-R1-0528 已在網頁端、APP 和小程序中上線，用戶開啟「深度思考」功能即可體驗最新版本。同時，API 也同步更新，調用方式不變。

超 4000 人的「AI 產品市集」社群！不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準的AI產品曝光渠道

深度思考能力強化

DeepSeek-R1-0528 仍然使用 2024 年 12 月所發布的 DeepSeek V3 Base 模型作為基座，但在后訓練過程中投入了更多算力，顯著提升了模型的思維深度與推理能力。

更新后的 R1 模型在數學、編程與通用邏輯等多個基準測評中取得了當前國內所有模型中首屈一指的優異成績，并且在整體表現上已接近其他國際頂尖模型，如 o3 與 Gemini-2.5-Pro。

DeepSeek-R1-0528 在各項評測集上均取得了優異表現

（基準測試使用 64K 輸出長度；在 Humanity's Last Exam 中，只使用其中的文本題目進行測試）

相較于舊版 R1，新版模型在復雜推理任務中的表現有了顯著提升。例如在 AIME 2025 測試中，新版模型準確率由舊版的 70% 提升至 87.5%。這一進步得益于模型在推理過程中的思維深度增強：在 AIME 2025 測試集上，舊版模型平均每題使用 12K tokens，而新版模型平均每題使用 23K tokens，表明其在解題過程中進行了更為詳盡和深入的思考。

同時，DeepSeek 蒸餾 DeepSeek-R1-0528 的思維鏈后訓練 Qwen3-8B Base，得到了 DeepSeek-R1-0528-Qwen3-8B。該 8B 模型在數學測試 AIME 2024 中僅次于 DeepSeek-R1-0528，超越 Qwen3-8B （+10.0%），與 Qwen3-235B 相當。DeepSeek 認為，DeepSeek-R1-0528 的思維鏈對于學術界推理模型的研究和工業界針對小模型的開發都將具有重要意義。

DeepSeek-R1-0528-Qwen3-8B 等開源模型的 AIME 2024 對比結果

新版模型幻覺降低 45~50%

幻覺改善：新版 DeepSeek R1 針對「幻覺」問題進行了優化。與舊版相比，更新后的模型在改寫潤色、總結摘要、閱讀理解等場景中，幻覺率降低了 45～50% 左右，能夠有效地提供更為準確、可靠的結果。

創意寫作：在舊版 R1 的基礎上，更新后的 R1 模型針對議論文、小說、散文等文體進行了進一步優化，能夠輸出篇幅更長、結構內容更完整的長篇作品，同時呈現出更加貼近人類偏好的寫作風格。

上下滑動查看完整內容

工具調用：DeepSeek-R1-0528 支持工具調用（不支持在 thinking 中進行工具調用）。當前模型 Tau-Bench 測評成績為 airline 53.5% / retail 63.9%，與 OpenAI o1-high 相當，但與 o3-High 以及 Claude 4 Sonnet 仍有差距。

示例為通過 LobeChat 使用 DeepSeek-R1-0528 的工具調用能力得到的網頁文章總結

此外，DeepSeek-R1-0528 在前端代碼生成、角色扮演等領域的能力均有更新和提升。

示例為在網頁端調用 DeepSeek-R1-0528 使用 HTML/CSS/JavaScript 開發的一個現代簡約風格的單詞卡片應用

模型開源，

API 同步更新

DeepSeek 開源了 R1-0528 模型，并公布了模型權重。

DeepSeek-R1-0528 模型權重下載參考：

Model Scope:

https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528

Huggingface:

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

此外，DeepSeek 對其 API 也進行了同步更新，接口與調用方式保持不變。新版 R1 API 仍支持查看模型思考過程，同時增加了對 Function Calling 和 JsonOutput 的支持。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.