99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek-R1 重磅更新:幻覺降低近 50%,深度思考、推理能力提升

0
分享至


「DeepSeek 一更新,我們就知道又要放假了。」

昨天,DeepSeek 宣布其 R1 系列推理模型小版本升級,最新版本 DeepSeek-R1-0528 參數量高達 6850 億,模型在思維深度和推理方面的能力顯著提升。

剛剛,DeepSeek 公布了 R1-0528 在各類基準測評上的具體得分情況。R1-0528 在數學、編程與通用邏輯等多個基準測評中成績亮眼,整體表現接近 o3 與 Gemini-2.5-Pro。


同時,DeepSeek 通過蒸餾 DeepSeek-R1-0528 的思維鏈后訓練 Qwen3-8B Base 得到了一個 8B 模型。該模型在數學測試 AIME 2024 中僅次于 DeepSeek-R1-0528,超越 Qwen3-8B(+10.0%),與 Qwen3-235B 相當。

此外,值得一提的是,DeepSeek 對 R1-0528 版本的模型幻覺問題進行了優化,與舊版相比,更新后的模型在改寫潤色、總結摘要、閱讀理解等場景中,幻覺率降低了 45~50% 左右。

目前,DeepSeek-R1-0528 已在網頁端、APP 和小程序中上線,用戶開啟「深度思考」功能即可體驗最新版本。同時,API 也同步更新,調用方式不變。

超 4000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者,飛書掃碼加群:

進群后,你有機會得到:

  • 最新、最值得關注的 AI 新品資訊;

  • 不定期贈送熱門新品的邀請碼、會員碼;

  • 最精準的AI產品曝光渠道

01

深度思考能力強化

DeepSeek-R1-0528 仍然使用 2024 年 12 月所發布的 DeepSeek V3 Base 模型作為基座,但在后訓練過程中投入了更多算力,顯著提升了模型的思維深度與推理能力。

更新后的 R1 模型在數學、編程與通用邏輯等多個基準測評中取得了當前國內所有模型中首屈一指的優異成績,并且在整體表現上已接近其他國際頂尖模型,如 o3 與 Gemini-2.5-Pro。


DeepSeek-R1-0528 在各項評測集上均取得了優異表現

(基準測試使用 64K 輸出長度;在 Humanity's Last Exam 中,只使用其中的文本題目進行測試)

相較于舊版 R1,新版模型在復雜推理任務中的表現有了顯著提升。例如在 AIME 2025 測試中,新版模型準確率由舊版的 70% 提升至 87.5%。這一進步得益于模型在推理過程中的思維深度增強:在 AIME 2025 測試集上,舊版模型平均每題使用 12K tokens,而新版模型平均每題使用 23K tokens,表明其在解題過程中進行了更為詳盡和深入的思考。

同時,DeepSeek 蒸餾 DeepSeek-R1-0528 的思維鏈后訓練 Qwen3-8B Base,得到了 DeepSeek-R1-0528-Qwen3-8B。該 8B 模型在數學測試 AIME 2024 中僅次于 DeepSeek-R1-0528,超越 Qwen3-8B (+10.0%),與 Qwen3-235B 相當。DeepSeek 認為,DeepSeek-R1-0528 的思維鏈對于學術界推理模型的研究和工業界針對小模型的開發都將具有重要意義。


DeepSeek-R1-0528-Qwen3-8B 等開源模型的 AIME 2024 對比結果

02

新版模型幻覺降低 45~50%

  • 幻覺改善:新版 DeepSeek R1 針對 「幻覺」問 題進行了優化。與舊版相比,更新后的模型在改寫潤色、總結摘要、閱讀理解等場景中,幻覺率降低了 45~50% 左右,能夠有效地提供更為準確、可靠的結果。


  • 創意寫作:在舊版 R1 的基礎上,更新后的 R1 模型針對議論文、小說、散文等文體進行了進一步優化,能夠輸出篇幅更長、結構內容更完整的長篇作品,同時呈現出更加貼近人類偏好的寫作風格。


上下滑動查看完整內容


  • 工具調用:DeepSeek-R1-0528 支持工具調用(不支持在 thinking 中進行工具調用)。當前模型 Tau-Bench 測評成績為 airline 53.5% / retail 63.9%,與 OpenAI o1-high 相當,但與 o3-High 以及 Claude 4 Sonnet 仍有差距。



示例為通過 LobeChat 使用 DeepSeek-R1-0528 的工具調用能力得到的網頁文章總結

此外,DeepSeek-R1-0528 在前端代碼生成、角色扮演等領域的能力均有更新和提升。


示例為在網頁端調用 DeepSeek-R1-0528 使用 HTML/CSS/JavaScript 開發的一個現代簡約風格的單詞卡片應用

03

模型開源,

API 同步更新

DeepSeek 開源了 R1-0528 模型,并公布了模型權重。

DeepSeek-R1-0528 模型權重下載參考:

Model Scope:

https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528

Huggingface:

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

此外,DeepSeek 對其 API 也進行了同步更新,接口與調用方式保持不變。新版 R1 API 仍支持查看模型思考過程,同時增加了對 Function Calling 和 JsonOutput 的支持。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
300911,借勢AI,股價逆襲!世界人工智能大會將舉辦,業績猛增的AI應用概念股出爐

300911,借勢AI,股價逆襲!世界人工智能大會將舉辦,業績猛增的AI應用概念股出爐

數據寶
2025-07-16 19:30:15
深度科普:冥王星為何被踢出九大行星?它太可怕了,一點也不冤!

深度科普:冥王星為何被踢出九大行星?它太可怕了,一點也不冤!

宇宙時空
2025-07-16 18:00:08
尹錫悅堅守牢房,竟讓特檢束手無策惱羞成怒,韓國警方坐山觀虎斗

尹錫悅堅守牢房,竟讓特檢束手無策惱羞成怒,韓國警方坐山觀虎斗

真實星球
2025-07-16 23:40:58
女籃亞洲杯淘汰賽對陣出爐,澳大利亞輕松,中國女籃或再戰日本

女籃亞洲杯淘汰賽對陣出爐,澳大利亞輕松,中國女籃或再戰日本

云隱南山
2025-07-17 01:54:44
周星馳63歲生日這天,江湖地位人情世故,在他身上體現的淋漓盡致

周星馳63歲生日這天,江湖地位人情世故,在他身上體現的淋漓盡致

簡讀視覺
2025-06-24 21:33:55
震驚!中方向以色列發出最后通牒,局勢將如何發展?

震驚!中方向以色列發出最后通牒,局勢將如何發展?

舞指飛揚
2025-07-12 08:18:58
妹妹結婚借走我30萬項鏈,歸還時說丟了,我笑著說是假的,她卻慌了

妹妹結婚借走我30萬項鏈,歸還時說丟了,我笑著說是假的,她卻慌了

澤澤先生
2025-07-09 14:30:00
考慮了10多天,李在明決定不參加中國閱兵?韓方給出了兩個理由

考慮了10多天,李在明決定不參加中國閱兵?韓方給出了兩個理由

生活魔術專家
2025-07-16 18:49:17
東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

冰點歷史
2025-07-15 09:33:13
舔狗經濟崩盤了,備胎經濟也崩盤了,資本也逐漸開始拋棄女性了

舔狗經濟崩盤了,備胎經濟也崩盤了,資本也逐漸開始拋棄女性了

加油丁小文
2025-06-16 07:30:03
黃子華舊愛學歷高精通六語言!罕談老公,兒子怕窮拒投身演藝

黃子華舊愛學歷高精通六語言!罕談老公,兒子怕窮拒投身演藝

粵睇先生
2025-07-17 01:33:00
美國電臺主持人確認:楊瀚森原本會在首輪17順位被選中!

美國電臺主持人確認:楊瀚森原本會在首輪17順位被選中!

愛體育
2025-07-15 23:30:18
湖南小伙到上海打工,認上海阿姨當干媽,父母發現秘密后難以接受

湖南小伙到上海打工,認上海阿姨當干媽,父母發現秘密后難以接受

奇事簿
2025-07-13 21:50:02
迭戈-科斯塔不滿小蜘蛛二觸后馬競反應:球隊必須要有血性

迭戈-科斯塔不滿小蜘蛛二觸后馬競反應:球隊必須要有血性

懂球帝
2025-07-16 11:28:37
汪小菲估計懵了,萬萬沒想到,F4合體卻把他已逝前妻大S送上熱搜

汪小菲估計懵了,萬萬沒想到,F4合體卻把他已逝前妻大S送上熱搜

小娛樂悠悠
2025-07-14 14:05:12
“別墅里面唱K”怎么就成了臺灣人的跳舞開關

“別墅里面唱K”怎么就成了臺灣人的跳舞開關

網易上流
2025-07-16 14:46:25
面相全變了!再看41歲王珞丹和41歲白百何,才明白兩人"差別"在哪

面相全變了!再看41歲王珞丹和41歲白百何,才明白兩人"差別"在哪

深析古今
2025-03-23 15:52:30
官方報道宗慶后3個私生子現狀!長子從事金融投資,小兒子已成年

官方報道宗慶后3個私生子現狀!長子從事金融投資,小兒子已成年

180視角
2025-07-16 14:49:17
勸了也沒用!19歲帥哥被騙緬甸,最后定位曝光,軍人出手也救不了

勸了也沒用!19歲帥哥被騙緬甸,最后定位曝光,軍人出手也救不了

近史博覽
2025-07-16 16:49:18
北京大學第一醫院研究發現:60歲后服用阿司匹林,小劑量更安全

北京大學第一醫院研究發現:60歲后服用阿司匹林,小劑量更安全

39健康網
2025-07-16 10:51:06
2025-07-17 03:39:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
846文章數 134關注度
往期回顧 全部

科技要聞

網易直擊黃仁勛見面會,他說了這28句話

頭條要聞

叔叔談宗馥莉:沒必要趕盡殺絕 要那么多錢干嘛

頭條要聞

叔叔談宗馥莉:沒必要趕盡殺絕 要那么多錢干嘛

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

探究萬億市場的休閑零食

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

手機
房產
本地
藝術
公開課

手機要聞

iQOO 15系列大揭秘:7000mAh電池+100W快充,競爭價值大幅提升

房產要聞

三亞又有好地要賣,起拍樓面價飆到了1.6萬/㎡!

本地新聞

“別墅里面唱K”怎么就成了臺灣人的跳舞開關

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宁都县| 中牟县| 大庆市| 茶陵县| 安福县| 神农架林区| 包头市| 蕲春县| 根河市| 高碑店市| 长垣县| 台湾省| 仪征市| 玛曲县| 和静县| 瑞昌市| 祁阳县| 禹城市| 黄浦区| 揭阳市| 治多县| 平和县| 榆林市| 乌鲁木齐市| 康保县| 柏乡县| 连山| 临夏市| 黄山市| 南靖县| 鹤庆县| 杭锦旗| 天气| 山阳县| 开原市| 安义县| 南平市| 思南县| 二连浩特市| 平阴县| 若羌县|