99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

見證歷史!DeepSeek躍居全球第二AI實驗室,R1登頂開源王座,R2全網催更

機構:DeepSeek成全球第2大AI實驗室

0
分享至


新智元報道

編輯:犀牛 桃子

【新智元導讀】昨晚,終于等到了DeepSeek-R1-0528官宣。升級后的模型性能直逼o3和Gemini 2.5 Pro。如今,DeepSeek真正坐實了全球開源王者的稱號,并成為了第二大AI實驗室。

昨晚,DeepSeek正式官宣R1已完成小版本升級,開啟「深度思考」功能即可體驗。

在多項基準測試中,DeepSeek-R1-0528的數學、編程、通用邏輯性能,足以媲美最強o3和Gemini 2.5 Pro。

而且,它還成為國內首屈一指的開源模型,全面超越Qwen3-235B。


除了性能刷新SOTA,此次R1的更新,還體現在了其他三方面:

  • 前端代碼生成能力增強

  • 幻覺率降低45%-50%

  • 支持JSON輸出和函數調用


不僅如此,DeepSeek官方基于Qwen3-8B Base微調了更強版本——DeepSeek-R1-0528-Qwen3-8B。

這款8B模型在AIME 2024上,性能僅次于DeepSeek-R1-0528,甚至可與Qwen3-235B-thinking一較高下。


如今,DeepSeek不僅穩坐世界開源頭把交椅,而且還成為了全球第二大AI實驗室。


DeepSeek-R1迭代后推理更強,不過已有網友迫不及待催更R2了。


DeepSeek-R1數學編程更強了

HF模型卡中,DeepSeek具體公布了模型的更多的細節和性能對比。

DeepSeek-R1-0528是以DeepSeek V3 Base(2024年12月)為基座進行訓練。


模型地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

在后訓練階段,R1投入了更多計算資源,并引入了算法優化機制,顯著提升了模型的思維深度與推理能力。

如上所述,在數學、編程、通用邏輯等多項基準測試中,DeepSeek-R1展現出卓越的性能。


相較于上一代,0528版本在處理復雜推理任務方面取得了顯著進步。比如,在AIME 2025測試中,R1準確率從70%提升到87.5%。


這一性能的提升,源于推理過程中思維深度的增強。

在AIME測試集中,DeepSeek-R1平均每個問題消耗12K token,而DeepSeek-R1-0528平均每個問題使用23K token。

在外部多語言Aider基準測試,結果顯示,DeepSeek-R1-0528達到了與Claude 4 Opus相當的水平,Pass@2得分為70.7%。



幻覺率暴減50%

此前,有很多報道分析稱,DeepSeek-R1雖比V3強,但幻覺率極高。

根據Vectara的測試,DeepSeek-R1幻覺率高達14.3%,比o3高出不少。


這一次,經過優化,與初代相比,DeepSeek-R1-0528的幻覺率降低了45%-50%。

尤其是,在改寫潤色、總結摘要、閱讀理解等場景中,新模型能提供更加準確、可靠的結果。

而且,DeepSeek-R1還專門針對論文、小說、散文等問題,進行了進一步優化。

由此,它能夠輸出篇幅更長、結構內容更完整的長篇大作,更加貼近人類偏好的寫作風格。


艾倫研究所Nathan Lambert通過實驗發現,R1-0528在編譯智能體基準上,表現非常穩健。


支持工具調用

值得一提的是,DeepSeek-R1-0528還可以支持工具調用。

比如,讓它總結一篇文章,附上一個鏈接后,模型會主動調用爬蟲插件獲取網頁內容,然后進行總結。

它在Tau-Bench的測評成績為airline 53.5%/retail 63.9%,與o1-high性能相當,但與o3-High、Claude 4 Sonnet仍有一定的差距。


圖源:DeepSeek

在前端代碼生成、角色扮演等方面,DeepSeek-R1-0528能力得到了進一步提升。

比如,制作一張英文單詞的復習卡片應用,短短幾分鐘,一個完整的APP就呈現了,包括復習卡片、搜索卡片、學習統計、創建卡片基本功能一應俱全。

而且,DeepSeek-R1函數調用支持增強,還為氛圍編程(vibe coding)提供了更流暢的體驗。


圖源:DeepSeek

DeepSeek蒸餾版Qwen3-8B來了

在R1更新升級的同時,DeepSeek還蒸餾了DeepSeek-R1-0528的思維鏈,然后訓練了Qwen3-8B Base,最后得到了DeepSeek-R1-0528-Qwen3-8B。

DeepSeek表示,DeepSeek-R1-0528的思維鏈對于學術界推理模型的研究和工業界針對小模型的開發都將具有重要意義。

DeepSeek-R1-0528-Qwen3-8B模型在數學測試AIME 2024中僅次于DeepSeek-R1-0528,超越Qwen3-8B(+10.0%),與Qwen3-235B相當。

這個結果還是挺夸張的,畢竟與Qwen3-235B相比,8B的模型在參數上相差將近30倍。

同時DeepSeek-R1-0528-Qwen3-8B的數學性能也強于最近的Phi-4 14B。


DeepSeek-R1-0528-Qwen3-8B等開源模型的AIME 2024對比結果

在數學性能上,DeepSeek-R1-0528-Qwen3-8B甚至超越了Gemini-2.5-Flash。


DeepSeek-R1-0528-Qwen3-8B等不同模型在多個基準測試中的性能

目前,這款8B蒸餾模型也已同步在Hugging Face上開源。


模型地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

全球第二大AI實驗室

榮光屬于DeepSeek

就在DeepSeek R1更新后不久,獨立AI分析網站Artificial Analysis發帖表示,DeepSeek的R1強勢超越xAI、Meta和Anthropic。


這使得DeepSeek一躍成為全球第二大AI實驗室,并無可爭議的成為開源模型的領導者。


DeepSeek-R1-0528在智能指數中從60分躍升至68分,提升幅度與OpenAI的o1到o3(62分到70分)進步相當。

這使得DeepSeek R1的智能水平超過了xAI的Grok 3 mini(High)、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里的Qwen 3 253B,與谷歌的Gemini 2.5 Pro并駕齊驅。


這些進步給AI領域帶來了不少的啟示:

  • 開源與閉源模型差距縮小:DeepSeek今年1月的R1發布首次讓開源模型登上第二位,這次的R1更新再次鞏固了這一地位。

  • 中國與美國AI并駕齊驅:來自中國AI實驗室的模型幾乎完全趕上了美國。目前,DeepSeek在人工智能分析智能指數中領先于美國AI實驗室如Anthropic和Meta。

  • 強化學習驅動進步:DeepSeek在相同架構和預訓練基礎上展示了顯著的智能提升。這凸顯了后訓練的重要性,尤其是通過RL技術訓練的推理模型。OpenAI披露o1到o3的RL計算規模擴大了10倍——DeepSeek證明了他們目前能跟上OpenAI的RL計算擴展。擴展RL比擴展預訓練需要的計算資源更少,是實現智能提升的高效方式,更適合GPU較少的AI實驗室。

參考資料:

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

https://x.com/deepseek_ai/status/1928061589107900779

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

https://techcrunch.com/2025/05/29/deepseeks-distilled-new-r1-ai-model-can-run-on-a-single-gpu/

https://x.com/ArtificialAnlys/status/1928071179115581671


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兩個標志性人物,一個自殺,一個被抓,預示著一個時代的結束

兩個標志性人物,一個自殺,一個被抓,預示著一個時代的結束

貓眼觀史
2025-05-29 23:24:30
馬拉松熱身女教練火了!身材好、顏值高,沒人跟著做,都在錄像!

馬拉松熱身女教練火了!身材好、顏值高,沒人跟著做,都在錄像!

馬拉松跑步健身
2025-05-30 21:34:41
趙櫻子自曝懷孕3個月,和親弟弟互動惹爭議,曾說對成毅因戲生情

趙櫻子自曝懷孕3個月,和親弟弟互動惹爭議,曾說對成毅因戲生情

古希臘掌管月桂的神
2025-05-31 11:12:11
白玉蘭“視后”投票排名,閆妮排第4,宋佳排第3,她憑啥排第一?

白玉蘭“視后”投票排名,閆妮排第4,宋佳排第3,她憑啥排第一?

TVB的四小花
2025-05-31 13:43:07
觀眾熱到中暑!鄭欽文回應法網酷暑:你是不知道我老家武漢有多熱

觀眾熱到中暑!鄭欽文回應法網酷暑:你是不知道我老家武漢有多熱

風過鄉
2025-05-30 20:05:18
杭州飛深圳一航班機艙內冒煙中途返航,南航:旅客攜帶的充電寶出現冒煙

杭州飛深圳一航班機艙內冒煙中途返航,南航:旅客攜帶的充電寶出現冒煙

大象新聞
2025-05-31 17:05:20
山姆狂飆,7家新店在路上!

山姆狂飆,7家新店在路上!

營銷報
2025-05-29 21:21:04
真是服了!一只小盤股連虧7年,卻有高盛、摩根、徐開東重倉持有

真是服了!一只小盤股連虧7年,卻有高盛、摩根、徐開東重倉持有

八百者也
2025-05-31 14:36:43
韭菜割不動了,已經開始拔韭菜根了!銀行和開發商“吃相”真難看

韭菜割不動了,已經開始拔韭菜根了!銀行和開發商“吃相”真難看

說故事的阿襲
2025-05-30 07:15:37
世俱杯最后一張門票爭奪,涉千萬美元獎金,兩支球隊誰能笑到最后

世俱杯最后一張門票爭奪,涉千萬美元獎金,兩支球隊誰能笑到最后

星耀國際足壇
2025-05-31 00:58:10
王晶不再隱瞞!曝料17年前“艷照門”內幕,原來陳冠希竟是受害者

王晶不再隱瞞!曝料17年前“艷照門”內幕,原來陳冠希竟是受害者

白面書誏
2025-05-30 22:25:03
曝巴塞羅那不再關注尼科?威廉姆斯,利物浦前鋒才是最愛

曝巴塞羅那不再關注尼科?威廉姆斯,利物浦前鋒才是最愛

油潑辣不辣
2025-05-31 17:06:47
薄一波的兩位親家,一位開國將軍,另一位官至副國級,分別是誰?

薄一波的兩位親家,一位開國將軍,另一位官至副國級,分別是誰?

獵火照狼山
2025-05-28 18:04:02
特朗普終于動手,27萬中國學生,可能被無情遣返,中美教育全面脫鉤?

特朗普終于動手,27萬中國學生,可能被無情遣返,中美教育全面脫鉤?

掌青說歷史
2025-05-30 17:24:37
“蘇超”常州隊vs揚州隊,現實梗圖已經來了:巾州加油、只想6-1

“蘇超”常州隊vs揚州隊,現實梗圖已經來了:巾州加油、只想6-1

直播吧
2025-05-31 10:47:14
丟人丟到國外了?萬千惠袒胸露乳走紅毯,被多次驅趕還賴著不走

丟人丟到國外了?萬千惠袒胸露乳走紅毯,被多次驅趕還賴著不走

聚合大娛
2025-05-28 16:12:33
真正的黑社會是什么樣的?網友:八零九零后應該聽說過不少這種事

真正的黑社會是什么樣的?網友:八零九零后應該聽說過不少這種事

解讀熱點事件
2025-05-16 00:10:03
明日NBA東決G6:步行者期待時隔25年再進總決,尼克斯力爭拖入搶7

明日NBA東決G6:步行者期待時隔25年再進總決,尼克斯力爭拖入搶7

雷速體育
2025-05-31 14:00:13
北京多地居民凌晨聽到巨響,系火流星劃過夜空

北京多地居民凌晨聽到巨響,系火流星劃過夜空

新京報
2025-05-31 16:05:09
深圳大鵬占地10畝獨棟別墅法拍!鴻榮源系企業低調出手

深圳大鵬占地10畝獨棟別墅法拍!鴻榮源系企業低調出手

南方都市報
2025-05-31 07:21:14
2025-05-31 17:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12797文章數 66047關注度
往期回顧 全部

科技要聞

1小時大定破千,余承東:尊界S800是個開端

頭條要聞

相愛10年的公天鵝"情變" 母天鵝脫群守在約會地不離開

頭條要聞

相愛10年的公天鵝"情變" 母天鵝脫群守在約會地不離開

體育要聞

歐冠決賽:巴黎沖首冠 國米已苦等15年

娛樂要聞

54歲的于和偉再度提名白玉蘭獎視帝

財經要聞

中汽協倡議:反對“內卷式”惡性競爭

汽車要聞

續航超1000km/增程動力 上汽大眾ID.ERA深圳車展亮相

態度原創

旅游
本地
房產
教育
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

房產要聞

金地華南落子海南自貿港22萬㎡標桿項目,夯實代建行業領軍者地位

教育要聞

中考,本不該如此混亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 鞍山市| 响水县| 新昌县| 涟源市| 延庆县| 深泽县| 仙桃市| 五原县| 深水埗区| 孟州市| 思茅市| 丰原市| 津南区| 治多县| 成武县| 伊川县| 新巴尔虎左旗| 梧州市| 什邡市| 东兴市| 济南市| 建湖县| 海原县| 习水县| 陆川县| 常山县| 武山县| 延川县| 从江县| 枞阳县| 钦州市| 闻喜县| 名山县| 潍坊市| 留坝县| 奉化市| 邢台县| 万源市| 拜泉县| 宕昌县| 安平县|