網易首頁 > 網易號 > 正文申請入駐

Artificial Analysis：DeepSeek成為世界前二AGI實驗室

2025-05-29 23:01:49　來源: AI寒武紀

江蘇舉報

分享至

模型與API獨立分析公司Artificial Analysis @ArtificialAnlys 對DeepSeek R1-0528結論如下：

DeepSeek R1 一舉超越 xAI、Meta 和 Anthropic，與谷歌并列成為全球第二大人工智能實驗室，并成為開源權重領域無可爭議的領導者

DeepSeek R1 0528 版本在 Artificial Analysis 智能指數（針對所有頂尖模型獨立進行的7項主流評估所構成的綜合指數）中的得分從60分躍升至68分。這一提升幅度與 OpenAI 的 o1 模型到 o3 模型的差距（從62分到70分）相當

這意味著 DeepSeek R1 的智能水平已超越 xAI 的 Grok 3 mini（高水準版）、英偉達的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里的通義千問 Qwen 3 253B，并與谷歌的 Gemini 2.5 Pro 持平

模型性能提升詳解

智能水平全面提升：在 AIME 2024（數學競賽，+21分）、LiveCodeBench（代碼生成，+15分）、GPQA Diamond（科學推理，+10分）和《人類最后考卷》（推理與知識，+6分）等多個方面實現了顯著飛躍

架構保持不變：R1-0528 是一個訓練后更新版本，其 V3/R1 架構并未改變——依然是擁有6710億總參數和370億激活參數的大模型

?編程能力大幅躍進：在 Artificial Analysis 編程能力指數中，R1 目前已追平 Gemini 2.5 Pro，僅次于 o4-mini（高水準版）和 o3 模型

?Token 消耗量增加：R1-0528 在完成 Artificial Analysis 智能指數評估時消耗了9900萬 Token，比初代 R1 的7100萬 Token 多出40%——也就是說，新版 R1 的“思考”時間更長。但這并非我們所見過的最高 Token 消耗量：Gemini 2.5 Pro 的 Token 消耗量比 R1-0528 還要多30%

對AI領域的啟示

開源與閉源模型差距前所未有地縮小：開源權重模型在智能增益方面持續與閉源專有模型保持同步。DeepSeek 在今年1月發布的 R1 是首個達到全球第二位置的開源權重模型，而今天 R1 的更新使其重回這一高位

中美AI水平持續并駕齊驅：來自中國AI實驗室的模型幾乎完全追平了美國同行，本次發布延續了這一新興趨勢。截至今日，在 Artificial Analysis 智能指數中，DeepSeek 已領先包括 Anthropic 和 Meta 在內的美國AI實驗室

強化學習驅動性能提升：DeepSeek 在保持原有 R1 版本架構和預訓練數據不變的情況下，實現了智能水平的顯著提升。這進一步凸顯了訓練后調優（尤其是針對采用強化學習技術訓練的推理模型）日益增長的重要性。OpenAI 曾披露其 o1 到 o3 模型的強化學習計算規模擴大了10倍——DeepSeek 剛剛證明，到目前為止，他們有能力跟上 OpenAI 在強化學習算力擴展方面的步伐。擴展強化學習所需的算力遠低于擴展預訓練，為實現智能增益提供了一條高效路徑，尤其能為那些GPU資源相對緊張的AI實驗室提供支持

source：

https://x.com/ArtificialAnlys/status/1928071179115581671

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.