模型與API獨立分析公司Artificial Analysis @ArtificialAnlys 對DeepSeek R1-0528結論如下:
DeepSeek R1 一舉超越 xAI、Meta 和 Anthropic,與谷歌并列成為全球第二大人工智能實驗室,并成為開源權重領域無可爭議的領導者
DeepSeek R1 0528 版本在 Artificial Analysis 智能指數(針對所有頂尖模型獨立進行的7項主流評估所構成的綜合指數)中的得分從60分躍升至68分。這一提升幅度與 OpenAI 的 o1 模型到 o3 模型的差距(從62分到70分)相當
這意味著 DeepSeek R1 的智能水平已超越 xAI 的 Grok 3 mini(高水準版)、英偉達的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里的通義千問 Qwen 3 253B,并與谷歌的 Gemini 2.5 Pro 持平
模型性能提升詳解
智能水平全面提升:在 AIME 2024(數學競賽,+21分)、LiveCodeBench(代碼生成,+15分)、GPQA Diamond(科學推理,+10分)和《人類最后考卷》(推理與知識,+6分)等多個方面實現了顯著飛躍
架構保持不變:R1-0528 是一個訓練后更新版本,其 V3/R1 架構并未改變——依然是擁有6710億總參數和370億激活參數的大模型
?編程能力大幅躍進:在 Artificial Analysis 編程能力指數中,R1 目前已追平 Gemini 2.5 Pro,僅次于 o4-mini(高水準版)和 o3 模型
?Token 消耗量增加:R1-0528 在完成 Artificial Analysis 智能指數評估時消耗了9900萬 Token,比初代 R1 的7100萬 Token 多出40%——也就是說,新版 R1 的“思考”時間更長。但這并非我們所見過的最高 Token 消耗量:Gemini 2.5 Pro 的 Token 消耗量比 R1-0528 還要多30%
對AI領域的啟示
開源與閉源模型差距前所未有地縮小:開源權重模型在智能增益方面持續與閉源專有模型保持同步。DeepSeek 在今年1月發布的 R1 是首個達到全球第二位置的開源權重模型,而今天 R1 的更新使其重回這一高位
中美AI水平持續并駕齊驅:來自中國AI實驗室的模型幾乎完全追平了美國同行,本次發布延續了這一新興趨勢。截至今日,在 Artificial Analysis 智能指數中,DeepSeek 已領先包括 Anthropic 和 Meta 在內的美國AI實驗室
強化學習驅動性能提升:DeepSeek 在保持原有 R1 版本架構和預訓練數據不變的情況下,實現了智能水平的顯著提升。這進一步凸顯了訓練后調優(尤其是針對采用強化學習技術訓練的推理模型)日益增長的重要性。OpenAI 曾披露其 o1 到 o3 模型的強化學習計算規模擴大了10倍——DeepSeek 剛剛證明,到目前為止,他們有能力跟上 OpenAI 在強化學習算力擴展方面的步伐。擴展強化學習所需的算力遠低于擴展預訓練,為實現智能增益提供了一條高效路徑,尤其能為那些GPU資源相對緊張的AI實驗室提供支持
source:
https://x.com/ArtificialAnlys/status/1928071179115581671
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.