DeepSeek 剛剛發布了 v3 模型的首個版本,開源上線。
引起了不少討論,尤其提到 DeepSeek-V3 代碼能力比肩目前行業共識最好的 Claude Sonnet 3.5。
很高興開源有了新的領先力量,并且來自國內。
以下內容來源 DeepSeek 官方信息。
今天,我們全新系列模型 DeepSeek-V3 首個版本上線并同步開源。
登錄官網 chat.deepseek.com 即可與最新版 V3 模型對話。API 服務已同步更新,接口配置無需改動。當前版本的 DeepSeek-V3 暫不支持多模態輸入輸出。
性能對齊海外領軍閉源模型
DeepSeek-V3 為自研 MoE 模型,671B 參數,激活 37B,在 14.8T token 上進行了預訓練。
論文鏈接:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
DeepSeek-V3 多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
百科知識:DeepSeek-V3 在知識類任務(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 顯著提升,接近當前表現最好的模型 Claude-3.5-Sonnet-1022。
長文本:在長文本測評中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表現超越其他模型。
代碼:DeepSeek-V3 在算法類代碼場景(Codeforces),遠遠領先于市面上已有的全部非 o1 類模型;并在工程類代碼場景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
數學:在美國數學競賽(AIME 2024, MATH)和全國高中數學聯賽(CNMO 2024)上,DeepSeek-V3 大幅超過了所有開源閉源模型。
中文能力:DeepSeek-V3 與 Qwen2.5-72B 在教育類測評 C-Eval 和代詞消歧等評測集上表現相近,但在事實知識 C-SimpleQA 上更為領先。
生成速度提升至 3 倍
通過算法和工程上的創新,DeepSeek-V3 的生成吐字速度從 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型實現了 3 倍的提升,為用戶帶來更加迅速流暢的使用體驗。
API 服務價格調整
隨著性能更強、速度更快的 DeepSeek-V3 更新上線,我們的模型 API 服務定價也將調整為每百萬輸入 tokens 0.5 元(緩存命中)/ 2 元(緩存未命中),每百萬輸出 tokens 8 元,以期能夠持續地為大家提供更好的模型服務。
與此同時,我們決定為全新模型設置長達 45 天的優惠價格體驗期:即日起至 2025 年 2 月 8 日,DeepSeek-V3 的 API 服務價格仍然會是大家熟悉的每百萬輸入 tokens 0.1 元(緩存命中)/ 1 元(緩存未命中),每百萬輸出 tokens 2 元,已經注冊的老用戶和在此期間內注冊的新用戶均可享受以上優惠價格。
開源權重和本地部署
DeepSeek-V3 采用 FP8 訓練,并開源了原生 FP8 權重。
得益于開源社區的支持,SGLang 和 LMDeploy 第一時間支持了 V3 模型的原生 FP8 推理,同時 TensorRT-LLM 和 MindIE 則實現了 BF16 推理。此外,為方便社區適配和拓展應用場景,我們提供了從 FP8 到 BF16 的轉換腳本。
模型權重下載和更多本地部署信息請參考:
https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
“以開源精神和長期主義追求普惠 AGI”是 DeepSeek 一直以來的堅定信念。我們非常興奮能與社區分享在模型預訓練方面的階段性進展,也十分欣喜地看到開源模型和閉源模型的能力差距正在進一步縮小。
這是一個全新的開始,未來我們會在 DeepSeek-V3 基座模型上繼續打造深度思考、多模態等更加豐富的功能,并將持續與社區分享我們最新的探索成果。
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.