大家好,我是 Ai 學習的老章
DeepSeek-R1-0528 很強
但,即便是量化版本地部署起來也成本巨高
我還是關心 DeepSeek 同步開源的一個小型——DeepSeek-R1-0528-Qwen3-8B
看看其能否低成本地替換某些工作流中的 Qwen3:32B
本文,我用2張 4090 顯卡部署它,然后和 4 卡運行起來的 Qwen3:32B 做個對比
DeepSeek-R1-0528-Qwen3-8B
這個模型是從 DeepSeek-R1-0528 的思維鏈蒸餾出來用于后訓練 Qwen3 8B Base 而得。
通過蒸餾技術,在 AIME 2024 上達到 86.0,超越 Qwen3-8B (+10%),媲美更大模型!
DeepSeek-R1-0528-Qwen3-8B
在 2024 年美國數學邀請賽(AIME)上的開源模型中取得了最先進(SOTA)的性能,比 Qwen3 8B 提高了 10.0%,性能與 Qwen3-235B-thinking 相當。
AIME 24
AIME 25
HMMT Feb 25
GPQA Diamond
LiveCodeBench (2408-2505)
Qwen3-235B-A22B
85.7
81.5
62.5
71.1
66.5
Qwen3-32B
81.4
72.9
68.4
Qwen3-8B
76.0
67.3
62.0
Gemini-2.5-Flash-Thinking-0520
82.3
72.0
64.2
82.8
62.3
o3-mini (medium)
79.6
76.7
53.3
76.8
65.9
DeepSeek-R1-0528-Qwen3-8B86.076.361.561.160.5
下載模型
模型文件:https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B/files
在下載前,先通過如下命令安裝 ModelScope
pip install modelscope
命令行下載完整模型庫
modelscope download --model deepseek-ai/DeepSeek-R1-0528-Qwen3-8B --local_dir .

模型大小約 16GB
部署
看介紹,它的模型架構與 Qwen3-8B 完全相同,只是與 DeepSeek-R1-0528 共享相同的分詞器配置,所以,部署的話與 Qwen3-8B 沒啥區別。
用 vllm 拉起大模型
pip install --upgrade vllm
CUDA——VIDIBLE_DEVICES=4 vllm serve . --served-model-name R1-0528-Qwen3-8B 3002

默認參數的 max_model_len 是 131072,需要 18GB 的 KVcache 空間
4090 只有 24G,不夠用
要想拉起來,要么降低 max_model_len,要么兩張 4090
我選擇后者
pip install --upgrade vllm
CUDA_VIDIBLE_DEVICES=4,5 vllm serve . --served-model-name R1-0528-Qwen3-8B 3002 --tensor-parallel-size 2

測試窗口,我是用 openwebui
OpenWebUI 旨在為 AI 和 LLMs 構建最佳用戶界面,為那些互聯網訪問受限的人提供利用 AI 技術的機會。OpenWebUI 通過 Web 界面本地運行 LLMs,使 AI 和 LLMs 更安全、更私密。
安裝 openwebui 是我見過所有 chatbot 中最簡單的了
# 安裝
pip install open-webui
# 啟動
open-webui serve
瀏覽器打開 http://locahost:8080
如果是服務器部署,把 localhost 改為服務器 ip
正常注冊登陸
右上角點擊頭像,點擊管理員面板
點擊設置 - 外部鏈接,照著抄一下,api key 隨便填寫
然后回到前端,左上角添加模型那里就可以找到 R1-0528-Qwen3-8B 了
teminal 頁面會實時輸出模型推理時的性能
推理速度可以做到 90Tokens/s
Qwen3:32B 之前我介紹過(),40Tokens/s的樣子
具體測試我需要后續再寫了,有點忙,先看幾個簡單問題的對比:
我覺得DeepSeek-R1-0528-Qwen3-8B
的自我介紹非常棒
作為對比,大家可以看看我之前這篇文章:
問題2:用html寫一個黑客帝國數字雨
DeepSeek-R1-0528-Qwen3-8B
努力地嘗試設計更多功能,比如滴答聲效、閃爍效果、鍵盤控制和交互功能,但是,運行有bug?
Qwen3:32B,老是本分,簡單生成了數字/字母雨效果,運行正常?
問題3:總結DeepSeek-R1-0528這篇文論
感覺上DeepSeek-R1-0528-Qwen3-8B
更好一些,思考的很快(5s vs 18s),結尾還會友情提示是否需要追問某些細節
后續我再認真測試解決bug、知識問答
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.