網易首頁 > 網易號 > 正文申請入駐

阿里Qwen3 全部情報匯總，本地部署指南，性能全面超越 DeepSeek R1

2025-04-29 10:14:57　來源: 機器學習與Python社區

北京舉報

分享至

大家好，我是 Ai 學習的老章

R2 還沒落地，Qwen3 來了

開源 8 款模型：6 款 Dense 模型 +2 款 MoE 模型

技術細節大家可以看看 Qwen 技術博客，建議點開看看，干貨很多：https://qwenlm.github.io/blog/qwen3/

8 個不同尺寸的模型，照顧到了所有場景：

6 款 Dense 模型：

0.6B、1.7B、4B、8B、14B、32B

2 款 MoE 模型：

Qwen3-235B-A22B(MoE, 總大小 235B, 激活參數 22B, 上下文 128K)

Qwen3-30B-A3B(MoE, 總大小 30B, 激活參數 3B, 上下文 128K)

混合思維模式，搭載了 thinking 開關，可以直接手動控制要不要開啟 thinking

最大的這個Qwen3-235B-A22B在強勁性能的基礎上，部署成本僅為 Deepseek R1 的 35%。

Qwen3-30B-A3B 的激活參數只有 3B，性能卻可以跟 QWQ-32B 打平，成本只有 10%，可以在消費級顯卡上部署。

0.6B 的小參數模型適合在移動設備上部署。

在性能上 Qwen 3 的每個尺寸得分都是同尺寸開源最強。

Qwen3-235B-A22B在代碼、數學、通用能力等基準測試中，與DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro相比，表現出極具競爭力的結果。

此外，小型 MoE 模型Qwen3-30B-A3B的激活參數數量是QwQ-32B的 10%，表現更勝一籌

正如博客所說，Qwen 朋友圈非常強大，昨晚已發布，一眾伙伴就 0day 級支持

你可以在 Qwen 官網直接與 Qwen3v 不同參數模型直接對話：https://chat.qwen.ai/

本地部署 ollama

模型頁：https://ollama.com/library/qwen3

運行：ollama run qwen3

其他尺寸，在后面加參數即可，比如：ollama run qwen3:32b

可以在提示詞后輸入 /no_think 來切換 Ollama 中的無思考模式。

備注??：ollama 運行的是量化版，效果有折扣

LM Studio

地址：https://lmstudio.ai/

vLLM

需要升級到 v0.8.4 以上，最好 v0.8.5

地址：https://github.com/vllm-project/vllm/issues/17327

vllm serve Qwen/Qwen3-235B-A22B-FP8 --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 4

SGLang

需要升級到SGLang 0.4.6.post1

地址：https://github.com/sgl-project/sglang

pip3 install "sglang[all]>=0.4.6.post1" python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B --tp 8 --reasoning-parser qwen3 python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B-FP8 --tp 4 --reasoning-parser qwen3

CPU 部署 llama.cpp

可以用 llama.cpp 運行起 Qwen3 量化版本、動態量化版本！

地址：https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95

OpenRouterAI

openrouter 提供了免費的 API

地址：https://openrouter.ai/models?order=newest&q=qwen3

KTransformer

Xeon 鉑金 4 代 + 4090 運行 Qwen3-235B-A22B 單個請求可以達到 13.8 token/s, 4 個請求并行可以達到總計 24.4 token/s

地址：http://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md

Mac

Mac 上也可以跑 Qwen3 了

地址：https://github.com/ml-explore/mlx-lm/commit/5c2c18d6a3ea5f62c5b6ae7dda5cd9db9e8dab16

pip install -U mlx-lm # or conda install -c conda-forge mlx-lm

支持設備

iPhone: 0.6B, 4B
Macbook: 8B, 30B, 3B/30B MoE
M2, M3 Ultra: 22B/235B MoE

Qwen3 優點還有很多，我正在下載，隨后再發本地部署后的測試情況：

Qwen3 是全球最強開源模型，性能全面超越 DeepSeek R1，國內第一個敢說全面超越 R1 的模型，之前都是比肩
Qwen3 是國內首個混合推理模型，復雜答案深度思考，簡單答案直接秒回，自動切換，提升智力 + 節省算力雙向奔赴
模型部署要求大幅降低，旗艦模型僅需 4 張 H20 就能本地部署，部署成本估算下來是能比 R1 下降超 6 成
Agent 能力大幅提升，原生支持 MCP 協議，提升了代碼能力，國內的 Agent 工具都在等它
支持 119 種語言和方言，包括爪哇語、海地語等地方性語言，全世界都可以用上 AI
訓練數據 36 萬億 token，相比 Qwen2.5 直接翻倍，不僅從網絡抓取內容，還大量提取 PDF 的內容、大量合成代碼片段
模型部署要求大幅降低，旗艦模型僅需 4 張 H20 就能本地部署，是 R1 的三分之一

了解更多：GitHub[1]Hugging Face[2]ModelScope[3]Kaggle[4]DEMO[5]

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

參考資料

GitHub: https://github.com/QwenLM/Qwen3

Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

Kaggle: https://www.kaggle.com/models/qwen-lm/qwen-3

[5]

DEMO: https://huggingface.co/spaces/Qwen/Qwen3-Demo

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.