網易首頁 > 網易號 > 正文申請入駐

阿里 Qwen3 令人失望？

2025-04-29 21:11:16　來源: 機器學習與Python社區

北京舉報

分享至

大家好，我是 Ai 學習的老章

極簡結論：Qwen3 是可以本地部署的最強開源寫代碼大模型

我只有 4 張 4090 顯卡，本文嘗試本地部署 Qwen3:32B，搭配 OpenwebUI 聊天 Bot，簡單看看其推理速度

本地部署
Mac 部署
下載模型
模型部署
openwebui 聊天助手
測試

本地部署可選方案 ollama

模型頁：https://ollama.com/library/qwen3

運行：ollama run qwen3

其他尺寸，在后面加參數即可，比如：ollama run qwen3:32b

可以在提示詞后輸入 /no_think 來切換 Ollama 中的無思考模式。

備注??：ollama 運行的是量化版，效果有折扣

vLLM

需要升級到 v0.8.4 以上，最好 v0.8.5

地址：https://github.com/vllm-project/vllm/issues/17327

vllm serve Qwen/Qwen3-235B-A22B-FP8 --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 4

SGLang

需要升級到SGLang 0.4.6.post1

地址：https://github.com/sgl-project/sglang

pip3 install "sglang[all]>=0.4.6.post1" python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B --tp 8 --reasoning-parser qwen3 python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B-FP8 --tp 4 --reasoning-parser qwen3

CPU 部署 llama.cpp

可以用 llama.cpp 運行起 Qwen3 量化版本、動態量化版本！

地址：https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95

KTransformer

Xeon 鉑金 4 代 + 4090 運行 Qwen3-235B-A22B 單個請求可以達到 13.8 token/s, 4 個請求并行可以達到總計 24.4 token/s

地址：http://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md

Mac 部署

Mac 上也可以跑 Qwen3 了

地址：https://github.com/ml-explore/mlx-lm/commit/5c2c18d6a3ea5f62c5b6ae7dda5cd9db9e8dab16

pip install -U mlx-lm # or conda install -c conda-forge mlx-lm

支持設備

iPhone: 0.6B, 4B
Macbook: 8B, 30B, 3B/30B MoE
M2, M3 Ultra: 22B/235B MoE

有網友測試Qwen3-235B-A22B-4bit量化版本在 Apple Mac Studio M2 Ultra 能跑到 28 toks/sec，大概占用 132GB 內存

下載模型

模型文件：https://modelscope.cn/models/Qwen/Qwen3-32B/files

在下載前，先通過如下命令安裝 ModelScope

pip install modelscope

命令行下載完整模型庫

modelscope download --model Qwen/Qwen3-32B

下載單個文件到指定本地文件夾（以下載 README.md 到當前路徑下“dir”目錄為例）

modelscope download --model Qwen/Qwen3-32B README.md --local_dir ./dir

模型大小約 64GB

模型部署

用 vllm 拉起大模型，我有 4 張 4090 顯卡，tensor-parallel-size 設置為 4

pip install --upgrade vllm vllm serve . --served-model-name Qwen3:32B --port 3001 --enble-reasoning --reasoning-parse deepseek_r1 --tensor-parallel-size 4

卡沒被占滿，還有空余拉起 reranker 模型

openwebui 聊天助手

OpenWebUI 旨在為 AI 和 LLMs 構建最佳用戶界面，為那些互聯網訪問受限的人提供利用 AI 技術的機會。OpenWebUI 通過 Web 界面本地運行 LLMs，使 AI 和 LLMs 更安全、更私密。

安裝 openwebui 是我見過所有 chatbot 中最簡單的了

# 安裝 pip install open-webui # 啟動 open-webui serve

瀏覽器打開 http://locahost:8080

如果是服務器部署，把 localhost 改為服務器 ip

正常注冊登陸

右上角點擊頭像，點擊管理員面板

點擊設置 - 外部鏈接，照著抄一下，api key 隨便填寫

然后回到前端，左上角添加模型那里就可以找到 Qwen3:32B 了

teminal 頁面會實時輸出模型推理時的性能

速度還蠻快的，如果開啟 reasoning 會慢很多，關閉的話，vllm 那里改成下面即可

vllm serve . --served-model-name Qwen3:32B --port 3001 --tensor-parallel-size 4

測試

我看了xhs上一些網友評價，很多說效果遠遠不如官方公布的結果，還有說幻覺嚴重

有些是直接用 ollama 運行的量化版，效果不好很正常

有些是在官方網站上測試的，這個就見仁見智了，我還是覺得個例的參考價值不大

用腦經急轉彎和弱智吧的問題去測試大模型，屬實腦經不轉彎。

看兩個獨立測評

evalscope 做了測試，結果 - Qwen3-32B 模型在思考模式下，其準確率與 QwQ-32B 相當（在 Accuracy 折線上兩者重合），都達到了最好的水平。隨著問題難度的增加，模型的輸出長度都隨問題難度增加而增加，這表明模型在解答更復雜問題時需要更長的"思考時間"，與 Inference-Time Scaling 現象相符。

推上 karminski3 測試了其寫代碼能力

極簡結論：Qwen3 是可以本地部署的最強開源寫代碼大模型

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.