大家好,我是 Ai 學習的老章
Qwen3 我寫過 3 篇文章
昨天阿里發布了Qwen3的技術報告
來源:https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
最近 Qwen3 還發布了 Qwen3 的量化版本(GGUF、AWQ、GPTQ),可以通過 Ollama、LM Studio、SGLang 和 vLLM 高效本地部署。
量化技術降低了模型大小和計算需求,使高級 AI 在消費級硬件上也能運行
關于量化,請移步:

有網友測試ollama
直接啟動官方量化版本Qwen3-32B
,模型文件只有 19GB
之前我測試過,至少需要 4 張 24GB 的 4090 才能跑起來
量化版,目測只需要 1 張卡就行了?
ollama run: http://hf.co/Qwen/Qwen3-32B-GGUF:Q4_K_M
下面實測看看
1 卡跑 Qwen/Qwen3-32B-AWQ
模型文件:https://modelscope.cn/models/Qwen/Qwen3-32B-AWQ/files
有很多量化版本,這里我選擇 AWQ,這是一種感知量化技術,核心特征是激活值引導的智能量化,使用精度敏感型任務
下載
mkdir qwen3-32-awq cd qwen3-32-awq modelscope download --model Qwen/Qwen3-32B-AWQ --local_dir .

這個版本可以使用 SGLang 啟動
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3-32B-AWQ --reasoning-parser qwen3
我更喜歡 vLLM
但是我用單卡 4090 完全無法啟動,遭遇 OOM,顯存不夠用
按官方建議修改max-model-len
和gpu-memory-utilization
都不行。
官方建議:
第一個是
--max-model-len
。默認max_position_embedding
是40960
,因此 serving 的最大長度也是這個值,導致對內存的要求更高。將其減少到適合自己的長度通常有助于解決 OOM 問題。另一個參數是
--gpu-memory-utilization
。vLLM 將預先分配此數量的 GPU 內存。默認情況下,它是0.9
。這也是 vLLM 服務總是占用大量內存的原因。如果處于 Eager 模式(默認情況下不是),則可以將其升級以解決 OOM 問題。否則,將使用 CUDA 圖形,這將使用不受 vLLM 控制的 GPU 內存,應該嘗試降低它。如果它不起作用,嘗試--enforce-eager
,這可能會減慢推理速度,或減少--max-model-len
。
然后用兩張 4090 也需要修改max-model-len
和啟動enforce-eager
才能正常啟動
CUDA_VISIBLE_DEVICES=4,5 vllm serve . --serverd-model Qwen3-32B-AWQ --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 2 --max-model-len 16384 --enforce-eager
推理速度很慢,18t/s 的樣子
不過能把 4 張卡壓縮到 2 張卡,已經很量化了
啟動之后阿里有推理的建議配置,僅供參考:
采樣參數:
對于思考模式(
enable_thinking=True
),使用Temperature=0.6
,TopP=0.95
,TopK=20
, 和MinP=0
。不要使用貪心解碼,因為它可能導致性能下降和無盡的重復。對于非思考模式(
enable_thinking=False
),我們建議使用Temperature=0.7
,TopP=0.8
,TopK=20
, 和MinP=0
。對于支持的框架,可以在 0 到 2 之間調整
presence_penalty
參數以減少無盡的重復。對于量化模型,強烈建議將此值設為 1.5。然而,使用更高的值可能會偶爾導致語言混雜并輕微降低模型性能。
足夠的輸出長度:對于大多數查詢,推薦使用 32,768 個令牌的輸出長度。對于高度復雜問題的基準測試,例如數學和編程競賽中的問題,建議將最大輸出長度設為 38,912 個令牌。這為模型提供了足夠的空間來生成詳細且全面的回答,從而提高其整體性能。
標準化輸出格式:在進行基準測試時,建議使用提示來標準化模型輸出。
數學問題:在提示中包含“請逐步推理,并將最終答案放在\boxed{}內。”
選擇題:向提示中添加以下 JSON 結構以標準化回答:“請僅用選項字母在
answer
字段中顯示您的選擇,例如,"answer": "C"
。”
歷史記錄中不包含思考內容:在多輪對話中,歷史模型輸出應僅包括最終輸出部分,不需要包含思考內容。這已在提供的 Jinja2 聊天模板中實現。然而,對于不直接使用 Jinja2 聊天模板的框架,開發者需要確保遵循這一最佳實踐。
最后推薦一個最近我在學習的課程
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.