網易首頁 > 網易號 > 正文申請入駐

剛剛，阿里發布Qwen3 技術報告，還有官方量化模型文件

2025-05-14 13:23:56　來源: 機器學習與Python社區

北京舉報

分享至

大家好，我是 Ai 學習的老章

Qwen3 我寫過 3 篇文章

昨天阿里發布了Qwen3的技術報告

來源：https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

最近 Qwen3 還發布了 Qwen3 的量化版本（GGUF、AWQ、GPTQ），可以通過 Ollama、LM Studio、SGLang 和 vLLM 高效本地部署。

量化技術降低了模型大小和計算需求，使高級 AI 在消費級硬件上也能運行

關于量化，請移步：

有網友測試ollama直接啟動官方量化版本Qwen3-32B，模型文件只有 19GB

之前我測試過，至少需要 4 張 24GB 的 4090 才能跑起來

量化版，目測只需要 1 張卡就行了？

ollama run: http://hf.co/Qwen/Qwen3-32B-GGUF:Q4_K_M

下面實測看看

1 卡跑 Qwen/Qwen3-32B-AWQ

模型文件：https://modelscope.cn/models/Qwen/Qwen3-32B-AWQ/files

有很多量化版本，這里我選擇 AWQ，這是一種感知量化技術，核心特征是激活值引導的智能量化，使用精度敏感型任務

下載

mkdir qwen3-32-awq cd qwen3-32-awq modelscope download --model Qwen/Qwen3-32B-AWQ --local_dir .

這個版本可以使用 SGLang 啟動

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3-32B-AWQ --reasoning-parser qwen3

我更喜歡 vLLM

但是我用單卡 4090 完全無法啟動，遭遇 OOM，顯存不夠用

按官方建議修改max-model-len和gpu-memory-utilization都不行。

官方建議：

第一個是--max-model-len。默認max_position_embedding是40960，因此 serving 的最大長度也是這個值，導致對內存的要求更高。將其減少到適合自己的長度通常有助于解決 OOM 問題。
另一個參數是--gpu-memory-utilization。vLLM 將預先分配此數量的 GPU 內存。默認情況下，它是0.9。這也是 vLLM 服務總是占用大量內存的原因。如果處于 Eager 模式（默認情況下不是），則可以將其升級以解決 OOM 問題。否則，將使用 CUDA 圖形，這將使用不受 vLLM 控制的 GPU 內存，應該嘗試降低它。如果它不起作用，嘗試--enforce-eager，這可能會減慢推理速度，或減少--max-model-len。

然后用兩張 4090 也需要修改max-model-len和啟動enforce-eager才能正常啟動

CUDA_VISIBLE_DEVICES=4,5 vllm serve . --serverd-model Qwen3-32B-AWQ --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 2 --max-model-len 16384 --enforce-eager

推理速度很慢，18t/s 的樣子

不過能把 4 張卡壓縮到 2 張卡，已經很量化了

啟動之后阿里有推理的建議配置，僅供參考：

采樣參數：

對于思考模式（enable_thinking=True），使用Temperature=0.6,TopP=0.95,TopK=20, 和MinP=0。不要使用貪心解碼，因為它可能導致性能下降和無盡的重復。
對于非思考模式（enable_thinking=False），我們建議使用Temperature=0.7,TopP=0.8,TopK=20, 和MinP=0。
對于支持的框架，可以在 0 到 2 之間調整presence_penalty參數以減少無盡的重復。對于量化模型，強烈建議將此值設為 1.5。然而，使用更高的值可能會偶爾導致語言混雜并輕微降低模型性能。

足夠的輸出長度：對于大多數查詢，推薦使用 32,768 個令牌的輸出長度。對于高度復雜問題的基準測試，例如數學和編程競賽中的問題，建議將最大輸出長度設為 38,912 個令牌。這為模型提供了足夠的空間來生成詳細且全面的回答，從而提高其整體性能。

標準化輸出格式：在進行基準測試時，建議使用提示來標準化模型輸出。

數學問題：在提示中包含“請逐步推理，并將最終答案放在\boxed{}內。”
選擇題：向提示中添加以下 JSON 結構以標準化回答：“請僅用選項字母在answer字段中顯示您的選擇，例如，"answer": "C"。”

歷史記錄中不包含思考內容：在多輪對話中，歷史模型輸出應僅包括最終輸出部分，不需要包含思考內容。這已在提供的 Jinja2 聊天模板中實現。然而，對于不直接使用 Jinja2 聊天模板的框架，開發者需要確保遵循這一最佳實踐。

最后推薦一個最近我在學習的課程

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.