網易首頁 > 網易號 > 正文申請入駐

Qwen3 終于發布！混合推理模式、支持MCP，成本僅DeepSeek R1三分之一，網友喊話小扎：要讓工程師趕緊加班！

2025-04-29 08:26:52　來源: InfoQ

北京舉報

分享至

整理 | 褚杏娟

4 月 29 日凌晨，在一眾預告和期待中，阿里巴巴終于發布并開源了新一代通義千問模型 Qwen3。

Qwen3 采用混合專家（MoE）架構，總參數量 235B，激活僅需 22B。其中參數量僅為 DeepSeek-R1 的 1/3，成本大幅下降，性能全面超越 R1、OpenAI-o1 等全球頂尖模型。

Qwen3 還是國內首個“混合推理模型”，“快思考”與“慢思考”集成進同一個模型，對簡單需求可低算力“秒回”答案，對復雜問題可多步驟“深度思考”，大大節省算力消耗。

Qwen3 在推理、指令遵循、工具調用、多語言能力等方面均大幅增強。在官方的測評中，Qwen3 創下所有國產模型及全球開源模型的性能新高：在奧數水平的 AIME25 測評中，Qwen3 斬獲 81.5 分，刷新開源紀錄；在考察代碼能力的 LiveCodeBench 評測中，Qwen3 突破 70 分大關，表現甚至超過 Grok3；在評估模型人類偏好對齊的 ArenaHard 測評中，Qwen3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。

Qwen3 性能圖

性能大幅提升的同時，Qwen3 的部署成本還大幅下降，僅需 4 張 H20 即可部署 Qwen3 滿血版，顯存占用僅為性能相近模型的三分之一。對于部署，官方建議使用 SGLang 和 vLLM 等框架。對于本地使用，官方強烈推薦使用 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具。

此外，Qwen3 還提供和開源了豐富的模型版本，包含 2 款 30B、235B 的 MoE 模型，以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款稠密模型，每款模型均斬獲同尺寸開源模型 SOTA（最佳性能）：Qwen3 的 30B 參數 MoE 模型實現了 10 倍以上的模型性能杠桿提升，僅激活 3B 就能媲美上代 Qwen2.5-32B 模型性能；Qwen3 的稠密模型性能繼續突破，一半的參數量可實現同樣的高性能，如 32B 版本的 Qwen3 模型可跨級超越 Qwen2.5-72B 性能。

據了解，Qwen3 系列模型依舊采用寬松的 Apache2.0 協議開源，并首次支持 119 多種語言，全球開發者、研究機構和企業均可免費在魔搭社區、HuggingFace 等平臺下載模型并商用，也可以通過阿里云百煉調用 Qwen3 的 API 服務。個人用戶可立即通過通義 APP 直接體驗 Qwen3，夸克也即將全線接入 Qwen3。

GitHub：https://qwenlm.github.io/blog/qwen3/
Hugging Face：https://huggingface.co/spaces/Qwen/Qwen3-Demo
ModelScope：https://modelscope.cn/collections/Qwen3-9743180bdc6b48

Qwen3 主要特點

混合思維模式

所有 Qwen3 模型都是混合推理模型，支持兩種模式：

思考模式：在此模式下，模型會逐步推理，經過一系列思考后再給出最終答案。適用于需要深入思考的復雜問題。
非思考模式：在此模式下，模型快速響應，幾乎即時給出答案，適合對速度要求高、但不需要深度推理的簡單問題。

用戶使用 API 可按需設置“思考預算”（即預期最大深度思考的 tokens 數量），進行不同程度的思考，靈活滿足 AI 應用和不同場景對性能和成本的多樣需求。比如，4B 模型是手機端的絕佳尺寸；8B 可在電腦和汽車端側絲滑部署應用；32B 最受企業大規模部署歡迎，有條件的開發者也可輕松上手。

該設計使 Qwen3 展現出與推理預算成正比的、可擴展且平滑的性能提升。用戶能夠更輕松地根據不同任務配置推理預算，在成本效率與推理質量之間實現更優的平衡。

增強對 Agent 支持

Qwen3 為即將到來的智能體 Agent 和大模型應用爆發提供了更好的支持。團隊優化了 Qwen3 模型的編碼和 Agent 能力，并增強了對 MCP 的支持。以下視頻展示 Qwen3 如何思考以及如何與環境交互。

在評估模型 Agent 能力的 BFCL 評測中，Qwen3 創下 70.8 的新高，超越 Gemini2.5-Pro、OpenAI-o1 等頂尖模型，將大幅降低 Agent 調用工具的門檻。同時，Qwen3 原生支持 MCP 協議，并具備強大的工具調用（function calling）能力，結合封裝了工具調用模板和工具調用解析器的 Qwen-Agent 框架，將大大降低編碼復雜性，實現高效的手機及電腦 Agent 操作等任務。

支持 MCP 的功能確實讓社區開發者們感到興奮。“Qwen2.5 的工具調用行為在不同型號之間不一致，這讓我抓狂。微調后的 MCP 真是太棒了。”有開發者說道。

此外，研究員 ChujieZheng 表示，Qwen3 有一些非常有趣的功能沒有在模型卡上寫出來。

Qwen3 訓練過程

預訓練

在預訓練方面，Qwen3 的數據集相比 Qwen2.5 有了顯著擴展。Qwen2.5 是在 18 萬億個 token 上進行預訓練的，而 Qwen3 使用了幾乎兩倍的數據量，約 36 萬億個 token，涵蓋了 119 種語言和方言。

為了構建如此大規模的數據集，Qwen3 不僅從網頁收集數據，還從類似 PDF 的文檔中提取內容。團隊使用 Qwen2.5-VL 從這些文檔中提取文本，并用 Qwen2.5 提升提取內容的質量。為了增加數學和代碼數據的比例，團隊還利用 Qwen2.5-Math 和 Qwen2.5-Coder 生成了合成數據，包括教科書、問答對以及代碼片段等。

預訓練過程分為三個階段。在第一階段（S1），模型在超過 30 萬億個 token 上進行預訓練，使用的上下文長度為 4K tokens。這一階段使模型掌握了基礎語言能力和通用知識。在第二階段（S2），團隊提升了數據集的質量，增加了 STEM、編程和推理等知識密集型數據的比例，并在額外的 5 萬億個 token 上進行了進一步預訓練。在最后一個階段，使用高質量的長上下文數據，將模型的上下文長度擴展到了 32K tokens，以確保模型能夠有效處理更長的輸入。

由于模型架構的進步、訓練數據量的增加以及更高效的訓練方法，Qwen3 的稠密基礎模型整體性能已經達到了參數量更大的 Qwen2.5 基礎模型的水平。

例如，Qwen3-1.7B/4B/8B/14B/32B-Base 的性能分別相當于 Qwen2.5-3B/7B/14B/32B/72B-Base。值得注意的是，在 STEM、編程和推理等領域，Qwen3 的稠密基礎模型甚至超越了更大規模的 Qwen2.5 模型。對于 Qwen3-MoE 基礎模型，它們僅使用 10% 的激活參數，就能達到與 Qwen2.5 稠密基礎模型相近的性能，從而在訓練和推理成本上實現了顯著節省。

后訓練

為了開發能夠兼顧逐步推理與快速響應的混合模型，團隊設計并實現了一個四階段的訓練流程，該流程包括：(1) 長鏈式思維（CoT）冷啟動，(2) 基于推理的強化學習（RL），(3) 思維模式融合，以及 (4) 通用強化學習。

第一階段，團隊使用多樣化的長鏈式思維數據對模型進行微調，涵蓋數學、編程、邏輯推理、STEM 問題等不同任務和領域。此過程旨在賦予模型基本的推理能力。第二階段則專注于擴大強化學習的算力規模，利用基于規則的獎勵機制，提升模型的探索與利用能力。第三階段，通過在長鏈式思維數據與常規指令微調數據的組合上進行微調，將非思考型能力融入思考型模型。這些數據由第二階段增強后的思考模型生成，從而實現推理與快速響應能力的自然融合。第四階段，團隊在 20 多個通用領域任務上應用強化學習，進一步增強模型的通用能力并糾正不良行為。這些任務包括指令跟隨、格式遵循、Agent 能力等。

對此，網友 Nathan Lambert 指出，Qwen3 的后訓練堆棧與 DeepSeek R1 極為相似，Qwen3 提煉出了更小的模型。

網友反饋

Qwen3 發布后，一些開發者已經迫不及待使用了。

蘋果機器學習研究員 Awni Hannun 使用后表示，Qwen3 235B MoE（激活參數為 22B）在搭載 mlx-lm 的 M2 Ultra 上運行非?？欤? 比特量化模型占用約 132GB 內存；生成了 580 個 token，速度約為 28 token/ 秒。

網友 xjdr 表示，Qwen3-235B-A22B 是一個非常優秀的模型?！八母杏X很像是原始 o1 博客文章中的推理軌跡和 R1 zero 的結合（這是件好事）。但模型出現了大量的“sink tokens”，比如 so、then、wait、what 等?！?/p>

編程方面，xjdr 評價為：寫 JAX 的即時編譯（jitted）代碼，就像在用 Python 玩《黑暗之魂》。

不過 T3 Chat 的首席執行官 Theo - t3.gg 指出，Qwen3 延續了 Qwen 系列在任務處理中嚴重過度思考的趨勢，在回答問題之前會生成成千上萬的思考標記（tokens），并因此耗盡上下文長度。

據悉，阿里通義已開源 200 余個模型，全球下載量超 3 億次，Qwen 衍生模型數超 10 萬個，已超越美國 Llama。

Qwen3 發布后，有網友喊話，“扎克，你最好現在就釋放巨獸?！边€有人開玩笑道，“扎克伯格要讓他的工程師趕緊加班了?！?/p>

AICon 2025 強勢來襲，5 月上海站、6 月北京站，雙城聯動，全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合，匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票，一同探索 AI 應用邊界！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.