網易首頁 > 網易號 > 正文申請入駐

Qwen3 發布，第一時間詳解：性能、突破、訓練方法、版本迭代...

2025-04-29 08:11:02　來源: 賽博禪心

北京舉報

分享至

今天凌晨，Qwen3發布

圖片來源：我畫的

介于 DeepSeek 和 OpenAI 暫無動靜，Qwen 算是把頭條保住了，恭喜～

本文量大管飽、一次滿足：發布內容、實際體驗、訓練細節，和Qwen 發展回顧

發布內容

本次發布，包含 MoE 和 Dense 兩種架構：
MoE：有 30B（3B激活）和 235B（22B激活）兩種。
Dense：包含 0.6B、1.7B、4B、8B、14B 和 32B 這六款

本次發布的旗艦模型是 Qwen3-235B-A22B，后綴 235B 指的是模型大小 235B，A22B 指的是激活參數 22B。

在代碼、數學、通用能力等基準測試中，這個235B 的 Qwen3，水平超過 671B 的 DeepSeek R1。

Qwen3 vs DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro。對于小一點的 MoE 模型：Qwen3-30B-A3B，其激活量只有 QwQ-32B 的 10%，其表現超過 DeepSeek V3/GPT-4o
Qwen3-4B 這樣的小模型，也能匹敵 Qwen2.5-72B-Instruct 「思考模式」的無縫切換

在我看來，在功能層面，Qwen3 最顯著的更新，是引入了「思考模式/非思考模式」的無縫切換。

思考模式的輸出方式，類似 DeepSeek R1，模型會逐步推理，經過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復雜問題。

非思考模式則更類似 DeepSeek V3，提供快速的即時響應，適用于那些簡單問題。

通過這種方式，用戶能夠根據具體需求，來控制模型的“思考”的程度，做到效果、成本、時間上的平衡。

在不同思考深度下，模型的得分情況掌握多種語言

Qwen2 支持 29 種語言

中英文 + 27 種其他語言

Qwen3 支持了 119 個語種和方言

Qwen3 支持的語種和方言更強的 Agent 能力

本次 Qwen3 的更新，還體現在了 Agent 和代碼能力，同時也加強了對 MCP 的支持。

值得一提的是，Qwen 有一個配套的 Qwen-Agent 項目，可以方便地使用 API 進行工具調用，或結合現有的工具鏈進行擴展

Qwen3，對 MCP 有了更好的支持實際體驗

接下來用兩個個例子，直觀的展示本次 Qwen3 的能力變化

當然了，你也可以訪問 Qwen 的網站，來直接體驗
https://chat.qwen.ai/

長/短思考
對于是否思考，你可以開啟/關閉，以及設定的長度也可以讓他講講人生道理代碼能力

所謂原湯化原食，讓他給本文做個可視化，美感還是在線的

讓英雄查英雄，讓 Qwen3 畫 Qwen3 訓練細節

接下來，讓我們看看這個模型是怎么訓出來的，過程上包括預訓練和后訓練。

預訓練

先做一個基礎的了解：

Qwen2.5 的訓練數據，是在 18 萬億 token Qwen3 的訓練數據翻倍：約 36 萬億個 token，涵蓋了 119 種語言和方言。

這些數據，一方面是來自于互聯網信息的收集，一方面則是通過 Qwen2.5-VL 來從各 PDF 中來提取內容，再通過 Qwen2.5 改進質量。為了補充數學和編程領域的訓練數據，Qwen2.5-Math 和 Qwen2.5-Coder 被用來生成合成數據。

在預訓練中，有三個階段：

第一階段，模型在30萬億tokens的數據上預訓練，使用4K的上下文長度，這一階段主要是幫助模型建立基本的語言技能和常識理解。

第二階段，增強了STEM領域（科學、技術、工程、數學）和編程任務的訓練，增加了5萬億tokens的數據量，進一步提升模型的推理能力。

第三階段，通過加入高質量的長文本數據，擴展了上下文長度到32K，讓Qwen3能夠處理更長的輸入，例如長篇文章或復雜的對話。

訓練出來，大概就是這么個效果

通過這些步驟，Qwen3的Dense基礎模型在性能上達到了Qwen2.5更大模型的水平。例如，Qwen3-1.7B、4B、8B、14B、32B等版本的表現，和Qwen2.5的3B、7B、14B、32B、72B相當。而Qwen3的MoE模型，則只用了10%的激活參數，便能提供同樣的推理能力，極大地節省了計算資源。

后訓練

Qwen3的后訓練是讓模型實現“逐步推理”和“快速響應”的關鍵。團隊通過四個階段的優化，使得Qwen3不僅在復雜任務中有出色表現，在簡單任務中也能快速給出答案。

第一階段：長鏈推理冷啟動：這一步通過微調多樣化的推理數據，讓模型具備了處理復雜任務的基本能力，包括數學、編程和邏輯推理等任務。

第二階段：強化學習（RL）：第二階段利用強化學習進一步提升模型的推理能力，讓模型能夠在面對復雜任務時更加高效地尋找最佳答案。

第三階段：思考模式和非思考模式融合：這一創新允許模型在面對不同任務時，靈活切換“思考模式”和“非思考模式”。思考模式下，模型逐步推理，適合復雜問題；而非思考模式下，模型則能快速作出反應，適合日常對話和簡單問題。

第四階段：通用任務強化學習：最后階段，通過對20多個常見任務的強化學習微調，確保了Qwen3能夠在不同應用場景下靈活應對，包括指令跟隨、格式化輸出和智能代理能力等。

流程化成圖，大概是這樣

通過這一系列后訓練，使得 Qwen3 掌握了思考模式，以及更好的工具調用能力。

Qwen 發展歷史回顧

阿里最早推出的AI，叫做通義千問，最早出現在2023年4月。

在那時，叫做「通義千問大模型」

那時，它還是阿里云的閉源模型，定位類似 ChatGPT，為企業客戶提供服務，并不開放源碼。

2023年8月初，Qwen 開源首個開源的 Qwen 模型

23年8月，阿里開源了兩個新模型，Qwen-7B和Qwen-7B-Chat，在 ModelScope 和 Hugging Face 同時上線，以 Apache 2.0 的方式開源，Tech Report 也一并放出。

這一次，也是“Qwen”這一名稱首次被啟用，主要面向開源社區，追求開源可用性、輕量部署、廣泛適配；

2023年9月底，Qwen-14B 發布

緊接著，Qwen-14B 開源

相比 Qwen-7B，Qwen-14B 訓練量更大，中文能力、代碼生成、長文本推理都有明顯提升

同期，阿里開源了 qwen.cpp、Qwen-Agent，工具鏈和應用框架開始成型。

那段時間，Qwen-7B 的訓練也做了補強，tokens 從 2.2T 加到了 2.4T，上下文長度擴展到了 8K。

2023年11月底，Qwen-72B 上線

這是一版旗艦規模的模型，參數量拉到 720億，預訓練數據達到了 3萬億 tokens。

這個版本的 Qwen，原生支持 32K 上下文，在中文推理、復雜數學、多輪對話上的表現明顯更穩了。

小型號也同步補了：Qwen-1.8B，面對邊緣側和輕量場景進行適配。

一波下來，Qwen把從1B到72B的參數區間基本打通了。

2024年春節期間，Qwen1.5

去年春節的時候，Qwen1.5 亮相

大過年的，Qwen1.5 發布，在基礎上做了深度優化，主要是底層結構調整、訓練對齊增強。

同一階段，還放出了第一版 MoE 架構的 Qwen1.5-MoE-A2.7B，推理成本壓下來了，但推理鏈條拉得更長。

24年6月初，Qwen2Qwen2，一個頗具影響力的版本

Qwen2 算是換了新的底盤：預訓練數據量大幅擴張，推理能力、代碼生成、長文本處理全部提升。

首批放出了 7B、32B、72B 三個尺寸，全覆蓋了中大型場景。

2024年9月中，Qwen2.5 接棒

這里是一些描述

新加了3B、14B、32B三個尺寸，適配更多硬件資源。

同步發了 MoE版，優化了推理稀疏度，同時放出了Qwen2.5-Omni，一個能統一文本、圖像、音頻、視頻處理的多模態模型。

那時候，Qwen2.5-7B 和 Omni-7B 在 Hugging Face 開源榜單上連續多周霸榜。

2025年4月底，Qwen3 到來

今天，Qwen3 開源

這一次，Qwen3 系列從 Dense 和 MoE 兩條線同步推進，從 0.6B 覆蓋到了 235B。

訓練過程中，第一次引入了漸進式長文本預訓練和長文本后訓練，超長文本處理做了系統級的優化。

推理任務上，模型內部支持了思考模式 / 非思考模式的無縫切換，單個模型內可以根據復雜度自動適配推理鏈路。

同時的，這個版本的模型，對外部工具的調用能力得到加強，為接下來的 Agent 大戰做足準備。

最后

從2023年4月，通義千問首次亮相，到2025年4月，Qwen3全面發布，短短兩年，三代更新，阿里一步步把自己的大模型打磨到了世界頂級水準

從最初的閉源探索，到如今 Dense、MoE 雙線并進、思考模式無縫切換、超長文本系統優化……每個節點，都是硬仗

不多煽情，但還想說一聲：這一路，真的不容易

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.