性能超越DeepSeek R1，Qwen3正式登場！阿里一口氣放出8款大模型，登頂開源王座！

2025-04-29 17:21:03　來源: AI科技大本營

北京舉報

分享至

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

今天凌晨，大模型領(lǐng)域最受關(guān)注的重磅消息來自阿里 Qwen 團隊——他們正式發(fā)布了備受期待的全新 Qwen3 系列大模型。

不同于以往，這次其一次性開源了多達 8 款混合推理模型，在性能上全面逼近 OpenAI、Google 等閉源大模型，以及超越了開源大模型 DeepSeek R1，堪稱當(dāng)前最強的開源模型之一，也難怪昨晚 Qwen 團隊一直在加班。

8 大模型齊發(fā)！

這 8 款混合推理模型中，包括了 2 個 MOE 模型：Qwen3-235B-A22B和Qwen3-30B-A3B。

其中，Qwen3-235B-A22B 是本次發(fā)布中規(guī)模最大的旗艦?zāi)Ｐ停瑩碛?2350 億個參數(shù)，激活參數(shù)超過 220 億。

在代碼、數(shù)學(xué)和通用能力等多個基準(zhǔn)測試中，它的表現(xiàn)不僅超過了 DeepSeek 的 R1 開源模型，還優(yōu)于 OpenAI 的閉源模型 o1。尤其在軟件工程和數(shù)學(xué)領(lǐng)域的 ArenaHard 測試（共 500 道題）中，成績甚至接近了 Google 最新發(fā)布的 Gemini 2.5-Pro，可見其實力不容小覷。

另一個 MOE 模型Qwen3-30B-A3B擁有 300 億總參數(shù)，激活參數(shù)僅為 QwQ-32B 的 10%，約 30 億，但實際表現(xiàn)卻更勝一籌。甚至像 Qwen3-4B 這樣的小模型，也能達到 Qwen2.5-72B-Instruct 的水平。

除了上述兩款 MOE 模型，此次還發(fā)布了6 款 Dense 模型，分別是：Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。這些模型在規(guī)模和結(jié)構(gòu)上各不相同，方便用戶根據(jù)具體需求和計算資源進行選擇。

以上所有模型均在 Apache 2.0 許可協(xié)議下開源，對開發(fā)者和研究者開放。

國內(nèi)首個混合推理模型來了

從能力上來看，Qwen3 系列模型經(jīng)過特別訓(xùn)練，支持兩種“思考模式”：快思考和慢思考，用官方的話就是“思考模式”和“非思考模式”。

思考模式：在這種模式下，模型會逐步推理，經(jīng)過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復(fù)雜問題。
非思考模式：在此模式中，模型提供快速、近乎即時的響應(yīng)，適用于那些對速度要求高于深度的簡單問題。

正因此，Qwen3 是國內(nèi)首個混合推理模型。

簡單來說，就是 Qwen3 可以根據(jù)問題的難度，選擇是快速給出答案，還是花更多時間進行更深層次的分析和推理。比如遇到一些復(fù)雜的數(shù)學(xué)、科學(xué)或工程類問題時，你可以切換到“深度思考模式”，讓模型用更強的推理能力來處理問題。

Qwen 團隊在技術(shù)報告中解釋道，“Qwen3 展現(xiàn)出可擴展且平滑的性能提升，這與分配的計算推理預(yù)算直接相關(guān)。這樣的設(shè)計讓用戶能夠更輕松地為不同任務(wù)配置特定的預(yù)算，在成本效益和推理質(zhì)量之間實現(xiàn)更優(yōu)的平衡。”

使用方法也很簡單：在Qwen Chat 網(wǎng)站上，有一個專門的按鈕可以切換“思考模式”；如果你是在本地部署或者通過 API 使用模型，也可以通過輸入指令，比如 /think 或 /no_think，自由切換不同模式，讓模型根據(jù)任務(wù)難度靈活應(yīng)對。

另外，Qwen3 的多語言能力也有了很大提升，目前已經(jīng)能支持多達119 種語言和方言，基本覆蓋了全球主要的語言體系。

還有一點也很值得關(guān)注，Qwen3 在智能體（Agent）能力和編程（代碼）方面也變得更強了，同時也更好地支持了MCP 技術(shù)。下面這個視頻展示 Qwen3 是如何思考并與環(huán)境進行交互的：

目前，經(jīng)過后訓(xùn)練優(yōu)化的 Qwen3 系列模型已經(jīng)可以在多個平臺上訪問和部署，例如 Qwen3-30B-A3B，以及對應(yīng)的預(yù)訓(xùn)練基座模型（如 Qwen3-30B-A3B-Base），已在 Hugging Face、ModelScope 和 Kaggle 等平臺上線，面向公眾開放使用。

普通用戶也可以直接在Qwen Chat 網(wǎng)頁和手機 App上使用。

快速體驗 Qwen3 系列：

Qwen Chat 網(wǎng)頁版：https://chat.qwen.ai/
GitHub：https://github.com/QwenLM/Qwen3
Hugging Face：https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
魔搭社區(qū)：https://modelscope.cn/collections/Qwen3-9743180bdc6b48

在部署方面，官方推薦使用 SGLang 和 vLLM 等推理框架，以獲得更好的性能和易用性。對于本地部署場景，Ollama、LMStudio、MLX、llama.cpp 以及 KTransformers 等工具也提供了便捷的支持。

Qwen3 強大的背后，離不開多階段的預(yù)訓(xùn)練和后訓(xùn)練

在模型預(yù)訓(xùn)練方面，Qwen3 相比之前的 Qwen2.5 有了大幅提升。此前 Qwen2.5 是在 18 萬億個 token 上進行預(yù)訓(xùn)練的，而 Qwen3 預(yù)訓(xùn)練使用的數(shù)據(jù)量幾乎是其兩倍，達到大約 36 萬億個 token，涵蓋了 119 種語言和方言。

這些數(shù)據(jù)來源包括網(wǎng)頁抓取內(nèi)容、PDF 文檔提取，還有用早期 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數(shù)學(xué)和代碼領(lǐng)域的專家模型合成數(shù)據(jù)，合成了包括教科書、問答對以及代碼片段等多種形式的數(shù)據(jù)。

預(yù)訓(xùn)練

據(jù)官方技術(shù)報告介紹，Qwen3 的預(yù)訓(xùn)練流程分為三個階段：

在第一階段（S1），模型在超過 30 萬億個 token 的海量數(shù)據(jù)上進行了初步訓(xùn)練，處理的文本長度是 4K token，主要目的是打下基本的語言理解和通用知識基礎(chǔ)。

到了第二階段（S2），訓(xùn)練重點有所調(diào)整，加入了更多像 STEM（科學(xué)、技術(shù)、工程、數(shù)學(xué)）、編程和推理相關(guān)的專業(yè)數(shù)據(jù)，同時又在額外 5 萬億個 token 上進行了強化訓(xùn)練，進一步提升模型的專業(yè)能力。

最后，在第三階段，Qwen 團隊用高質(zhì)量的長文本數(shù)據(jù)，把模型的上下文長度擴展到了 32K token，讓它能更好地處理超長輸入，適應(yīng)更復(fù)雜的應(yīng)用場景。

得益于模型架構(gòu)的優(yōu)化、訓(xùn)練數(shù)據(jù)量的增加，以及更高效的訓(xùn)練方法，Qwen3 的 Dense（密集）基礎(chǔ)模型整體表現(xiàn)已經(jīng)追上了體積更大的 Qwen2.5 版本。比如，Qwen3 的 1.7B、4B、8B、14B 和 32B 基礎(chǔ)模型，整體能力分別能對標(biāo) Qwen2.5 的 3B、7B、14B、32B 和 72B 模型。

尤其在 STEM（科學(xué)、技術(shù)、工程、數(shù)學(xué)）、編程和推理這類專業(yè)領(lǐng)域，Qwen3 的表現(xiàn)甚至比 Qwen2.5 的大模型還要更好。

而對于 Qwen3 的 MoE（混合專家）基礎(chǔ)模型來說，它們每次推理時只激活大約 10% 的參數(shù)，但依然能做到接近 Qwen2.5 Dense 基礎(chǔ)模型的效果。這意味著，在保持高性能的同時，訓(xùn)練和推理的成本大大降低了。

后訓(xùn)練

為了打造既能深度推理又能快速響應(yīng)的混合型大模型，Qwen3 團隊設(shè)計并執(zhí)行了一套四階段的后訓(xùn)練流程。具體包括：（1）長鏈推理冷啟動、（2）長鏈推理強化學(xué)習(xí)、（3）思考與非思考模式融合、以及（4）通用能力強化學(xué)習(xí)。

在第一階段，該團隊通過大量涵蓋數(shù)學(xué)、編程、邏輯推理和 STEM 等領(lǐng)域的長鏈推理數(shù)據(jù)，對模型進行了微調(diào)，打下了基本的推理能力基礎(chǔ)。

第二階段則引入了大規(guī)模的強化學(xué)習(xí)，通過設(shè)定規(guī)則獎勵，引導(dǎo)模型在復(fù)雜問題中探索得更深入、更細(xì)致。

到了第三階段，訓(xùn)練目標(biāo)轉(zhuǎn)向融合思考模式與快速響應(yīng)模式。 Qwen 團隊用一套混合了長鏈推理和常規(guī)指令微調(diào)的數(shù)據(jù)，對模型進行了再次微調(diào)，讓它既能深度思考，又能根據(jù)任務(wù)需求快速作答，實現(xiàn)兩種能力的平滑切換。

最后，在第四階段，模型接受了更廣泛領(lǐng)域的強化訓(xùn)練，覆蓋指令遵循、格式規(guī)范、Agent 能力等二十多個方向，進一步提升了模型的通用性，同時修正了在早期訓(xùn)練中可能出現(xiàn)的不良行為。

登頂開源寶座

這次阿里發(fā)布 Qwen3，毫無疑問是一次重磅操作。據(jù)了解，阿里至今已向全球開源 200 多款模型，千問衍生模型數(shù)量已突破 10萬，超越美國 Meta 的 Llama 系列，成為全球最大的開源模型族群。可以說，Qwen3 的發(fā)布不是一次普通的升級，而是真正的“登頂”。

外媒 Venturebeat 也對此做出了高度評價，稱對于企業(yè)來說，接入 Qwen3 非常高效，幾小時內(nèi)就能將現(xiàn)有的 OpenAI 接口系統(tǒng)切換到新模型，根本不用幾周。Qwen3 的專家混合模型（MoE），在顯存使用上相當(dāng)節(jié)省，20-30B 規(guī)模模型的顯存成本就能實現(xiàn)接近 GPT-4 的推理能力。

更有意思的是，Qwen3 提供了從 0.6B 到 32B 不同規(guī)模的密集模型版本，用戶可以從筆記本小規(guī)模測試，一路擴展到多卡大集群，過程中幾乎不用調(diào)整提示詞。

Qwen3 發(fā)布后，在用戶層也受到了廣泛好評。其 GitHub 頁面迅速獲得了 17.9k 個 Star 和 1.2k 的 Fork，熱度可見一斑。

在社交媒體上，不少網(wǎng)友們分享自己的一手體驗感受。

有用戶表示：“我剛試用了 @Alibaba_Qwen 的 Qwen3。

在需要快速響應(yīng)時，它非常迅速；面對復(fù)雜問題時，它會花時間思考。它不是隨便給個答案，而是經(jīng)過深思熟慮，給出準(zhǔn)確的結(jié)果。

在編程方面，它表現(xiàn)出色；在數(shù)學(xué)問題上，它依然冷靜應(yīng)對。

在語言處理上，它聽起來很自然，不像其他模型那樣怪異。令我驚訝的是，它甚至支持多達 119 種語言。

很久沒見過這么優(yōu)秀的開源模型了。”

也有網(wǎng)友 Jafar Najafov 感嘆道：“這真是令人震驚。我將 Qwen3 和同規(guī)模的 Llama 進行對比，Qwen3 的推理更深入，處理長上下文和解決復(fù)雜問題的速度都更快。它完全開源，原生支持混合推理，采用 Apache 2.0 許可證。這不僅僅是更好，簡直是全新的升級！”

甚至蘋果工程師 Awni Hannun 也在第一時間用 M2 蘋果設(shè)備跑了 Qwen3 模型，隨即發(fā)聲道：“Qwen3 235B MoE（22B 激活參數(shù)）在 M2 Ultra 上通過 mlx-lm 運行得非常快。4 位模型大約用 132GB 內(nèi)存，生成 580 個 token 的速度約為每秒 28 個！”

整體看來，Qwen3 的上線，AI 圈的反響都不錯。

對此，Qwen 團隊開源負(fù)責(zé)人林俊旸在 X 平臺上表示，Qwen3 的開發(fā)過程中，團隊解決了很多重要但容易被忽視的問題，比如：穩(wěn)定的訓(xùn)練來擴展強化學(xué)習(xí)（RL）、平衡多領(lǐng)域數(shù)據(jù)，以及在提升多語言能力的同時不犧牲質(zhì)量。

他還透露，未來團隊將把重點轉(zhuǎn)向訓(xùn)練能夠進行長周期推理、執(zhí)行真實世界任務(wù)的智能體。

那么，你體驗上了 Qwen3 了嗎？感覺怎么樣？歡迎留言分享你的看法。

https://qwenlm.github.io/zh/blog/qwen3/

https://venturebeat.com/ai/alibaba-launches-open-source-qwen3-model-that-surpasses-openai-o1-and-deepseek-r1/

https://github.com/QwenLM/Qwen3

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.