網易首頁 > 網易號 > 正文申請入駐

Qwen3深夜炸場！阿里一口氣放出8款大模型，性能超越DeepSeek R1，登頂開源王座

2025-04-29 12:00:51　來源: CSDN

北京舉報

分享至

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

今天凌晨，大模型領域最受關注的重磅消息來自阿里 Qwen 團隊——他們正式發布了備受期待的全新 Qwen3 系列大模型。

不同于以往，這次其一次性開源了多達 8 款混合推理模型，在性能上全面逼近 OpenAI、Google 等閉源大模型，以及超越了開源大模型 DeepSeek R1，堪稱當前最強的開源模型之一，也難怪昨晚 Qwen 團隊一直在加班。

8 大模型齊發！

這 8 款混合推理模型中，包括了 2 個 MOE 模型：Qwen3-235B-A22B和Qwen3-30B-A3B。

其中，Qwen3-235B-A22B 是本次發布中規模最大的旗艦模型，擁有 2350 億個參數，激活參數超過 220 億。

在代碼、數學和通用能力等多個基準測試中，它的表現不僅超過了 DeepSeek 的 R1 開源模型，還優于 OpenAI 的閉源模型 o1。尤其在軟件工程和數學領域的 ArenaHard 測試（共 500 道題）中，成績甚至接近了 Google 最新發布的 Gemini 2.5-Pro，可見其實力不容小覷。

另一個 MOE 模型Qwen3-30B-A3B擁有 300 億總參數，激活參數僅為 QwQ-32B 的 10%，約 30 億，但實際表現卻更勝一籌。甚至像 Qwen3-4B 這樣的小模型，也能達到 Qwen2.5-72B-Instruct 的水平。

除了上述兩款 MOE 模型，此次還發布了6 款 Dense 模型，分別是：Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。這些模型在規模和結構上各不相同，方便用戶根據具體需求和計算資源進行選擇。

以上所有模型均在 Apache 2.0 許可協議下開源，對開發者和研究者開放。

國內首個混合推理模型來了

從能力上來看，Qwen3 系列模型經過特別訓練，支持兩種“思考模式”：快思考和慢思考，用官方的話就是“思考模式”和“非思考模式”。

思考模式：在這種模式下，模型會逐步推理，經過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復雜問題。
非思考模式：在此模式中，模型提供快速、近乎即時的響應，適用于那些對速度要求高于深度的簡單問題。

正因此，Qwen3 是國內首個混合推理模型。

簡單來說，就是 Qwen3 可以根據問題的難度，選擇是快速給出答案，還是花更多時間進行更深層次的分析和推理。比如遇到一些復雜的數學、科學或工程類問題時，你可以切換到“深度思考模式”，讓模型用更強的推理能力來處理問題。

Qwen 團隊在技術報告中解釋道，“Qwen3 展現出可擴展且平滑的性能提升，這與分配的計算推理預算直接相關。這樣的設計讓用戶能夠更輕松地為不同任務配置特定的預算，在成本效益和推理質量之間實現更優的平衡。”

使用方法也很簡單：在Qwen Chat 網站上，有一個專門的按鈕可以切換“思考模式”；如果你是在本地部署或者通過 API 使用模型，也可以通過輸入指令，比如 /think 或 /no_think，自由切換不同模式，讓模型根據任務難度靈活應對。

另外，Qwen3 的多語言能力也有了很大提升，目前已經能支持多達119 種語言和方言，基本覆蓋了全球主要的語言體系。

還有一點也很值得關注，Qwen3 在智能體（Agent）能力和編程（代碼）方面也變得更強了，同時也更好地支持了MCP 技術。下面這個視頻展示 Qwen3 是如何思考并與環境進行交互的：

目前，經過后訓練優化的 Qwen3 系列模型已經可以在多個平臺上訪問和部署，例如 Qwen3-30B-A3B，以及對應的預訓練基座模型（如 Qwen3-30B-A3B-Base），已在 Hugging Face、ModelScope 和 Kaggle 等平臺上線，面向公眾開放使用。

普通用戶也可以直接在Qwen Chat 網頁和手機 App上使用。

快速體驗 Qwen3 系列：

Qwen Chat 網頁版：https://chat.qwen.ai/
GitHub：https://github.com/QwenLM/Qwen3
Hugging Face：https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
魔搭社區：https://modelscope.cn/collections/Qwen3-9743180bdc6b48

在部署方面，官方推薦使用 SGLang 和 vLLM 等推理框架，以獲得更好的性能和易用性。對于本地部署場景，Ollama、LMStudio、MLX、llama.cpp 以及 KTransformers 等工具也提供了便捷的支持。

Qwen3 強大的背后，離不開多階段的預訓練和后訓練

在模型預訓練方面，Qwen3 相比之前的 Qwen2.5 有了大幅提升。此前 Qwen2.5 是在 18 萬億個 token 上進行預訓練的，而 Qwen3 預訓練使用的數據量幾乎是其兩倍，達到大約 36 萬億個 token，涵蓋了 119 種語言和方言。

這些數據來源包括網頁抓取內容、PDF 文檔提取，還有用早期 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數學和代碼領域的專家模型合成數據，合成了包括教科書、問答對以及代碼片段等多種形式的數據。

預訓練

據官方技術報告介紹，Qwen3 的預訓練流程分為三個階段：

在第一階段（S1），模型在超過 30 萬億個 token 的海量數據上進行了初步訓練，處理的文本長度是 4K token，主要目的是打下基本的語言理解和通用知識基礎。

到了第二階段（S2），訓練重點有所調整，加入了更多像 STEM（科學、技術、工程、數學）、編程和推理相關的專業數據，同時又在額外 5 萬億個 token 上進行了強化訓練，進一步提升模型的專業能力。

最后，在第三階段，Qwen 團隊用高質量的長文本數據，把模型的上下文長度擴展到了 32K token，讓它能更好地處理超長輸入，適應更復雜的應用場景。

得益于模型架構的優化、訓練數據量的增加，以及更高效的訓練方法，Qwen3 的 Dense（密集）基礎模型整體表現已經追上了體積更大的 Qwen2.5 版本。比如，Qwen3 的 1.7B、4B、8B、14B 和 32B 基礎模型，整體能力分別能對標 Qwen2.5 的 3B、7B、14B、32B 和 72B 模型。

尤其在 STEM（科學、技術、工程、數學）、編程和推理這類專業領域，Qwen3 的表現甚至比 Qwen2.5 的大模型還要更好。

而對于 Qwen3 的 MoE（混合專家）基礎模型來說，它們每次推理時只激活大約 10% 的參數，但依然能做到接近 Qwen2.5 Dense 基礎模型的效果。這意味著，在保持高性能的同時，訓練和推理的成本大大降低了。

后訓練

為了打造既能深度推理又能快速響應的混合型大模型，Qwen3 團隊設計并執行了一套四階段的后訓練流程。具體包括：（1）長鏈推理冷啟動、（2）長鏈推理強化學習、（3）思考與非思考模式融合、以及（4）通用能力強化學習。

在第一階段，該團隊通過大量涵蓋數學、編程、邏輯推理和 STEM 等領域的長鏈推理數據，對模型進行了微調，打下了基本的推理能力基礎。

第二階段則引入了大規模的強化學習，通過設定規則獎勵，引導模型在復雜問題中探索得更深入、更細致。

到了第三階段，訓練目標轉向融合思考模式與快速響應模式。 Qwen 團隊用一套混合了長鏈推理和常規指令微調的數據，對模型進行了再次微調，讓它既能深度思考，又能根據任務需求快速作答，實現兩種能力的平滑切換。

最后，在第四階段，模型接受了更廣泛領域的強化訓練，覆蓋指令遵循、格式規范、Agent 能力等二十多個方向，進一步提升了模型的通用性，同時修正了在早期訓練中可能出現的不良行為。

登頂開源寶座

這次阿里發布 Qwen3，毫無疑問是一次重磅操作。據了解，阿里至今已向全球開源 200 多款模型，千問衍生模型數量已突破 10萬，超越美國 Meta 的 Llama 系列，成為全球最大的開源模型族群。可以說，Qwen3 的發布不是一次普通的升級，而是真正的“登頂”。

外媒 Venturebeat 也對此做出了高度評價，稱對于企業來說，接入 Qwen3 非常高效，幾小時內就能將現有的 OpenAI 接口系統切換到新模型，根本不用幾周。Qwen3 的專家混合模型（MoE），在顯存使用上相當節省，20-30B 規模模型的顯存成本就能實現接近 GPT-4 的推理能力。

更有意思的是，Qwen3 提供了從 0.6B 到 32B 不同規模的密集模型版本，用戶可以從筆記本小規模測試，一路擴展到多卡大集群，過程中幾乎不用調整提示詞。

Qwen3 發布后，在用戶層也受到了廣泛好評。其 GitHub 頁面迅速獲得了 17.9k 個 Star 和 1.2k 的 Fork，熱度可見一斑。

在社交媒體上，不少網友們分享自己的一手體驗感受。

有用戶表示：“我剛試用了 @Alibaba_Qwen 的 Qwen3。

在需要快速響應時，它非常迅速；面對復雜問題時，它會花時間思考。它不是隨便給個答案，而是經過深思熟慮，給出準確的結果。

在編程方面，它表現出色；在數學問題上，它依然冷靜應對。

在語言處理上，它聽起來很自然，不像其他模型那樣怪異。令我驚訝的是，它甚至支持多達 119 種語言。

很久沒見過這么優秀的開源模型了。”

也有網友 Jafar Najafov 感嘆道：“這真是令人震驚。我將 Qwen3 和同規模的 Llama 進行對比，Qwen3 的推理更深入，處理長上下文和解決復雜問題的速度都更快。它完全開源，原生支持混合推理，采用 Apache 2.0 許可證。這不僅僅是更好，簡直是全新的升級！”

甚至蘋果工程師 Awni Hannun 也在第一時間用 M2 蘋果設備跑了 Qwen3 模型，隨即發聲道：“Qwen3 235B MoE（22B 激活參數）在 M2 Ultra 上通過 mlx-lm 運行得非常快。4 位模型大約用 132GB 內存，生成 580 個 token 的速度約為每秒 28 個！”

整體看來，Qwen3 的上線，AI 圈的反響都不錯。

對此，Qwen 團隊開源負責人林俊旸在 X 平臺上表示，Qwen3 的開發過程中，團隊解決了很多重要但容易被忽視的問題，比如：穩定的訓練來擴展強化學習（RL）、平衡多領域數據，以及在提升多語言能力的同時不犧牲質量。

他還透露，未來團隊將把重點轉向訓練能夠進行長周期推理、執行真實世界任務的智能體。

那么，你體驗上了 Qwen3 了嗎？感覺怎么樣？歡迎留言分享你的看法。

https://qwenlm.github.io/zh/blog/qwen3/

https://venturebeat.com/ai/alibaba-launches-open-source-qwen3-model-that-surpasses-openai-o1-and-deepseek-r1/

https://github.com/QwenLM/Qwen3

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.