整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
今天凌晨,大模型領域最受關注的重磅消息來自阿里 Qwen 團隊——他們正式發布了備受期待的全新 Qwen3 系列大模型。
不同于以往,這次其一次性開源了多達 8 款混合推理模型,在性能上全面逼近 OpenAI、Google 等閉源大模型,以及超越了開源大模型 DeepSeek R1,堪稱當前最強的開源模型之一,也難怪昨晚 Qwen 團隊一直在加班。
8 大模型齊發!
這 8 款混合推理模型中,包括了 2 個 MOE 模型:Qwen3-235B-A22B和Qwen3-30B-A3B。
其中,Qwen3-235B-A22B 是本次發布中規模最大的旗艦模型,擁有 2350 億個參數,激活參數超過 220 億。
在代碼、數學和通用能力等多個基準測試中,它的表現不僅超過了 DeepSeek 的 R1 開源模型,還優于 OpenAI 的閉源模型 o1。尤其在軟件工程和數學領域的 ArenaHard 測試(共 500 道題)中,成績甚至接近了 Google 最新發布的 Gemini 2.5-Pro,可見其實力不容小覷。
另一個 MOE 模型Qwen3-30B-A3B擁有 300 億總參數,激活參數僅為 QwQ-32B 的 10%,約 30 億,但實際表現卻更勝一籌。甚至像 Qwen3-4B 這樣的小模型,也能達到 Qwen2.5-72B-Instruct 的水平。
除了上述兩款 MOE 模型,此次還發布了6 款 Dense 模型,分別是:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。這些模型在規模和結構上各不相同,方便用戶根據具體需求和計算資源進行選擇。
以上所有模型均在 Apache 2.0 許可協議下開源,對開發者和研究者開放。
國內首個混合推理模型來了
從能力上來看,Qwen3 系列模型經過特別訓練,支持兩種“思考模式”:快思考和慢思考,用官方的話就是“思考模式”和“非思考模式”。
思考模式:在這種模式下,模型會逐步推理,經過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復雜問題。
非思考模式:在此模式中,模型提供快速、近乎即時的響應,適用于那些對速度要求高于深度的簡單問題。
正因此,Qwen3 是國內首個混合推理模型。
簡單來說,就是 Qwen3 可以根據問題的難度,選擇是快速給出答案,還是花更多時間進行更深層次的分析和推理。比如遇到一些復雜的數學、科學或工程類問題時,你可以切換到“深度思考模式”,讓模型用更強的推理能力來處理問題。
Qwen 團隊在技術報告中解釋道,“Qwen3 展現出可擴展且平滑的性能提升,這與分配的計算推理預算直接相關。這樣的設計讓用戶能夠更輕松地為不同任務配置特定的預算,在成本效益和推理質量之間實現更優的平衡。”
使用方法也很簡單:在Qwen Chat 網站上,有一個專門的按鈕可以切換“思考模式”;如果你是在本地部署或者通過 API 使用模型,也可以通過輸入指令,比如 /think 或 /no_think,自由切換不同模式,讓模型根據任務難度靈活應對。
另外,Qwen3 的多語言能力也有了很大提升,目前已經能支持多達119 種語言和方言,基本覆蓋了全球主要的語言體系。
還有一點也很值得關注,Qwen3 在智能體(Agent)能力和編程(代碼)方面也變得更強了,同時也更好地支持了MCP 技術。下面這個視頻展示 Qwen3 是如何思考并與環境進行交互的:
目前,經過后訓練優化的 Qwen3 系列模型已經可以在多個平臺上訪問和部署,例如 Qwen3-30B-A3B,以及對應的預訓練基座模型(如 Qwen3-30B-A3B-Base),已在 Hugging Face、ModelScope 和 Kaggle 等平臺上線,面向公眾開放使用。
普通用戶也可以直接在Qwen Chat 網頁和手機 App上使用。
快速體驗 Qwen3 系列:
Qwen Chat 網頁版:https://chat.qwen.ai/
GitHub:https://github.com/QwenLM/Qwen3
Hugging Face:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
魔搭社區:https://modelscope.cn/collections/Qwen3-9743180bdc6b48
在部署方面,官方推薦使用 SGLang 和 vLLM 等推理框架,以獲得更好的性能和易用性。對于本地部署場景,Ollama、LMStudio、MLX、llama.cpp 以及 KTransformers 等工具也提供了便捷的支持。
Qwen3 強大的背后,離不開多階段的預訓練和后訓練
在模型預訓練方面,Qwen3 相比之前的 Qwen2.5 有了大幅提升。此前 Qwen2.5 是在 18 萬億個 token 上進行預訓練的,而 Qwen3 預訓練使用的數據量幾乎是其兩倍,達到大約 36 萬億個 token,涵蓋了 119 種語言和方言。
這些數據來源包括網頁抓取內容、PDF 文檔提取,還有用早期 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數學和代碼領域的專家模型合成數據,合成了包括教科書、問答對以及代碼片段等多種形式的數據。
預訓練
據官方技術報告介紹,Qwen3 的預訓練流程分為三個階段:
在第一階段(S1),模型在超過 30 萬億個 token 的海量數據上進行了初步訓練,處理的文本長度是 4K token,主要目的是打下基本的語言理解和通用知識基礎。
到了第二階段(S2),訓練重點有所調整,加入了更多像 STEM(科學、技術、工程、數學)、編程和推理相關的專業數據,同時又在額外 5 萬億個 token 上進行了強化訓練,進一步提升模型的專業能力。
最后,在第三階段,Qwen 團隊用高質量的長文本數據,把模型的上下文長度擴展到了 32K token,讓它能更好地處理超長輸入,適應更復雜的應用場景。
得益于模型架構的優化、訓練數據量的增加,以及更高效的訓練方法,Qwen3 的 Dense(密集)基礎模型整體表現已經追上了體積更大的 Qwen2.5 版本。比如,Qwen3 的 1.7B、4B、8B、14B 和 32B 基礎模型,整體能力分別能對標 Qwen2.5 的 3B、7B、14B、32B 和 72B 模型。
尤其在 STEM(科學、技術、工程、數學)、編程和推理這類專業領域,Qwen3 的表現甚至比 Qwen2.5 的大模型還要更好。
而對于 Qwen3 的 MoE(混合專家)基礎模型來說,它們每次推理時只激活大約 10% 的參數,但依然能做到接近 Qwen2.5 Dense 基礎模型的效果。這意味著,在保持高性能的同時,訓練和推理的成本大大降低了。
后訓練
為了打造既能深度推理又能快速響應的混合型大模型,Qwen3 團隊設計并執行了一套四階段的后訓練流程。具體包括:(1)長鏈推理冷啟動、(2)長鏈推理強化學習、(3)思考與非思考模式融合、以及(4)通用能力強化學習。
在第一階段,該團隊通過大量涵蓋數學、編程、邏輯推理和 STEM 等領域的長鏈推理數據,對模型進行了微調,打下了基本的推理能力基礎。
第二階段則引入了大規模的強化學習,通過設定規則獎勵,引導模型在復雜問題中探索得更深入、更細致。
到了第三階段,訓練目標轉向融合思考模式與快速響應模式。 Qwen 團隊用一套混合了長鏈推理和常規指令微調的數據,對模型進行了再次微調,讓它既能深度思考,又能根據任務需求快速作答,實現兩種能力的平滑切換。
最后,在第四階段,模型接受了更廣泛領域的強化訓練,覆蓋指令遵循、格式規范、Agent 能力等二十多個方向,進一步提升了模型的通用性,同時修正了在早期訓練中可能出現的不良行為。
登頂開源寶座
這次阿里發布 Qwen3,毫無疑問是一次重磅操作。據了解,阿里至今已向全球開源 200 多款模型,千問衍生模型數量已突破 10萬,超越美國 Meta 的 Llama 系列,成為全球最大的開源模型族群。可以說,Qwen3 的發布不是一次普通的升級,而是真正的“登頂”。
外媒 Venturebeat 也對此做出了高度評價,稱對于企業來說,接入 Qwen3 非常高效,幾小時內就能將現有的 OpenAI 接口系統切換到新模型,根本不用幾周。Qwen3 的專家混合模型(MoE),在顯存使用上相當節省,20-30B 規模模型的顯存成本就能實現接近 GPT-4 的推理能力。
更有意思的是,Qwen3 提供了從 0.6B 到 32B 不同規模的密集模型版本,用戶可以從筆記本小規模測試,一路擴展到多卡大集群,過程中幾乎不用調整提示詞。
Qwen3 發布后,在用戶層也受到了廣泛好評。其 GitHub 頁面迅速獲得了 17.9k 個 Star 和 1.2k 的 Fork,熱度可見一斑。
在社交媒體上,不少網友們分享自己的一手體驗感受。
有用戶表示:“我剛試用了 @Alibaba_Qwen 的 Qwen3。
在需要快速響應時,它非常迅速;面對復雜問題時,它會花時間思考。它不是隨便給個答案,而是經過深思熟慮,給出準確的結果。
在編程方面,它表現出色;在數學問題上,它依然冷靜應對。
在語言處理上,它聽起來很自然,不像其他模型那樣怪異。令我驚訝的是,它甚至支持多達 119 種語言。
很久沒見過這么優秀的開源模型了。”
也有網友 Jafar Najafov 感嘆道:“這真是令人震驚。我將 Qwen3 和同規模的 Llama 進行對比,Qwen3 的推理更深入,處理長上下文和解決復雜問題的速度都更快。它完全開源,原生支持混合推理,采用 Apache 2.0 許可證。這不僅僅是更好,簡直是全新的升級!”
甚至蘋果工程師 Awni Hannun 也在第一時間用 M2 蘋果設備跑了 Qwen3 模型,隨即發聲道:“Qwen3 235B MoE(22B 激活參數)在 M2 Ultra 上通過 mlx-lm 運行得非常快。4 位模型大約用 132GB 內存,生成 580 個 token 的速度約為每秒 28 個!”
整體看來,Qwen3 的上線,AI 圈的反響都不錯。
對此,Qwen 團隊開源負責人林俊旸在 X 平臺上表示,Qwen3 的開發過程中,團隊解決了很多重要但容易被忽視的問題,比如:穩定的訓練來擴展強化學習(RL)、平衡多領域數據,以及在提升多語言能力的同時不犧牲質量。
他還透露,未來團隊將把重點轉向訓練能夠進行長周期推理、執行真實世界任務的智能體。
那么,你體驗上了 Qwen3 了嗎?感覺怎么樣?歡迎留言分享你的看法。
https://qwenlm.github.io/zh/blog/qwen3/
https://venturebeat.com/ai/alibaba-launches-open-source-qwen3-model-that-surpasses-openai-o1-and-deepseek-r1/
https://github.com/QwenLM/Qwen3
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.