整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
今天凌晨,大模型領(lǐng)域最受關(guān)注的重磅消息來自阿里 Qwen 團隊——他們正式發(fā)布了備受期待的全新 Qwen3 系列大模型。
不同于以往,這次其一次性開源了多達 8 款混合推理模型,在性能上全面逼近 OpenAI、Google 等閉源大模型,以及超越了開源大模型 DeepSeek R1,堪稱當(dāng)前最強的開源模型之一,也難怪昨晚 Qwen 團隊一直在加班。
8 大模型齊發(fā)!
這 8 款混合推理模型中,包括了 2 個 MOE 模型:Qwen3-235B-A22B和Qwen3-30B-A3B。
其中,Qwen3-235B-A22B 是本次發(fā)布中規(guī)模最大的旗艦?zāi)P停瑩碛?2350 億個參數(shù),激活參數(shù)超過 220 億。
在代碼、數(shù)學(xué)和通用能力等多個基準(zhǔn)測試中,它的表現(xiàn)不僅超過了 DeepSeek 的 R1 開源模型,還優(yōu)于 OpenAI 的閉源模型 o1。尤其在軟件工程和數(shù)學(xué)領(lǐng)域的 ArenaHard 測試(共 500 道題)中,成績甚至接近了 Google 最新發(fā)布的 Gemini 2.5-Pro,可見其實力不容小覷。
另一個 MOE 模型Qwen3-30B-A3B擁有 300 億總參數(shù),激活參數(shù)僅為 QwQ-32B 的 10%,約 30 億,但實際表現(xiàn)卻更勝一籌。甚至像 Qwen3-4B 這樣的小模型,也能達到 Qwen2.5-72B-Instruct 的水平。
除了上述兩款 MOE 模型,此次還發(fā)布了6 款 Dense 模型,分別是:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。這些模型在規(guī)模和結(jié)構(gòu)上各不相同,方便用戶根據(jù)具體需求和計算資源進行選擇。
以上所有模型均在 Apache 2.0 許可協(xié)議下開源,對開發(fā)者和研究者開放。
國內(nèi)首個混合推理模型來了
從能力上來看,Qwen3 系列模型經(jīng)過特別訓(xùn)練,支持兩種“思考模式”:快思考和慢思考,用官方的話就是“思考模式”和“非思考模式”。
思考模式:在這種模式下,模型會逐步推理,經(jīng)過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復(fù)雜問題。
非思考模式:在此模式中,模型提供快速、近乎即時的響應(yīng),適用于那些對速度要求高于深度的簡單問題。
正因此,Qwen3 是國內(nèi)首個混合推理模型。
簡單來說,就是 Qwen3 可以根據(jù)問題的難度,選擇是快速給出答案,還是花更多時間進行更深層次的分析和推理。比如遇到一些復(fù)雜的數(shù)學(xué)、科學(xué)或工程類問題時,你可以切換到“深度思考模式”,讓模型用更強的推理能力來處理問題。
Qwen 團隊在技術(shù)報告中解釋道,“Qwen3 展現(xiàn)出可擴展且平滑的性能提升,這與分配的計算推理預(yù)算直接相關(guān)。這樣的設(shè)計讓用戶能夠更輕松地為不同任務(wù)配置特定的預(yù)算,在成本效益和推理質(zhì)量之間實現(xiàn)更優(yōu)的平衡。”
使用方法也很簡單:在Qwen Chat 網(wǎng)站上,有一個專門的按鈕可以切換“思考模式”;如果你是在本地部署或者通過 API 使用模型,也可以通過輸入指令,比如 /think 或 /no_think,自由切換不同模式,讓模型根據(jù)任務(wù)難度靈活應(yīng)對。
另外,Qwen3 的多語言能力也有了很大提升,目前已經(jīng)能支持多達119 種語言和方言,基本覆蓋了全球主要的語言體系。
還有一點也很值得關(guān)注,Qwen3 在智能體(Agent)能力和編程(代碼)方面也變得更強了,同時也更好地支持了MCP 技術(shù)。下面這個視頻展示 Qwen3 是如何思考并與環(huán)境進行交互的:
目前,經(jīng)過后訓(xùn)練優(yōu)化的 Qwen3 系列模型已經(jīng)可以在多個平臺上訪問和部署,例如 Qwen3-30B-A3B,以及對應(yīng)的預(yù)訓(xùn)練基座模型(如 Qwen3-30B-A3B-Base),已在 Hugging Face、ModelScope 和 Kaggle 等平臺上線,面向公眾開放使用。
普通用戶也可以直接在Qwen Chat 網(wǎng)頁和手機 App上使用。
快速體驗 Qwen3 系列:
Qwen Chat 網(wǎng)頁版:https://chat.qwen.ai/
GitHub:https://github.com/QwenLM/Qwen3
Hugging Face:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
魔搭社區(qū):https://modelscope.cn/collections/Qwen3-9743180bdc6b48
在部署方面,官方推薦使用 SGLang 和 vLLM 等推理框架,以獲得更好的性能和易用性。對于本地部署場景,Ollama、LMStudio、MLX、llama.cpp 以及 KTransformers 等工具也提供了便捷的支持。
Qwen3 強大的背后,離不開多階段的預(yù)訓(xùn)練和后訓(xùn)練
在模型預(yù)訓(xùn)練方面,Qwen3 相比之前的 Qwen2.5 有了大幅提升。此前 Qwen2.5 是在 18 萬億個 token 上進行預(yù)訓(xùn)練的,而 Qwen3 預(yù)訓(xùn)練使用的數(shù)據(jù)量幾乎是其兩倍,達到大約 36 萬億個 token,涵蓋了 119 種語言和方言。
這些數(shù)據(jù)來源包括網(wǎng)頁抓取內(nèi)容、PDF 文檔提取,還有用早期 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數(shù)學(xué)和代碼領(lǐng)域的專家模型合成數(shù)據(jù),合成了包括教科書、問答對以及代碼片段等多種形式的數(shù)據(jù)。
預(yù)訓(xùn)練
據(jù)官方技術(shù)報告介紹,Qwen3 的預(yù)訓(xùn)練流程分為三個階段:
在第一階段(S1),模型在超過 30 萬億個 token 的海量數(shù)據(jù)上進行了初步訓(xùn)練,處理的文本長度是 4K token,主要目的是打下基本的語言理解和通用知識基礎(chǔ)。
到了第二階段(S2),訓(xùn)練重點有所調(diào)整,加入了更多像 STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))、編程和推理相關(guān)的專業(yè)數(shù)據(jù),同時又在額外 5 萬億個 token 上進行了強化訓(xùn)練,進一步提升模型的專業(yè)能力。
最后,在第三階段,Qwen 團隊用高質(zhì)量的長文本數(shù)據(jù),把模型的上下文長度擴展到了 32K token,讓它能更好地處理超長輸入,適應(yīng)更復(fù)雜的應(yīng)用場景。
得益于模型架構(gòu)的優(yōu)化、訓(xùn)練數(shù)據(jù)量的增加,以及更高效的訓(xùn)練方法,Qwen3 的 Dense(密集)基礎(chǔ)模型整體表現(xiàn)已經(jīng)追上了體積更大的 Qwen2.5 版本。比如,Qwen3 的 1.7B、4B、8B、14B 和 32B 基礎(chǔ)模型,整體能力分別能對標(biāo) Qwen2.5 的 3B、7B、14B、32B 和 72B 模型。
尤其在 STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))、編程和推理這類專業(yè)領(lǐng)域,Qwen3 的表現(xiàn)甚至比 Qwen2.5 的大模型還要更好。
而對于 Qwen3 的 MoE(混合專家)基礎(chǔ)模型來說,它們每次推理時只激活大約 10% 的參數(shù),但依然能做到接近 Qwen2.5 Dense 基礎(chǔ)模型的效果。這意味著,在保持高性能的同時,訓(xùn)練和推理的成本大大降低了。
后訓(xùn)練
為了打造既能深度推理又能快速響應(yīng)的混合型大模型,Qwen3 團隊設(shè)計并執(zhí)行了一套四階段的后訓(xùn)練流程。具體包括:(1)長鏈推理冷啟動、(2)長鏈推理強化學(xué)習(xí)、(3)思考與非思考模式融合、以及(4)通用能力強化學(xué)習(xí)。
在第一階段,該團隊通過大量涵蓋數(shù)學(xué)、編程、邏輯推理和 STEM 等領(lǐng)域的長鏈推理數(shù)據(jù),對模型進行了微調(diào),打下了基本的推理能力基礎(chǔ)。
第二階段則引入了大規(guī)模的強化學(xué)習(xí),通過設(shè)定規(guī)則獎勵,引導(dǎo)模型在復(fù)雜問題中探索得更深入、更細(xì)致。
到了第三階段,訓(xùn)練目標(biāo)轉(zhuǎn)向融合思考模式與快速響應(yīng)模式。 Qwen 團隊用一套混合了長鏈推理和常規(guī)指令微調(diào)的數(shù)據(jù),對模型進行了再次微調(diào),讓它既能深度思考,又能根據(jù)任務(wù)需求快速作答,實現(xiàn)兩種能力的平滑切換。
最后,在第四階段,模型接受了更廣泛領(lǐng)域的強化訓(xùn)練,覆蓋指令遵循、格式規(guī)范、Agent 能力等二十多個方向,進一步提升了模型的通用性,同時修正了在早期訓(xùn)練中可能出現(xiàn)的不良行為。
登頂開源寶座
這次阿里發(fā)布 Qwen3,毫無疑問是一次重磅操作。據(jù)了解,阿里至今已向全球開源 200 多款模型,千問衍生模型數(shù)量已突破 10萬,超越美國 Meta 的 Llama 系列,成為全球最大的開源模型族群。可以說,Qwen3 的發(fā)布不是一次普通的升級,而是真正的“登頂”。
外媒 Venturebeat 也對此做出了高度評價,稱對于企業(yè)來說,接入 Qwen3 非常高效,幾小時內(nèi)就能將現(xiàn)有的 OpenAI 接口系統(tǒng)切換到新模型,根本不用幾周。Qwen3 的專家混合模型(MoE),在顯存使用上相當(dāng)節(jié)省,20-30B 規(guī)模模型的顯存成本就能實現(xiàn)接近 GPT-4 的推理能力。
更有意思的是,Qwen3 提供了從 0.6B 到 32B 不同規(guī)模的密集模型版本,用戶可以從筆記本小規(guī)模測試,一路擴展到多卡大集群,過程中幾乎不用調(diào)整提示詞。
Qwen3 發(fā)布后,在用戶層也受到了廣泛好評。其 GitHub 頁面迅速獲得了 17.9k 個 Star 和 1.2k 的 Fork,熱度可見一斑。
在社交媒體上,不少網(wǎng)友們分享自己的一手體驗感受。
有用戶表示:“我剛試用了 @Alibaba_Qwen 的 Qwen3。
在需要快速響應(yīng)時,它非常迅速;面對復(fù)雜問題時,它會花時間思考。它不是隨便給個答案,而是經(jīng)過深思熟慮,給出準(zhǔn)確的結(jié)果。
在編程方面,它表現(xiàn)出色;在數(shù)學(xué)問題上,它依然冷靜應(yīng)對。
在語言處理上,它聽起來很自然,不像其他模型那樣怪異。令我驚訝的是,它甚至支持多達 119 種語言。
很久沒見過這么優(yōu)秀的開源模型了。”
也有網(wǎng)友 Jafar Najafov 感嘆道:“這真是令人震驚。我將 Qwen3 和同規(guī)模的 Llama 進行對比,Qwen3 的推理更深入,處理長上下文和解決復(fù)雜問題的速度都更快。它完全開源,原生支持混合推理,采用 Apache 2.0 許可證。這不僅僅是更好,簡直是全新的升級!”
甚至蘋果工程師 Awni Hannun 也在第一時間用 M2 蘋果設(shè)備跑了 Qwen3 模型,隨即發(fā)聲道:“Qwen3 235B MoE(22B 激活參數(shù))在 M2 Ultra 上通過 mlx-lm 運行得非常快。4 位模型大約用 132GB 內(nèi)存,生成 580 個 token 的速度約為每秒 28 個!”
整體看來,Qwen3 的上線,AI 圈的反響都不錯。
對此,Qwen 團隊開源負(fù)責(zé)人林俊旸在 X 平臺上表示,Qwen3 的開發(fā)過程中,團隊解決了很多重要但容易被忽視的問題,比如:穩(wěn)定的訓(xùn)練來擴展強化學(xué)習(xí)(RL)、平衡多領(lǐng)域數(shù)據(jù),以及在提升多語言能力的同時不犧牲質(zhì)量。
他還透露,未來團隊將把重點轉(zhuǎn)向訓(xùn)練能夠進行長周期推理、執(zhí)行真實世界任務(wù)的智能體。
那么,你體驗上了 Qwen3 了嗎?感覺怎么樣?歡迎留言分享你的看法。
https://qwenlm.github.io/zh/blog/qwen3/
https://venturebeat.com/ai/alibaba-launches-open-source-qwen3-model-that-surpasses-openai-o1-and-deepseek-r1/
https://github.com/QwenLM/Qwen3
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.