今天凌晨,Qwen3發布
圖片來源:我畫的
介于 DeepSeek 和 OpenAI 暫無動靜,Qwen 算是把頭條保住了,恭喜~
本文量大管飽、一次滿足:發布內容、實際體驗、訓練細節,和Qwen 發展回顧
發布內容
本次發布,包含 MoE 和 Dense 兩種架構:
MoE:有 30B(3B激活)和 235B(22B激活)兩種。
Dense:包含 0.6B、1.7B、4B、8B、14B 和 32B 這六款
本次發布的旗艦模型是 Qwen3-235B-A22B,后綴 235B 指的是模型大小 235B,A22B 指的是激活參數 22B。
在代碼、數學、通用能力等基準測試中,這個235B 的 Qwen3,水平超過 671B 的 DeepSeek R1。
Qwen3 vs DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro。 對于小一點的 MoE 模型:Qwen3-30B-A3B,其激活量只有 QwQ-32B 的 10%,其表現超過 DeepSeek V3/GPT-4oQwen3-4B 這樣的小模型,也能匹敵 Qwen2.5-72B-Instruct 「思考模式」的無縫切換
在我看來,在功能層面,Qwen3 最顯著的更新,是引入了「思考模式/非思考模式」的無縫切換。
思考模式的輸出方式,類似 DeepSeek R1,模型會逐步推理,經過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復雜問題。
非思考模式則更類似 DeepSeek V3,提供快速的即時響應,適用于那些簡單問題。
通過這種方式,用戶能夠根據具體需求,來控制模型的“思考”的程度,做到效果、成本、時間上的平衡。
在不同思考深度下,模型的得分情況 掌握多種語言
Qwen2 支持 29 種語言
中英文 + 27 種其他語言
Qwen3 支持了 119 個語種和方言
Qwen3 支持的語種和方言 更強的 Agent 能力
本次 Qwen3 的更新,還體現在了 Agent 和 代碼能力,同時也加強了對 MCP 的支持。
值得一提的是,Qwen 有一個配套的 Qwen-Agent 項目,可以方便地使用 API 進行工具調用,或結合現有的工具鏈進行擴展
Qwen3,對 MCP 有了更好的支持 實際體驗
接下來用兩個個例子,直觀的展示本次 Qwen3 的能力變化
當然了,你也可以訪問 Qwen 的網站,來直接體驗
https://chat.qwen.ai/
長/短思考
對于是否思考,你可以開啟/關閉,以及設定的長度也可以讓他講講人生道理 代碼能力
所謂原湯化原食,讓他給本文做個可視化,美感還是在線的
讓英雄查英雄,讓 Qwen3 畫 Qwen3 訓練細節
接下來,讓我們看看這個模型是怎么訓出來的,過程上包括預訓練和后訓練。
預訓練
先做一個基礎的了解:
Qwen2.5 的訓練數據,是在 18 萬億 token Qwen3 的訓練數據翻倍:約 36 萬億個 token,涵蓋了 119 種語言和方言。
這些數據,一方面是來自于互聯網信息的收集,一方面則是通過 Qwen2.5-VL 來從各 PDF 中來提取內容,再通過 Qwen2.5 改進質量。為了補充數學和編程領域的訓練數據,Qwen2.5-Math 和 Qwen2.5-Coder 被用來生成合成數據。
在預訓練中,有三個階段:
第一階段,模型在30萬億tokens的數據上預訓練,使用4K的上下文長度,這一階段主要是幫助模型建立基本的語言技能和常識理解。
第二階段,增強了STEM領域(科學、技術、工程、數學)和編程任務的訓練,增加了5萬億tokens的數據量,進一步提升模型的推理能力。
第三階段,通過加入高質量的長文本數據,擴展了上下文長度到32K,讓Qwen3能夠處理更長的輸入,例如長篇文章或復雜的對話。
訓練出來,大概就是這么個效果
通過這些步驟,Qwen3的Dense基礎模型在性能上達到了Qwen2.5更大模型的水平。例如,Qwen3-1.7B、4B、8B、14B、32B等版本的表現,和Qwen2.5的3B、7B、14B、32B、72B相當。而Qwen3的MoE模型,則只用了10%的激活參數,便能提供同樣的推理能力,極大地節省了計算資源。
后訓練
Qwen3的后訓練是讓模型實現“逐步推理”和“快速響應”的關鍵。團隊通過四個階段的優化,使得Qwen3不僅在復雜任務中有出色表現,在簡單任務中也能快速給出答案。
第一階段:長鏈推理冷啟動:這一步通過微調多樣化的推理數據,讓模型具備了處理復雜任務的基本能力,包括數學、編程和邏輯推理等任務。
第二階段:強化學習(RL):第二階段利用強化學習進一步提升模型的推理能力,讓模型能夠在面對復雜任務時更加高效地尋找最佳答案。
第三階段:思考模式和非思考模式融合:這一創新允許模型在面對不同任務時,靈活切換“思考模式”和“非思考模式”。思考模式下,模型逐步推理,適合復雜問題;而非思考模式下,模型則能快速作出反應,適合日常對話和簡單問題。
第四階段:通用任務強化學習:最后階段,通過對20多個常見任務的強化學習微調,確保了Qwen3能夠在不同應用場景下靈活應對,包括指令跟隨、格式化輸出和智能代理能力等。
流程化成圖,大概是這樣
通過這一系列后訓練,使得 Qwen3 掌握了思考模式,以及更好的工具調用能力。
Qwen 發展歷史回顧
阿里最早推出的AI,叫做通義千問,最早出現在2023年4月。
在那時,叫做「通義千問大模型」
那時,它還是阿里云的閉源模型,定位類似 ChatGPT,為企業客戶提供服務,并不開放源碼。
2023年8月初,Qwen 開源首個開源的 Qwen 模型
23年8月,阿里開源了兩個新模型,Qwen-7B和Qwen-7B-Chat,在 ModelScope 和 Hugging Face 同時上線,以 Apache 2.0 的方式開源,Tech Report 也一并放出。
這一次,也是“Qwen”這一名稱首次被啟用,主要面向開源社區,追求開源可用性、輕量部署、廣泛適配;
2023年9月底,Qwen-14B 發布
緊接著,Qwen-14B 開源
相比 Qwen-7B,Qwen-14B 訓練量更大,中文能力、代碼生成、長文本推理都有明顯提升
同期,阿里開源了 qwen.cpp、Qwen-Agent,工具鏈和應用框架開始成型。
那段時間,Qwen-7B 的訓練也做了補強,tokens 從 2.2T 加到了 2.4T,上下文長度擴展到了 8K。
2023年11月底,Qwen-72B 上線
這是一版旗艦規模的模型,參數量拉到 720億,預訓練數據達到了 3萬億 tokens。
這個版本的 Qwen,原生支持 32K 上下文,在中文推理、復雜數學、多輪對話上的表現明顯更穩了。
小型號也同步補了:Qwen-1.8B,面對邊緣側和輕量場景進行適配。
一波下來,Qwen把從1B到72B的參數區間基本打通了。
2024年春節期間,Qwen1.5
去年春節的時候,Qwen1.5 亮相
大過年的,Qwen1.5 發布,在基礎上做了深度優化,主要是底層結構調整、訓練對齊增強。
同一階段,還放出了第一版 MoE 架構的 Qwen1.5-MoE-A2.7B,推理成本壓下來了,但推理鏈條拉得更長。
24年6月初,Qwen2Qwen2,一個頗具影響力的版本
Qwen2 算是換了新的底盤: 預訓練數據量大幅擴張,推理能力、代碼生成、長文本處理全部提升。
首批放出了 7B、32B、72B 三個尺寸,全覆蓋了中大型場景。
2024年9月中,Qwen2.5 接棒
這里是一些描述
新加了3B、14B、32B三個尺寸,適配更多硬件資源。
同步發了 MoE版,優化了推理稀疏度,同時放出了Qwen2.5-Omni,一個能統一文本、圖像、音頻、視頻處理的多模態模型。
那時候,Qwen2.5-7B 和 Omni-7B 在 Hugging Face 開源榜單上連續多周霸榜。
2025年4月底,Qwen3 到來
今天,Qwen3 開源
這一次,Qwen3 系列從 Dense 和 MoE 兩條線同步推進,從 0.6B 覆蓋到了 235B。
訓練過程中,第一次引入了漸進式長文本預訓練和長文本后訓練,超長文本處理做了系統級的優化。
推理任務上,模型內部支持了思考模式 / 非思考模式的無縫切換,單個模型內可以根據復雜度自動適配推理鏈路。
同時的,這個版本的模型,對外部工具的調用能力得到加強,為接下來的 Agent 大戰做足準備。
最后
從2023年4月,通義千問首次亮相,到2025年4月,Qwen3全面發布,短短兩年,三代更新,阿里一步步把自己的大模型打磨到了世界頂級水準
從最初的閉源探索,到如今 Dense、MoE 雙線并進、思考模式無縫切換、超長文本系統優化……每個節點,都是硬仗
不多煽情,但還想說一聲:這一路,真的不容易
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.