阿里大模型Qwen 3.0炸場，多項(xiàng)測試擊敗DeepSeek R1

2025-05-01 10:00:11　來源: 電科技網(wǎng)

江蘇舉報(bào)

分享至

4月29日，阿里巴巴發(fā)布Qwen 3系列模型，這是Qwen系列大型語言模型的最新成員。此次發(fā)布的模型陣容豐富，包括：2個(gè)稀疏混合專家（MoE）模型：Qwen3-235B-A22B和Qwen3-30B-A3B1，以及6個(gè)密集模型，參數(shù)規(guī)模涵蓋32B至0.6B，均采用Apache許可證。

值得一提的是，Qwen3 系列模型首次支持 119 多種語言，全球開發(fā)者、研究機(jī)構(gòu)和企業(yè)均可免費(fèi)在魔搭社區(qū)、HuggingFace 等平臺(tái)下載模型并商用，也可以通過阿里云百煉調(diào)用 Qwen3 的 API 服務(wù)。個(gè)人用戶可通過通義 APP 直接體驗(yàn) Qwen3，夸克也即將全線接入 Qwen3。

其實(shí)早在Qwen真正發(fā)布之前，社交媒體已經(jīng)先“炸開了鍋”。人們都在期待阿里這次放出個(gè)大招，碾壓OpenAI、谷歌等國外巨頭在AI領(lǐng)域的囂張氣焰。阿里這次也的確做到了。

作為國產(chǎn)開源大模型的扛把子，Qwen系列現(xiàn)在已經(jīng)是全球最火的開源模型，沒有之一——200多個(gè)開源模型、3億次下載、10萬個(gè)衍生模型，直接把Meta的Llama拉下神壇。

Meta最小的Llama 4模型參數(shù)仍達(dá)109B，而Qwen 3的32B版本在開放模型用戶中廣受歡迎。

和“特種部隊(duì)”式的DeepSeek不同，Qwen更像正規(guī)軍：布局早、生態(tài)強(qiáng)、覆蓋面廣。特別是對開發(fā)者特別友好，各種尺寸的模型應(yīng)有盡有，不用自己費(fèi)勁裁剪就能直接用。比如Qwen 13B這個(gè)“爆款”，現(xiàn)在已經(jīng)是AI應(yīng)用開發(fā)者的首選工具之一。

反觀DeepSeek R1雖然技術(shù)實(shí)力無可厚非，但671B參數(shù)的“滿血版”光硬件就要上百萬，普通企業(yè)根本玩不起。這恰恰凸顯了Qwen的實(shí)用價(jià)值——不是一味追求參數(shù)爆炸，而是讓AI真正能用、好用。

具體細(xì)扒模型之前，先看看官方給出的新模型亮點(diǎn)：

“探索智能上限”再突破：通過擴(kuò)大預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的規(guī)模，實(shí)現(xiàn)了更高層次的智能；
國內(nèi)首個(gè)“混合推理模型”：無縫集成了思考模式與非思考模式，為用戶提供了靈活控制思考預(yù)算的能力；
增強(qiáng)了 Agent 能力：正從專注于訓(xùn)練模型的時(shí)代過渡到以訓(xùn)練 Agent 為中心的時(shí)代。

回歸到模型本身，這系列模型在各項(xiàng)基準(zhǔn)測試中表現(xiàn)如何？

旗艦?zāi)Ｐ蚎wen3-235B-A22B在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中，與DeepSeek-R1、OpenAI的（o1、o3-mini）、馬斯克的Grok-3和谷歌公司Gemini-2.5-Pro等頂級(jí)模型相比，表現(xiàn)出極具競爭力的結(jié)果。

此外，小型MoE模型Qwen3-30B-A3B的激活參數(shù)數(shù)量是QwQ-32B的10%，表現(xiàn)更勝一籌，甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。

尤其值得注意的是，性能大幅提升的同時(shí)，Qwen3 的部署成本還大幅下降。至于成本低到什么程度呢？答案是 4 張 H20 即可部署滿血版Qwen3，顯存占用僅為性能相近模型的三分之一。

Qwen 團(tuán)隊(duì)包含的基礎(chǔ)模型評(píng)估表明，領(lǐng)先的基礎(chǔ)模型 Llama 4、DeepSeek V3 以及現(xiàn)在的 Qwen 之間的得分非常相似：

目前不同模型之間的關(guān)鍵差異主要體現(xiàn)在訓(xùn)練后的推理功能支持上，特別是在推理時(shí)間計(jì)算方面的優(yōu)化能力，這種優(yōu)化可以將模型的評(píng)估分?jǐn)?shù)從40%顯著提升到80%。

然而，當(dāng)前業(yè)界對"基礎(chǔ)模型"的定義和使用仍存在很大混亂，因?yàn)檫@些模型在實(shí)際應(yīng)用中往往需要經(jīng)歷大量的中期訓(xùn)練過程。在這個(gè)關(guān)鍵的中期訓(xùn)練階段，模型會(huì)接收專門的指令數(shù)據(jù)和推理數(shù)據(jù)，這些訓(xùn)練本質(zhì)上都是在為后續(xù)的正式訓(xùn)練后階段做準(zhǔn)備。

但事實(shí)情況是，現(xiàn)在沒有任何主要研究實(shí)驗(yàn)室公開發(fā)表過關(guān)于什么樣的基礎(chǔ)模型才能真正有效支持下游訓(xùn)練后任務(wù)的研究成果。

這一現(xiàn)狀讓我們不得不做出一個(gè)合理推測：所有這些實(shí)驗(yàn)室實(shí)際上都在調(diào)整他們的預(yù)訓(xùn)練策略，主要是為了滿足各自在訓(xùn)練后階段的具體需求，而不是專門針對開放社區(qū)的需求進(jìn)行優(yōu)化——當(dāng)然，開放社區(qū)最終也會(huì)從這些調(diào)整中間接受益。

可以預(yù)見的是，當(dāng)Llama 4不可避免地發(fā)布其推理優(yōu)化模型時(shí)（筆者推測這個(gè)發(fā)布可能近在咫尺），這些模型會(huì)立即重新成為行業(yè)關(guān)注的焦點(diǎn)。

這種推理模型與非推理模型之間存在的顯著性能差距，給跟蹤和評(píng)估各類模型發(fā)布帶來了相當(dāng)大的挑戰(zhàn)。但相信這一挑戰(zhàn)會(huì)隨著更多高性能大模型的發(fā)布而有所改善。

Qwen3是如何訓(xùn)練的？

那說回模型，除了性能和參數(shù)等這些最重要的基本信息外，外界還會(huì)關(guān)注Qwen3系列模型是怎么訓(xùn)練的？

對此，Qwen團(tuán)隊(duì)表示，Qwen3在預(yù)訓(xùn)練數(shù)據(jù)規(guī)模和質(zhì)量上實(shí)現(xiàn)了全面突破。相比前代Qwen2.5的18萬億token訓(xùn)練數(shù)據(jù)，Qwen3的訓(xùn)練數(shù)據(jù)量大幅提升至約36萬億token，覆蓋語言種類達(dá)119種，包含多種方言。

更新后的Qwen3的token量幾乎是此前的兩倍，這么大的數(shù)據(jù)集是怎么來的呢？

為構(gòu)建這一超大規(guī)模數(shù)據(jù)集，團(tuán)隊(duì)采用了多維度數(shù)據(jù)采集策略。首先是擴(kuò)展數(shù)據(jù)來源：除常規(guī)網(wǎng)頁數(shù)據(jù)外，首次系統(tǒng)化整合PDF等文檔內(nèi)容，通過Qwen2.5-VL模型進(jìn)行文本提取，并利用Qwen2.5模型對提取內(nèi)容進(jìn)行質(zhì)量優(yōu)化。

其次是提高專業(yè)領(lǐng)域的數(shù)據(jù)比例，針對數(shù)學(xué)與代碼能力短板，創(chuàng)新性使用Qwen2.5-Math和Qwen2.5-Coder生成合成數(shù)據(jù)，補(bǔ)充教科書級(jí)內(nèi)容、結(jié)構(gòu)化問答對及高質(zhì)量代碼片段。

此外，團(tuán)隊(duì)設(shè)計(jì)了分階段的訓(xùn)練方案以平衡效率與效果。

首先是基礎(chǔ)能力塑造（S1）階段，模型在30萬億+token數(shù)據(jù)（4K上下文長度）上完成初始訓(xùn)練，建立基礎(chǔ)語言理解與常識(shí)認(rèn)知能力；然后進(jìn)入到專業(yè)能力強(qiáng)化（S2）階段，精選5萬億token高質(zhì)量數(shù)據(jù)，顯著提升STEM、編程及邏輯推理等知識(shí)密集型內(nèi)容占比；在最后一個(gè)階段，使用高質(zhì)量的長上下文數(shù)據(jù)，將模型的上下文長度擴(kuò)展到了 32K token，使模型具備處理復(fù)雜長文本的實(shí)戰(zhàn)能力。

得益于模型架構(gòu)的持續(xù)優(yōu)化、訓(xùn)練數(shù)據(jù)規(guī)模的成倍擴(kuò)充以及訓(xùn)練方法的效率提升，Qwen3系列稠密基礎(chǔ)模型在整體性能上實(shí)現(xiàn)了質(zhì)的飛躍。

讓人驚喜的是，盡管參數(shù)量明顯減少，Qwen3各尺寸模型卻展現(xiàn)出了與上一代更大規(guī)模模型相當(dāng)甚至更優(yōu)的表現(xiàn)——具體而言，Qwen3-1.7B/4B/8B/14B/32B-Base分別達(dá)到了Qwen2.5-3B/7B/14B/32B/72B-Base的性能水準(zhǔn)。特別是在STEM學(xué)科、編程能力和邏輯推理等關(guān)鍵領(lǐng)域，Qwen3稠密模型更是實(shí)現(xiàn)了對前代更大規(guī)模模型的全面超越，展現(xiàn)出算法優(yōu)化帶來的顯著效益。

簡單來說，Qwen3雖然體型更小，但“本事”更大了。比如Qwen3的1.7B小模型，表現(xiàn)已經(jīng)能趕上之前3B的大模型，而且數(shù)理編程能力還更強(qiáng)。

更值得關(guān)注的是Qwen3系列中的MoE基礎(chǔ)模型，這些模型通過創(chuàng)新的稀疏激活機(jī)制，僅需調(diào)用10%的激活參數(shù)就能實(shí)現(xiàn)與Qwen2.5稠密基礎(chǔ)模型相媲美的性能表現(xiàn)，就像是開啟了“省電模式”，平時(shí)只用10%的“腦力”，但效果照樣能媲美老版本的全功率模型。

這種技術(shù)進(jìn)步讓AI模型變得更實(shí)用、更經(jīng)濟(jì)。

說完預(yù)訓(xùn)練，接下來是模型的后訓(xùn)練過程。

為了開發(fā)能夠兼顧逐步推理與快速響應(yīng)的混合模型，團(tuán)隊(duì)設(shè)計(jì)了一個(gè)四階段的后訓(xùn)練流程：第一階段（長鏈?zhǔn)剿季S冷啟動(dòng)）使用多樣化的CoT數(shù)據(jù)（涵蓋數(shù)學(xué)、編程、邏輯推理、STEM等任務(wù)）對模型進(jìn)行微調(diào)，以建立基礎(chǔ)推理能力；第二階段（基于推理的強(qiáng)化學(xué)習(xí)）通過擴(kuò)大RL算力規(guī)模并采用基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制，提升模型的探索與利用能力；第三階段（思維模式融合）將CoT數(shù)據(jù)與常規(guī)指令微調(diào)數(shù)據(jù)（由第二階段增強(qiáng)后的模型生成）結(jié)合，使模型融合推理與快速響應(yīng)能力；第四階段（通用強(qiáng)化學(xué)習(xí)）在20多個(gè)通用任務(wù)（如指令跟隨、格式遵循、Agent能力等）上進(jìn)一步優(yōu)化模型，增強(qiáng)通用性并修正不良行為。

這一流程逐步提升模型的推理與響應(yīng)能力，最終實(shí)現(xiàn)高效混合表現(xiàn)。

目前，后訓(xùn)練模型（例如 Qwen3-30B-A3B）及其預(yù)訓(xùn)練模型（例如 Qwen3-30B-A3B-Base）都已經(jīng)在 Hugging Face、ModelScope 和 Kaggle 等平臺(tái)上發(fā)布。對于部署，Qwen團(tuán)隊(duì)建議使用 SGLang 和 vLLM 等框架。對于本地使用，他們強(qiáng)烈推薦使用 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具。這些選項(xiàng)確保用戶可以輕松地將 Qwen3 集成到他們的工作流程中，無論是在研究、開發(fā)還是生產(chǎn)環(huán)境中。

此外，技術(shù)團(tuán)隊(duì)還表示他們已經(jīng)優(yōu)化了 Qwen3 模型的編碼和代理能力，并增強(qiáng)了對 MCP 的支持。

阿里最新發(fā)布的Qwen3堪稱開源領(lǐng)域的重磅突破，不僅標(biāo)志著中國AI模型的崛起，更在全球范圍內(nèi)樹立了新的標(biāo)桿。目前阿里已累計(jì)開源200多款模型，其千問系列衍生模型數(shù)量突破10萬，規(guī)模超越Meta的Llama系列，成為全球最大的開源模型生態(tài)。

這種突破性在多個(gè)維度得到了體現(xiàn)：技術(shù)架構(gòu)層面，其專家混合模型（MoE）設(shè)計(jì)極具能效優(yōu)勢，僅需20-30B規(guī)模的顯存成本即可實(shí)現(xiàn)接近GPT-4的推理能力；部署靈活性層面，提供0.6B到32B全系列密集模型，支持從筆記本測試到多卡集群的無縫擴(kuò)展，且提示詞保持兼容；商業(yè)應(yīng)用層面，據(jù)Venturebeat報(bào)道，企業(yè)可在數(shù)小時(shí)內(nèi)完成從OpenAI到Qwen3的接口切換，大幅降低遷移成本。

Qwen 3發(fā)布后的市場反響甚至突破了之前DeepSeek R1發(fā)布時(shí)給行業(yè)帶來的震撼。在GitHub上發(fā)布后，僅僅不到一天時(shí)間迅速斬獲17.9k星和1.2k分支，用戶口碑與行業(yè)影響力持續(xù)攀升。

如今，大模型競爭已經(jīng)進(jìn)入深水區(qū)，光會(huì)刷榜做題已經(jīng)不夠看了。Qwen 3的發(fā)布，就是檢驗(yàn)中國AI實(shí)力的一塊試金石。阿里這次能不能繼續(xù)領(lǐng)跑開源賽道，就看這一仗了！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.