作者 | summer
郵箱 | huangxiaoyi@pingwest.com
在所有人都在猜測DeepSeek V4或者R2和Qwen3誰先到來時,Qwen3發布了。
4月29日凌晨,阿里巴巴開源了新一代通義千問Qwen3系列模型,涵蓋8款不同尺寸。其中,旗艦模型Qwen3 235B采用混合專家(MoE)架構,總參數量235B(僅為DeepSeek-R1的1/3),激活參數僅需22B,預訓練數據量達36萬億Tokens。
性能上,據官方介紹,Qwen3在多項測評中表現優異,超越DeepSeek-R1、OpenAI-o1等主流模型,成為當前性能領先的開源大語言模型。
具體來看,Qwen3在推理、指令遵循、工具調用、多語言能力等方面均大幅增強:在奧數水平的AIME25測評中,Qwen3斬獲81.5分,刷新開源紀錄;在考察代碼能力的LiveCodeBench評測中,Qwen3突破70分大關,表現甚至超過Grok3;在評估模型人類偏好對齊的ArenaHard測評中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。
看慣了模型榜單表現上的反復超越,但這次的Qwen3還有些不同,比起單純的模型邊界突破,Qwen3更想突出的是以小博大的能力。而且它在和DeepSeek輪流推動開源模型進步的過程中,再次給開源社區提供了與R1不同的配方。
1
沒完全用R1的方法,但完成了對R1的超越
和R1類似的是,Qwen3也走的是“用模型訓模型”的思路。
在預訓練階段,Qwen3的性能優化很重要的一個來源是大量高質的合成數據。
數量上看,Qwen3的數據集相比Qwen2.5有了顯著擴展。Qwen2.5是在 18 萬億個 token 上進行預訓練的,而 Qwen3 使用的數據量幾乎是其兩倍,達到了約 36 萬億個 token,涵蓋了 119 種語言和方言。其中一部分來自于PDF文檔提取信息,另一部分就是Qwen2.5系列模型合成的數據。
技術報告中明確提到,“我們使用 Qwen2.5-VL 從這些文檔中提取文本,并用 Qwen2.5 改進提取內容的質量。為了增加數學和代碼數據的數量,我們利用 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數學和代碼領域的專家模型合成數據,合成了包括教科書、問答對以及代碼片段等多種形式的數據。”
這也意味著,在預訓練的過程中,Qwen3借助自身的生態優勢,又構建了一個自我迭代提升的數據系統。
預訓練奠定了Qwen3的基礎能力,而在此基礎上的后訓練階段則是Qwen3最為關鍵的技術創新,它通過多階段訓練方法實現了推理能力與直接回答能力的融合。
以上圖為例,同一模型內實現了思考和非思考模式。在官方的應用界面來看,選擇哪種模式的方法看起來還是讓用戶自己選擇,不過在選擇了深度思考模式后,用戶多了一個設置思考預算的功能,讓模型根據問題難度動態分配。
在后訓練上,Qwen3用了和R1整體pipeline類似的的“回鍋肉”式迭代:微調、RL、再微調,然后再更具體的RL。
它和DeepSeek一樣用大模型蒸餾小模型,不過Qwen徹底是自己蒸餾自己了。
另一個特別值得注意的是,第二階段RL,Qwen團隊采用的是基于規則的獎勵來增強模型的探索和鉆研能力。
“第二階段的重點是大規模強化學習,利用基于規則的獎勵來增強模型的探索和鉆研能力。”官方博客寫到。這與當前被認為是DeepSeek R1等模型成功關鍵的GRPO(基于結果獎勵的優化)形成鮮明對比。Qwen3沒有完全依賴GRPO這樣基于結果的獎勵機制。
緊接著,在第三階段的微調中,Qwen3采用了一份長思維鏈數據和常用的指令微調數據的組合數據上對模型進行微調,實現了將非思考模式整合到思考模型中,確保了推理和快速響應能力的無縫結合。
最后,在第四階段,Qwen3在包括指令遵循、格式遵循和 Agent 能力等在內的 20 多個通用領域的任務上應用了強化學習。
Qwen3沒有完全用R1的方法,但完成了對R1的超越。
1
模型全尺寸,但參數正在“變小”
和Qwen此前的生態路線一樣,Qwen3一口氣發布了8款不同的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斬獲同尺寸開源模型SOTA(最佳性能)。
這次的全尺寸,果然沒有讓期待已久的社區失望,歡呼聲一片。
MLX 是專為 Apple Silicon設計的高效機器學習框架。在模型發布前,MLX的團隊就完成了對Qwen 3的支持工作。其中0.6B和4B可以應用于手機,8B、30B、30B MOE可用于電腦......
尺寸全是一方面。更重要的是Qwen在不斷以更多、更小的尺寸,達到過去更大尺寸同樣的性能效果。在很多場景下,模型都具備了在端側運行的能力和水平。
據官方博客顯示,Qwen3的30B參數MoE模型實現了10倍以上的模型性能杠桿提升,僅激活3B就能媲美上代Qwen2.5-32B模型性能;Qwen3的稠密模型性能繼續突破,一半的參數量可實現同樣的高性能,如32B版本的Qwen3模型可跨級超越Qwen2.5-72B性能。
Qwen3顯然是個能讓開源界好好把玩和拆解一段時間的最熱門模型,接下來它更全面的技術報告發布后,估計會揭秘更多“獨家配方”,繼續推動開源模型的進步和創新。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.