2025年4月29日,Qwen3系列模型開源,Qwen3-235B-A22B模型得分超過DeepSeek R1 671B 模型。但當時模型具體技術細節尚未透露,秘訣不得而知。
終于,今天Qwen3模型技術報告正式發布!
Qwen團隊公開的這篇技術報告,詳細介紹了開創性的混合推理模式、模型訓練方法等。
Qwen3:智能助手的進化飛躍
想象一下,你有兩位助手:一位深思熟慮,擅長解決復雜問題,但回答較慢;另一位反應敏捷,能迅速給出答案,但面對復雜問題時可能力不從心。在過去,你需要根據問題的難度選擇不同的助手。而現在,Qwen3就像是這兩位助手的完美結合體,能根據你的需要自由切換工作模式,在速度與深度之間找到最佳平衡。
Qwen3是一系列大型語言模型,設計目標是提升性能、效率和多語言能力。這個系列包含了兩種不同架構的模型:密集型(Dense)和混合專家型(Mixture-of-Expert,簡稱MoE)。從參數規模上看,Qwen3模型家族涵蓋了從0.6億到2350億不等的參數數量,滿足不同場景下的應用需求。
Qwen3最引人注目的創新在于將"思考模式"和"非思考模式"整合到一個統一的框架中。"思考模式"專為復雜的、需要多步推理的任務設計,而"非思考模式"則適用于需要快速、基于上下文的回應。這種整合消除了在不同模型間切換的需要——比如從聊天優化模型(如GPT-4o)切換到專門的推理模型(如QwQ-32B)。用戶可以根據查詢需求或聊天模板動態切換模式,就像一個人能夠根據問題的復雜性決定是快速回答還是深入思考一樣。
此外,Qwen3還引入了"思考預算"機制。這就像是給模型分配"思考時間",允許用戶在推理過程中根據任務復雜度自適應地分配計算資源。想象你在解決一個難題時,可以決定投入多少時間去思考——簡單問題快速回答,復雜問題多花時間分析。這種機制使模型能夠根據任務復雜性平衡延遲和性能,如同人類會根據問題的難度調整思考的深度和時間。
通過利用旗艦模型的知識,Qwen團隊顯著減少了構建小規模模型所需的計算資源,同時確保了這些小模型仍然具有高度競爭力的性能。這就像是一個經驗豐富的老師能夠高效地將知識傳授給學生,讓學生迅速掌握關鍵技能,而不必經歷老師當初所有的試錯過程。
實驗評估表明,Qwen3在各種基準測試中都取得了出色的成果,包括代碼生成、數學推理、智能體任務等領域,甚至能與更大的MoE模型和專有模型相媲美。這就像是一個體重較輕的拳擊手,通過精湛的技巧和訓練,能夠與體重級別更高的對手平分秋色。
與其前身Qwen2.5相比,Qwen3將多語言支持從29種擴展到了119種語言和方言,通過改進的跨語言理解和生成能力,大大增強了全球可訪問性。這相當于一位語言專家不僅掌握了主要國家的官方語言,還熟悉了眾多地區方言,能與世界各地的人無障礙交流。
為了促進可重復性和社區驅動的研究與開發,所有Qwen3模型都在Apache 2.0許可下公開訪問,讓全球開發者和研究人員都能參與到這一技術的進步中來。
模型架構:精心設計的智能引擎
如果將Qwen3比作一輛汽車,那么其架構就是這輛車的發動機和傳動系統。Qwen團隊為不同性能需求的用戶設計了多種"車型",從經濟實用的小型車到性能強勁的豪華車,應有盡有。
Qwen3系列包括6個密集型模型和2個MoE模型。密集型模型包括Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B和Qwen3-32B,參數量從0.6億到32億不等。而MoE模型則包括Qwen3-30B-A3B和Qwen3-235B-A22B,旗艦模型Qwen3-235B-A22B總共擁有2350億參數,每個token激活22億參數。
Qwen3密集型模型的架構與Qwen2.5相似,都采用了分組查詢注意力機制(Grouped Query Attention,GQA)、SwiGLU激活函數、旋轉位置嵌入(Rotary Positional Embeddings,RoPE)和帶預歸一化的RMSNorm。這些技術組件就像汽車發動機中精密配合的齒輪和活塞,共同確保了模型的高效運行。此外,Qwen3還移除了Qwen2中使用的QKV-bias,并引入了QK-Norm到注意力機制中,以確保Qwen3訓練過程的穩定性,就像汽車增加了穩定控制系統,即使在高速行駛時也能保持平穩。
Qwen3的MoE模型與密集型模型共享相同的基礎架構。這些MoE模型擁有128個專家,每個token激活8個專家。與Qwen2.5-MoE不同,Qwen3-MoE設計排除了共享專家。此外,團隊還采用了全局批量負載平衡損失(global-batch load balancing loss)來促進專家專業化。這些架構和訓練創新為模型在下游任務中的性能帶來了顯著提升,就像為汽車配備了更高效的燃油系統和智能駕駛輔助功能,既提高了性能又降低了油耗。
所有Qwen3模型都使用Qwen的分詞器,它實現了字節級字節對編碼(Byte-level Byte-Pair Encoding,BBPE),詞匯表大小為151,669。這就像車輛的通用接口,確保不同型號之間的兼容性和一致性。
預訓練階段:知識獲取的漫長旅程
預訓練就像是模型的學校教育階段,這個過程決定了模型的基礎知識水平和學習能力。Qwen3的預訓練過程就像是一個精心設計的教育計劃,包括基礎教育、專業訓練和實踐應用三個階段。
與Qwen2.5相比,Qwen3團隊顯著擴大了訓練數據的規模和多樣性。具體來說,他們收集了兩倍于Qwen2.5的預訓練token數量,覆蓋了三倍多的語言。所有Qwen3模型都在一個包含119種語言和方言、總計36萬億token的大型多樣化數據集上進行訓練。這個數據集包括各個領域的高質量內容,如編碼、科學技術工程和數學(STEM)、推理任務、書籍、多語言文本和合成數據。
為了進一步擴展預訓練數據規模,團隊首先使用Qwen2.5-VL模型對大量PDF類文檔進行文本識別,然后使用Qwen2.5模型進行精煉提高質量。這個兩步流程使他們能夠獲得另外數萬億高質量文本token。這就像是派出一支研究小組閱讀和整理世界上的書籍和文檔,將其中的知識提取出來供模型學習。
此外,團隊還利用Qwen2.5、Qwen2.5-Math和Qwen2.5-Coder模型合成了數萬億不同格式的文本token,包括教科書、問答、指令和代碼片段,涵蓋了數十個領域。這相當于請專家們根據已有知識編寫新的教材和練習題,豐富模型的學習資源。
最后,通過整合額外的多語言數據并引入更多語言,與Qwen2.5的預訓練數據相比,支持的語言數量從29種顯著增加到119種,增強了模型的語言覆蓋范圍和跨語言能力。這就像是讓模型參加了一個全球性的語言交流項目,接觸到了世界各地的文化和表達方式。
Qwen團隊開發了一個多語言數據注釋系統,旨在提高訓練數據的質量和多樣性。該系統已應用于大規模預訓練數據集,為超過30萬億token在多個維度(如教育價值、領域、安全性等)進行了注釋。這些詳細注釋支持更有效的數據過濾和組合。與之前通過數據源或領域級別優化數據混合的研究不同,Qwen團隊的方法通過實例級別優化數據混合,利用細粒度數據標簽在小型代理模型上進行廣泛的消融實驗。這就像是為每本書、每篇文章精心添加了詳細的分類標簽,使得教育規劃者能夠更精準地為學生設計個性化的學習路徑。
Qwen3模型的預訓練過程分為三個階段:
第一階段是通用階段。在這個初始預訓練階段,所有Qwen3模型都在超過30萬億token上進行訓練,使用4,096個token的序列長度。此時,模型已經在語言能力和一般世界知識方面得到了充分預訓練,訓練數據覆蓋了119種語言和方言。這就像是小學和中學教育階段,建立廣泛的基礎知識。
第二階段是推理階段。為了進一步提高推理能力,團隊優化了此階段的預訓練語料庫,增加了STEM、編碼、推理和合成數據的比例。模型在約5萬億高質量token上進行進一步預訓練,序列長度為4,096個token。在此階段,團隊還加速了學習率衰減。這相當于高中和大學階段的專業教育,著重培養分析和解決問題的能力。
第三階段是長上下文階段。在最終預訓練階段,團隊收集高質量的長上下文語料庫,以擴展Qwen3模型的上下文長度。所有模型都在數千億token上預訓練,序列長度為32,768個token。長上下文語料庫中75%的文本長度在16,384到32,768個token之間,25%的文本長度在4,096到16,384之間。團隊遵循Qwen2.5的做法,使用ABF技術將RoPE的基礎頻率從10,000增加到1,000,000。同時,他們引入了YARN和雙塊注意力(Dual Chunk Attention,DCA)技術,在推理過程中實現序列長度容量的四倍增加。這就像是研究生和專業培訓階段,培養處理復雜、長期項目的能力。
與Qwen2.5類似,團隊基于上述三個預訓練階段開發了縮放定律,用于預測最優超參數(如學習率調度器和批量大小)。通過廣泛實驗,他們系統研究了模型架構、訓練數據、訓練階段和最優訓練超參數之間的關系。最終,他們為每個密集型或MoE模型設定了預測的最優學習率和批量大小策略,就像為每個學生制定個性化的學習計劃,確保最高效的學習效果。
模型評估:證明實力的時刻
預訓練完成后,就到了檢驗模型實力的時刻,就像學生經過多年學習后參加各種考試和競賽,展示自己的能力。Qwen團隊對Qwen3系列的基礎語言模型進行了全面評估,重點關注它們在一般知識、推理、數學、科學知識、編碼和多語言能力方面的表現。
評估數據集包括15個基準測試:
在一般任務方面,團隊使用了MMLU(5-shot)、MMLU-Pro(5-shot,CoT)、MMLU-redux(5-shot)、BBH(3-shot,CoT)和SuperGPQA(5-shot,CoT)等測試。這些測試就像是綜合能力考試,評估模型的多方面知識和理解能力。
數學和STEM任務方面,使用了GPQA(5-shot,CoT)、GSM8K(4-shot,CoT)和MATH(4-shot,CoT)。這相當于高級數學和科學競賽,測試模型的邏輯推理和問題解決能力。
編碼任務包括EvalPlus(0-shot)、MultiPL-E(0-shot)、MBPP-3shot和CRUXEval的CRUX-O(1-shot)。這就像是編程比賽,評估模型編寫和理解計算機代碼的能力。
多語言任務則有MGSM(8-shot,CoT)、MMMLU(5-shot)和INCLUDE(5-shot)。這相當于外語能力考試,測試模型在不同語言中的表現。
團隊將Qwen3系列基礎模型與Qwen2.5基礎模型和其他領先的開源基礎模型(包括DeepSeek-V3 Base、Gemma-3、Llama-3和Llama-4系列)進行了比較。所有模型都使用相同的評估流程和廣泛使用的評估設置,確保公平比較。
根據總體評估結果,Qwen3基礎模型展現出以下幾個關鍵特點:
首先,與之前的開源頂尖密集型和MoE基礎模型(如DeepSeek-V3 Base、Llama-4-Maverick Base和Qwen2.5-72B-Base)相比,Qwen3-235B-A22B-Base在大多數任務中表現更好,且所需的總參數或激活參數明顯更少。這就像一位輕量級拳擊手擊敗了重量級選手,展示了更高效的技術和訓練方法。
對于Qwen3 MoE基礎模型,實驗結果表明:使用相同的預訓練數據,Qwen3 MoE基礎模型只需1/5的激活參數就能達到Qwen3密集型基礎模型的類似性能;由于Qwen3 MoE架構的改進、訓練token數量的擴大和更先進的訓練策略,Qwen3 MoE基礎模型可以用不到1/2的激活參數和更少的總參數超越Qwen2.5 MoE基礎模型;即使只有Qwen2.5密集型基礎模型1/10的激活參數,Qwen3 MoE基礎模型也能達到相當的性能,這為推理和訓練成本帶來了顯著優勢。這就像是發明了一種新型發動機,只需要以前1/5的燃料就能產生相同的動力輸出。
Qwen3密集型基礎模型的整體性能與更高參數規模的Qwen2.5基礎模型相當。例如,Qwen3-1.7B/4B/8B/14B/32B-Base分別達到了Qwen2.5-3B/7B/14B/32B/72B-Base的相當性能。特別是在STEM、編碼和推理基準測試中,Qwen3密集型基礎模型的性能甚至超過了更高參數規模的Qwen2.5基礎模型。這就像是新一代運動員通過更科學的訓練方法,用更小的體型達到甚至超越了前輩的成績。
在詳細結果方面,旗艦模型Qwen3-235B-A22B-Base與幾個強有力的基線相比表現優異。這個模型只有DeepSeek-V3 Base約1/3的總參數數量和2/3的激活參數,卻在15個評估基準中的14個上表現更好,展示了其強大而高效的性能。與類似規模的之前MoE模型Qwen2.5-Plus相比,Qwen3-235B-A22B-Base使用更少的參數和激活參數顯著超越了它,展示了Qwen3在預訓練數據、訓練策略和模型架構方面的顯著優勢。與之前的旗艦開源密集型模型Qwen2.5-72B-Base相比,Qwen3-235B-A22B-Base在所有基準測試中都超越了它,且使用的激活參數不到1/3。同時,由于模型架構的優勢,Qwen3-235B-A22B-Base在每萬億token上的推理成本和訓練成本都遠低于Qwen2.5-72B-Base。
后訓練:從基礎到應用的轉變
完成預訓練后,模型就像擁有了大量知識的學生,但還需要實踐和特殊訓練才能將這些知識應用到實際問題中。Qwen3的后訓練過程就是為了這一目的而設計的,就像是給學生提供實習和專業培訓機會,將理論知識轉化為解決實際問題的能力。
Qwen3的后訓練管道戰略性地設計了兩個核心目標:首先是思考控制,包括整合"非思考"和"思考"兩種模式,讓用戶可以靈活選擇模型是否進行推理,并通過指定思考過程的token預算來控制思考深度;其次是強到弱蒸餾,旨在優化輕量級模型的后訓練過程,通過利用大規模模型的知識,大幅減少構建小規模模型所需的計算成本和開發工作。
如圖所示,Qwen3系列的旗艦模型遵循一個復雜的四階段訓練過程。前兩個階段專注于開發模型的"思考"能力,而后兩個階段則旨在將強大的"非思考"功能整合到模型中。
初步實驗表明,直接將教師模型的輸出logits蒸餾到輕量級學生模型中,可以有效提升其性能,同時保持對推理過程的細粒度控制。這種方法消除了為每個小規模模型單獨執行四階段訓練過程的必要性。它不僅能帶來更好的即時性能(通過更高的Pass@1分數反映),還能提高模型的探索能力(通過改進的Pass@64結果反映)。此外,這種方法還實現了更高的訓練效率,與四階段訓練方法相比,只需要1/10的GPU小時數。這就像是經驗豐富的教師能夠通過高效的教學方法,幫助學生快速掌握關鍵技能,而不必讓學生經歷所有的試錯過程。
下面詳細介紹這四個訓練階段和強到弱蒸餾方法:
首先是長鏈思考(Long-CoT)冷啟動階段。團隊首先收集了一個涵蓋廣泛類別的綜合數據集,包括數學、代碼、邏輯推理和一般STEM問題。數據集中的每個問題都配有經過驗證的參考答案或基于代碼的測試用例。這個數據集作為長鏈思考訓練的"冷啟動"階段的基礎。
數據集構建涉及嚴格的兩階段過濾過程:查詢過濾和響應過濾。在查詢過濾階段,團隊使用Qwen2.5-72B-Instruct識別并刪除不易驗證的查詢,包括包含多個子問題或要求生成一般文本的查詢。此外,他們排除了Qwen2.5-72B-Instruct無需使用CoT推理就能正確回答的查詢,這有助于防止模型依賴表面猜測,確保只包含需要更深層推理的復雜問題。他們還使用Qwen2.5-72B-Instruct標注每個查詢的領域,以保持數據集中的領域表示平衡。
保留驗證查詢集后,團隊使用QwQ-32B為每個剩余查詢生成N個候選響應。當QwQ-32B始終無法生成正確解決方案時,人類標注員手動評估響應的準確性。對于具有正Pass@N的查詢,他們應用進一步的嚴格過濾標準,刪除產生不正確最終答案、包含大量重復、明顯表明猜測而沒有足夠推理、思考和摘要內容之間存在不一致、涉及不適當的語言混合或風格轉變,或被懷疑與潛在驗證集項目過于相似的響應。隨后,團隊使用經過精煉的數據集的精心選擇子集進行推理模式的初始冷啟動訓練。這個階段的目標是在模型中植入基礎推理模式,而不過分強調即時推理性能,確保模型的潛力不受限制,為后續的強化學習階段提供更大的靈活性和改進空間。為了有效實現這一目標,最好在這個準備階段盡量減少訓練樣本數量和訓練步驟。這就像是先讓學生掌握基本的解題方法和思路,而不急于追求速度和準確率,為后續的高級訓練打下基礎。
第二階段是推理強化學習。在推理RL階段使用的查詢-驗證器對必須滿足四個標準:它們在冷啟動階段未使用;冷啟動模型可以學習它們;它們盡可能具有挑戰性;它們覆蓋廣泛的子領域。團隊最終收集了3,995個查詢-驗證器對,并采用GRPO來更新模型參數。他們發現使用大批量大小和每個查詢的高rollout數量,結合離策略訓練來提高樣本效率,對訓練過程有利。他們還解決了如何通過控制模型的熵穩定增加或保持穩定來平衡探索和利用,這對維持穩定訓練至關重要。結果,他們在單次RL運行中實現了訓練獎勵和驗證性能的一致改進,無需手動干預超參數。例如,Qwen3-235B-A22B模型在AIME'24上的得分從70.1增加到85.1,總共進行了170個RL訓練步驟。這就像是教練通過不斷調整訓練方法,幫助運動員在比賽中取得越來越好的成績。
第三階段是思考模式融合。思考模式融合階段的目標是將"非思考"能力整合到之前開發的"思考"模型中。這種方法允許開發者管理和控制推理行為,同時減少部署單獨模型用于思考和非思考任務的成本和復雜性。為實現這一目標,團隊對推理RL模型進行持續監督微調(SFT),并設計了一個聊天模板來融合兩種模式。此外,他們發現能夠熟練處理兩種模式的模型在不同思考預算下表現一致良好。
SFT數據集結合了"思考"和"非思考"數據。為確保Stage 2模型的性能不會因額外的SFT而受損,"思考"數據是通過在Stage 1查詢上使用Stage 2模型自身進行拒絕采樣生成的。另一方面,"非思考"數據經過精心策劃,覆蓋了各種任務,包括編碼、數學、遵循指令、多語言任務、創意寫作、問答和角色扮演。此外,團隊采用自動生成的檢查表來評估"非思考"數據的響應質量。為了提高低資源語言任務的性能,他們特別增加了翻譯任務的比例。
為了更好地整合兩種模式并使用戶能夠動態切換模型的思考過程,團隊為Qwen3設計了聊天模板。具體來說,對于思考模式和非思考模式的樣本,他們分別在用戶查詢或系統消息中引入/think和/no think標志。這允許模型根據用戶的輸入選擇適當的思考模式。對于非思考模式樣本,他們在助手的響應中保留了一個空的思考塊。這種設計確保了模型內部格式的一致性,允許開發者通過在聊天模板中連接一個空的思考塊來防止模型進行思考行為。默認情況下,模型以思考模式運行;因此,他們添加了一些用戶查詢不包含/think標志的思考模式訓練樣本。對于更復雜的多輪對話,他們隨機在用戶查詢中插入多個/think和/no think標志,模型響應遵循最后遇到的標志。
思考模式融合的一個額外優勢是,一旦模型學會以非思考和思考模式響應,它自然會發展出處理中間情況的能力——基于不完整思考生成響應。這種能力為實現對模型思考過程的預算控制奠定了基礎。具體來說,當模型的思考長度達到用戶定義的閾值時,團隊手動停止思考過程并插入停止思考指令:"考慮到用戶的時間有限,我現在必須直接基于思考給出解決方案。\.\\"。在插入此指令后,模型繼續基于其累積的推理生成最終響應。值得注意的是,這種能力不是顯式訓練的,而是應用思考模式融合自然產生的結果。這就像是訓練學生在有限時間內做決策——當時間快到時,他們需要基于已有的分析迅速得出結論,而不是無限期地思考。
第四階段是通用強化學習。通用RL階段旨在廣泛增強模型在各種場景中的能力和穩定性。為此,團隊建立了一個復雜的獎勵系統,涵蓋20多個不同任務,每個任務都有定制的評分標準。這些任務專門針對以下核心能力的增強:
指令遵循能力確保模型準確解釋并遵循用戶指令,包括與內容、格式、長度和結構化輸出相關的要求,提供符合用戶期望的回應。
格式遵循能力是指除了明確的指令外,模型還應遵守特定的格式約定。例如,它應該適當響應/think和/no think標志,在思考和非思考模式之間切換,并在最終輸出中一致使用指定的標記(如和)來分隔思考和響應部分。
偏好對齊重點是改善模型在開放式查詢中的有用性、參與度和風格,最終提供更自然、更令人滿意的用戶體驗。這就像是訓練一位服務人員不僅要準確回答問題,還要以友好、投入的方式與客戶互動。
智能體能力涉及訓練模型通過指定接口正確調用工具。在RL推出過程中,模型被允許執行完整的多輪交互周期,接收真實環境執行反饋,從而提高其在長期決策任務中的性能和穩定性。這相當于讓學生參與實際項目,在解決實際問題的過程中學習和提高。
專業場景能力針對更專業化的場景,團隊設計了適合特定上下文的任務。例如,在檢索增強生成(RAG)任務中,他們納入了獎勵信號,引導模型生成準確且與上下文相關的響應,從而最小化虛構信息的風險。
為了為上述任務提供反饋,團隊使用了三種不同類型的獎勵:
基于規則的獎勵在推理RL階段已被廣泛使用,也適用于指令遵循和格式遵守等一般任務。精心設計的基于規則的獎勵可以高精度評估模型輸出的正確性,防止出現獎勵欺騙等問題。
帶參考答案的基于模型的獎勵在這種方法中,團隊為每個查詢提供一個參考答案,并提示Qwen2.5-72B-Instruct基于此參考對模型的響應進行評分。這種方法允許更靈活地處理各種任務,無需嚴格格式,避免了純粹基于規則的獎勵可能出現的假陰性。
無參考答案的基于模型的獎勵利用人類偏好數據,團隊訓練了一個獎勵模型,為模型響應分配標量分數。這種不依賴參考答案的方法可以處理更廣泛的查詢,同時有效增強模型的參與度和有用性。
強到弱蒸餾管道專為優化輕量級模型而設計,包括5個密集型模型(Qwen3-0.6B、1.7B、4B、8B和14B)和一個MoE模型(Qwen3-30B-A3B)。這種方法提升了模型性能,同時有效傳授了強大的模式切換能力。蒸餾過程分為兩個主要階段:
離策略蒸餾在這個初始階段,團隊結合了教師模型的輸出,這些輸出是使用/think和/no think模式生成的,用于響應蒸餾。這幫助輕量級學生模型發展基本推理技能和在不同思考模式之間切換的能力,為下一個在策略訓練階段奠定了堅實基礎。
在策略蒸餾在這個階段,學生模型生成在策略序列進行微調。具體來說,采樣提示,學生模型在/think或/no think模式下生成響應。然后通過將其logits與教師模型(Qwen3-32B或Qwen3-235B-A22B)的logits對齊,最小化KL散度,對學生模型進行微調。
為了全面評估指令調整模型的質量,團隊采用自動基準測試來評估模型在思考和非思考模式下的表現。這些基準測試分為幾個維度:
通用任務包括MMLU-Redux、GPQA-Diamond、C-Eval和LiveBench(2024-11-25)。對于GPQA-Diamond,團隊對每個查詢進行10次采樣并報告平均準確率。
對齊任務為了評估模型與人類偏好的對齊程度,團隊采用了一套專業基準測試。對于指令遵循性能,他們報告了IFEval的嚴格提示精度。為了評估一般主題的人類偏好對齊,團隊使用Arena-Hard和AlignBench v1.1。對于寫作任務,他們依靠Creative Writing V3和WritingBench來評估模型的熟練度和創造力。
數學和文本推理為了評估數學和邏輯推理技能,團隊采用高級數學基準測試,包括MATH-500、AIME'24和AIME'25,以及文本推理任務,包括ZebraLogic和AutoLogi。對于AIME問題,每年的問題包括第I部分和第II部分,總共30個問題。對于每個問題,團隊進行64次采樣,并將平均準確率作為最終分數。
智能體和編碼為了測試模型在編碼和基于智能體任務中的熟練度,團隊使用了BFCL v3、LiveCodeBench(v5,2024.10-2025.02)和來自CodeElo的Codeforces評級。對于BFCL,所有Qwen3模型都使用FC格式進行評估,并使用yarn將模型部署到64k的上下文長度進行多輪評估。一些基線來自BFCL排行榜,取FC和Prompt格式之間的更高分數。對于未在排行榜上報告的模型,評估Prompt格式。對于LiveCodeBench,對于非思考模式,團隊使用官方推薦的提示,而對于思考模式,他們調整提示模板以允許模型更自由地思考,通過移除限制"你將不會返回除程序之外的任何內容"。為了評估模型與競爭性編程專家之間的性能差距,團隊使用CodeForces計算Elo評級。在他們的基準測試中,每個問題通過生成最多八次獨立推理嘗試來解決。
多語言任務為了多語言能力,團隊評估了四種類型的任務:指令遵循、知識、數學和邏輯推理。指令遵循使用Multi-IF進行評估,重點關注8種關鍵語言。知識評估包括兩種類型:通過INCLUDE評估區域知識,涵蓋44種語言,以及通過MMMLU評估一般知識,涵蓋14種語言,不包括未優化的約魯巴語;對于這兩個基準測試,團隊僅對原始數據的10%進行采樣,以提高評估效率。數學任務采用MT-AIME2024,涵蓋55種語言,和PolyMath,包括18種語言。邏輯推理使用MlogiQA進行評估,涵蓋10種語言,來源于Zhang等人的研究。
對于思考模式下的所有Qwen3模型,團隊使用0.6的采樣溫度,0.95的top-p值和20的top-k值。此外,對于Creative Writing v3和WritingBench,他們應用1.5的存在懲罰,以鼓勵生成更多樣化的內容。對于非思考模式下的Qwen3模型,他們配置采樣超參數為temperature = 0.7,top-p = 0.8,top-k = 20,存在懲罰 = 1.5。對于思考和非思考模式,團隊將最大輸出長度設置為32,768個token,除了AIME'24和AIME'25,這兩者將長度擴展到38,912個token,以提供足夠的思考空間。
實驗結果:實力的全面展示
根據評估結果,團隊總結了完成訓練的Qwen3模型的幾個關鍵結論:
旗艦模型Qwen3-235B-A22B在思考和非思考模式下都展示了最先進的總體性能,超越了強大的基線如DeepSeek-R1和DeepSeek-V3。Qwen3-235B-A22B也與封閉源領先模型,如OpenAI-o1、Gemini2.5-Pro和GPT-4o相比具有高度競爭力,展示了其深刻的推理能力和全面的通用能力。這就像是一位全能運動員,能在多個不同項目中與專業選手一較高下。
旗艦密集型模型Qwen3-32B在大多數基準測試中超越了團隊之前最強的推理模型QwQ-32B,并與封閉源OpenAI-o3-mini性能相當,表明其令人信服的推理能力。Qwen3-32B在非思考模式下也表現卓越,超越了團隊之前的旗艦非推理密集型模型Qwen2.5-72B-Instruct。這就像是新一代運動員通過更先進的訓練方法,在同樣的體型下取得了超越前輩的成績。
輕量級模型,包括Qwen3-30B-A3B、Qwen3-14B和其他較小的密集型模型,與參數量接近或更大的開源模型相比,一致表現出優越的性能,證明了團隊的強到弱蒸餾方法的成功。這就像是小型車輛通過先進的發動機技術,達到甚至超越了大型車輛的性能。
在詳細結果方面,旗艦模型Qwen3-235B-A22B(思考模式)與僅有60%激活參數和35%總參數的DeepSeek-R1相比,在17/23的基準測試中表現更好,特別是在需要推理的任務(如數學、智能體和編碼)上,展示了Qwen3-235B-A22B在開源模型中的最先進推理能力。此外,Qwen3-235B-A22B(思考模式)與封閉源OpenAI-o1、Grok-3-Beta(思考)和Gemini2.5-Pro相比也具有高度競爭力,實質性地縮小了開源和封閉源模型之間的推理能力差距。
Qwen3-235B-A22B(非思考模式)超過了其他領先開源模型,包括DeepSeek-V3、LLaMA-4-Maverick和團隊之前的旗艦模型Qwen2.5-72B-Instruct,并在18/23的基準測試中超過了封閉源GPT-4o-2024-11-20,表明即使在沒有經過刻意思考過程增強的情況下,其內在也具有強大的能力。
團隊的旗艦密集型模型Qwen3-32B(思考模式)在17/23的基準測試中超越了QwQ-32B,使其成為32B這一最佳規模下的新一代最先進推理模型。此外,Qwen3-32B(思考模式)還與封閉源OpenAI-o3-mini(medium)競爭,在對齊和多語言性能方面表現更好。
Qwen3-32B(非思考模式)在幾乎所有基準測試上表現優于所有基線。特別是,Qwen3-32B(非思考模式)在通用任務上與Qwen2.5-72B-Instruct表現相當,在對齊、多語言和與推理相關的任務上具有顯著優勢,再次證明了Qwen3相對于之前Qwen2.5系列模型的根本改進。
Qwen3-30B-A3B和Qwen3-14B(思考模式)都與QwQ-32B高度競爭,特別是在與推理相關的基準測試上。值得注意的是,Qwen3-30B-A3B使用較小的模型規模和不到1/10的激活參數,達到了與QwQ-32B相當的性能,展示了團隊強到弱蒸餾方法在賦予輕量級模型深刻推理能力方面的有效性。
Qwen3-30B-A3B和Qwen3-14B(非思考模式)超越了非推理基線,在大多數基準測試中表現最好。它們超越了團隊之前的Qwen2.5-32B-Instruct模型,激活參數和總參數顯著減少,實現了更高效和成本效益的性能。
這些邊緣設備模型表現出令人印象深刻的性能,在思考或非思考模式下都超越了參數量更多的基線,包括團隊之前的Qwen2.5模型。這些結果再次證明了團隊強到弱蒸餾方法的功效,使他們能夠以顯著降低的成本和努力構建輕量級Qwen3模型。
為了驗證Qwen3通過增加思考預算可以提高其智能水平,團隊在數學、編碼和STEM領域的四個基準測試上調整了分配的思考預算。結果顯示,Qwen3展示了與分配的思考預算相關的可擴展和平滑的性能改進。此外,團隊觀察到,如果在未來進一步擴展32K以上的輸出長度,模型的性能有望進一步提高。
團隊通過比較經過蒸餾與直接強化學習后的性能和計算成本(以GPU小時計),評估了在策略蒸餾的有效性和效率,兩者都從相同的離策略蒸餾8B檢查點開始。為簡單起見,團隊僅關注數學和代碼相關查詢進行比較。結果顯示,蒸餾在以大約1/10的GPU小時數實現顯著更好性能的同時,達到了顯著更好的性能。此外,從教師logits進行蒸餾使學生模型能夠擴展其探索空間并增強其推理潛力,這反映在蒸餾后AIME'24和AIME'25基準測試的改進Pass@64分數上,相比初始檢查點。相比之下,強化學習并沒有導致Pass@64分數的任何改進。這些觀察強調了利用更強大的教師模型指導學生模型學習的優勢。
為了評估思考模式融合和通用強化學習在后訓練中的有效性,團隊對Qwen-32B模型的各個階段進行了評估。除了前面提到的數據集外,團隊還引入了幾個內部基準測試來監控其他能力。這些基準測試包括:
CounterFactQA包含違反事實的問題,模型需要識別問題不是事實性的,避免生成虛構的答案。
LengthCtrl包括帶有長度要求的創意寫作任務;最終分數基于生成內容長度與目標長度之間的差異。
ThinkFollow涉及多輪對話,隨機插入/think和/no think標志,測試模型是否能基于用戶查詢正確切換思考模式。
ToolUse評估模型在單輪、多輪和多步工具調用過程中的穩定性。分數包括工具調用過程中的意圖識別準確率、格式準確率和參數準確率。
從結果中可以得出以下結論:
Stage 3整合了非思考模式到模型中,該模型在經過前兩個階段的訓練后已經具備思考能力。ThinkFollow基準測試分數88.7表明模型已經發展出在模式之間切換的初始能力,盡管它仍然偶爾會出錯。Stage 3還增強了模型在思考模式下的一般和指令遵循能力,CounterFactQA提高了10.9分,LengthCtrl提高了8.0分。這就像是學生在掌握了基本技能后,接受進一步的專業訓練,學會根據情況靈活應用不同的解題方法。
Stage 4進一步加強了模型在思考和非思考模式下的一般、指令遵循和智能體能力。特別是,ThinkFollow得分提高到98.9,確保了準確的模式切換。這就像是經過更全面的訓練后,學生能夠根據考試要求靈活切換不同的答題策略。
對于知識、STEM、數學和編碼任務,思考模式融合和通用RL并沒有帶來顯著改進。相反,對于像AIME'24和LiveCodeBench這樣具有挑戰性的任務,思考模式下的性能在這兩個訓練階段后實際上降低了。團隊推測這種降級是由于模型接受了更廣泛的一般任務訓練,可能會影響其處理復雜問題的專業能力。在開發Qwen3的過程中,團隊選擇接受這種性能權衡,以增強模型的整體多功能性。這就像是一位運動員需要在專項訓練和全面發展之間找到平衡——過度專注于某一特定技能可能會影響整體表現。
結論:未來的展望
本技術報告介紹了Qwen3,Qwen系列的最新版本。Qwen3具有思考模式和非思考模式的特點,允許用戶動態管理用于復雜思考任務的token數量。該模型在包含36萬億token的龐大數據集上進行了預訓練,使其能夠理解和生成119種語言和方言的文本。通過一系列全面的評估,Qwen3在預訓練和后訓練模型的各種標準基準測試中都表現出強勁的性能,包括與代碼生成、數學、推理和智能體相關的任務。
在不久的將來,Qwen團隊的研究將集中在幾個關鍵領域。他們將繼續通過使用質量更高、內容更多樣化的數據來擴大預訓練規模。同時,他們將致力于改進模型架構和訓練方法,以實現有效壓縮、擴展到極長上下文等目的。此外,團隊計劃增加強化學習的計算資源,特別關注基于智能體的RL系統,這些系統從環境反饋中學習。這將使他們能夠構建能夠處理需要推理時間擴展的復雜任務的智能體。
Qwen3代表了人工智能領域的重大進步,通過將思考和非思考能力整合到一個統一的模型中,提供了前所未有的靈活性和性能。隨著團隊繼續探索和創新,我們可以期待看到更多突破和改進,進一步推動人工智能的邊界,使這些強大的工具更加可訪問和有用。
這項研究不僅展示了當前AI技術的能力,還為未來的發展指明了方向。通過開源他們的模型和方法,Qwen團隊為全球研究社區提供了寶貴的資源,促進了開放、協作的AI研究環境。隨著這些技術繼續發展和成熟,它們有潛力在各個領域帶來變革性的影響,從教育到醫療保健,從科學研究到日常生活。
論文地址:
https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.