網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Qwen3技術(shù)報(bào)告解讀

2025-05-24 18:21:53　來源: 開源中國

廣東舉報(bào)

分享至

太長不看版本：

1.三階段預(yù)訓(xùn)練，先30萬億4096長度的通用訓(xùn)練，再5T的4096推理訓(xùn)練帶衰減學(xué)習(xí)率，最后長文本32767訓(xùn)練。

2.長cot冷啟動：qwq32b造數(shù)據(jù)，qwen72B+人工洗數(shù)據(jù)。

3.推理RL：選用無leak的多樣性的難度適中的數(shù)據(jù)跑GRPO。

4.思維鏈開啟和關(guān)閉：通過一個(gè)specitoken來在數(shù)據(jù)里傳導(dǎo)，prompt加/think和/no_think標(biāo)志，然后訓(xùn)練。混合著也學(xué)會了自動的短cot模式，很神奇。

5.RM設(shè)計(jì)：涵蓋20多種不同任務(wù)，每個(gè)任務(wù)都有定制的評分標(biāo)準(zhǔn)，規(guī)則+模型（有無參考答案）。

6.蒸餾到小模型：logits蒸餾非數(shù)據(jù)蒸餾，效果更好。

整體流程

詳細(xì)精煉版（去除評估部分）預(yù)訓(xùn)練階段

Qwen3模型通過三個(gè)階段進(jìn)行預(yù)訓(xùn)練：

(1)一般階段 (S1)：在第一個(gè)預(yù)訓(xùn)練階段，所有Qwen3模型在超過30萬億個(gè)標(biāo)記上進(jìn)行訓(xùn)練，序列長度為4,096個(gè)標(biāo)記。在此階段，模型已在語言能力和一般世界知識上完成全面預(yù)訓(xùn)練，訓(xùn)練數(shù)據(jù)覆蓋119種語言和方言。

(2)推理階段 (S2)：為了進(jìn)一步提高推理能力，我們通過增加STEM、編碼、推理和合成數(shù)據(jù)的比例來優(yōu)化這一階段的預(yù)訓(xùn)練語料庫。模型在序列長度為4,096個(gè)標(biāo)記的情況下，進(jìn)一步預(yù)訓(xùn)練了約5T的高質(zhì)量標(biāo)記。我們還加快了這一階段的學(xué)習(xí)率衰減。

(3)長文本階段：在最終的預(yù)訓(xùn)練階段，我們收集高質(zhì)量的長文本語料庫，以擴(kuò)展Qwen3模型的上下文長度。所有模型在數(shù)千億個(gè)標(biāo)記上進(jìn)行預(yù)訓(xùn)練，序列長度為32,768個(gè)標(biāo)記。長文本語料庫包括75%的文本長度在16,384到32,768個(gè)標(biāo)記之間，25%的文本長度在4,096到16,384個(gè)標(biāo)記之間。根據(jù)Qwen2.5（Yang等，2024b），我們使用ABF技術(shù)（Xiong等，2023）將RoPE的基礎(chǔ)頻率從10,000提高到1,000,000。同時(shí)，我們引入YARN（Peng等，2023）和雙塊注意力（DCA，An等，2024），以在推理過程中實(shí)現(xiàn)序列長度容量的四倍增加。

與Qwen2.5（Yang等，2024b）類似，我們基于上述三個(gè)預(yù)訓(xùn)練階段開發(fā)了最佳超參數(shù)（例如，學(xué)習(xí)率調(diào)度和批量大小）預(yù)測的縮放法則。

通過廣泛的實(shí)驗(yàn)，我們系統(tǒng)地研究了模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練階段與最佳訓(xùn)練超參數(shù)之間的關(guān)系。最后，我們?yōu)槊總€(gè)密集模型或MoE模型設(shè)定了預(yù)測的最佳學(xué)習(xí)率和批量大小策略。

后訓(xùn)練階段 1 長鏈思維冷啟動

我們首先整理一個(gè)涵蓋廣泛類別的綜合數(shù)據(jù)集，包括數(shù)學(xué)、代碼、邏輯推理和一般STEM問題。數(shù)據(jù)集中的每個(gè)問題都配有經(jīng)過驗(yàn)證的參考答案或基于代碼的測試用例。該數(shù)據(jù)集作為長鏈思維（long-CoT）訓(xùn)練的“冷啟動”階段的基礎(chǔ)。

數(shù)據(jù)集構(gòu)建涉及嚴(yán)格的兩階段過濾過程：query過濾和answer過濾。在query過濾階段，我們使用Qwen2.5-72B-Instruct識別并移除那些不易驗(yàn)證的query。這包括包含多個(gè)子問題的query或請求生成一般文本的query。

此外，我們排除那些Qwen2.5-72B-Instruct能夠在不使用鏈?zhǔn)酵评淼那闆r下正確回答的query。這有助于防止模型依賴表面的猜測，并確保僅包含需要更深入推理的復(fù)雜問題。此外，我們使用Qwen2.5-72B-Instruct對每個(gè)query的領(lǐng)域進(jìn)行注釋，以保持?jǐn)?shù)據(jù)集中領(lǐng)域表示的平衡。

在保留驗(yàn)證query集后，我們?yōu)槊總€(gè)剩余query生成N個(gè)候選answer，使用QwQ-32B（Qwen團(tuán)隊(duì)，2025年）。當(dāng)QwQ-32B持續(xù)無法生成正確的解決方案時(shí)，人工評估員會手動評估answer的準(zhǔn)確性。

對于通過率為正的query，進(jìn)一步嚴(yán)格的過濾標(biāo)準(zhǔn)被應(yīng)用，以去除以下answer：(1) 產(chǎn)生錯(cuò)誤的最終答案，(2) 包含大量重復(fù)，(3) 明顯表明猜測而沒有足夠的推理，(4) 思考與總結(jié)內(nèi)容之間存在不一致，(5) 涉及不當(dāng)?shù)恼Z言混合或風(fēng)格轉(zhuǎn)變，或(6) 被懷疑與潛在驗(yàn)證集項(xiàng)目過于相似。

隨后，經(jīng)過精心挑選的精煉數(shù)據(jù)集子集用于推理模式的初始冷啟動訓(xùn)練。此階段的目標(biāo)是向模型灌輸基礎(chǔ)推理模式，而不過分強(qiáng)調(diào)即時(shí)推理性能。

這種方法確保模型的潛力不受限制，從而在隨后的強(qiáng)化學(xué)習(xí)（RL）階段提供更大的靈活性和改進(jìn)。為了有效實(shí)現(xiàn)這一目標(biāo)，最好在這一準(zhǔn)備階段盡量減少訓(xùn)練樣本和訓(xùn)練步驟的數(shù)量。

2 推理強(qiáng)化學(xué)習(xí)

在推理強(qiáng)化學(xué)習(xí)階段使用的 query-verifier對必須滿足以下四個(gè)標(biāo)準(zhǔn)：(1) 在冷啟動階段未被使用。(2) 對于冷啟動模型是可學(xué)習(xí)的。(3) 盡可能具有挑戰(zhàn)性。(4) 涵蓋廣泛的子領(lǐng)域。我們最終收集了總共3,995個(gè) query-verifier對，并采用GRPO（Shao等，2024）來更新模型參數(shù)。

我們觀察到，使用較大的批量大小和每個(gè)query較高的回合數(shù)，以及離線策略訓(xùn)練以提高樣本效率，對訓(xùn)練過程是有益的。我們還解決了如何通過控制模型的熵來平衡探索與利用，以實(shí)現(xiàn)穩(wěn)步增加或保持不變。

3 思維模式融合

思維模式融合階段的目標(biāo)是將“非思維”能力整合到先前開發(fā)的“思維”模型中。這種方法使開發(fā)者能夠管理和控制推理行為，同時(shí)降低了為思維和非思維任務(wù)部署單獨(dú)模型的成本和復(fù)雜性。

為此，我們對推理強(qiáng)化學(xué)習(xí)模型進(jìn)行持續(xù)的監(jiān)督微調(diào)，并設(shè)計(jì)一個(gè)聊天模板以融合這兩種模式。此外，我們發(fā)現(xiàn)能夠熟練處理這兩種模式的模型在不同的思維預(yù)算下表現(xiàn)始終良好。

SFT數(shù)據(jù)的構(gòu)建：SFT數(shù)據(jù)集結(jié)合了“思考”和“非思考”數(shù)據(jù)。

為了確保第二階段模型的性能不受額外SFT的影響，“思考”數(shù)據(jù)是通過對第一階段query進(jìn)行拒絕采樣生成的，使用的是第二階段模型本身。

“非思考”數(shù)據(jù)則經(jīng)過精心策劃，以涵蓋多樣化的任務(wù)，包括編碼、數(shù)學(xué)、遵循指令、多語言任務(wù)、創(chuàng)意寫作、問答和角色扮演。此外，我們使用自動生成的檢查清單來評估“非思考”數(shù)據(jù)的answer質(zhì)量。為了提高低資源語言任務(wù)的表現(xiàn)，我們特別增加了翻譯任務(wù)的比例。

聊天模板設(shè)計(jì)：為了更好地整合這兩種模式并使用戶能夠動態(tài)切換模型的思維過程，我們?yōu)镼wen3設(shè)計(jì)了聊天模板，如表9所示。具體而言，對于思維模式和非思維模式的樣本，我們在用戶query或系統(tǒng)消息中分別引入/think和/no_think標(biāo)志。這使得模型能夠根據(jù)用戶的輸入選擇相應(yīng)的思維模式。

對于非思維模式樣本，我們在助手的answer中保留一個(gè)空的思維塊。該設(shè)計(jì)確保了模型內(nèi)部格式的一致性，并允許開發(fā)者通過在聊天模板中連接一個(gè)空的思維塊來防止模型進(jìn)行思考行為。默認(rèn)情況下，模型在思維模式下運(yùn)行；因此，我們添加了一些用戶query不包含/think標(biāo)志的思維模式訓(xùn)練樣本。

對于更復(fù)雜的多輪對話，我們隨機(jī)在用戶的query中插入多個(gè)/think和/no_think標(biāo)志，模型的answer遵循最后遇到的標(biāo)志。

思維預(yù)算：思維模式融合的一個(gè)額外優(yōu)勢是，一旦模型學(xué)會在非思維和思維模式下answer，它自然會發(fā)展出處理中間情況的能力——基于不完整思維生成answer。

這一能力為實(shí)施對模型思維過程的預(yù)算控制奠定了基礎(chǔ)。具體而言，當(dāng)模型的思維長度達(dá)到用戶定義的閾值時(shí)，我們手動停止思維過程并插入停止思維指令：“考慮到用戶的時(shí)間有限，我必須直接基于思維給出解決方案。”插入此指令后，模型繼續(xù)生成基于其到該時(shí)刻為止的累積推理的最終answer。

值得注意的是，這一能力并不是通過明確訓(xùn)練獲得的，而是作為應(yīng)用思維模式融合的結(jié)果自然出現(xiàn)的。

4 通用強(qiáng)化學(xué)習(xí)

通用強(qiáng)化學(xué)習(xí)階段旨在廣泛增強(qiáng)模型在多種場景下的能力和穩(wěn)定性。為此，我們建立了一個(gè)復(fù)雜的獎勵(lì)系統(tǒng)，涵蓋20多種不同任務(wù)，每個(gè)任務(wù)都有定制的評分標(biāo)準(zhǔn)。這些任務(wù)特別針對以下核心能力的提升：

指令遵循：該能力確保模型準(zhǔn)確解讀并遵循用戶指令，包括與內(nèi)容、格式、長度和結(jié)構(gòu)化輸出相關(guān)的要求，提供符合用戶期望的answer。
格式遵循：除了明確的指令外，我們期望模型遵循特定的格式約定。例如，它應(yīng)適當(dāng)?shù)豠nswer/think和/no_think標(biāo)志，通過在思考和非思考模式之間切換，并始終使用指定的標(biāo)記（例如，和）來分隔最終輸出中的思考和answer部分。
偏好對齊：對于開放式query，偏好對齊側(cè)重于提高模型的幫助性、參與度和風(fēng)格，最終提供更自然和令人滿意的用戶體驗(yàn)。
代理能力：這涉及訓(xùn)練模型通過指定接口正確調(diào)用工具。在強(qiáng)化學(xué)習(xí)的實(shí)施過程中，模型被允許進(jìn)行完整的多輪交互周期，并獲得真實(shí)環(huán)境執(zhí)行反饋，從而提高其在長期決策任務(wù)中的表現(xiàn)和穩(wěn)定性。
專門場景的能力：在更專業(yè)的場景中，我們設(shè)計(jì)了針對特定上下文的任務(wù)。例如，在檢索增強(qiáng)生成（RAG）任務(wù)中，我們引入獎勵(lì)信號，引導(dǎo)模型生成準(zhǔn)確且符合上下文的answer。

5.REWARD設(shè)計(jì)

為了為上述任務(wù)提供反饋，我們利用了三種不同類型的獎勵(lì)：

(1)基于規(guī)則的獎勵(lì)：基于規(guī)則的獎勵(lì)在推理強(qiáng)化學(xué)習(xí)階段被廣泛使用，并且對一般任務(wù)如遵循指令（Lambert等，2024）和格式遵循也很有用。設(shè)計(jì)良好的基于規(guī)則的獎勵(lì)可以高精度地評估模型輸出的正確性，防止獎勵(lì)操控等問題。

(2)有參考基于模型的獎勵(lì)與參考答案：在這種方法中，我們?yōu)槊總€(gè)query提供一個(gè)參考答案，并提示Qwen2.5-72B-Instruct根據(jù)該參考答案對模型的answer進(jìn)行評分。這種方法允許更靈活地處理多樣化的任務(wù)，而無需嚴(yán)格的格式，從而避免了純規(guī)則獎勵(lì)可能出現(xiàn)的假陰性。

(3)無參考答案的基于模型的獎勵(lì)：利用人類偏好數(shù)據(jù)，我們訓(xùn)練一個(gè)獎勵(lì)模型，為模型answer分配標(biāo)量分?jǐn)?shù)。這種不依賴于參考答案的方法可以處理更廣泛的query，同時(shí)有效提升模型的參與度和幫助性。

6.強(qiáng)到弱的蒸餾

強(qiáng)到弱的蒸餾流程專門設(shè)計(jì)用于優(yōu)化輕量級模型，包括5個(gè)密集模型（Qwen3-0.6B、1.7B、4B、8B和14B）和一個(gè)MoE模型（Qwen3-30B-A3B）。這種方法在有效傳授強(qiáng)大的模式切換能力的同時(shí)，提升了模型性能。蒸餾過程分為兩個(gè)主要階段：

(1)離線蒸餾：在這個(gè)初始階段，我們結(jié)合了在/think和/no_think模式下生成的教師模型的輸出進(jìn)行answer蒸餾。這有助于輕量級學(xué)生模型發(fā)展基本的推理能力和在不同思維模式之間切換的能力，為下一階段的在線訓(xùn)練奠定堅(jiān)實(shí)基礎(chǔ)。

(2)在線蒸餾：在這個(gè)階段，學(xué)生模型生成在線序列進(jìn)行微調(diào)。具體而言，采樣提示，學(xué)生模型在/think或/no_think模式下生成answer。然后，通過將其logits與教師模型（Qwen3-32B或Qwen3-235B-A22B）的logits對齊，微調(diào)學(xué)生模型以最小化KL散度。

附：Qwen3 系列大型語言模型技術(shù)報(bào)告

https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

最后推薦由本文作者最新出版的技術(shù)書籍——《百面大模型》（羊駝書），本書按“二星到五星”難度體系，精選約 100 道大模型面試高頻真題，覆蓋 MoE、預(yù)訓(xùn)練、SFT、PEFT、RLHF、DPO、RAG、智能體等核心考點(diǎn)，配套題目目錄，便于高效查漏補(bǔ)缺。

由 AI 領(lǐng)域大 V“包包大人”領(lǐng)銜，美團(tuán)技術(shù)專家與北航新生代強(qiáng)強(qiáng)聯(lián)合編寫，內(nèi)容專業(yè)權(quán)威。獲 ACL Fellow 劉群、周明，《深度強(qiáng)化學(xué)習(xí)》作者王樹森和黎彧君等 8 位業(yè)內(nèi)大咖聯(lián)合推薦，是大模型求職者的實(shí)戰(zhàn)寶典。

購買地址：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.