太長不看版本:
1.三階段預(yù)訓(xùn)練,先30萬億4096長度的通用訓(xùn)練,再5T的4096推理訓(xùn)練帶衰減學(xué)習(xí)率,最后長文本32767訓(xùn)練。
2.長cot冷啟動:qwq32b造數(shù)據(jù),qwen72B+人工洗數(shù)據(jù)。
3.推理RL:選用無leak的多樣性的難度適中的數(shù)據(jù)跑GRPO。
4.思維鏈開啟和關(guān)閉:通過一個(gè)specitoken來在數(shù)據(jù)里傳導(dǎo),prompt加/think
和/no_think
標(biāo)志,然后訓(xùn)練。混合著也學(xué)會了自動的短cot模式,很神奇。
5.RM設(shè)計(jì):涵蓋20多種不同任務(wù),每個(gè)任務(wù)都有定制的評分標(biāo)準(zhǔn),規(guī)則+模型(有無參考答案)。
6.蒸餾到小模型:logits蒸餾非數(shù)據(jù)蒸餾,效果更好。
整體流程
詳細(xì)精煉版(去除評估部分) 預(yù)訓(xùn)練階段
Qwen3模型通過三個(gè)階段進(jìn)行預(yù)訓(xùn)練:
(1)一般階段 (S1):在第一個(gè)預(yù)訓(xùn)練階段,所有Qwen3模型在超過30萬億個(gè)標(biāo)記上進(jìn)行訓(xùn)練,序列長度為4,096個(gè)標(biāo)記。在此階段,模型已在語言能力和一般世界知識上完成全面預(yù)訓(xùn)練,訓(xùn)練數(shù)據(jù)覆蓋119種語言和方言。
(2)推理階段 (S2):為了進(jìn)一步提高推理能力,我們通過增加STEM、編碼、推理和合成數(shù)據(jù)的比例來優(yōu)化這一階段的預(yù)訓(xùn)練語料庫。模型在序列長度為4,096個(gè)標(biāo)記的情況下,進(jìn)一步預(yù)訓(xùn)練了約5T的高質(zhì)量標(biāo)記。我們還加快了這一階段的學(xué)習(xí)率衰減。
(3)長文本階段:在最終的預(yù)訓(xùn)練階段,我們收集高質(zhì)量的長文本語料庫,以擴(kuò)展Qwen3模型的上下文長度。所有模型在數(shù)千億個(gè)標(biāo)記上進(jìn)行預(yù)訓(xùn)練,序列長度為32,768個(gè)標(biāo)記。長文本語料庫包括75%的文本長度在16,384到32,768個(gè)標(biāo)記之間,25%的文本長度在4,096到16,384個(gè)標(biāo)記之間。根據(jù)Qwen2.5(Yang等,2024b),我們使用ABF技術(shù)(Xiong等,2023)將RoPE的基礎(chǔ)頻率從10,000提高到1,000,000。同時(shí),我們引入YARN(Peng等,2023)和雙塊注意力(DCA,An等,2024),以在推理過程中實(shí)現(xiàn)序列長度容量的四倍增加。
與Qwen2.5(Yang等,2024b)類似,我們基于上述三個(gè)預(yù)訓(xùn)練階段開發(fā)了最佳超參數(shù)(例如,學(xué)習(xí)率調(diào)度和批量大小)預(yù)測的縮放法則。
通過廣泛的實(shí)驗(yàn),我們系統(tǒng)地研究了模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練階段與最佳訓(xùn)練超參數(shù)之間的關(guān)系。最后,我們?yōu)槊總€(gè)密集模型或MoE模型設(shè)定了預(yù)測的最佳學(xué)習(xí)率和批量大小策略。
后訓(xùn)練階段 1 長鏈思維冷啟動
我們首先整理一個(gè)涵蓋廣泛類別的綜合數(shù)據(jù)集,包括數(shù)學(xué)、代碼、邏輯推理和一般STEM問題。數(shù)據(jù)集中的每個(gè)問題都配有經(jīng)過驗(yàn)證的參考答案或基于代碼的測試用例。該數(shù)據(jù)集作為長鏈思維(long-CoT)訓(xùn)練的“冷啟動”階段的基礎(chǔ)。
數(shù)據(jù)集構(gòu)建涉及嚴(yán)格的兩階段過濾過程:query過濾和answer過濾。在query過濾階段,我們使用Qwen2.5-72B-Instruct識別并移除那些不易驗(yàn)證的query。這包括包含多個(gè)子問題的query或請求生成一般文本的query。
此外,我們排除那些Qwen2.5-72B-Instruct能夠在不使用鏈?zhǔn)酵评淼那闆r下正確回答的query。這有助于防止模型依賴表面的猜測,并確保僅包含需要更深入推理的復(fù)雜問題。此外,我們使用Qwen2.5-72B-Instruct對每個(gè)query的領(lǐng)域進(jìn)行注釋,以保持?jǐn)?shù)據(jù)集中領(lǐng)域表示的平衡。
在保留驗(yàn)證query集后,我們?yōu)槊總€(gè)剩余query生成N
個(gè)候選answer,使用QwQ-32B(Qwen團(tuán)隊(duì),2025年)。當(dāng)QwQ-32B持續(xù)無法生成正確的解決方案時(shí),人工評估員會手動評估answer的準(zhǔn)確性。
對于通過率為正的query,進(jìn)一步嚴(yán)格的過濾標(biāo)準(zhǔn)被應(yīng)用,以去除以下answer:(1) 產(chǎn)生錯(cuò)誤的最終答案,(2) 包含大量重復(fù),(3) 明顯表明猜測而沒有足夠的推理,(4) 思考與總結(jié)內(nèi)容之間存在不一致,(5) 涉及不當(dāng)?shù)恼Z言混合或風(fēng)格轉(zhuǎn)變,或(6) 被懷疑與潛在驗(yàn)證集項(xiàng)目過于相似。
隨后,經(jīng)過精心挑選的精煉數(shù)據(jù)集子集用于推理模式的初始冷啟動訓(xùn)練。此階段的目標(biāo)是向模型灌輸基礎(chǔ)推理模式,而不過分強(qiáng)調(diào)即時(shí)推理性能。
這種方法確保模型的潛力不受限制,從而在隨后的強(qiáng)化學(xué)習(xí)(RL)階段提供更大的靈活性和改進(jìn)。為了有效實(shí)現(xiàn)這一目標(biāo),最好在這一準(zhǔn)備階段盡量減少訓(xùn)練樣本和訓(xùn)練步驟的數(shù)量。
2 推理強(qiáng)化學(xué)習(xí)
在推理強(qiáng)化學(xué)習(xí)階段使用的 query-verifier對必須滿足以下四個(gè)標(biāo)準(zhǔn):(1) 在冷啟動階段未被使用。(2) 對于冷啟動模型是可學(xué)習(xí)的。(3) 盡可能具有挑戰(zhàn)性。(4) 涵蓋廣泛的子領(lǐng)域。我們最終收集了總共3,995個(gè) query-verifier對,并采用GRPO(Shao等,2024)來更新模型參數(shù)。
我們觀察到,使用較大的批量大小和每個(gè)query較高的回合數(shù),以及離線策略訓(xùn)練以提高樣本效率,對訓(xùn)練過程是有益的。我們還解決了如何通過控制模型的熵來平衡探索與利用,以實(shí)現(xiàn)穩(wěn)步增加或保持不變。
3 思維模式融合
思維模式融合階段的目標(biāo)是將“非思維”能力整合到先前開發(fā)的“思維”模型中。這種方法使開發(fā)者能夠管理和控制推理行為,同時(shí)降低了為思維和非思維任務(wù)部署單獨(dú)模型的成本和復(fù)雜性。
為此,我們對推理強(qiáng)化學(xué)習(xí)模型進(jìn)行持續(xù)的監(jiān)督微調(diào),并設(shè)計(jì)一個(gè)聊天模板以融合這兩種模式。此外,我們發(fā)現(xiàn)能夠熟練處理這兩種模式的模型在不同的思維預(yù)算下表現(xiàn)始終良好。
SFT數(shù)據(jù)的構(gòu)建:SFT數(shù)據(jù)集結(jié)合了“思考”和“非思考”數(shù)據(jù)。
為了確保第二階段模型的性能不受額外SFT的影響,“思考”數(shù)據(jù)是通過對第一階段query進(jìn)行拒絕采樣生成的,使用的是第二階段模型本身。
“非思考”數(shù)據(jù)則經(jīng)過精心策劃,以涵蓋多樣化的任務(wù),包括編碼、數(shù)學(xué)、遵循指令、多語言任務(wù)、創(chuàng)意寫作、問答和角色扮演。此外,我們使用自動生成的檢查清單來評估“非思考”數(shù)據(jù)的answer質(zhì)量。為了提高低資源語言任務(wù)的表現(xiàn),我們特別增加了翻譯任務(wù)的比例。
聊天模板設(shè)計(jì):為了更好地整合這兩種模式并使用戶能夠動態(tài)切換模型的思維過程,我們?yōu)镼wen3設(shè)計(jì)了聊天模板,如表9所示。具體而言,對于思維模式和非思維模式的樣本,我們在用戶query或系統(tǒng)消息中分別引入/think
和/no_think
標(biāo)志。這使得模型能夠根據(jù)用戶的輸入選擇相應(yīng)的思維模式。
對于非思維模式樣本,我們在助手的answer中保留一個(gè)空的思維塊。該設(shè)計(jì)確保了模型內(nèi)部格式的一致性,并允許開發(fā)者通過在聊天模板中連接一個(gè)空的思維塊來防止模型進(jìn)行思考行為。默認(rèn)情況下,模型在思維模式下運(yùn)行;因此,我們添加了一些用戶query不包含/think
標(biāo)志的思維模式訓(xùn)練樣本。
對于更復(fù)雜的多輪對話,我們隨機(jī)在用戶的query中插入多個(gè)/think
和/no_think
標(biāo)志,模型的answer遵循最后遇到的標(biāo)志。
思維預(yù)算:思維模式融合的一個(gè)額外優(yōu)勢是,一旦模型學(xué)會在非思維和思維模式下answer,它自然會發(fā)展出處理中間情況的能力——基于不完整思維生成answer。
這一能力為實(shí)施對模型思維過程的預(yù)算控制奠定了基礎(chǔ)。具體而言,當(dāng)模型的思維長度達(dá)到用戶定義的閾值時(shí),我們手動停止思維過程并插入停止思維指令:“考慮到用戶的時(shí)間有限,我必須直接基于思維給出解決方案。”插入此指令后,模型繼續(xù)生成基于其到該時(shí)刻為止的累積推理的最終answer。
值得注意的是,這一能力并不是通過明確訓(xùn)練獲得的,而是作為應(yīng)用思維模式融合的結(jié)果自然出現(xiàn)的。
4 通用強(qiáng)化學(xué)習(xí)
通用強(qiáng)化學(xué)習(xí)階段旨在廣泛增強(qiáng)模型在多種場景下的能力和穩(wěn)定性。為此,我們建立了一個(gè)復(fù)雜的獎勵(lì)系統(tǒng),涵蓋20多種不同任務(wù),每個(gè)任務(wù)都有定制的評分標(biāo)準(zhǔn)。這些任務(wù)特別針對以下核心能力的提升:
指令遵循:該能力確保模型準(zhǔn)確解讀并遵循用戶指令,包括與內(nèi)容、格式、長度和結(jié)構(gòu)化輸出相關(guān)的要求,提供符合用戶期望的answer。
格式遵循:除了明確的指令外,我們期望模型遵循特定的格式約定。例如,它應(yīng)適當(dāng)?shù)豠nswer
/think
和/no_think
標(biāo)志,通過在思考和非思考模式之間切換,并始終使用指定的標(biāo)記(例如,偏好對齊:對于開放式query,偏好對齊側(cè)重于提高模型的幫助性、參與度和風(fēng)格,最終提供更自然和令人滿意的用戶體驗(yàn)。
代理能力:這涉及訓(xùn)練模型通過指定接口正確調(diào)用工具。在強(qiáng)化學(xué)習(xí)的實(shí)施過程中,模型被允許進(jìn)行完整的多輪交互周期,并獲得真實(shí)環(huán)境執(zhí)行反饋,從而提高其在長期決策任務(wù)中的表現(xiàn)和穩(wěn)定性。
專門場景的能力:在更專業(yè)的場景中,我們設(shè)計(jì)了針對特定上下文的任務(wù)。例如,在檢索增強(qiáng)生成(RAG)任務(wù)中,我們引入獎勵(lì)信號,引導(dǎo)模型生成準(zhǔn)確且符合上下文的answer。
為了為上述任務(wù)提供反饋,我們利用了三種不同類型的獎勵(lì):
(1)基于規(guī)則的獎勵(lì):基于規(guī)則的獎勵(lì)在推理強(qiáng)化學(xué)習(xí)階段被廣泛使用,并且對一般任務(wù)如遵循指令(Lambert等,2024)和格式遵循也很有用。設(shè)計(jì)良好的基于規(guī)則的獎勵(lì)可以高精度地評估模型輸出的正確性,防止獎勵(lì)操控等問題。
(2)有參考基于模型的獎勵(lì)與參考答案:在這種方法中,我們?yōu)槊總€(gè)query提供一個(gè)參考答案,并提示Qwen2.5-72B-Instruct根據(jù)該參考答案對模型的answer進(jìn)行評分。這種方法允許更靈活地處理多樣化的任務(wù),而無需嚴(yán)格的格式,從而避免了純規(guī)則獎勵(lì)可能出現(xiàn)的假陰性。
(3)無參考答案的基于模型的獎勵(lì):利用人類偏好數(shù)據(jù),我們訓(xùn)練一個(gè)獎勵(lì)模型,為模型answer分配標(biāo)量分?jǐn)?shù)。這種不依賴于參考答案的方法可以處理更廣泛的query,同時(shí)有效提升模型的參與度和幫助性。
6.強(qiáng)到弱的蒸餾
強(qiáng)到弱的蒸餾流程專門設(shè)計(jì)用于優(yōu)化輕量級模型,包括5個(gè)密集模型(Qwen3-0.6B、1.7B、4B、8B和14B)和一個(gè)MoE模型(Qwen3-30B-A3B)。這種方法在有效傳授強(qiáng)大的模式切換能力的同時(shí),提升了模型性能。蒸餾過程分為兩個(gè)主要階段:
(1)離線蒸餾:在這個(gè)初始階段,我們結(jié)合了在/think
和/no_think
模式下生成的教師模型的輸出進(jìn)行answer蒸餾。這有助于輕量級學(xué)生模型發(fā)展基本的推理能力和在不同思維模式之間切換的能力,為下一階段的在線訓(xùn)練奠定堅(jiān)實(shí)基礎(chǔ)。
(2)在線蒸餾:在這個(gè)階段,學(xué)生模型生成在線序列進(jìn)行微調(diào)。具體而言,采樣提示,學(xué)生模型在/think
或/no_think
模式下生成answer。然后,通過將其logits與教師模型(Qwen3-32B或Qwen3-235B-A22B)的logits對齊,微調(diào)學(xué)生模型以最小化KL散度。
附:Qwen3 系列大型語言模型技術(shù)報(bào)告
https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
最后推薦由本文作者最新出版的技術(shù)書籍——《百面大模型》(羊駝書),本書按“二星到五星”難度體系,精選約 100 道大模型面試高頻真題,覆蓋 MoE、預(yù)訓(xùn)練、SFT、PEFT、RLHF、DPO、RAG、智能體等核心考點(diǎn),配套題目目錄,便于高效查漏補(bǔ)缺。
由 AI 領(lǐng)域大 V“包包大人”領(lǐng)銜,美團(tuán)技術(shù)專家與北航新生代強(qiáng)強(qiáng)聯(lián)合編寫,內(nèi)容專業(yè)權(quán)威。獲 ACL Fellow 劉群、周明,《深度強(qiáng)化學(xué)習(xí)》作者王樹森和黎彧君等 8 位業(yè)內(nèi)大咖聯(lián)合推薦,是大模型求職者的實(shí)戰(zhàn)寶典。
購買地址:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.