99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Qwen3技術(shù)報(bào)告解讀

0
分享至

太長不看版本:

1.三階段預(yù)訓(xùn)練,先30萬億4096長度的通用訓(xùn)練,再5T的4096推理訓(xùn)練帶衰減學(xué)習(xí)率,最后長文本32767訓(xùn)練。

2.長cot冷啟動:qwq32b造數(shù)據(jù),qwen72B+人工洗數(shù)據(jù)。

3.推理RL:選用無leak的多樣性的難度適中的數(shù)據(jù)跑GRPO。

4.思維鏈開啟和關(guān)閉:通過一個(gè)specitoken來在數(shù)據(jù)里傳導(dǎo),prompt加/think/no_think標(biāo)志,然后訓(xùn)練。混合著也學(xué)會了自動的短cot模式,很神奇。

5.RM設(shè)計(jì):涵蓋20多種不同任務(wù),每個(gè)任務(wù)都有定制的評分標(biāo)準(zhǔn),規(guī)則+模型(有無參考答案)。

6.蒸餾到小模型:logits蒸餾非數(shù)據(jù)蒸餾,效果更好。

整體流程

詳細(xì)精煉版(去除評估部分) 預(yù)訓(xùn)練階段

Qwen3模型通過三個(gè)階段進(jìn)行預(yù)訓(xùn)練:

(1)一般階段 (S1):在第一個(gè)預(yù)訓(xùn)練階段,所有Qwen3模型在超過30萬億個(gè)標(biāo)記上進(jìn)行訓(xùn)練,序列長度為4,096個(gè)標(biāo)記。在此階段,模型已在語言能力和一般世界知識上完成全面預(yù)訓(xùn)練,訓(xùn)練數(shù)據(jù)覆蓋119種語言和方言。

(2)推理階段 (S2):為了進(jìn)一步提高推理能力,我們通過增加STEM、編碼、推理和合成數(shù)據(jù)的比例來優(yōu)化這一階段的預(yù)訓(xùn)練語料庫。模型在序列長度為4,096個(gè)標(biāo)記的情況下,進(jìn)一步預(yù)訓(xùn)練了約5T的高質(zhì)量標(biāo)記。我們還加快了這一階段的學(xué)習(xí)率衰減。

(3)長文本階段:在最終的預(yù)訓(xùn)練階段,我們收集高質(zhì)量的長文本語料庫,以擴(kuò)展Qwen3模型的上下文長度。所有模型在數(shù)千億個(gè)標(biāo)記上進(jìn)行預(yù)訓(xùn)練,序列長度為32,768個(gè)標(biāo)記。長文本語料庫包括75%的文本長度在16,384到32,768個(gè)標(biāo)記之間,25%的文本長度在4,096到16,384個(gè)標(biāo)記之間。根據(jù)Qwen2.5(Yang等,2024b),我們使用ABF技術(shù)(Xiong等,2023)將RoPE的基礎(chǔ)頻率從10,000提高到1,000,000。同時(shí),我們引入YARN(Peng等,2023)和雙塊注意力(DCA,An等,2024),以在推理過程中實(shí)現(xiàn)序列長度容量的四倍增加。

與Qwen2.5(Yang等,2024b)類似,我們基于上述三個(gè)預(yù)訓(xùn)練階段開發(fā)了最佳超參數(shù)(例如,學(xué)習(xí)率調(diào)度和批量大小)預(yù)測的縮放法則。

通過廣泛的實(shí)驗(yàn),我們系統(tǒng)地研究了模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練階段與最佳訓(xùn)練超參數(shù)之間的關(guān)系。最后,我們?yōu)槊總€(gè)密集模型或MoE模型設(shè)定了預(yù)測的最佳學(xué)習(xí)率和批量大小策略。

后訓(xùn)練階段 1 長鏈思維冷啟動

我們首先整理一個(gè)涵蓋廣泛類別的綜合數(shù)據(jù)集,包括數(shù)學(xué)、代碼、邏輯推理和一般STEM問題。數(shù)據(jù)集中的每個(gè)問題都配有經(jīng)過驗(yàn)證的參考答案或基于代碼的測試用例。該數(shù)據(jù)集作為長鏈思維(long-CoT)訓(xùn)練的“冷啟動”階段的基礎(chǔ)。

數(shù)據(jù)集構(gòu)建涉及嚴(yán)格的兩階段過濾過程:query過濾和answer過濾。在query過濾階段,我們使用Qwen2.5-72B-Instruct識別并移除那些不易驗(yàn)證的query。這包括包含多個(gè)子問題的query或請求生成一般文本的query。

此外,我們排除那些Qwen2.5-72B-Instruct能夠在不使用鏈?zhǔn)酵评淼那闆r下正確回答的query。這有助于防止模型依賴表面的猜測,并確保僅包含需要更深入推理的復(fù)雜問題。此外,我們使用Qwen2.5-72B-Instruct對每個(gè)query的領(lǐng)域進(jìn)行注釋,以保持?jǐn)?shù)據(jù)集中領(lǐng)域表示的平衡。

在保留驗(yàn)證query集后,我們?yōu)槊總€(gè)剩余query生成N個(gè)候選answer,使用QwQ-32B(Qwen團(tuán)隊(duì),2025年)。當(dāng)QwQ-32B持續(xù)無法生成正確的解決方案時(shí),人工評估員會手動評估answer的準(zhǔn)確性。

對于通過率為正的query,進(jìn)一步嚴(yán)格的過濾標(biāo)準(zhǔn)被應(yīng)用,以去除以下answer:(1) 產(chǎn)生錯(cuò)誤的最終答案,(2) 包含大量重復(fù),(3) 明顯表明猜測而沒有足夠的推理,(4) 思考與總結(jié)內(nèi)容之間存在不一致,(5) 涉及不當(dāng)?shù)恼Z言混合或風(fēng)格轉(zhuǎn)變,或(6) 被懷疑與潛在驗(yàn)證集項(xiàng)目過于相似。

隨后,經(jīng)過精心挑選的精煉數(shù)據(jù)集子集用于推理模式的初始冷啟動訓(xùn)練。此階段的目標(biāo)是向模型灌輸基礎(chǔ)推理模式,而不過分強(qiáng)調(diào)即時(shí)推理性能。

這種方法確保模型的潛力不受限制,從而在隨后的強(qiáng)化學(xué)習(xí)(RL)階段提供更大的靈活性和改進(jìn)。為了有效實(shí)現(xiàn)這一目標(biāo),最好在這一準(zhǔn)備階段盡量減少訓(xùn)練樣本和訓(xùn)練步驟的數(shù)量。

2 推理強(qiáng)化學(xué)習(xí)

在推理強(qiáng)化學(xué)習(xí)階段使用的 query-verifier對必須滿足以下四個(gè)標(biāo)準(zhǔn):(1) 在冷啟動階段未被使用。(2) 對于冷啟動模型是可學(xué)習(xí)的。(3) 盡可能具有挑戰(zhàn)性。(4) 涵蓋廣泛的子領(lǐng)域。我們最終收集了總共3,995個(gè) query-verifier對,并采用GRPO(Shao等,2024)來更新模型參數(shù)。

我們觀察到,使用較大的批量大小和每個(gè)query較高的回合數(shù),以及離線策略訓(xùn)練以提高樣本效率,對訓(xùn)練過程是有益的。我們還解決了如何通過控制模型的熵來平衡探索與利用,以實(shí)現(xiàn)穩(wěn)步增加或保持不變。

3 思維模式融合

思維模式融合階段的目標(biāo)是將“非思維”能力整合到先前開發(fā)的“思維”模型中。這種方法使開發(fā)者能夠管理和控制推理行為,同時(shí)降低了為思維和非思維任務(wù)部署單獨(dú)模型的成本和復(fù)雜性。

為此,我們對推理強(qiáng)化學(xué)習(xí)模型進(jìn)行持續(xù)的監(jiān)督微調(diào),并設(shè)計(jì)一個(gè)聊天模板以融合這兩種模式。此外,我們發(fā)現(xiàn)能夠熟練處理這兩種模式的模型在不同的思維預(yù)算下表現(xiàn)始終良好。

SFT數(shù)據(jù)的構(gòu)建:SFT數(shù)據(jù)集結(jié)合了“思考”和“非思考”數(shù)據(jù)。

為了確保第二階段模型的性能不受額外SFT的影響,“思考”數(shù)據(jù)是通過對第一階段query進(jìn)行拒絕采樣生成的,使用的是第二階段模型本身。

“非思考”數(shù)據(jù)則經(jīng)過精心策劃,以涵蓋多樣化的任務(wù),包括編碼、數(shù)學(xué)、遵循指令、多語言任務(wù)、創(chuàng)意寫作、問答和角色扮演。此外,我們使用自動生成的檢查清單來評估“非思考”數(shù)據(jù)的answer質(zhì)量。為了提高低資源語言任務(wù)的表現(xiàn),我們特別增加了翻譯任務(wù)的比例。

聊天模板設(shè)計(jì):為了更好地整合這兩種模式并使用戶能夠動態(tài)切換模型的思維過程,我們?yōu)镼wen3設(shè)計(jì)了聊天模板,如表9所示。具體而言,對于思維模式和非思維模式的樣本,我們在用戶query或系統(tǒng)消息中分別引入/think/no_think標(biāo)志。這使得模型能夠根據(jù)用戶的輸入選擇相應(yīng)的思維模式。

對于非思維模式樣本,我們在助手的answer中保留一個(gè)空的思維塊。該設(shè)計(jì)確保了模型內(nèi)部格式的一致性,并允許開發(fā)者通過在聊天模板中連接一個(gè)空的思維塊來防止模型進(jìn)行思考行為。默認(rèn)情況下,模型在思維模式下運(yùn)行;因此,我們添加了一些用戶query不包含/think標(biāo)志的思維模式訓(xùn)練樣本。

對于更復(fù)雜的多輪對話,我們隨機(jī)在用戶的query中插入多個(gè)/think/no_think標(biāo)志,模型的answer遵循最后遇到的標(biāo)志。

思維預(yù)算:思維模式融合的一個(gè)額外優(yōu)勢是,一旦模型學(xué)會在非思維和思維模式下answer,它自然會發(fā)展出處理中間情況的能力——基于不完整思維生成answer。

這一能力為實(shí)施對模型思維過程的預(yù)算控制奠定了基礎(chǔ)。具體而言,當(dāng)模型的思維長度達(dá)到用戶定義的閾值時(shí),我們手動停止思維過程并插入停止思維指令:“考慮到用戶的時(shí)間有限,我必須直接基于思維給出解決方案。”插入此指令后,模型繼續(xù)生成基于其到該時(shí)刻為止的累積推理的最終answer。

值得注意的是,這一能力并不是通過明確訓(xùn)練獲得的,而是作為應(yīng)用思維模式融合的結(jié)果自然出現(xiàn)的。

4 通用強(qiáng)化學(xué)習(xí)

通用強(qiáng)化學(xué)習(xí)階段旨在廣泛增強(qiáng)模型在多種場景下的能力和穩(wěn)定性。為此,我們建立了一個(gè)復(fù)雜的獎勵(lì)系統(tǒng),涵蓋20多種不同任務(wù),每個(gè)任務(wù)都有定制的評分標(biāo)準(zhǔn)。這些任務(wù)特別針對以下核心能力的提升:

  • 指令遵循:該能力確保模型準(zhǔn)確解讀并遵循用戶指令,包括與內(nèi)容、格式、長度和結(jié)構(gòu)化輸出相關(guān)的要求,提供符合用戶期望的answer。

  • 格式遵循:除了明確的指令外,我們期望模型遵循特定的格式約定。例如,它應(yīng)適當(dāng)?shù)豠nswer/think/no_think標(biāo)志,通過在思考和非思考模式之間切換,并始終使用指定的標(biāo)記(例如, 和)來分隔最終輸出中的思考和answer部分。

  • 偏好對齊:對于開放式query,偏好對齊側(cè)重于提高模型的幫助性、參與度和風(fēng)格,最終提供更自然和令人滿意的用戶體驗(yàn)。

  • 代理能力:這涉及訓(xùn)練模型通過指定接口正確調(diào)用工具。在強(qiáng)化學(xué)習(xí)的實(shí)施過程中,模型被允許進(jìn)行完整的多輪交互周期,并獲得真實(shí)環(huán)境執(zhí)行反饋,從而提高其在長期決策任務(wù)中的表現(xiàn)和穩(wěn)定性。

  • 專門場景的能力:在更專業(yè)的場景中,我們設(shè)計(jì)了針對特定上下文的任務(wù)。例如,在檢索增強(qiáng)生成(RAG)任務(wù)中,我們引入獎勵(lì)信號,引導(dǎo)模型生成準(zhǔn)確且符合上下文的answer。

5.REWARD設(shè)計(jì)

為了為上述任務(wù)提供反饋,我們利用了三種不同類型的獎勵(lì):

(1)基于規(guī)則的獎勵(lì):基于規(guī)則的獎勵(lì)在推理強(qiáng)化學(xué)習(xí)階段被廣泛使用,并且對一般任務(wù)如遵循指令(Lambert等,2024)和格式遵循也很有用。設(shè)計(jì)良好的基于規(guī)則的獎勵(lì)可以高精度地評估模型輸出的正確性,防止獎勵(lì)操控等問題。

(2)有參考基于模型的獎勵(lì)與參考答案:在這種方法中,我們?yōu)槊總€(gè)query提供一個(gè)參考答案,并提示Qwen2.5-72B-Instruct根據(jù)該參考答案對模型的answer進(jìn)行評分。這種方法允許更靈活地處理多樣化的任務(wù),而無需嚴(yán)格的格式,從而避免了純規(guī)則獎勵(lì)可能出現(xiàn)的假陰性。

(3)無參考答案的基于模型的獎勵(lì):利用人類偏好數(shù)據(jù),我們訓(xùn)練一個(gè)獎勵(lì)模型,為模型answer分配標(biāo)量分?jǐn)?shù)。這種不依賴于參考答案的方法可以處理更廣泛的query,同時(shí)有效提升模型的參與度和幫助性。

6.強(qiáng)到弱的蒸餾

強(qiáng)到弱的蒸餾流程專門設(shè)計(jì)用于優(yōu)化輕量級模型,包括5個(gè)密集模型(Qwen3-0.6B、1.7B、4B、8B和14B)和一個(gè)MoE模型(Qwen3-30B-A3B)。這種方法在有效傳授強(qiáng)大的模式切換能力的同時(shí),提升了模型性能。蒸餾過程分為兩個(gè)主要階段:

(1)離線蒸餾:在這個(gè)初始階段,我們結(jié)合了在/think/no_think模式下生成的教師模型的輸出進(jìn)行answer蒸餾。這有助于輕量級學(xué)生模型發(fā)展基本的推理能力和在不同思維模式之間切換的能力,為下一階段的在線訓(xùn)練奠定堅(jiān)實(shí)基礎(chǔ)。

(2)在線蒸餾:在這個(gè)階段,學(xué)生模型生成在線序列進(jìn)行微調(diào)。具體而言,采樣提示,學(xué)生模型在/think/no_think模式下生成answer。然后,通過將其logits與教師模型(Qwen3-32B或Qwen3-235B-A22B)的logits對齊,微調(diào)學(xué)生模型以最小化KL散度。

附:Qwen3 系列大型語言模型技術(shù)報(bào)告


https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

最后推薦由本文作者最新出版的技術(shù)書籍——《百面大模型》(羊駝書),本書按“二星到五星”難度體系,精選約 100 道大模型面試高頻真題,覆蓋 MoE、預(yù)訓(xùn)練、SFT、PEFT、RLHF、DPO、RAG、智能體等核心考點(diǎn),配套題目目錄,便于高效查漏補(bǔ)缺。

由 AI 領(lǐng)域大 V“包包大人”領(lǐng)銜,美團(tuán)技術(shù)專家與北航新生代強(qiáng)強(qiáng)聯(lián)合編寫,內(nèi)容專業(yè)權(quán)威。獲 ACL Fellow 劉群、周明,《深度強(qiáng)化學(xué)習(xí)》作者王樹森和黎彧君等 8 位業(yè)內(nèi)大咖聯(lián)合推薦,是大模型求職者的實(shí)戰(zhàn)寶典。

購買地址:

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
日本一島嶼3天地震300余次,有學(xué)生戴頭盔上學(xué)!“7月5日大災(zāi)難”傳言引恐慌

日本一島嶼3天地震300余次,有學(xué)生戴頭盔上學(xué)!“7月5日大災(zāi)難”傳言引恐慌

紅星新聞
2025-06-25 13:52:20
網(wǎng)紅書店招牌突然被拆!網(wǎng)友吵起來了

網(wǎng)紅書店招牌突然被拆!網(wǎng)友吵起來了

深圳晚報(bào)
2025-06-25 15:48:57
正式退出,武磊發(fā)聲,前往西班牙,上港批準(zhǔn),身價(jià)狂跌到70萬

正式退出,武磊發(fā)聲,前往西班牙,上港批準(zhǔn),身價(jià)狂跌到70萬

樂聊球
2025-06-25 10:20:01
中超烏龍引援!150萬歐外援,落地國內(nèi)僅1天,改變主意連夜回法國

中超烏龍引援!150萬歐外援,落地國內(nèi)僅1天,改變主意連夜回法國

小金體壇大視野
2025-06-24 22:59:54
一瓶飛天茅臺月內(nèi)跌近300元!專家:相信價(jià)格會很快恢復(fù)

一瓶飛天茅臺月內(nèi)跌近300元!專家:相信價(jià)格會很快恢復(fù)

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-06-25 14:01:30
高速大橋垮塌后,貴州省委書記立即調(diào)整行程奔赴現(xiàn)場

高速大橋垮塌后,貴州省委書記立即調(diào)整行程奔赴現(xiàn)場

觀察者網(wǎng)
2025-06-24 15:16:20
中紀(jì)委再劃紅線!公務(wù)員下班后吃飯,這4種行為將被嚴(yán)肅追責(zé)!

中紀(jì)委再劃紅線!公務(wù)員下班后吃飯,這4種行為將被嚴(yán)肅追責(zé)!

鬼菜生活
2025-06-17 12:39:27
條款生效,杰倫-格林在杜蘭特交易中收獲502332美元交易保證金

條款生效,杰倫-格林在杜蘭特交易中收獲502332美元交易保證金

懂球帝
2025-06-24 16:27:26
河南38歲寶媽“時(shí)隔20年再戰(zhàn)高考”后續(xù):總成績565分,超當(dāng)?shù)貧v史類本科分?jǐn)?shù)線近100分

河南38歲寶媽“時(shí)隔20年再戰(zhàn)高考”后續(xù):總成績565分,超當(dāng)?shù)貧v史類本科分?jǐn)?shù)線近100分

上游新聞
2025-06-25 17:13:44
黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

素素娛樂
2025-06-25 10:18:47
全國城管機(jī)構(gòu)大撤銷!百萬城管咋辦?六個(gè)方案能解決重就業(yè)問題?

全國城管機(jī)構(gòu)大撤銷!百萬城管咋辦?六個(gè)方案能解決重就業(yè)問題?

說宇宙
2025-06-22 11:20:03
法甲官方確認(rèn),7冠王里昂被強(qiáng)制降級!原因揭曉,曼城趁火打劫

法甲官方確認(rèn),7冠王里昂被強(qiáng)制降級!原因揭曉,曼城趁火打劫

球場沒跑道
2025-06-25 09:34:53
俄空軍司令科貝拉乘直升機(jī)視察前線被烏軍擊落,當(dāng)場喪生

俄空軍司令科貝拉乘直升機(jī)視察前線被烏軍擊落,當(dāng)場喪生

環(huán)球熱點(diǎn)快評
2025-06-24 09:03:00
央視曝光知名國酒,純酒精兌水,年份包裝全造假,成本4元賣150

央視曝光知名國酒,純酒精兌水,年份包裝全造假,成本4元賣150

曉風(fēng)說
2025-06-24 16:58:34
又一運(yùn)車船起火沉沒!

又一運(yùn)車船起火沉沒!

電動知家
2025-06-25 13:58:45
大量英國游客涌入北京,打著旅游的“幌子”,其實(shí)是為了二鍋頭酒

大量英國游客涌入北京,打著旅游的“幌子”,其實(shí)是為了二鍋頭酒

延邊廣播電視臺
2025-06-24 16:28:10
北京天氣“反轉(zhuǎn)”了!未來這幾天有雨——

北京天氣“反轉(zhuǎn)”了!未來這幾天有雨——

BRTV新聞
2025-06-25 14:33:53
法學(xué)教授勞東燕報(bào)警遇阻:基層權(quán)力傲慢現(xiàn)形!

法學(xué)教授勞東燕報(bào)警遇阻:基層權(quán)力傲慢現(xiàn)形!

中央路知事
2025-06-24 22:22:45
重磅更新!6月25日中國女籃傳來三大要聞,宮魯鳴表態(tài)引熱議

重磅更新!6月25日中國女籃傳來三大要聞,宮魯鳴表態(tài)引熱議

星Xin辰大海
2025-06-25 14:48:26
首家香港房企“暴雷”!四大家族富不過三代?

首家香港房企“暴雷”!四大家族富不過三代?

帥真商業(yè)
2025-06-24 18:31:23
2025-06-25 18:23:00
開源中國 incentive-icons
開源中國
每天為開發(fā)者推送最新技術(shù)資訊
7147文章數(shù) 34424關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運(yùn)往全國

頭條要聞

特朗普稱中國可以繼續(xù)從伊朗購買石油 外交部回應(yīng)

頭條要聞

特朗普稱中國可以繼續(xù)從伊朗購買石油 外交部回應(yīng)

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機(jī)郭碧婷,全程無交流像陌生人

財(cái)經(jīng)要聞

滬指創(chuàng)年內(nèi)新高 這次真不一樣了?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內(nèi)飾

態(tài)度原創(chuàng)

本地
時(shí)尚
游戲
教育
公開課

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

挑對耳環(huán)=開掛!這15款巨in巨高級,太顯臉小了!

幻唐志6月門派大改:靈月山時(shí)代來了,這波加強(qiáng)終于要起飛!

教育要聞

提前批志愿推進(jìn)平行志愿模式改革 考生該如何報(bào)考

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 西丰县| 饶阳县| 建宁县| 正蓝旗| 乾安县| 保靖县| 加查县| 桐柏县| 铜梁县| 肇东市| 宣威市| 松原市| 额济纳旗| 黔西| 玉环县| 巴东县| 会理县| 罗甸县| 泾阳县| 沙田区| 金秀| 澄城县| 海原县| 达日县| 新竹县| 同仁县| 甘泉县| 泰顺县| 龙井市| 涟源市| 南丹县| 沂源县| 舟山市| 囊谦县| 阳信县| 兴化市| 城市| 梁河县| 贵阳市| 蕉岭县| 大庆市|