99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Qwen3訓(xùn)練秘籍公開:思考/非思考融進(jìn)一個(gè)模型,大模型蒸餾小模型

0
分享至

  • 克雷西 發(fā)自 凹非寺
    量子位 | 公眾號(hào) QbitAI

Qwen3技術(shù)報(bào)告新鮮出爐,8款模型背后的關(guān)鍵技術(shù)被揭曉!

  • 采用了雙模式架構(gòu),一個(gè)模型同時(shí)支持推理和非推理任務(wù),根據(jù)需要自動(dòng)切換。
  • 訓(xùn)練和微調(diào)過程采取分段式策略,逐步構(gòu)建模型能力。
  • 采取了“大帶小”的模式,從大號(hào)模型中蒸餾數(shù)據(jù)訓(xùn)練小號(hào)模型。



有已經(jīng)讀完報(bào)告的網(wǎng)友,還發(fā)現(xiàn)了其中的更多亮點(diǎn)。

比如這位Hugging Face研究員感嘆,Qwen3在RL階段的樣本量,竟然不到4k。



思考/非思考,一個(gè)模型搞定

Qwen3系列包括6個(gè)密集模型,參數(shù)量分別為0.6B、1.7B、4B、8B、14B和32B;以及2個(gè)MoE模型,總參數(shù)量分別為30B和235B,激活參數(shù)量對(duì)應(yīng)為3B和22B。

密集模型的架構(gòu)與Qwen2.5相似,但移除了Qwen2中使用的QKV偏置,并在注意力機(jī)制中引入了QK-Norm,以確保Qwen3的穩(wěn)定訓(xùn)練。



與Qwen2.5-MoE不同,Qwen3-MoE設(shè)計(jì)不包含共享專家,另外Qwen3采用了全批次負(fù)載均衡損失來促進(jìn)專家專業(yè)化。



Qwen3的一個(gè)核心創(chuàng)新就是其雙重工作模式,也就是思考模式和非思考模式的融合,兩種模式分別對(duì)應(yīng)了復(fù)雜推理任務(wù)和快速應(yīng)答任務(wù)的需求。

為了靈活地在兩種模式間切換,Qwen3引入了thinking budget(思考預(yù)算)的概念。

Thinking budget本質(zhì)上是一個(gè)決定thinking mode下計(jì)算資源投入的參數(shù),它的大小與輸入問題的復(fù)雜程度成正相關(guān)。

當(dāng)接收到輸入后,模型會(huì)評(píng)估其復(fù)雜程度,動(dòng)態(tài)分配thinking budget。

簡單問題會(huì)被分配較少的thinking budget,使得模型傾向于快速給出答案;復(fù)雜問題則會(huì)分配較高的thinking budget,模型會(huì)投入更多算力深入思考后再給出答案。



Qwen3這樣訓(xùn)練

預(yù)訓(xùn)練環(huán)節(jié),Qwen3采用了三階段策略,逐步構(gòu)建和強(qiáng)化模型的語言理解和生成能力。

第一階段的目的是讓模型掌握語言和通用基本知識(shí),這部分的訓(xùn)練在通用語料上進(jìn)行,采用了4096個(gè)token的序列長度。

第二階段側(cè)重于增強(qiáng)模型的推理能力。此階段采用了更高質(zhì)量的語料,主要來自于STEM、編程、推理等領(lǐng)域。

通過在這些語料上的訓(xùn)練,模型的邏輯分析、因果推理等能力得到了顯著提升。此階段的序列長度仍為4096個(gè)token,但學(xué)習(xí)率衰減速度加快。

第三階段則專注于長文本能力,使用了研究團(tuán)隊(duì)專門收集的高質(zhì)量長文檔語料,并將訓(xùn)練序列長度擴(kuò)展到了32768個(gè)token。

通過在這些超長文本上的訓(xùn)練,模型學(xué)會(huì)了處理復(fù)雜的長距離依賴關(guān)系,掌握了跨段落、跨文檔的信息整合技能。



后訓(xùn)練同樣采用了分段式的方法,一共可以分為四個(gè)階段。



第一階段稱為長思維鏈冷啟動(dòng),目標(biāo)是為模型在數(shù)學(xué)和編程領(lǐng)域的推理任務(wù)建立初始的解題能力。

Qwen團(tuán)隊(duì)構(gòu)建了一個(gè)包含大量高質(zhì)量數(shù)學(xué)和編程問題的數(shù)據(jù)集,并為每個(gè)問題標(biāo)注了詳細(xì)的解題步驟,然后使用這些標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行監(jiān)督微調(diào),使其掌握解題的關(guān)鍵技能和常見思路。

具體來說,他們通過Qwen2.5-72B對(duì)問題進(jìn)行篩選,然后使用QwQ-32B模型自動(dòng)生成初步的解題步驟,這當(dāng)中,人類專家對(duì)這些自動(dòng)生成的解題步驟進(jìn)行核對(duì)和修正,確保其準(zhǔn)確性和可讀性。

這個(gè)階段的訓(xùn)練樣本數(shù)量和訓(xùn)練步數(shù)都被控制在一個(gè)較小的規(guī)模,目的是讓模型掌握基本的解題能力,而不是過度專門化。



第二階段則是推理強(qiáng)化學(xué)習(xí),在第一階段的基礎(chǔ)上進(jìn)一步引入了強(qiáng)化學(xué)習(xí),以優(yōu)化模型的解題策略。

他們從第一階段的數(shù)據(jù)集中篩選出了3995個(gè)問題,這些問題需要覆蓋一定領(lǐng)域、具備一定難度,但可被模型學(xué)習(xí)。

這一階段當(dāng)中,會(huì)通過GRPO對(duì)模型參數(shù)進(jìn)行更新。



第三階段思維模式融合,顧名思義,目的是將思考和非思考兩種模式融合進(jìn)同一個(gè)模型,這一過程使用了同時(shí)包含思考和非思考內(nèi)容的SFT數(shù)據(jù)集。

對(duì)于思考類型的樣本,Qwen團(tuán)隊(duì)沿用了前兩個(gè)階段的數(shù)據(jù)生成方法;對(duì)于非思考類型的樣本,則是廣泛收集了一些開放域?qū)υ挃?shù)據(jù),并針對(duì)性地生成了一些問候語、指令等樣本。

此外,團(tuán)隊(duì)還設(shè)計(jì)了一種聊天模板,在輸入側(cè)用一些特殊標(biāo)記來區(qū)分思考和非思考模式。

通過在這個(gè)混合數(shù)據(jù)集上進(jìn)行繼續(xù)預(yù)訓(xùn)練,并融入人類反饋,模型學(xué)會(huì)了根據(jù)輸入信號(hào)靈活切換兩種模式,形成了一個(gè)無縫集成的雙模態(tài)系統(tǒng)。



最后一個(gè)階段是通用強(qiáng)化學(xué)習(xí),目的是進(jìn)一步增強(qiáng)模型在多種場景下的能力和穩(wěn)定性。

該階段中,Qwen團(tuán)隊(duì)構(gòu)建了一個(gè)覆蓋廣泛任務(wù)的強(qiáng)化學(xué)習(xí)環(huán)境,包括問答、寫作、代碼生成、數(shù)學(xué)推理等20多個(gè)種類的任務(wù)。每個(gè)任務(wù)都設(shè)計(jì)了獨(dú)特的評(píng)分標(biāo)準(zhǔn)。

并且,這些特別針對(duì)指令遵循、格式遵循、偏好遵循等能力的提升。



除了這樣的訓(xùn)練模式之外,Qwen3家族還采用了“大帶小”的數(shù)據(jù)蒸餾模式。

蒸餾分為Off-policy蒸餾和On-policy蒸餾兩個(gè)主要階段。

類比人類學(xué)習(xí)的話,第一個(gè)階段像是背書,第二個(gè)階段則是刷題并自己根據(jù)答案訂正。



在Off-policy蒸餾階段,首先使用教師模型(MoE模型使用235B蒸餾30B,密集模型使用32B蒸餾其他)在大規(guī)模的數(shù)據(jù)集上生成大量高質(zhì)量的輸出。

然后,這些數(shù)據(jù)作為監(jiān)督信號(hào),對(duì)學(xué)生模型進(jìn)行訓(xùn)練,使之盡可能地模仿教師模型的輸出分布。

在這個(gè)階段,教師模型使用的是思考和非思考模式的混合輸出,這使得學(xué)生模型也能夠同時(shí)學(xué)習(xí)到應(yīng)對(duì)兩種模式的能力。

在On-policy蒸餾階段,研究團(tuán)隊(duì)采用了一種更加動(dòng)態(tài)和交互式的學(xué)習(xí)方式。

這個(gè)階段首先讓學(xué)生模型在實(shí)際任務(wù)中自主生成一系列輸出,然后將這些輸出與教師模型在相同任務(wù)上的輸出進(jìn)行比對(duì)。

學(xué)生模型的優(yōu)化目標(biāo)是最小化其輸出分布與教師模型輸出分布之間的差異。

通過這種持續(xù)的自我生成和比對(duì)過程,學(xué)生模型可以在實(shí)踐中不斷修正和完善其知識(shí)體系,使其輸出分布逐步逼近教師模型。

Qwen版DeepResearch上線

除了發(fā)布Qwen3的技術(shù)報(bào)告,Qwen Chat還全量上線了深度研究功能,此前該功能進(jìn)行了分階段測試。

按官方介紹,只要描述問題,然后回答模型給出的細(xì)化提問,等過一杯咖啡的時(shí)間,Qwen就能整理出一份研究報(bào)告。



官方案例中,Qwen研究了這樣的一個(gè)問題:

  • 醫(yī)療保健行業(yè)在過去三年中如何適應(yīng)遠(yuǎn)程醫(yī)療和數(shù)字健康工具?必要時(shí)使用表格讓表達(dá)更加清晰。

可以看到,在明確具體需求之后,Qwen規(guī)劃了方案,然后分成子問題進(jìn)行檢索、總結(jié),研究過程用時(shí)約8分半,最終生成了帶有表格的報(bào)告,并自動(dòng)導(dǎo)出pdf。



感興趣的話不妨體驗(yàn)一下~

報(bào)告地址:
https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
Qwen Chat:
https://chat.qwen.ai

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中美互降關(guān)稅后,直擊外貿(mào)一線:企業(yè)搶發(fā)貨,貨代頻“爆單”,港口貨運(yùn)高峰或下周出現(xiàn)

中美互降關(guān)稅后,直擊外貿(mào)一線:企業(yè)搶發(fā)貨,貨代頻“爆單”,港口貨運(yùn)高峰或下周出現(xiàn)

財(cái)聯(lián)社
2025-05-14 22:00:53
“第五個(gè)直轄市”呼聲再起?三大城市爭奪戰(zhàn),誰的勝算更大?

“第五個(gè)直轄市”呼聲再起?三大城市爭奪戰(zhàn),誰的勝算更大?

娛樂圈見解說
2025-05-09 15:41:13
簡直是搶錢!雅典出租車宰客門曝光,4公里收300歐元

簡直是搶錢!雅典出租車宰客門曝光,4公里收300歐元

以希臘之名
2025-05-14 20:15:50
湖人老板:交易濃眉因他想與中鋒打球;不希望交易引發(fā)不滿

湖人老板:交易濃眉因他想與中鋒打球;不希望交易引發(fā)不滿

懂球帝
2025-05-14 16:12:15
124 層 PCB !商用新紀(jì)錄

124 層 PCB !商用新紀(jì)錄

EETOP半導(dǎo)體社區(qū)
2025-05-13 11:32:37
老外為何來華后集體戒斷?240小時(shí)免簽引爆反向旅游潮

老外為何來華后集體戒斷?240小時(shí)免簽引爆反向旅游潮

野原111
2025-05-12 06:25:28
比低生育率更可怕的現(xiàn)象是,我國出現(xiàn)了大量的“單身潮”!

比低生育率更可怕的現(xiàn)象是,我國出現(xiàn)了大量的“單身潮”!

青眼財(cái)經(jīng)
2025-05-13 22:57:19
恭喜,樊振東上任,亮相杭州新崗位,回應(yīng)球迷下一個(gè)賽場見呼聲

恭喜,樊振東上任,亮相杭州新崗位,回應(yīng)球迷下一個(gè)賽場見呼聲

樂聊球
2025-05-14 11:17:42
不出5年,中國貶值最快的不是房子、現(xiàn)金,而是這3樣?xùn)|西

不出5年,中國貶值最快的不是房子、現(xiàn)金,而是這3樣?xùn)|西

發(fā)姐談房
2025-04-10 16:06:11
阿隆索執(zhí)教皇馬首簽曝光:花費(fèi)100萬,獲7500萬巨星!世俱杯亮相

阿隆索執(zhí)教皇馬首簽曝光:花費(fèi)100萬,獲7500萬巨星!世俱杯亮相

球場沒跑道
2025-05-14 10:47:44
央視點(diǎn)名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

央視點(diǎn)名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

說說史事
2025-05-08 17:42:56
戰(zhàn)爭泥潭中的俄羅斯質(zhì)疑:為什么是中國人趕超美國,而不是我們?

戰(zhàn)爭泥潭中的俄羅斯質(zhì)疑:為什么是中國人趕超美國,而不是我們?

通文知史
2025-05-14 08:05:03
女性偷腥后當(dāng)晚與丈夫同房是什么感覺?一位39歲的女人說出實(shí)情

女性偷腥后當(dāng)晚與丈夫同房是什么感覺?一位39歲的女人說出實(shí)情

混音情感
2025-02-15 11:31:02
再砸33億輸血萬科!深鐵集團(tuán)為何賭上家底也要救活這家房企?

再砸33億輸血萬科!深鐵集團(tuán)為何賭上家底也要救活這家房企?

社科品論
2025-05-14 14:13:08
薪資要價(jià)3000萬引皇馬不滿,小熊續(xù)約受阻,給“必走之人”轉(zhuǎn)機(jī)?

薪資要價(jià)3000萬引皇馬不滿,小熊續(xù)約受阻,給“必走之人”轉(zhuǎn)機(jī)?

里芃芃體育
2025-05-15 03:00:03
回顧:“淫魔尼姑”胡曉慧落網(wǎng),男弟子們交代內(nèi)幕,揭露背后真相

回顧:“淫魔尼姑”胡曉慧落網(wǎng),男弟子們交代內(nèi)幕,揭露背后真相

蘭姐說故事
2025-02-27 00:00:09
補(bǔ)強(qiáng)中衛(wèi)!皇馬正式報(bào)價(jià)懷森:2026年底前付清5000萬解約金

補(bǔ)強(qiáng)中衛(wèi)!皇馬正式報(bào)價(jià)懷森:2026年底前付清5000萬解約金

球事百科吖
2025-05-15 03:31:44
嫁給老外真的幸福嗎?網(wǎng)友:到了晚上真是生不如死

嫁給老外真的幸福嗎?網(wǎng)友:到了晚上真是生不如死

笑熬漿糊111
2025-05-11 20:42:16
雷軍微博開啟評(píng)論限制!小米近日陷入退車風(fēng)波

雷軍微博開啟評(píng)論限制!小米近日陷入退車風(fēng)波

第一財(cái)經(jīng)資訊
2025-05-14 15:22:24
上海25歲女兒和48歲母親同時(shí)懷孕,女兒偷偷做鑒定,結(jié)果卻愣住了

上海25歲女兒和48歲母親同時(shí)懷孕,女兒偷偷做鑒定,結(jié)果卻愣住了

溫情郵局
2025-03-24 17:41:05
2025-05-15 03:51:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10478文章數(shù) 176143關(guān)注度
往期回顧 全部

科技要聞

騰訊開始靠AI賺錢 馬化騰:貢獻(xiàn)是實(shí)質(zhì)性的

頭條要聞

印度外交部聲稱明確反對(duì)中國對(duì)藏南地區(qū)命名 中方駁斥

頭條要聞

印度外交部聲稱明確反對(duì)中國對(duì)藏南地區(qū)命名 中方駁斥

體育要聞

NBA最被低估球員,帶隊(duì)爆殺東部第一

娛樂要聞

趙麗穎趙德胤戀愛時(shí)間線被扒!

財(cái)經(jīng)要聞

中美互降關(guān)稅:企業(yè)搶發(fā)貨 貨代頻爆單

汽車要聞

配獵鷹駕駛輔助系統(tǒng)/軸距超3米 風(fēng)云A9L預(yù)計(jì)6月交付

態(tài)度原創(chuàng)

親子
本地
藝術(shù)
公開課
軍事航空

親子要聞

以為正常,其實(shí)是孩子過敏的表現(xiàn),很多家長都不知道

本地新聞

比演唱會(huì)還貴,這個(gè)新型理財(cái)產(chǎn)品收割了多少錢包

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國與沙特簽署1420億美元軍售協(xié)議

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 赤城县| 霍林郭勒市| 洱源县| 临沭县| 连州市| 海安县| 四子王旗| 安平县| 彩票| 祁门县| 大英县| 平山县| 蚌埠市| 清远市| 贵港市| 中宁县| 仪征市| 沂源县| 封开县| 西充县| 石屏县| 锦屏县| 中卫市| 呼图壁县| 镇赉县| 林甸县| 石城县| 崇仁县| 利川市| 临泉县| 彭水| 新源县| 洛南县| 墨脱县| 朝阳市| 浦江县| 黄浦区| 葫芦岛市| 汾西县| 桑日县| 绵阳市|