99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

漫畫(huà)趣解:大模型預(yù)訓(xùn)練、后訓(xùn)練、微調(diào)

0
分享至

上個(gè)月,DeepSeek悄悄做了一次更新,發(fā)布了一個(gè)小版本:DeepSeek-V3-0324。



這個(gè)版本大幅提高了在推理類任務(wù)上的表現(xiàn)水平,在數(shù)學(xué)、代碼類相關(guān)評(píng)測(cè)集上取得了超過(guò) GPT-4.5 的得分成績(jī)。



怎么做到的呢?DeepSeek官方文檔是這么說(shuō)↓

新版 V3 模型借鑒 DeepSeek-R1 模型訓(xùn)練過(guò)程中所使用的強(qiáng)化學(xué)習(xí)技術(shù),與之前的 DeepSeek-V3 使用同樣的 base 模型,僅改進(jìn)了后訓(xùn)練方法。

這里面提到了一個(gè)詞:后訓(xùn)練

啥是后訓(xùn)練,跟預(yù)訓(xùn)練有啥區(qū)別?

今天我們用最通俗的比喻,來(lái)講講大模型三個(gè)不同階段的訓(xùn)練方法:?預(yù)訓(xùn)練(Pre-training)?后訓(xùn)練(Post-training)?微調(diào)(Fine-tuning)。

先看預(yù)訓(xùn)練

預(yù)訓(xùn)練就是用大量的通用數(shù)據(jù)集先訓(xùn)練模型,讓它掌握基礎(chǔ)知識(shí)和技能(通用語(yǔ)言能力和世界常識(shí),比如剛發(fā)布的Llama 4在200種語(yǔ)言上進(jìn)行預(yù)訓(xùn)練)。

這就好比我們的中小學(xué)階段,系統(tǒng)地學(xué)習(xí)語(yǔ)文、數(shù)學(xué)、英語(yǔ)等基礎(chǔ)學(xué)科知識(shí)。



這個(gè)階段數(shù)據(jù)規(guī)模龐大,訓(xùn)練成本高,周期長(zhǎng)(數(shù)萬(wàn)GPU天),比如Llama 4 Scout預(yù)訓(xùn)練就使用了40萬(wàn)億tokens數(shù)據(jù)。

想想我們小時(shí)候刷過(guò)的題、吃過(guò)的苦、花費(fèi)的時(shí)間、挨過(guò)的罵……

預(yù)訓(xùn)練的成本和時(shí)間一下子就具象化了。



再說(shuō)后訓(xùn)練

后訓(xùn)練是指在預(yù)訓(xùn)練完成后的進(jìn)一步訓(xùn)練階段,目的在于讓模型更好地適應(yīng)實(shí)際的特定任務(wù)或應(yīng)用場(chǎng)景。

這就好比高中畢業(yè)(預(yù)訓(xùn)練結(jié)束),考上大學(xué),有了明確的專業(yè)方向,開(kāi)始強(qiáng)化專業(yè)知識(shí)。



后訓(xùn)練階段,數(shù)據(jù)規(guī)模小,通常是特定領(lǐng)域的數(shù)據(jù)(專業(yè)基礎(chǔ)課和專業(yè)課),訓(xùn)練周期短(修夠?qū)W分就行)。

回想一下你的大學(xué)生活,是不是比以前輕松多了。



不過(guò),后訓(xùn)練往往不止一次,可能要根據(jù)實(shí)際需求,持續(xù)深造,不斷優(yōu)化。

這就好比我們上完本科,可能還要碩士、博士,持續(xù)深造,讓自己的專業(yè)能力越來(lái)越扎實(shí)。



目前,在模型后訓(xùn)練環(huán)節(jié),比較流行的是采用強(qiáng)化學(xué)習(xí)(RL:Reinforcement Learning)的方法。比如在DeepSeek-V3小版本發(fā)布的通告里,就特別指出了自己采用了強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練。

簡(jiǎn)單講,強(qiáng)化學(xué)習(xí)就后訓(xùn)練的過(guò)程中不斷告訴模型:①你做得好,繼續(xù)保持(給正反饋);②你做的不好,趕緊改正(給負(fù)反饋)。



通過(guò)這種“獎(jiǎng)懲機(jī)制”,讓模型學(xué)習(xí)更有針對(duì)性,表現(xiàn)也更好。

但是這種”打一巴掌、給個(gè)甜棗“的方法,有時(shí)候會(huì)把模型心態(tài)搞崩,太過(guò)于追求獎(jiǎng)勵(lì)的結(jié)果了而走極端。



所以,為了避免走極端,最近流行一種新的強(qiáng)化學(xué)習(xí)方法,叫做GRPO(引導(dǎo)式正則化策略優(yōu)化),比如DeepSeek R1的訓(xùn)練就采用了這種方法。

GRPO就是在傳統(tǒng)強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)機(jī)制之上,加入一個(gè)額外的約束(正則項(xiàng)),確保和最初的“比較好的模型”不會(huì)差距太大。



這樣模型就可以平穩(wěn)地進(jìn)步,既能拿到高獎(jiǎng)勵(lì),又不會(huì)走極端。

如此,GRPO成了當(dāng)下大模型后訓(xùn)練中,最流行的強(qiáng)化學(xué)習(xí)手段,能更安全、穩(wěn)定地提升AI的表現(xiàn),生成的內(nèi)容更符合人類喜歡的風(fēng)格和預(yù)期。



最后說(shuō)說(shuō)微調(diào)

嚴(yán)格來(lái)講,把微調(diào)單拎出來(lái)講并不科學(xué),因?yàn)槲⒄{(diào)其實(shí)也是模型「后訓(xùn)練」的一種方法。

不過(guò),一般后訓(xùn)練(像前面說(shuō)的強(qiáng)化學(xué)習(xí)方法),發(fā)生在模型提供商那里。模型提供商在「預(yù)訓(xùn)練」完成以后,通過(guò)多次「后訓(xùn)練」優(yōu)化,最終把模型打造成可交付的產(chǎn)品或服務(wù)。



而微調(diào)這種「后訓(xùn)練」,通常發(fā)生在模型使用者那里(尤其是行業(yè)客戶場(chǎng)景)。

只因出徒后的大模型雖然基礎(chǔ)知識(shí)豐富、專業(yè)能力一流,可是實(shí)戰(zhàn)技巧卻是空白,到了行業(yè)場(chǎng)景沒(méi)法直接上崗。

比如——



怎么辦呢?進(jìn)行上崗培訓(xùn),這就是微調(diào)。

微調(diào)是針對(duì)特定任務(wù)(修電腦)的訓(xùn)練,數(shù)據(jù)量小但很精準(zhǔn)、具體,老司機(jī)會(huì)把他的具體修理經(jīng)驗(yàn)交給你,讓你的知識(shí)更接地氣。



至此,一個(gè)大模型經(jīng)過(guò)預(yù)訓(xùn)練、后訓(xùn)練、微調(diào)。

終于可以上崗干活啦。



簡(jiǎn)單總結(jié)下↓

預(yù)訓(xùn)練:基礎(chǔ)知識(shí)廣泛學(xué);

后訓(xùn)練:專業(yè)領(lǐng)域深入學(xué);

微調(diào):具體實(shí)操崗前學(xué)。



好了,基本概念介紹完畢。

從目前的國(guó)內(nèi)的趨勢(shì)看,做大規(guī)模預(yù)訓(xùn)練的公司會(huì)越來(lái)越少(坊間傳聞,今年上半年真正在做預(yù)訓(xùn)練的公司只有兩三家)。

未來(lái)訓(xùn)練方面的主要需求都是后訓(xùn)練和微調(diào)(當(dāng)然更大的需求是推理)。

可是說(shuō),隨著DeepSeek的半路殺出,國(guó)內(nèi)大模型戰(zhàn)役的第一階段,已經(jīng)結(jié)束,“裸泳者”即將浮出水面。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“火箭軍女神”李莉:因多次預(yù)判美軍陰謀,被美國(guó)列入制裁黑名單

“火箭軍女神”李莉:因多次預(yù)判美軍陰謀,被美國(guó)列入制裁黑名單

跳跳歷史
2025-05-14 10:24:39
不查不知道!陳芋汐的主教練余曉玲,原來(lái)是這么深藏不露

不查不知道!陳芋汐的主教練余曉玲,原來(lái)是這么深藏不露

曉風(fēng)說(shuō)
2025-05-07 09:36:08
必看!CCTV8新劇預(yù)告片震撼上線,40集古裝劇即將引爆收視!

必看!CCTV8新劇預(yù)告片震撼上線,40集古裝劇即將引爆收視!

樂(lè)楓電影
2025-05-25 13:30:57
燒光7億,關(guān)店近一半!40元一碗的高端面,年輕人實(shí)在咽不下去了

燒光7億,關(guān)店近一半!40元一碗的高端面,年輕人實(shí)在咽不下去了

小噎論事
2025-05-07 00:22:40
李在明:若當(dāng)選總統(tǒng),絕不針對(duì)特定個(gè)人進(jìn)行政治報(bào)復(fù)

李在明:若當(dāng)選總統(tǒng),絕不針對(duì)特定個(gè)人進(jìn)行政治報(bào)復(fù)

環(huán)球網(wǎng)資訊
2025-05-25 17:09:24
開(kāi)業(yè)2周就倒下,幾十萬(wàn)打水漂!餐飲賽道正批量"收割"失業(yè)者

開(kāi)業(yè)2周就倒下,幾十萬(wàn)打水漂!餐飲賽道正批量"收割"失業(yè)者

派大星紀(jì)錄片
2025-05-24 17:48:40
小托馬斯:錫伯杜的球隊(duì)每年到最后都撐不住 因他不信任替補(bǔ)

小托馬斯:錫伯杜的球隊(duì)每年到最后都撐不住 因他不信任替補(bǔ)

直播吧
2025-05-25 07:42:03
6天5漲停!“可控核聚變概念股”緊急發(fā)聲!

6天5漲停!“可控核聚變概念股”緊急發(fā)聲!

證券時(shí)報(bào)e公司
2025-05-25 17:30:12
廣州舊改大動(dòng)作:156個(gè)小區(qū)開(kāi)啟改造!有你家嗎?

廣州舊改大動(dòng)作:156個(gè)小區(qū)開(kāi)啟改造!有你家嗎?

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-05-24 23:16:00
發(fā)現(xiàn)一個(gè)悲哀的現(xiàn)象:特別長(zhǎng)壽的老人,幾乎都是子女用生命在托舉

發(fā)現(xiàn)一個(gè)悲哀的現(xiàn)象:特別長(zhǎng)壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
蒼天饒過(guò)誰(shuí)!拒唱國(guó)歌否認(rèn)中國(guó)籍,倆兒子落戶國(guó)外,她現(xiàn)狀如何?

蒼天饒過(guò)誰(shuí)!拒唱國(guó)歌否認(rèn)中國(guó)籍,倆兒子落戶國(guó)外,她現(xiàn)狀如何?

boss外傳
2025-04-06 19:10:04
“我從未見(jiàn)過(guò)父親,為何要為他買單”,男生政審被刷,質(zhì)問(wèn)后愣住

“我從未見(jiàn)過(guò)父親,為何要為他買單”,男生政審被刷,質(zhì)問(wèn)后愣住

熙熙說(shuō)教
2025-05-20 20:40:56
“國(guó)家網(wǎng)絡(luò)身份認(rèn)證”來(lái)了!給個(gè)人信息穿上“防彈衣”

“國(guó)家網(wǎng)絡(luò)身份認(rèn)證”來(lái)了!給個(gè)人信息穿上“防彈衣”

新浪財(cái)經(jīng)
2025-05-24 13:41:08
一次又一次挑戰(zhàn)底線,終于引起公憤了!

一次又一次挑戰(zhàn)底線,終于引起公憤了!

末名先生
2025-05-22 16:07:40
比亞迪“掀桌子了”!續(xù)航2000公里,一口價(jià)5.98萬(wàn),還要啥自行車?

比亞迪“掀桌子了”!續(xù)航2000公里,一口價(jià)5.98萬(wàn),還要啥自行車?

隔壁說(shuō)車?yán)贤?/span>
2025-05-24 09:01:37
農(nóng)村倫理大爆炸!190斤婦女偷情70歲老漢,背后真相讓人沉默!

農(nóng)村倫理大爆炸!190斤婦女偷情70歲老漢,背后真相讓人沉默!

紅香娛
2025-05-25 14:50:00
有望下周簽約!瑞天空:利物浦給維爾茨2000萬(wàn)年薪,將簽長(zhǎng)期合同

有望下周簽約!瑞天空:利物浦給維爾茨2000萬(wàn)年薪,將簽長(zhǎng)期合同

直播吧
2025-05-25 15:51:08
曼城這個(gè)賽季四大皆空,瓜帥難辭其咎,他做了最糊涂的一個(gè)決定

曼城這個(gè)賽季四大皆空,瓜帥難辭其咎,他做了最糊涂的一個(gè)決定

零度眼看球
2025-05-25 06:58:27
被我國(guó)設(shè)為機(jī)密的小藥丸,傳承300年無(wú)人問(wèn)津,日本卻仿造年入7億

被我國(guó)設(shè)為機(jī)密的小藥丸,傳承300年無(wú)人問(wèn)津,日本卻仿造年入7億

毒sir財(cái)經(jīng)
2025-05-23 22:22:01
中國(guó)人均平均壽命真的有77.93歲那么高嗎?

中國(guó)人均平均壽命真的有77.93歲那么高嗎?

高博新視野
2025-05-21 11:59:05
2025-05-25 19:40:49
AI全球總部
AI全球總部
全球最新、最酷AI解決方案
1003文章數(shù) 717關(guān)注度
往期回顧 全部

科技要聞

馬斯克宣布回歸7x24小時(shí)工作狀態(tài)

頭條要聞

石破茂:要求美撤銷所有附加關(guān)稅是日方堅(jiān)定不移的立場(chǎng)

頭條要聞

石破茂:要求美撤銷所有附加關(guān)稅是日方堅(jiān)定不移的立場(chǎng)

體育要聞

武漢女足:從大學(xué)校園,到亞洲之巔

娛樂(lè)要聞

朱媛媛只留給女兒一句話,卻字字千金

財(cái)經(jīng)要聞

重組膠原測(cè)不到膠原?800億醫(yī)美巨頭回應(yīng)

汽車要聞

賽博風(fēng)旗艦轎車 全新小鵬P7申報(bào)信息曝光

態(tài)度原創(chuàng)

藝術(shù)
家居
房產(chǎn)
本地
公開(kāi)課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

家居要聞

輕奢品質(zhì) 開(kāi)闊的三口之家

房產(chǎn)要聞

連續(xù)17次提前交付!??谶@座頂流紅盤(pán),業(yè)主贏麻了!

本地新聞

巴黎沒(méi)有倍兒甜,但天津巧克力腦袋倍兒多

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 舞钢市| 和政县| 塔城市| 镇赉县| 新河县| 上犹县| 东阳市| 五常市| 甘泉县| 修文县| 金溪县| 康保县| 上栗县| 修文县| SHOW| 清远市| 黄梅县| 景泰县| 揭阳市| 富源县| 腾冲县| 普宁市| 沁源县| 渭南市| 岳池县| 张家港市| 朔州市| 嘉禾县| 文成县| 碌曲县| 犍为县| 崇明县| 永德县| 凤山市| 南京市| 益阳市| 大化| 密山市| 泰安市| 柳州市| 紫阳县|