99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

漫畫趣解:大模型預訓練、后訓練、微調

0
分享至

上個月,DeepSeek悄悄做了一次更新,發布了一個小版本:DeepSeek-V3-0324。



這個版本大幅提高了在推理類任務上的表現水平,在數學、代碼類相關評測集上取得了超過 GPT-4.5 的得分成績。



怎么做到的呢?DeepSeek官方文檔是這么說↓

新版 V3 模型借鑒 DeepSeek-R1 模型訓練過程中所使用的強化學習技術,與之前的 DeepSeek-V3 使用同樣的 base 模型,僅改進了后訓練方法。

這里面提到了一個詞:后訓練

啥是后訓練,跟預訓練有啥區別?

今天我們用最通俗的比喻,來講講大模型三個不同階段的訓練方法:?預訓練(Pre-training)?后訓練(Post-training)?微調(Fine-tuning)。

先看預訓練

預訓練就是用大量的通用數據集先訓練模型,讓它掌握基礎知識和技能(通用語言能力和世界常識,比如剛發布的Llama 4在200種語言上進行預訓練)。

這就好比我們的中小學階段,系統地學習語文、數學、英語等基礎學科知識。



這個階段數據規模龐大,訓練成本高,周期長(數萬GPU天),比如Llama 4 Scout預訓練就使用了40萬億tokens數據

想想我們小時候刷過的題、吃過的苦、花費的時間、挨過的罵……

預訓練的成本和時間一下子就具象化了。



再說后訓練

后訓練是指在預訓練完成后的進一步訓練階段,目的在于讓模型更好地適應實際的特定任務或應用場景。

這就好比高中畢業(預訓練結束),考上大學,有了明確的專業方向,開始強化專業知識。



后訓練階段,數據規模小,通常是特定領域的數據(專業基礎課和專業課),訓練周期短(修夠學分就行)。

回想一下你的大學生活,是不是比以前輕松多了。



不過,后訓練往往不止一次,可能要根據實際需求,持續深造,不斷優化。

這就好比我們上完本科,可能還要碩士、博士,持續深造,讓自己的專業能力越來越扎實。



目前,在模型后訓練環節,比較流行的是采用強化學習(RL:Reinforcement Learning)的方法。比如在DeepSeek-V3小版本發布的通告里,就特別指出了自己采用了強化學習進行后訓練。

簡單講,強化學習就后訓練的過程中不斷告訴模型:①你做得好,繼續保持(給正反饋);②你做的不好,趕緊改正(給負反饋)。



通過這種“獎懲機制”,讓模型學習更有針對性,表現也更好。

但是這種”打一巴掌、給個甜棗“的方法,有時候會把模型心態搞崩,太過于追求獎勵的結果了而走極端。



所以,為了避免走極端,最近流行一種新的強化學習方法,叫做GRPO(引導式正則化策略優化),比如DeepSeek R1的訓練就采用了這種方法。

GRPO就是在傳統強化學習的獎勵機制之上,加入一個額外的約束(正則項),確保和最初的“比較好的模型”不會差距太大。



這樣模型就可以平穩地進步,既能拿到高獎勵,又不會走極端。

如此,GRPO成了當下大模型后訓練中,最流行的強化學習手段,能更安全、穩定地提升AI的表現,生成的內容更符合人類喜歡的風格和預期。



最后說說微調

嚴格來講,把微調單拎出來講并不科學,因為微調其實也是模型「后訓練」的一種方法。

不過,一般后訓練(像前面說的強化學習方法),發生在模型提供商那里。模型提供商在「預訓練」完成以后,通過多次「后訓練」優化,最終把模型打造成可交付的產品或服務。



而微調這種「后訓練」,通常發生在模型使用者那里(尤其是行業客戶場景)。

只因出徒后的大模型雖然基礎知識豐富、專業能力一流,可是實戰技巧卻是空白,到了行業場景沒法直接上崗。

比如——



怎么辦呢?進行上崗培訓,這就是微調。

微調是針對特定任務(修電腦)的訓練,數據量小但很精準、具體,老司機會把他的具體修理經驗交給你,讓你的知識更接地氣。



至此,一個大模型經過預訓練、后訓練、微調。

終于可以上崗干活啦。



簡單總結下↓

預訓練:基礎知識廣泛學;

后訓練:專業領域深入學;

微調:具體實操崗前學。



好了,基本概念介紹完畢。

從目前的國內的趨勢看,做大規模預訓練的公司會越來越少(坊間傳聞,今年上半年真正在做預訓練的公司只有兩三家)。

未來訓練方面的主要需求都是后訓練和微調(當然更大的需求是推理)。

可是說,隨著DeepSeek的半路殺出,國內大模型戰役的第一階段,已經結束,“裸泳者”即將浮出水面。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
郭臺銘做夢也沒想到,富士康“賞飯論“破產,人果然不能忘本!

郭臺銘做夢也沒想到,富士康“賞飯論“破產,人果然不能忘本!

別人都叫我阿腈
2025-07-15 17:45:32
普京被特朗普惹火了,下令一直打到西方求和,特朗普“光速服軟”

普京被特朗普惹火了,下令一直打到西方求和,特朗普“光速服軟”

獵火照狼山
2025-07-16 21:31:24
美國新兵推結果:中美開戰7天后4萬解放軍陣亡,美10幾個基地損毀

美國新兵推結果:中美開戰7天后4萬解放軍陣亡,美10幾個基地損毀

阿器談史
2025-07-12 18:38:43
宗馥莉使出殺手锏,三大絕招擺平私生子風波,弟妹們這次輸得徹底

宗馥莉使出殺手锏,三大絕招擺平私生子風波,弟妹們這次輸得徹底

海闊山遙YAO
2025-07-15 10:37:19
親美的下場,再現南北分裂危機,或將悲劇重演,中方還會出手嗎

親美的下場,再現南北分裂危機,或將悲劇重演,中方還會出手嗎

睡什么起來嗨
2025-07-16 15:02:14
太強了,王毅外長拿臺當局實控島嶼舉例,一句話讓40國啞口無言

太強了,王毅外長拿臺當局實控島嶼舉例,一句話讓40國啞口無言

古事尋蹤記
2025-07-16 10:01:58
李湘風波再升級,被曝泰國求子只是冰山一角,11年前就懷上二胎

李湘風波再升級,被曝泰國求子只是冰山一角,11年前就懷上二胎

查爾菲的筆記
2025-07-16 22:26:43
一句山姆專屬無任何添加,溜溜梅把自己送上了熱搜……

一句山姆專屬無任何添加,溜溜梅把自己送上了熱搜……

柴狗夫斯基
2025-07-16 11:44:03
社保好消息!2025年7月起,不繳、少繳、斷繳社保,將成為過去式

社保好消息!2025年7月起,不繳、少繳、斷繳社保,將成為過去式

社保小達人
2025-07-16 09:30:08
王偉忠曾預言成真?大S臨終前還在聯系汪小菲,真相曝光

王偉忠曾預言成真?大S臨終前還在聯系汪小菲,真相曝光

小嵩
2025-07-17 08:01:07
吵上熱搜、上百條差評!山姆緊急下架好麗友派等多款零食!盼盼、洽洽被曝改用英文名上架山姆,包裝高級、品牌更名就等于品質升級?

吵上熱搜、上百條差評!山姆緊急下架好麗友派等多款零食!盼盼、洽洽被曝改用英文名上架山姆,包裝高級、品牌更名就等于品質升級?

每日經濟新聞
2025-07-16 01:26:05
已下架!七大著名酸奶全軍覆沒,實為科技糖水,以后別再被騙了

已下架!七大著名酸奶全軍覆沒,實為科技糖水,以后別再被騙了

好賢觀史記
2025-07-15 21:02:07
一個1.6億,一個僅2500萬,皇馬與巴薩夏窗投入懸殊,令人驚嘆

一個1.6億,一個僅2500萬,皇馬與巴薩夏窗投入懸殊,令人驚嘆

星耀國際足壇
2025-07-16 20:48:37
剛剛,沖上熱搜!特斯拉新車Model Y L官宣,預計售價約40萬元

剛剛,沖上熱搜!特斯拉新車Model Y L官宣,預計售價約40萬元

中國基金報
2025-07-16 22:16:15
巨變!IFAB考慮修改點球規則:點球被撲算死球,進攻方不能補射!

巨變!IFAB考慮修改點球規則:點球被撲算死球,進攻方不能補射!

直播吧
2025-07-16 23:55:37
17歲中國學生在日本溺亡身上多處暴力傷痕,19歲主謀或被判19年有期徒刑

17歲中國學生在日本溺亡身上多處暴力傷痕,19歲主謀或被判19年有期徒刑

紅星新聞
2025-07-16 18:38:11
BR長文解釋科比未進排名前10:他從未是“聯盟最佳球員”

BR長文解釋科比未進排名前10:他從未是“聯盟最佳球員”

懂球帝
2025-07-16 11:28:37
20多國領導人確定訪華,中方將備好最高禮遇,特朗普到底啥時候來

20多國領導人確定訪華,中方將備好最高禮遇,特朗普到底啥時候來

起喜電影
2025-07-17 06:28:36
都美竹宣布公開吳亦凡事件全過程!

都美竹宣布公開吳亦凡事件全過程!

嘻笑堂
2025-07-16 11:35:47
亞馬爾:我的10號球衣傳承自法蒂,我和梅西走的是不同的道路

亞馬爾:我的10號球衣傳承自法蒂,我和梅西走的是不同的道路

雷速體育
2025-07-17 06:59:37
2025-07-17 09:43:00
AI全球總部
AI全球總部
全球最新、最酷AI解決方案
1027文章數 716關注度
往期回顧 全部

科技要聞

不只H20?黃仁勛:希望對華銷售更好的芯片

頭條要聞

上海最大原拆原建小區回搬:始建于1958年 有94種戶型

頭條要聞

上海最大原拆原建小區回搬:始建于1958年 有94種戶型

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

宗馥莉的繼承之戰 會把娃哈哈打散嗎?

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

房產
旅游
本地
數碼
公開課

房產要聞

三亞又有好地要賣,起拍樓面價飆到了1.6萬/㎡!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

“別墅里面唱K”怎么就成了臺灣人的跳舞開關

數碼要聞

英特爾下一場大型活動將首次在亞利桑那州鳳凰城舉行

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南和县| 天门市| 雅安市| 无为县| 襄樊市| 常山县| 东明县| 奈曼旗| 平塘县| 安顺市| 赣州市| 福清市| 射阳县| 康马县| 唐河县| 阿勒泰市| 贵阳市| 奉节县| 靖西县| 盱眙县| 河东区| 扎赉特旗| 扶绥县| 永昌县| 双城市| 吐鲁番市| 荣昌县| 保山市| 若尔盖县| 灯塔市| 喜德县| 青海省| 平顺县| 永清县| 普洱| 海门市| 大化| 紫云| 临夏市| 陆川县| 孝昌县|