99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<sup id="ilmlc"></sup>

<s id="ilmlc"></s>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

漫畫趣解：大模型預訓練、后訓練、微調

2025-04-08 16:24:28　來源: AI全球總部

北京舉報

0

分享至

上個月，DeepSeek悄悄做了一次更新，發布了一個小版本：DeepSeek-V3-0324。

這個版本大幅提高了在推理類任務上的表現水平，在數學、代碼類相關評測集上取得了超過 GPT-4.5 的得分成績。

怎么做到的呢？DeepSeek官方文檔是這么說↓

新版 V3 模型借鑒 DeepSeek-R1 模型訓練過程中所使用的強化學習技術，與之前的 DeepSeek-V3 使用同樣的 base 模型，僅改進了后訓練方法。

這里面提到了一個詞：后訓練。

啥是后訓練，跟預訓練有啥區別？

今天我們用最通俗的比喻，來講講大模型三個不同階段的訓練方法：?預訓練（Pre-training）?后訓練（Post-training）?微調（Fine-tuning）。

先看預訓練

預訓練就是用大量的通用數據集先訓練模型，讓它掌握基礎知識和技能（通用語言能力和世界常識，比如剛發布的Llama 4在200種語言上進行預訓練）。

這就好比我們的中小學階段，系統地學習語文、數學、英語等基礎學科知識。

這個階段數據規模龐大，訓練成本高，周期長（數萬GPU天），比如Llama 4 Scout預訓練就使用了40萬億tokens數據。

想想我們小時候刷過的題、吃過的苦、花費的時間、挨過的罵……

預訓練的成本和時間一下子就具象化了。

再說后訓練

后訓練是指在預訓練完成后的進一步訓練階段，目的在于讓模型更好地適應實際的特定任務或應用場景。

這就好比高中畢業（預訓練結束），考上大學，有了明確的專業方向，開始強化專業知識。

后訓練階段，數據規模小，通常是特定領域的數據（專業基礎課和專業課），訓練周期短（修夠學分就行）。

回想一下你的大學生活，是不是比以前輕松多了。

不過，后訓練往往不止一次，可能要根據實際需求，持續深造，不斷優化。

這就好比我們上完本科，可能還要碩士、博士，持續深造，讓自己的專業能力越來越扎實。

目前，在模型后訓練環節，比較流行的是采用強化學習（RL：Reinforcement Learning）的方法。比如在DeepSeek-V3小版本發布的通告里，就特別指出了自己采用了強化學習進行后訓練。

簡單講，強化學習就后訓練的過程中不斷告訴模型：①你做得好，繼續保持（給正反饋）；②你做的不好，趕緊改正（給負反饋）。

通過這種“獎懲機制”，讓模型學習更有針對性，表現也更好。

但是這種”打一巴掌、給個甜棗“的方法，有時候會把模型心態搞崩，太過于追求獎勵的結果了而走極端。

所以，為了避免走極端，最近流行一種新的強化學習方法，叫做GRPO（引導式正則化策略優化），比如DeepSeek R1的訓練就采用了這種方法。

GRPO就是在傳統強化學習的獎勵機制之上，加入一個額外的約束（正則項），確保和最初的“比較好的模型”不會差距太大。

這樣模型就可以平穩地進步，既能拿到高獎勵，又不會走極端。

如此，GRPO成了當下大模型后訓練中，最流行的強化學習手段，能更安全、穩定地提升AI的表現，生成的內容更符合人類喜歡的風格和預期。

最后說說微調

嚴格來講，把微調單拎出來講并不科學，因為微調其實也是模型「后訓練」的一種方法。

不過，一般后訓練（像前面說的強化學習方法），發生在模型提供商那里。模型提供商在「預訓練」完成以后，通過多次「后訓練」優化，最終把模型打造成可交付的產品或服務。

而微調這種「后訓練」，通常發生在模型使用者那里（尤其是行業客戶場景）。

只因出徒后的大模型雖然基礎知識豐富、專業能力一流，可是實戰技巧卻是空白，到了行業場景沒法直接上崗。

比如——

怎么辦呢？進行上崗培訓，這就是微調。

微調是針對特定任務（修電腦）的訓練，數據量小但很精準、具體，老司機會把他的具體修理經驗交給你，讓你的知識更接地氣。

至此，一個大模型經過預訓練、后訓練、微調。

終于可以上崗干活啦。

簡單總結下↓

預訓練：基礎知識廣泛學；

后訓練：專業領域深入學；

微調：具體實操崗前學。

好了，基本概念介紹完畢。

從目前的國內的趨勢看，做大規模預訓練的公司會越來越少（坊間傳聞，今年上半年真正在做預訓練的公司只有兩三家）。

未來訓練方面的主要需求都是后訓練和微調（當然更大的需求是推理）。

可是說，隨著DeepSeek的半路殺出，國內大模型戰役的第一階段，已經結束，“裸泳者”即將浮出水面。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

機器之心Pro 2025-04-08 18:40:57
0 跟貼 0
重構訓練框架，開源新方法：拋棄替代損失函數，僅需優化原始目標

量子位 2025-04-27 12:22:37
0 跟貼 0

重塑記憶架構：LLM正在安裝「操作系統」

機器之心Pro 2025-07-16 14:00:56
0 跟貼 0

一鍵實現PPT演講自由！「解說音頻+視頻」同步生成，效果逼近真人

新智元 2025-07-16 21:18:22
0 跟貼 0
Mistral首個開源語音模型來了！全面碾壓Whisper，多項測試超越GPT-4o mini

智東西 2025-07-16 22:45:28
0 跟貼 0

下一句會是什么？我們是否高估了預測編碼理論？

鈦媒體APP 2025-07-16 11:44:32
0 跟貼 0

MiniMax推出Agent全棧開發功能！一句話聊出演唱會選座系統，可鎖座可支付

智東西 2025-07-16 22:45:28
0 跟貼 0
AI圈:OpenAI藏 Meta詐國產MoE崛起

新智元 2025-07-16 09:42:27
1 跟貼 1

突破多模態獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

量子位 2025-05-08 17:47:02
0 跟貼 0
打造全球首個強化學習云平臺，九章云極是如何做到的？

機器之心Pro 2025-07-16 13:53:01
0 跟貼 0
為什么說AI“有用”才最重要？

新周刊 2025-03-25 22:43:55
4 跟貼 4
挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

機器之心Pro 2025-03-25 14:45:37
1 跟貼 1
港中文&華為聯合提出首個大模型推理可靠性評估基準

機器之心Pro 2025-07-16 18:13:44
0 跟貼 0
細節厘米級還原、實時渲染，MTGS方法突破自動駕駛場景重建瓶頸

機器之心Pro 2025-04-02 14:22:12
0 跟貼 0
特朗普的組合拳VS中國策略

錢在說 2025-07-14 18:47:24
10 跟貼 10
研究人員打造知識圖譜補全新框架，可用于推薦系統和信息檢索

DeepTech深科技 2025-04-16 11:11:03
0 跟貼 0
CMU華人團隊研發LegoGPT，打造包含47000個樂高結構數據集

DeepTech深科技 2025-05-10 17:44:13
0 跟貼 0
Qwen真是怪胎，獎勵錯了，模型反而更強，強化學習得推翻重來？

機器之心Pro 2025-06-04 21:44:30
0 跟貼 0
球員在一瞬間，完成了左右腳交替控球，這是國足沒有的技術

爆笑趣世界 2025-07-16 09:20:16
12 跟貼 12
上海最貴？一碗面1588元，另收10%服務費，網友直呼：太瘋狂

環球網資訊 2025-07-16 09:10:08
13167 跟貼 13167
每一場演習都要當實戰來對待

快樂追劇吧 2025-07-16 17:25:28
1 跟貼 1
牧羊犬趕羊技術超群，通過獨特技術操控羊群，速度是小羊羔好幾倍

歡樂聚集部 2025-07-16 17:02:50
1 跟貼 1
印度竊取殲10機密？技術打臉+美巴軍售，戳破驚天劇本！

斜煙風起雨未 2025-07-17 04:32:56
0 跟貼 0
特朗普沒想到，戰書被中方輕松接下，王毅外長用三套策略立下大功

橙子科普MT 2025-07-16 18:19:26
0 跟貼 0
愛上海軍藍,海軍戰士實戰演戲，藍刃虎鯊特種兵集結，緊迫感拉滿

龍耀影視 2025-07-15 09:39:42
1 跟貼 1
1687初中數學競賽題，許多基礎知識匯成難題，學霸解法簡單！

我服子佩 2025-07-16 20:52:45
1 跟貼 1
SR-72速度驚人，解放軍擔憂中國衛星追蹤其模型進展

蕭鮖記錄風土人情 2025-07-16 00:17:30
0 跟貼 0
楊瀚森15分三分6中3均創新高！開拓者險勝鵜鶘

網易體育 2025-07-16 12:57:56
3674 跟貼 3674
具身、離身、反身智能中的強化學習有何不同

白駒談人機 2025-07-16 00:06:54
0 跟貼 0
西班牙驚現46℃極端高溫！近兩個月，1180人因高溫死亡

每日經濟新聞 2025-07-16 10:55:47
6508 跟貼 6508
美國援烏新策略，特朗普讓北約掏錢買武器，軍援成美企“搖錢樹”

梁芳 2025-07-14 18:40:01
0 跟貼 0
VLA 推理新范式！一致性模型 CEED-VLA 實現四倍加速！

機器之心Pro 2025-07-16 18:31:44
0 跟貼 0
俄羅斯真的不能失敗嗎？

憑闌聽史 2025-07-16 17:49:06
245 跟貼 245
沒有動力來源的模型飛機居然奇跡的載人飛了起來

酷啵追影 2025-07-16 17:27:56
1 跟貼 1
兒童平衡車比賽中一個小選手在騎行中兩次故意伸腿踢倒他人

星辰視頻 2025-07-16 15:19:30
3394 跟貼 3394
35歲民政局副局長公示任鄉鎮長，21歲時咋以高中學歷聘為鎮勞動服務站站長？相關回應：那時要求沒那么嚴格

大風新聞 2025-07-16 11:35:34
2291 跟貼 2291
“外賣大戰”，最大的受害者出現了？

澎湃新聞 2025-07-16 12:55:40
252 跟貼 252
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
1 跟貼 1
解放軍駐澳門部隊單兵裝備：高科技與實戰的完美結合

老瑗愛評論 2025-07-16 01:18:38
0 跟貼 0
比Adam更有效，POET從譜不變原理出發，讓LLM訓練又穩又快

機器之心Pro 2025-07-15 11:08:57
1 跟貼 1

郭臺銘做夢也沒想到，富士康“賞飯論“破產，人果然不能忘本！

郭臺銘做夢也沒想到，富士康“賞飯論“破產，人果然不能忘本！

別人都叫我阿腈

2025-07-15 17:45:32

普京被特朗普惹火了，下令一直打到西方求和，特朗普“光速服軟”

普京被特朗普惹火了，下令一直打到西方求和，特朗普“光速服軟”

獵火照狼山

2025-07-16 21:31:24

美國新兵推結果：中美開戰7天后4萬解放軍陣亡，美10幾個基地損毀

美國新兵推結果：中美開戰7天后4萬解放軍陣亡，美10幾個基地損毀

阿器談史

2025-07-12 18:38:43

宗馥莉使出殺手锏，三大絕招擺平私生子風波，弟妹們這次輸得徹底

宗馥莉使出殺手锏，三大絕招擺平私生子風波，弟妹們這次輸得徹底

海闊山遙YAO

2025-07-15 10:37:19

親美的下場，再現南北分裂危機，或將悲劇重演，中方還會出手嗎

親美的下場，再現南北分裂危機，或將悲劇重演，中方還會出手嗎

睡什么起來嗨

2025-07-16 15:02:14

太強了，王毅外長拿臺當局實控島嶼舉例，一句話讓40國啞口無言

太強了，王毅外長拿臺當局實控島嶼舉例，一句話讓40國啞口無言

古事尋蹤記

2025-07-16 10:01:58

李湘風波再升級，被曝泰國求子只是冰山一角，11年前就懷上二胎

李湘風波再升級，被曝泰國求子只是冰山一角，11年前就懷上二胎

查爾菲的筆記

2025-07-16 22:26:43

一句山姆專屬無任何添加，溜溜梅把自己送上了熱搜……

一句山姆專屬無任何添加，溜溜梅把自己送上了熱搜……

柴狗夫斯基

2025-07-16 11:44:03

社保好消息！2025年7月起，不繳、少繳、斷繳社保，將成為過去式

社保好消息！2025年7月起，不繳、少繳、斷繳社保，將成為過去式

社保小達人

2025-07-16 09:30:08

王偉忠曾預言成真？大S臨終前還在聯系汪小菲，真相曝光

王偉忠曾預言成真？大S臨終前還在聯系汪小菲，真相曝光

小嵩

2025-07-17 08:01:07

吵上熱搜、上百條差評！山姆緊急下架好麗友派等多款零食！盼盼、洽洽被曝改用英文名上架山姆，包裝高級、品牌更名就等于品質升級？

吵上熱搜、上百條差評！山姆緊急下架好麗友派等多款零食！盼盼、洽洽被曝改用英文名上架山姆，包裝高級、品牌更名就等于品質升級？

每日經濟新聞

2025-07-16 01:26:05

已下架！七大著名酸奶全軍覆沒，實為科技糖水，以后別再被騙了

已下架！七大著名酸奶全軍覆沒，實為科技糖水，以后別再被騙了

好賢觀史記

2025-07-15 21:02:07

一個1.6億，一個僅2500萬，皇馬與巴薩夏窗投入懸殊，令人驚嘆

一個1.6億，一個僅2500萬，皇馬與巴薩夏窗投入懸殊，令人驚嘆

星耀國際足壇

2025-07-16 20:48:37

剛剛，沖上熱搜！特斯拉新車Model Y L官宣，預計售價約40萬元

剛剛，沖上熱搜！特斯拉新車Model Y L官宣，預計售價約40萬元

中國基金報

2025-07-16 22:16:15

巨變！IFAB考慮修改點球規則：點球被撲算死球，進攻方不能補射！

巨變！IFAB考慮修改點球規則：點球被撲算死球，進攻方不能補射！

直播吧

2025-07-16 23:55:37

17歲中國學生在日本溺亡身上多處暴力傷痕，19歲主謀或被判19年有期徒刑

17歲中國學生在日本溺亡身上多處暴力傷痕，19歲主謀或被判19年有期徒刑

紅星新聞

2025-07-16 18:38:11

BR長文解釋科比未進排名前10：他從未是“聯盟最佳球員”

BR長文解釋科比未進排名前10：他從未是“聯盟最佳球員”

懂球帝

2025-07-16 11:28:37

20多國領導人確定訪華，中方將備好最高禮遇，特朗普到底啥時候來

20多國領導人確定訪華，中方將備好最高禮遇，特朗普到底啥時候來

起喜電影

2025-07-17 06:28:36

都美竹宣布公開吳亦凡事件全過程！

都美竹宣布公開吳亦凡事件全過程！

嘻笑堂

2025-07-16 11:35:47

亞馬爾：我的10號球衣傳承自法蒂，我和梅西走的是不同的道路

亞馬爾：我的10號球衣傳承自法蒂，我和梅西走的是不同的道路

雷速體育

2025-07-17 06:59:37

全球最新、最酷AI解決方案

1027文章數 716關注度

往期回顧全部

科技要聞

不只H20？黃仁勛：希望對華銷售更好的芯片

頭條要聞

上海最大原拆原建小區回搬：始建于1958年有94種戶型

頭條要聞

上海最大原拆原建小區回搬：始建于1958年有94種戶型

體育要聞

不給楊瀚森傳球，他有自己的理由

娛樂要聞

都美竹將參加綜藝，單身媽媽發文抵制

財經要聞

宗馥莉的繼承之戰會把娃哈哈打散嗎？

汽車要聞

理想i8內飾官圖公布李想回應"被打臉"

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

旅游

本地

數碼

公開課

房產要聞

三亞又有好地要賣，起拍樓面價飆到了1.6萬/㎡！

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

本地新聞

“別墅里面唱K”怎么就成了臺灣人的跳舞開關

數碼要聞

英特爾下一場大型活動將首次在亞利桑那州鳳凰城舉行

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：南和县| 天门市| 雅安市| 无为县| 襄樊市| 常山县| 东明县| 奈曼旗| 平塘县| 安顺市| 赣州市| 福清市| 射阳县| 康马县| 唐河县| 阿勒泰市| 贵阳市| 奉节县| 靖西县| 盱眙县| 河东区| 扎赉特旗| 扶绥县| 永昌县| 双城市| 吐鲁番市| 荣昌县| 保山市| 若尔盖县| 灯塔市| 喜德县| 青海省| 平顺县| 永清县| 普洱| 海门市| 大化| 紫云| 临夏市| 陆川县| 孝昌县|

<pre id="70nui"></pre>

<cite id="70nui"><rp id="70nui"><delect id="70nui"></delect></rp></cite>

<cite id="70nui"></cite>