上個月,DeepSeek悄悄做了一次更新,發布了一個小版本:DeepSeek-V3-0324。
這個版本大幅提高了在推理類任務上的表現水平,在數學、代碼類相關評測集上取得了超過 GPT-4.5 的得分成績。
怎么做到的呢?DeepSeek官方文檔是這么說↓
新版 V3 模型借鑒 DeepSeek-R1 模型訓練過程中所使用的強化學習技術,與之前的 DeepSeek-V3 使用同樣的 base 模型,僅改進了后訓練方法。
這里面提到了一個詞:后訓練。
啥是后訓練,跟預訓練有啥區別?
今天我們用最通俗的比喻,來講講大模型三個不同階段的訓練方法:?預訓練(Pre-training)?后訓練(Post-training)?微調(Fine-tuning)。
先看預訓練
預訓練就是用大量的通用數據集先訓練模型,讓它掌握基礎知識和技能(通用語言能力和世界常識,比如剛發布的Llama 4在200種語言上進行預訓練)。
這就好比我們的中小學階段,系統地學習語文、數學、英語等基礎學科知識。
這個階段數據規模龐大,訓練成本高,周期長(數萬GPU天),比如Llama 4 Scout預訓練就使用了40萬億tokens數據。
想想我們小時候刷過的題、吃過的苦、花費的時間、挨過的罵……
預訓練的成本和時間一下子就具象化了。
再說后訓練
后訓練是指在預訓練完成后的進一步訓練階段,目的在于讓模型更好地適應實際的特定任務或應用場景。
這就好比高中畢業(預訓練結束),考上大學,有了明確的專業方向,開始強化專業知識。
后訓練階段,數據規模小,通常是特定領域的數據(專業基礎課和專業課),訓練周期短(修夠學分就行)。
回想一下你的大學生活,是不是比以前輕松多了。
不過,后訓練往往不止一次,可能要根據實際需求,持續深造,不斷優化。
這就好比我們上完本科,可能還要碩士、博士,持續深造,讓自己的專業能力越來越扎實。
目前,在模型后訓練環節,比較流行的是采用強化學習(RL:Reinforcement Learning)的方法。比如在DeepSeek-V3小版本發布的通告里,就特別指出了自己采用了強化學習進行后訓練。
簡單講,強化學習就后訓練的過程中不斷告訴模型:①你做得好,繼續保持(給正反饋);②你做的不好,趕緊改正(給負反饋)。
通過這種“獎懲機制”,讓模型學習更有針對性,表現也更好。
但是這種”打一巴掌、給個甜棗“的方法,有時候會把模型心態搞崩,太過于追求獎勵的結果了而走極端。
所以,為了避免走極端,最近流行一種新的強化學習方法,叫做GRPO(引導式正則化策略優化),比如DeepSeek R1的訓練就采用了這種方法。
GRPO就是在傳統強化學習的獎勵機制之上,加入一個額外的約束(正則項),確保和最初的“比較好的模型”不會差距太大。
這樣模型就可以平穩地進步,既能拿到高獎勵,又不會走極端。
如此,GRPO成了當下大模型后訓練中,最流行的強化學習手段,能更安全、穩定地提升AI的表現,生成的內容更符合人類喜歡的風格和預期。
最后說說微調
嚴格來講,把微調單拎出來講并不科學,因為微調其實也是模型「后訓練」的一種方法。
不過,一般后訓練(像前面說的強化學習方法),發生在模型提供商那里。模型提供商在「預訓練」完成以后,通過多次「后訓練」優化,最終把模型打造成可交付的產品或服務。
而微調這種「后訓練」,通常發生在模型使用者那里(尤其是行業客戶場景)。
只因出徒后的大模型雖然基礎知識豐富、專業能力一流,可是實戰技巧卻是空白,到了行業場景沒法直接上崗。
比如——
怎么辦呢?進行上崗培訓,這就是微調。
微調是針對特定任務(修電腦)的訓練,數據量小但很精準、具體,老司機會把他的具體修理經驗交給你,讓你的知識更接地氣。
至此,一個大模型經過預訓練、后訓練、微調。
終于可以上崗干活啦。
簡單總結下↓
預訓練:基礎知識廣泛學;
后訓練:專業領域深入學;
微調:具體實操崗前學。
好了,基本概念介紹完畢。
從目前的國內的趨勢看,做大規模預訓練的公司會越來越少(坊間傳聞,今年上半年真正在做預訓練的公司只有兩三家)。
未來訓練方面的主要需求都是后訓練和微調(當然更大的需求是推理)。
可是說,隨著DeepSeek的半路殺出,國內大模型戰役的第一階段,已經結束,“裸泳者”即將浮出水面。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.