DeepSeek核心技術(shù)PPO & GRPO原理，小學(xué)生也能看懂！

2025-03-24 13:23:04　來源: 機(jī)器學(xué)習(xí)與Python社區(qū)

北京舉報(bào)

分享至

開篇

在強(qiáng)化學(xué)習(xí)（RL）中，如果我們只知道“做對了能拿多少分”，那往往還不夠，因?yàn)?b>單純追求高分可能帶來種種副作用，比如過度搜索、模型不穩(wěn)定、甚至“走捷徑”而偏離合理范圍。

為了解決這些問題，人們在 RL 中設(shè)計(jì)了許多機(jī)制——Critic（價(jià)值函數(shù)）、Clip 操作、Reference Model、以及最近流行的 GRPO（Group Relative Policy Optimization）等。

為了把這些概念講得更生動，我們不妨打個比方：把 RL 模型的訓(xùn)練過程想象成小學(xué)里的考試場景。

我們（被訓(xùn)練的模型）就像努力考高分的學(xué)生，發(fā)獎品的人則像 Critic 或者其他調(diào)控機(jī)制。

接下來就讓我們循序漸進(jìn)地看看，為什么只靠最終成績是不夠的，為什么需要一步步引入 Critic、Clip、Reference Model，最后又是如何引出 GRPO 的思路。

只有 Reward 時的樸素做法：為什么會有問題

假設(shè)我和我弟弟都在小學(xué)同一個班上課。老師改卷后給出一個“絕對分?jǐn)?shù)”，我的成績一般 80 分以上，弟弟成績大概 30 分左右。

然后我們把這個分?jǐn)?shù)直接拿去找爸爸要零花錢——也就是用“分?jǐn)?shù)本身”作為獎勵（Reward）。誰考得分?jǐn)?shù)高，零花錢就多。

一開始聽上去沒毛病，但結(jié)果就有兩個問題：

不公平：如果弟弟從 30 分進(jìn)步到 60 分，付出了非常大的努力，卻依然比不過我平時隨便考個 80+。他得不到有效激勵。
不穩(wěn)定：我為了沖刺高分，可能會采取極端學(xué)習(xí)策略（比如瘋狂刷題、考前通宵），偶爾考到 95 分，偶爾只有 60 分，成績大起大落，導(dǎo)致獎勵信號也忽上忽下。

這樣一來， 只拿絕對分?jǐn)?shù)當(dāng)作 Reward ，獎勵信號波動很大，弟弟也會覺得不公平，久而久之，就沒動力進(jìn)步了。

數(shù)學(xué)對應(yīng)

在強(qiáng)化學(xué)習(xí)里，如果我們只用：

也就是“把最終 Reward 直接拿來做優(yōu)化目標(biāo)”，就容易出現(xiàn)高方差、激勵不充分等問題。

換言之，Actor 得不到一個和自身水平相稱的參考線(baseline)，進(jìn)而影響學(xué)習(xí)效率。

引入 Critic：用“預(yù)期分?jǐn)?shù)線”來改善獎勵機(jī)制

針對上面的問題，爸爸很快意識到：“不能光看絕對分，而要看看每個人在自己水平線之上進(jìn)步多少才是關(guān)鍵。”

于是爸爸決定：給我定一個“預(yù)期分?jǐn)?shù)線”80 分；給弟弟定一個“預(yù)期分?jǐn)?shù)線”40 分。考試時，只要超出自己那條線，就能得到更多零花錢；如果沒有超出，那么零花錢就可能很少或者沒有。

這樣一來，弟弟如果努力從 30 分考到 60 分，超出自己預(yù)期分?jǐn)?shù)線 20 分，就能得到可觀的獎賞。

我如果還是 80 多分，增幅不明顯，那就算分?jǐn)?shù)比弟弟高，但并不一定多拿太多錢。

這樣就鼓勵了每個人以自己的水平為起點(diǎn)去進(jìn)步，而不是一味比誰絕對分高。

當(dāng)然，爸爸也很忙，不是說一旦定了分?jǐn)?shù)線就一勞永逸——他得根據(jù)我們的學(xué)習(xí)狀況來不斷“自我調(diào)節(jié)”，因?yàn)槿绻艿芩揭呀?jīng)到 60 分了，再給他設(shè) 40 分的線就不合理了。

反之，我要是一直考 85 分沒什么波動，也可能需要微調(diào)我的分?jǐn)?shù)線。所以，爸爸也需要不斷學(xué)習(xí)，只不過他需要學(xué)習(xí)的是我和弟弟的學(xué)習(xí)進(jìn)度。

數(shù)學(xué)對應(yīng)

有了這個“分?jǐn)?shù)線”去做差，我們能降低訓(xùn)練過程中的方差；也讓高于預(yù)期的動作拿到更大的梯度，低于預(yù)期的動作被抑制。

加入 Clip 與 min 操作：防止更新過度

有了“分?jǐn)?shù)線”以后，效果確實(shí)好了很多。

但新的問題出現(xiàn)了：如果某一次考試我突然爆發(fā)，進(jìn)了高分段，比如 95 或 100 分，爸爸會給我極高獎勵，導(dǎo)致我在下一次考試前可能“走火入魔”，去嘗試各種極端學(xué)習(xí)方法，成績忽高忽低，獎勵也隨之劇烈波動。

為此，爸爸覺得要適度控制我更新學(xué)習(xí)策略的“步幅”——一次性沖太高也不一定要給我成倍加零花錢。給得太多，會讓我產(chǎn)生極端探索心態(tài)；給得太少又會抑制熱情。總之需要一個平衡。

數(shù)學(xué)對應(yīng)

在 PPO(Proximal Policy Optimization)中，這個“平衡”靠“Clip” 操作來完成。

我們常見的 PPO 核心目標(biāo)函數(shù)里，有這樣一段：

其中：

表示新策略與舊策略在這個動作上的概率比值。如果這個比值離 1 太遠(yuǎn)，就會被 Clip 在【1-ε，1+ε】區(qū)間內(nèi)，從而限制一次更新幅度別過大。

用故事的話講，就是：我考到 100 分，可以多拿獎勵，但爸爸會有個“封頂”的約束；下一次還要觀察一下再做決定，這樣保持學(xué)習(xí)的平穩(wěn)性，防止出現(xiàn)一條極端的“歪路子”。

Reference Model：防止作弊、極端策略

即便如此，如果我為了追求高分，不惜采取非常規(guī)手段——比如考試作弊、威脅老師改卷之類，那不就輕松拿下滿分了嗎？

這顯然是違反原則的。而且如果在語言模型場景，可能出現(xiàn)生成有害言論、編造事實(shí)等“走歪”的行為。

于是爸爸又提出一個附加約束：“無論如何，你不能偏離最初正常學(xué)習(xí)的方法太多。否則即使你考了高分，我也判你不合格，零花錢也不給。”

這就好比我們在學(xué)期開始（也就是監(jiān)督微調(diào)后）的“合規(guī)”狀態(tài)那里畫了一條“參照線”，新的行為不能和這個初始策略差太遠(yuǎn)，否則就要受到懲罰。

數(shù)學(xué)對應(yīng)

GRPO：用“多次模擬成績平均值”代替價(jià)值函數(shù)

有一天，爸爸說：“我沒空天天衡量你的學(xué)習(xí)水平了，不想再手動給你畫分?jǐn)?shù)線。那你干脆先把試卷做 5 份模擬題，取這 5 次的平均分，這個平均分就是你的預(yù)期分?jǐn)?shù)。真正考試時，如果你比這個平均分高，就說明你表現(xiàn)超出你自己的期望，我就給獎勵；不夠的話，說明你的表現(xiàn)沒到平均線。”

如此一來，弟弟、我，甚至更多同學(xué)都可以用“自己多次模擬考試”的均值來做分?jǐn)?shù)線，不需要依賴一個外部（爸爸）不斷微調(diào)的“價(jià)值網(wǎng)絡(luò)”。

前面幾個環(huán)節(jié)，我們已經(jīng)看到了 PPO 的思路：Actor + Critic + Clip + KL 懲罰。

但在實(shí)際應(yīng)用尤其是大型語言模型（LLM）上，Critic（價(jià)值函數(shù)）通常需要跟 Actor 同等大小的網(wǎng)絡(luò)去估計(jì)，否則很難評估到位，成本很高，而且有些場景（比如只在回答末尾才有一個整體 Reward）并不太適合訓(xùn)練出精細(xì)的價(jià)值函數(shù)。

這時候就出現(xiàn)了 Group Relative Policy Optimization（GRPO）。

它的要點(diǎn)是：不用“學(xué)習(xí)”一個單獨(dú)的價(jià)值網(wǎng)絡(luò)當(dāng) Critic；而是對同一道題目、同一個狀態(tài)，先用舊策略采樣多條輸出，然后把這些輸出的平均 Reward 當(dāng)作 baseline； * 超過平均值就相當(dāng)于“正向 Advantage”，低于平均值就是“負(fù)向 Advantage”。

在 GRPO 里，除了這一步，還保留了PPO 中的 Clip 和對 Reference Model 的 KL 正則，這些都可以保障更新的穩(wěn)定性和合規(guī)性。

數(shù)學(xué)對應(yīng)

DeepSeekMath 的技術(shù)報(bào)告里給出了 GRPO 的目標(biāo)函數(shù)（省略部分符號細(xì)節(jié)）：

結(jié)語：回顧與展望

通過這個小學(xué)考試的比喻，我們逐步從只看絕對分?jǐn)?shù)的樸素思路，演化到 PPO 的完整機(jī)制（Critic、Advantage、Clip、Reference Model），再到 GRPO 的創(chuàng)新思路（用一組輸出的平均得分當(dāng)基線，省去價(jià)值函數(shù)的繁瑣）。

以下幾點(diǎn)值得再次強(qiáng)調(diào)：

Critic 的意義：它為每個狀態(tài)或階段提供“合理預(yù)期”，大幅降低了訓(xùn)練方差；
Clip & min 機(jī)制：約束策略更新幅度，避免一次考試“爆發(fā)”帶來的巨幅震蕩；
Reference Model：限制“作弊”或極端行為，讓策略不要過度偏離最初合規(guī)范圍；
GRPO 的優(yōu)點(diǎn)：在大型語言模型中，省掉了價(jià)值網(wǎng)絡(luò)，減少內(nèi)存和計(jì)算負(fù)擔(dān)，還與“對比式 Reward Model”天然契合。

就像爸爸改用“讓孩子自己多次模擬，然后以平均分當(dāng)預(yù)期線”的思路一樣，GRPO 讓我們不用再額外維護(hù)一個龐大的 Critic，也能獲得類似的相對獎勵信號。

從結(jié)果看，這既保持了 PPO 原有的穩(wěn)定性和合規(guī)性，又讓訓(xùn)練更直接和高效。

希望這篇文章能幫助讀者更自然地理解 PPO 與 GRPO 的原理，也能在實(shí)踐中有所啟發(fā)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.