01
開篇
在強(qiáng)化學(xué)習(xí)(RL)中,如果我們只知道“做對了能拿多少分”,那往往還不夠,因?yàn)?b>單純追求高分可能帶來種種副作用,比如過度搜索、模型不穩(wěn)定、甚至“走捷徑”而偏離合理范圍。
為了解決這些問題,人們在 RL 中設(shè)計(jì)了許多機(jī)制——Critic(價(jià)值函數(shù))、Clip 操作、Reference Model、以及最近流行的 GRPO(Group Relative Policy Optimization)等。
為了把這些概念講得更生動,我們不妨打個比方:把 RL 模型的訓(xùn)練過程想象成小學(xué)里的考試場景。
我們(被訓(xùn)練的模型)就像努力考高分的學(xué)生,發(fā)獎品的人則像 Critic 或者其他調(diào)控機(jī)制。
接下來就讓我們循序漸進(jìn)地看看,為什么只靠最終成績是不夠的,為什么需要一步步引入 Critic、Clip、Reference Model,最后又是如何引出 GRPO 的思路。
02
只有 Reward 時的樸素做法:為什么會有問題
假設(shè)我和我弟弟都在小學(xué)同一個班上課。老師改卷后給出一個“絕對分?jǐn)?shù)”,我的成績一般 80 分以上,弟弟成績大概 30 分左右。
然后我們把這個分?jǐn)?shù)直接拿去找爸爸要零花錢——也就是用“分?jǐn)?shù)本身”作為獎勵(Reward)。誰考得分?jǐn)?shù)高,零花錢就多。
一開始聽上去沒毛病,但結(jié)果就有兩個問題:
不公平:如果弟弟從 30 分進(jìn)步到 60 分,付出了非常大的努力,卻依然比不過我平時隨便考個 80+。他得不到有效激勵。
不穩(wěn)定:我為了沖刺高分,可能會采取極端學(xué)習(xí)策略(比如瘋狂刷題、考前通宵),偶爾考到 95 分,偶爾只有 60 分,成績大起大落,導(dǎo)致獎勵信號也忽上忽下。
這樣一來, 只拿絕對分?jǐn)?shù)當(dāng)作 Reward ,獎勵信號波動很大,弟弟也會覺得不公平,久而久之,就沒動力進(jìn)步了。
數(shù)學(xué)對應(yīng)
在強(qiáng)化學(xué)習(xí)里,如果我們只用:
也就是“把最終 Reward 直接拿來做優(yōu)化目標(biāo)”,就容易出現(xiàn)高方差、激勵不充分等問題。
換言之,Actor 得不到一個和自身水平相稱的參考線(baseline),進(jìn)而影響學(xué)習(xí)效率。
03
引入 Critic:用“預(yù)期分?jǐn)?shù)線”來改善獎勵機(jī)制
針對上面的問題,爸爸很快意識到:“不能光看絕對分,而要看看每個人在自己水平線之上進(jìn)步多少才是關(guān)鍵。”
于是爸爸決定:給我定一個“預(yù)期分?jǐn)?shù)線”80 分;給弟弟定一個“預(yù)期分?jǐn)?shù)線”40 分。考試時,只要超出自己那條線,就能得到更多零花錢;如果沒有超出,那么零花錢就可能很少或者沒有。
這樣一來,弟弟如果努力從 30 分考到 60 分,超出自己預(yù)期分?jǐn)?shù)線 20 分,就能得到可觀的獎賞。
我如果還是 80 多分,增幅不明顯,那就算分?jǐn)?shù)比弟弟高,但并不一定多拿太多錢。
這樣就鼓勵了每個人以自己的水平為起點(diǎn)去進(jìn)步,而不是一味比誰絕對分高。
當(dāng)然,爸爸也很忙,不是說一旦定了分?jǐn)?shù)線就一勞永逸——他得根據(jù)我們的學(xué)習(xí)狀況來不斷“自我調(diào)節(jié)”,因?yàn)槿绻艿芩揭呀?jīng)到 60 分了,再給他設(shè) 40 分的線就不合理了。
反之,我要是一直考 85 分沒什么波動,也可能需要微調(diào)我的分?jǐn)?shù)線。 所以,爸爸也需要不斷學(xué)習(xí),只不過他需要學(xué)習(xí)的是我和弟弟的學(xué)習(xí)進(jìn)度。
數(shù)學(xué)對應(yīng)
有了這個“分?jǐn)?shù)線”去做差,我們能降低訓(xùn)練過程中的方差;也讓高于預(yù)期的動作拿到更大的梯度,低于預(yù)期的動作被抑制。
04
加入 Clip 與 min 操作:防止更新過度
有了“分?jǐn)?shù)線”以后,效果確實(shí)好了很多。
但新的問題出現(xiàn)了:如果某一次考試我突然爆發(fā),進(jìn)了高分段,比如 95 或 100 分,爸爸會給我極高獎勵,導(dǎo)致我在下一次考試前可能“走火入魔”,去嘗試各種極端學(xué)習(xí)方法,成績忽高忽低,獎勵也隨之劇烈波動。
為此,爸爸覺得要適度控制我更新學(xué)習(xí)策略的“步幅”——一次性沖太高也不一定要給我成倍加零花錢。給得太多,會讓我產(chǎn)生極端探索心態(tài);給得太少又會抑制熱情。總之需要一個平衡。
數(shù)學(xué)對應(yīng)
在 PPO(Proximal Policy Optimization)中,這個“平衡”靠“Clip” 操作來完成。
我們常見的 PPO 核心目標(biāo)函數(shù)里,有這樣一段:
其中:
表示新策略與舊策略在這個動作上的概率比值。如果這個比值離 1 太遠(yuǎn),就會被 Clip 在【1-ε,1+ε】區(qū)間內(nèi),從而限制一次更新幅度別過大。
用故事的話講,就是:我考到 100 分,可以多拿獎勵,但爸爸會有個“封頂”的約束;下一次還要觀察一下再做決定,這樣保持學(xué)習(xí)的平穩(wěn)性,防止出現(xiàn)一條極端的“歪路子”。
05
Reference Model:防止作弊、極端策略
即便如此,如果我為了追求高分,不惜采取非常規(guī)手段——比如考試作弊、威脅老師改卷之類,那不就輕松拿下滿分了嗎?
這顯然是違反原則的。而且如果在語言模型場景,可能出現(xiàn)生成有害言論、編造事實(shí)等“走歪”的行為。
于是爸爸又提出一個附加約束:“無論如何,你不能偏離最初正常學(xué)習(xí)的方法太多。否則即使你考了高分,我也判你不合格,零花錢也不給。”
這就好比我們在學(xué)期開始(也就是監(jiān)督微調(diào)后)的“合規(guī)”狀態(tài)那里畫了一條“參照線”,新的行為不能和這個初始策略差太遠(yuǎn),否則就要受到懲罰。
數(shù)學(xué)對應(yīng)
06
GRPO:用“多次模擬成績平均值”代替價(jià)值函數(shù)
有一天,爸爸說:“我沒空天天衡量你的學(xué)習(xí)水平了,不想再手動給你畫分?jǐn)?shù)線。那你干脆先把試卷做 5 份模擬題,取這 5 次的平均分,這個平均分就是你的預(yù)期分?jǐn)?shù)。真正考試時,如果你比這個平均分高,就說明你表現(xiàn)超出你自己的期望,我就給獎勵;不夠的話,說明你的表現(xiàn)沒到平均線。”
如此一來,弟弟、我,甚至更多同學(xué)都可以用“自己多次模擬考試”的均值來做分?jǐn)?shù)線,不需要依賴一個外部(爸爸)不斷微調(diào)的“價(jià)值網(wǎng)絡(luò)”。
前面幾個環(huán)節(jié),我們已經(jīng)看到了 PPO 的思路:Actor + Critic + Clip + KL 懲罰。
但在實(shí)際應(yīng)用尤其是大型語言模型(LLM)上,Critic(價(jià)值函數(shù))通常需要跟 Actor 同等大小的網(wǎng)絡(luò)去估計(jì),否則很難評估到位,成本很高,而且有些場景(比如只在回答末尾才有一個整體 Reward)并不太適合訓(xùn)練出精細(xì)的價(jià)值函數(shù)。
這時候就出現(xiàn)了 Group Relative Policy Optimization(GRPO)。
它的要點(diǎn)是:不用“學(xué)習(xí)”一個單獨(dú)的價(jià)值網(wǎng)絡(luò)當(dāng) Critic;而是對同一道題目、同一個狀態(tài),先用舊策略采樣多條輸出,然后把這些輸出的平均 Reward 當(dāng)作 baseline; * 超過平均值就相當(dāng)于“正向 Advantage”,低于平均值就是“負(fù)向 Advantage”。
在 GRPO 里,除了這一步,還保留了PPO 中的 Clip 和對 Reference Model 的 KL 正則,這些都可以保障更新的穩(wěn)定性和合規(guī)性。
數(shù)學(xué)對應(yīng)
DeepSeekMath 的技術(shù)報(bào)告里給出了 GRPO 的目標(biāo)函數(shù)(省略部分符號細(xì)節(jié)):
07
結(jié)語:回顧與展望
通過這個小學(xué)考試的比喻,我們逐步從只看絕對分?jǐn)?shù)的樸素思路,演化到 PPO 的完整機(jī)制(Critic、Advantage、Clip、Reference Model),再到 GRPO 的創(chuàng)新思路(用一組輸出的平均得分當(dāng)基線,省去價(jià)值函數(shù)的繁瑣)。
以下幾點(diǎn)值得再次強(qiáng)調(diào):
Critic 的意義:它為每個狀態(tài)或階段提供“合理預(yù)期”,大幅降低了訓(xùn)練方差;
Clip & min 機(jī)制:約束策略更新幅度,避免一次考試“爆發(fā)”帶來的巨幅震蕩;
Reference Model:限制“作弊”或極端行為,讓策略不要過度偏離最初合規(guī)范圍;
GRPO 的優(yōu)點(diǎn):在大型語言模型中,省掉了價(jià)值網(wǎng)絡(luò),減少內(nèi)存和計(jì)算負(fù)擔(dān),還與“對比式 Reward Model”天然契合。
就像爸爸改用“讓孩子自己多次模擬,然后以平均分當(dāng)預(yù)期線”的思路一樣,GRPO 讓我們不用再額外維護(hù)一個龐大的 Critic,也能獲得類似的相對獎勵信號。
從結(jié)果看,這既保持了 PPO 原有的穩(wěn)定性和合規(guī)性,又讓訓(xùn)練更直接和高效。
希望這篇文章能幫助讀者更自然地理解 PPO 與 GRPO 的原理,也能在實(shí)踐中有所啟發(fā)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.