99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek核心技術(shù)PPO & GRPO原理,小學(xué)生也能看懂!

0
分享至

01

開篇

在強(qiáng)化學(xué)習(xí)(RL)中,如果我們只知道“做對了能拿多少分”,那往往還不夠,因?yàn)?b>單純追求高分可能帶來種種副作用,比如過度搜索、模型不穩(wěn)定、甚至“走捷徑”而偏離合理范圍。

為了解決這些問題,人們在 RL 中設(shè)計(jì)了許多機(jī)制——Critic(價(jià)值函數(shù))、Clip 操作、Reference Model、以及最近流行的 GRPO(Group Relative Policy Optimization)等。

為了把這些概念講得更生動,我們不妨打個比方:把 RL 模型的訓(xùn)練過程想象成小學(xué)里的考試場景

我們(被訓(xùn)練的模型)就像努力考高分的學(xué)生,發(fā)獎品的人則像 Critic 或者其他調(diào)控機(jī)制。

接下來就讓我們循序漸進(jìn)地看看,為什么只靠最終成績是不夠的,為什么需要一步步引入 Critic、Clip、Reference Model,最后又是如何引出 GRPO 的思路。

02

只有 Reward 時的樸素做法:為什么會有問題

假設(shè)我和我弟弟都在小學(xué)同一個班上課。老師改卷后給出一個“絕對分?jǐn)?shù)”,我的成績一般 80 分以上,弟弟成績大概 30 分左右。

然后我們把這個分?jǐn)?shù)直接拿去找爸爸要零花錢——也就是用“分?jǐn)?shù)本身”作為獎勵(Reward)。誰考得分?jǐn)?shù)高,零花錢就多。

一開始聽上去沒毛病,但結(jié)果就有兩個問題:

  • 不公平:如果弟弟從 30 分進(jìn)步到 60 分,付出了非常大的努力,卻依然比不過我平時隨便考個 80+。他得不到有效激勵。

  • 不穩(wěn)定:我為了沖刺高分,可能會采取極端學(xué)習(xí)策略(比如瘋狂刷題、考前通宵),偶爾考到 95 分,偶爾只有 60 分,成績大起大落,導(dǎo)致獎勵信號也忽上忽下。

這樣一來, 只拿絕對分?jǐn)?shù)當(dāng)作 Reward ,獎勵信號波動很大,弟弟也會覺得不公平,久而久之,就沒動力進(jìn)步了。

數(shù)學(xué)對應(yīng)

在強(qiáng)化學(xué)習(xí)里,如果我們只用:


也就是“把最終 Reward 直接拿來做優(yōu)化目標(biāo)”,就容易出現(xiàn)高方差、激勵不充分等問題。

換言之,Actor 得不到一個和自身水平相稱的參考線(baseline),進(jìn)而影響學(xué)習(xí)效率。

03

引入 Critic:用“預(yù)期分?jǐn)?shù)線”來改善獎勵機(jī)制

針對上面的問題,爸爸很快意識到:“不能光看絕對分,而要看看每個人在自己水平線之上進(jìn)步多少才是關(guān)鍵。”

于是爸爸決定:給我定一個“預(yù)期分?jǐn)?shù)線”80 分;給弟弟定一個“預(yù)期分?jǐn)?shù)線”40 分。考試時,只要超出自己那條線,就能得到更多零花錢;如果沒有超出,那么零花錢就可能很少或者沒有。

這樣一來,弟弟如果努力從 30 分考到 60 分,超出自己預(yù)期分?jǐn)?shù)線 20 分,就能得到可觀的獎賞。

我如果還是 80 多分,增幅不明顯,那就算分?jǐn)?shù)比弟弟高,但并不一定多拿太多錢。

這樣就鼓勵了每個人以自己的水平為起點(diǎn)去進(jìn)步,而不是一味比誰絕對分高。

當(dāng)然,爸爸也很忙,不是說一旦定了分?jǐn)?shù)線就一勞永逸——他得根據(jù)我們的學(xué)習(xí)狀況來不斷“自我調(diào)節(jié)”,因?yàn)槿绻艿芩揭呀?jīng)到 60 分了,再給他設(shè) 40 分的線就不合理了。

反之,我要是一直考 85 分沒什么波動,也可能需要微調(diào)我的分?jǐn)?shù)線。 所以,爸爸也需要不斷學(xué)習(xí),只不過他需要學(xué)習(xí)的是我和弟弟的學(xué)習(xí)進(jìn)度。

數(shù)學(xué)對應(yīng)


有了這個“分?jǐn)?shù)線”去做差,我們能降低訓(xùn)練過程中的方差;也讓高于預(yù)期的動作拿到更大的梯度,低于預(yù)期的動作被抑制。

04

加入 Clip 與 min 操作:防止更新過度

有了“分?jǐn)?shù)線”以后,效果確實(shí)好了很多。

但新的問題出現(xiàn)了:如果某一次考試我突然爆發(fā),進(jìn)了高分段,比如 95 或 100 分,爸爸會給我極高獎勵,導(dǎo)致我在下一次考試前可能“走火入魔”,去嘗試各種極端學(xué)習(xí)方法,成績忽高忽低,獎勵也隨之劇烈波動。

為此,爸爸覺得要適度控制我更新學(xué)習(xí)策略的“步幅”——一次性沖太高也不一定要給我成倍加零花錢。給得太多,會讓我產(chǎn)生極端探索心態(tài);給得太少又會抑制熱情。總之需要一個平衡。

數(shù)學(xué)對應(yīng)

PPO(Proximal Policy Optimization)中,這個“平衡”靠“Clip” 操作來完成。

我們常見的 PPO 核心目標(biāo)函數(shù)里,有這樣一段:

其中:


表示新策略與舊策略在這個動作上的概率比值。如果這個比值離 1 太遠(yuǎn),就會被 Clip 在【1-ε,1+ε】區(qū)間內(nèi),從而限制一次更新幅度別過大。

用故事的話講,就是:我考到 100 分,可以多拿獎勵,但爸爸會有個“封頂”的約束;下一次還要觀察一下再做決定,這樣保持學(xué)習(xí)的平穩(wěn)性,防止出現(xiàn)一條極端的“歪路子”。

05

Reference Model:防止作弊、極端策略

即便如此,如果我為了追求高分,不惜采取非常規(guī)手段——比如考試作弊、威脅老師改卷之類,那不就輕松拿下滿分了嗎?

這顯然是違反原則的。而且如果在語言模型場景,可能出現(xiàn)生成有害言論、編造事實(shí)等“走歪”的行為。

于是爸爸又提出一個附加約束:“無論如何,你不能偏離最初正常學(xué)習(xí)的方法太多。否則即使你考了高分,我也判你不合格,零花錢也不給。”

這就好比我們在學(xué)期開始(也就是監(jiān)督微調(diào)后)的“合規(guī)”狀態(tài)那里畫了一條“參照線”,新的行為不能和這個初始策略差太遠(yuǎn),否則就要受到懲罰。

數(shù)學(xué)對應(yīng)

06

GRPO:用“多次模擬成績平均值”代替價(jià)值函數(shù)

有一天,爸爸說:“我沒空天天衡量你的學(xué)習(xí)水平了,不想再手動給你畫分?jǐn)?shù)線。那你干脆先把試卷做 5 份模擬題,取這 5 次的平均分,這個平均分就是你的預(yù)期分?jǐn)?shù)。真正考試時,如果你比這個平均分高,就說明你表現(xiàn)超出你自己的期望,我就給獎勵;不夠的話,說明你的表現(xiàn)沒到平均線。”

如此一來,弟弟、我,甚至更多同學(xué)都可以用“自己多次模擬考試”的均值來做分?jǐn)?shù)線,不需要依賴一個外部(爸爸)不斷微調(diào)的“價(jià)值網(wǎng)絡(luò)”。

前面幾個環(huán)節(jié),我們已經(jīng)看到了 PPO 的思路:Actor + Critic + Clip + KL 懲罰。

但在實(shí)際應(yīng)用尤其是大型語言模型(LLM)上,Critic(價(jià)值函數(shù))通常需要跟 Actor 同等大小的網(wǎng)絡(luò)去估計(jì),否則很難評估到位,成本很高,而且有些場景(比如只在回答末尾才有一個整體 Reward)并不太適合訓(xùn)練出精細(xì)的價(jià)值函數(shù)。

這時候就出現(xiàn)了 Group Relative Policy Optimization(GRPO)

它的要點(diǎn)是:不用“學(xué)習(xí)”一個單獨(dú)的價(jià)值網(wǎng)絡(luò)當(dāng) Critic;而是對同一道題目、同一個狀態(tài),先用舊策略采樣多條輸出,然后把這些輸出的平均 Reward 當(dāng)作 baseline; * 超過平均值就相當(dāng)于“正向 Advantage”,低于平均值就是“負(fù)向 Advantage”。

在 GRPO 里,除了這一步,還保留了PPO 中的 Clip 和對 Reference Model 的 KL 正則,這些都可以保障更新的穩(wěn)定性和合規(guī)性。

數(shù)學(xué)對應(yīng)

DeepSeekMath 的技術(shù)報(bào)告里給出了 GRPO 的目標(biāo)函數(shù)(省略部分符號細(xì)節(jié)):


07

結(jié)語:回顧與展望

通過這個小學(xué)考試的比喻,我們逐步從只看絕對分?jǐn)?shù)的樸素思路,演化到 PPO 的完整機(jī)制(Critic、Advantage、Clip、Reference Model),再到 GRPO 的創(chuàng)新思路(用一組輸出的平均得分當(dāng)基線,省去價(jià)值函數(shù)的繁瑣)。

以下幾點(diǎn)值得再次強(qiáng)調(diào):

  • Critic 的意義:它為每個狀態(tài)或階段提供“合理預(yù)期”,大幅降低了訓(xùn)練方差;

  • Clip & min 機(jī)制:約束策略更新幅度,避免一次考試“爆發(fā)”帶來的巨幅震蕩;

  • Reference Model:限制“作弊”或極端行為,讓策略不要過度偏離最初合規(guī)范圍;

  • GRPO 的優(yōu)點(diǎn):在大型語言模型中,省掉了價(jià)值網(wǎng)絡(luò),減少內(nèi)存和計(jì)算負(fù)擔(dān),還與“對比式 Reward Model”天然契合。

就像爸爸改用“讓孩子自己多次模擬,然后以平均分當(dāng)預(yù)期線”的思路一樣,GRPO 讓我們不用再額外維護(hù)一個龐大的 Critic,也能獲得類似的相對獎勵信號。

從結(jié)果看,這既保持了 PPO 原有的穩(wěn)定性和合規(guī)性,又讓訓(xùn)練更直接和高效。

希望這篇文章能幫助讀者更自然地理解 PPO 與 GRPO 的原理,也能在實(shí)踐中有所啟發(fā)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
齊白石贈毛主席一幅老牛畫,喝酒后想搶回,毛主席:上面有我名字

齊白石贈毛主席一幅老牛畫,喝酒后想搶回,毛主席:上面有我名字

史小紀(jì)
2025-04-28 10:30:19
8歲男童失蹤后續(xù):游客拍到關(guān)鍵線索,官方最新發(fā)文稱搜救難度大

8歲男童失蹤后續(xù):游客拍到關(guān)鍵線索,官方最新發(fā)文稱搜救難度大

尋墨閣
2025-05-07 10:22:30
越南人自認(rèn)為是華夏族后裔,基因檢測結(jié)果出來后,他們沉默了

越南人自認(rèn)為是華夏族后裔,基因檢測結(jié)果出來后,他們沉默了

詩意世界
2025-05-08 09:49:27
男子在飛機(jī)上拍到不明矩形黑影 藏在云層里若隱若現(xiàn)

男子在飛機(jī)上拍到不明矩形黑影 藏在云層里若隱若現(xiàn)

閃電新聞
2025-05-08 19:41:34
關(guān)稅戰(zhàn)之下所有人應(yīng)該達(dá)成一個共識:當(dāng)下單靠內(nèi)循環(huán)是行不通的!

關(guān)稅戰(zhàn)之下所有人應(yīng)該達(dá)成一個共識:當(dāng)下單靠內(nèi)循環(huán)是行不通的!

翻開歷史和現(xiàn)實(shí)
2025-04-11 12:37:16
央媽排查結(jié)果來了:國內(nèi)能一次性拿出50萬的家庭,超出你想象

央媽排查結(jié)果來了:國內(nèi)能一次性拿出50萬的家庭,超出你想象

平說財(cái)經(jīng)
2025-04-08 13:12:01
寧波警方為周少爺辟謠:保時捷之前懸掛的是裝飾牌

寧波警方為周少爺辟謠:保時捷之前懸掛的是裝飾牌

映射生活的身影
2025-05-07 16:38:31
瓜迪奧拉和妻子共度兩晚,復(fù)合失敗,為了曼城付出一切,包括愛情

瓜迪奧拉和妻子共度兩晚,復(fù)合失敗,為了曼城付出一切,包括愛情

嗨皮看球
2025-05-08 19:04:23
曼晚談曼聯(lián)陣容:阿瑪?shù)驴梢允装l(fā)出任右翼衛(wèi),馬茲拉維踢中衛(wèi)

曼晚談曼聯(lián)陣容:阿瑪?shù)驴梢允装l(fā)出任右翼衛(wèi),馬茲拉維踢中衛(wèi)

直播吧
2025-05-08 20:45:07
TVB視帝被密友曝經(jīng)濟(jì)壓力大,一人養(yǎng)全家更要死撐5家咖啡店

TVB視帝被密友曝經(jīng)濟(jì)壓力大,一人養(yǎng)全家更要死撐5家咖啡店

星改造
2025-05-07 09:23:55
婆婆:取消AA制,你來醫(yī)院照顧我,兒媳:沒空,正跟我媽旅游呢

婆婆:取消AA制,你來醫(yī)院照顧我,兒媳:沒空,正跟我媽旅游呢

言言說
2025-05-07 21:54:40
開國大典,她扶毛主席登上天安門后打算離開,周總理:你站我旁邊

開國大典,她扶毛主席登上天安門后打算離開,周總理:你站我旁邊

云端小院
2025-04-21 08:28:47
“母乳交易”亂象:成人1500元竟能躺在懷里喝,暗訪畫面不堪入目

“母乳交易”亂象:成人1500元竟能躺在懷里喝,暗訪畫面不堪入目

游古史
2025-01-03 13:43:05
知名女星深夜發(fā)文:決定賭上一切!

知名女星深夜發(fā)文:決定賭上一切!

魯中晨報(bào)
2025-05-06 08:56:14
4月重卡轉(zhuǎn)正!重汽銷2.3萬輛 福田暴漲117% 徐工漲88% 東風(fēng)漲多少?

4月重卡轉(zhuǎn)正!重汽銷2.3萬輛 福田暴漲117% 徐工漲88% 東風(fēng)漲多少?

方得網(wǎng)商用車
2025-05-08 14:24:36
夸大對華關(guān)稅效果,她被打假了

夸大對華關(guān)稅效果,她被打假了

觀察者網(wǎng)
2025-05-08 20:27:05
原寧夏回族自治區(qū)國家稅務(wù)局副巡視員蔡國雄被公訴

原寧夏回族自治區(qū)國家稅務(wù)局副巡視員蔡國雄被公訴

正義網(wǎng)
2025-05-08 16:03:04
女生穿瑜伽褲,到底是什么心理?原因太真實(shí)了!

女生穿瑜伽褲,到底是什么心理?原因太真實(shí)了!

健身S叔
2025-03-22 18:09:52
悲情?阿森納歐冠仍0冠+連續(xù)19年無緣決賽!本賽季確定四大皆空

悲情?阿森納歐冠仍0冠+連續(xù)19年無緣決賽!本賽季確定四大皆空

我愛英超
2025-05-08 05:23:36
在護(hù)工半推半就情況下發(fā)生三次關(guān)系,第四次不同意刑法如何評判?

在護(hù)工半推半就情況下發(fā)生三次關(guān)系,第四次不同意刑法如何評判?

春序娛樂
2025-05-07 10:17:47
2025-05-09 01:03:00
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
2949文章數(shù) 11008關(guān)注度
往期回顧 全部

科技要聞

理想L煥新版來了,輔助駕駛芯片全系升級

頭條要聞

美財(cái)長:特朗普考慮豁免部分商品最高145%關(guān)稅

頭條要聞

美財(cái)長:特朗普考慮豁免部分商品最高145%關(guān)稅

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補(bǔ)刀 清場風(fēng)波口碑翻車!

財(cái)經(jīng)要聞

57政策解讀:力度空前的系統(tǒng)性穩(wěn)增長舉措

汽車要聞

昨天李想點(diǎn)評了AI 今天我讓AI點(diǎn)評了理想

態(tài)度原創(chuàng)

家居
旅游
本地
親子
公開課

家居要聞

侘寂美學(xué) 樸素而有生機(jī)

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

非遺里的河南|汴梁鳶舞千年韻!宋室風(fēng)箏藏多少絕活

親子要聞

孩子舌苔厚口臭家長別著急,中醫(yī)教您一個穴位推拿方法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 西乡县| 汉源县| 石河子市| 乌恰县| 舒城县| 大城县| 潼关县| 酉阳| 宁波市| 拉萨市| 双城市| 宝应县| 沂源县| 江油市| 裕民县| 毕节市| 库伦旗| 渝中区| 塔河县| 仪征市| 江都市| 深泽县| 温宿县| 吉木萨尔县| 乐山市| 隆安县| 泌阳县| 彭泽县| 句容市| 礼泉县| 黄梅县| 无棣县| 满洲里市| 兴业县| 商河县| 朔州市| 阿克陶县| 甘孜县| 渑池县| 明溪县| 固安县|