99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

PPO & GRPO 可視化介紹

0
分享至


本文來自Google DeepMind研究員Jimmy關于PPO & GRPO 可視化介紹

  • https://yugeten.github.io/posts/2025/01/ppogrpo/

LLM pre-training and post-training

LLM的訓練分為pre-training and post-training

  1. Pre-training: using large scale web data training the model with next token prediction

  2. Post-training: 用來提高模型推理能力,分為兩個階段

  • Stage 1:SFT(Supervised Finetuning):首先使用監督學習,在少量高質量的專家推理數據上微調 LLM;instruction-following, question-answering and/or chain-of-thoughts。希望在這個訓練階段結束時,模型已經學會了如何模仿專家演示。

  • Stage 2:RLHF(Reinforcement Learning from Human Feedback):由于沒有足夠的human expert reasoning data,因此我們需要 RL!RLHF 使用人工反饋來訓練獎勵模型,然后獎勵模型通過 RL 指導 LLM 的學習。

Andrej Karpathy最近對此有個形象的比喻:



  • Background information / exposition。教科書的核心內容,用于解釋概念。當你關注這些信息時,你的大腦正在對這些數據進行訓練。這等同于Pre-training,即模型正在閱讀互聯網并積累背景知識。

  • Worked problems with solutions。這些是專家解決問題的具體示例。它們是要被模仿的演示。這等同于有監督的微調,即模型在由人類編寫的 “ideal responses” 上進行微調。

  • Practice problems。這些是給學生的提示,通常沒有解決方案,但總是有最終答案。通常在每章的末尾有很多很多這樣的練習題。它們促使學生通過試錯來學習 ,他們必須嘗試很多東西才能得到正確答案。這等同于RL。

DeepSeek’s ultra efficient post-training

DeepSeek R1 報告中最令人驚訝的一點是,他們的 R1-zero 模型完全跳過了 SFT 部分,直接將 RL 應用于基礎模型(DeepSeek V3)。

benefits:

  • Computational efficiency:跳過post-training的一個階段可以提高計算效率;

  • Open-ended learning:允許模型通過探索“自我進化”推理能力;

  • Alignment:避免人工精選的 SFT 數據引入的偏差。

DeepSeek 還引入 GRPO 來取代 PPO來提高 RLHF 部分的效率,相較于原來PPO,減少了 critic 模型(通常與Policy模型一樣大)的需求,從而將內存和計算開銷減少了 ~50%。

PPO vs GRPO


  • GRPO 對 PPO 的改進,其動機是 PPO 需要 4 個大模型,即策略、價值函數、獎勵模型和參考模型。GRPO 消除了對價值模型的需求。

  • 為此,它首先為每個查詢生成多個響應。然后,在計算advatage時,它將 value 函數替換為樣本的獎勵,該獎勵由同一查詢的所有響應的 mean 和 std 標準化。

  • 此外,它還將 KL 懲罰移動到損失函數中(RLHF 通常將 KL 懲罰添加到獎勵中),從而簡化了優勢的計算。

  • GRPO 的缺點是它需要為同一 prompt 生成多個響應,因此,如果之前每個 prompt 生成的響應很少,則 GRPO 可能會增加計算時間。

接下來了解下如何實現的:

RLHF

RLHF 的工作流程分解為四個步驟:

  • Step 1:對于每個 prompt, 從模型中對多個 responses 進行采樣;

  • Step 2: 人類按質量對這些 outputs 進行排序;

  • Step 3: 訓練reward model以預測 human preferences / ranking, given any model responses;

  • Step 4: 使用RL(e.g. PPO, GRPO) 微調模型以最大化reward model的score

過程相對簡單,有兩個可學習的部分,即reward model 和 “the RL”。

現在,讓我們深入了解這兩部分。

Reward Model

實際上,我們不能讓人類對模型的所有輸出進行ranking。一種節省成本的方法是讓標注人員對 LLM 輸出的一小部分進行評分,然后train a model to predict these annotators’ preferences,這就是獎勵模型的作用。

獎勵模型的目標函數是最小化以下目標


注意,部分響應的獎勵始終為 0;只有對于 LLM 的完整響應,獎勵模型才會返回非零標量分數。

“The RL part”: PPO

PPO(proximal policy optimization),包含三部分:

  • Policy: 已預先訓練/SFT 的 LLM;

  • Reward model:一個經過訓練和凍結的網絡,在對提示做出完全響應的情況下提供標量獎勵;

  • Critic:也稱為值函數,它是一個可學習的網絡,它接受對提示的部分響應并預測標量獎勵。

具體工作流程:

  1. Generate responses: LLM 為給定的prompt生成多個response;

  2. Score responses: reward model 給每個 response 分配reward;

  3. Compute advantages: 使用 GAE 計算 advantages (it’s used for training the LLM);

  4. Optimise policy: 通過優化總目標來更新 LLM;

  5. Update critic: 訓練 value function以更好地預測給定部分響應的獎勵。

General Advantage Estimation (GAE)

Our policy is updated to optimise advantage,直觀解釋,它定義了一個特定的動作at與policy 在狀態st決定采取的average action相比 “how much better”。

估計這種Advantage有兩種主要方法,每種方法各有優劣:

  1. Monte-Carlo (MC):使用reward of the full trajectory(完整軌跡的獎勵)(即完整響應)。由于獎勵稀疏,這種方法具有很高的方差——從 LLM 中獲取足夠的樣本來使用 MC 進行優化是昂貴的,但它確實具有低偏差,因為我們可以準確地對獎勵進行建模;

  2. Temporal difference (TD):使用 one-step trajectory reward(一步軌跡獎勵)(即根據提示測量剛剛生成的單詞有多好)。通過這樣做,我們可以在token級別上計算獎勵,這大大降低了方差,但與此同時,偏差也會增加,因為我們無法準確地預測部分生成的響應的最終獎勵。

為了綜合這兩種方案,提出GAE,balance the bias and variance through a multi-step TD。

但是,之前我們提到過,如果響應不完整,獎勵模型將返回 0:在不知道獎勵在生成單詞之前和之后會如何變化的情況下,我們將如何計算 TD?

因此,我們引入了一個模型來做到這一點,我們稱之為 “the critic”。

The critic (value function)

The critic 受過訓練,可以預期僅給出部分狀態的最終獎勵,以便我們可以計算 TD

Training the critic:


critic在訓練中對獎勵模型的分數進行了簡單的 L2 損失。

雖然獎勵模型R在 PPO 之前進行了訓練并被凍結,盡管R的工作只是預測獎勵,但 critic 與 LLM 一起進行了訓練。

這是因為 value 函數必須估計給定當前策略的部分響應的獎勵;因此,它必須與 LLM 一起更新,以避免其預測過時和不一致。這就是actor-critic in RL。

Back to GAE

通過critic V,我們現在有辦法預測部分狀態的獎勵。我們繼續回到GAE,目標函數是computes a multi-step TD。


在 RLHF 中,我們希望最大化這個advantage term,從而最大化 LLM 生成的每個token的reward。

Putting it together – PPO objective

PPO 目標有幾個組成部分,即 1) 裁剪的替代目標,2) 熵獎勵,3) KL 懲罰。

1. The clipped surrogate objective


具體例子:


2. KL divergence penalty

KL 散度,它可以防止當前策略 thet 偏離我們正在微調thet org

KL 只是通過取序列和批次的平均值來估計的。

# Compute KL divergence between original and current policy/model logits_orig = original_model(states)  # Original model's logits logits_current = current_model(states)  # Current model's logits probs_orig = F.softmax(logits_orig, dim=-1) log_probs_orig = F.log_softmax(logits_orig, dim=-1) log_probs_current = F.log_softmax(logits_current, dim=-1) kl_div = (probs_orig * (log_probs_orig - log_probs_current)).sum(dim=-1) kl_penalty = kl_div.mean()  # Average over sequence and batch
3. Entropy bonus

熵獎勵通過懲罰低熵來鼓勵探索 LLM 的生成


# Compute entropy of current policy probs_current = F.softmax(logits_current, dim=-1) log_probs_current = F.log_softmax(logits_current, dim=-1) entropy = -(probs_current * log_probs_current).sum(dim=-1) entropy_bonus = entropy.mean()  # Average over sequence and batch
Finally, the PPO objective

PPO目標函數:



“The RL part”: GRPO

了解PPO 后就容易理解 GRPO ,關鍵區別在于兩種算法如何估計優勢 A:GRPO 不像 PPO 那樣通過批評者來估計優勢,而是使用相同的提示從 LLM 中獲取多個樣本。


在 GRPO 中,優勢近似為響應組中每個響應的標準化獎勵。這消除了評論家網絡計算每步獎勵的需要,更不用說數學的簡單性和優雅性了。

The GRPO objective
More thoughts on R1

DeepSeek-R1 的設計反映了 AI 的更廣泛趨勢:規模和簡單性往往勝過巧妙的工程設計。通過無情地偷工減料 — 用規則替換學習的組件、利用大規模并行采樣以及錨定到預先訓練的基線 — R1 以更少的故障模式實現了 SOTA 結果。它并不優雅,但很有效。

GRPO Workflow

How GRPO works: 1 ? model generates a group of answers 2 ? compute score for each answer 3 ? compute avg score for entire group 4 ? compare each answer score to avg score 5 ? reinforce model to favor higher scores

Other methods like PPO, use a value function model to do reinforcement learning.

GRPO does not, which reduces memory and computational overhead when training.

A concrete example of GRPO in action:

Query: “What is 2 + 3?” Step 1: LLM generates three answers. 1. “5” 2. “6” 3. “2 + 3 = 5” Step 2: Each answer is scored. 1. “5” → 1 points (correct, no reasoning) 2. “6” → 0 points (incorrect) 3. “2 + 3 = 5” → 2 points (correct, w/ reasoning) Step 3: Compute avg score for entire group. Avg score = (1 + 0 + 2) / 3 = 1 Step 4: Compare each answer score to avg. 1. “5” → 0  (same as avg) 2. “6” → -1 (below avg) 3. “2 + 3 = 5” → 1 (above avg) Step 5: Reinforce LLM to favor higher scores. 1. Favor responses like #3 (positive) 2. Maintain responses like #1 (neutral) 3. Avoid responses like #2 (negative) This process is repeated, allowing the model to learn and improve over time.
How use GRPO in TRL更多圖例






特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
218:214,美眾院通過“大而美”法案,民主黨全部投反對票,兩名共和黨“反水”!特朗普:我將簽署,屆時F-35戰機將飛躍白宮

218:214,美眾院通過“大而美”法案,民主黨全部投反對票,兩名共和黨“反水”!特朗普:我將簽署,屆時F-35戰機將飛躍白宮

每日經濟新聞
2025-07-04 07:02:08
保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

說文解字君
2025-07-02 14:50:05
58元一壺陳皮水,白開水還要另收11元!廣州一餐廳回應

58元一壺陳皮水,白開水還要另收11元!廣州一餐廳回應

大象新聞
2025-07-04 10:04:17
31歲南航機長死因存疑!知情人曝墜樓內幕,遠不止被撤職那么簡單

31歲南航機長死因存疑!知情人曝墜樓內幕,遠不止被撤職那么簡單

美美談情感
2025-07-03 22:45:28
《大漂亮法案》通過!將重塑庇護系統,偷渡先罰5000美元,ICE“如虎添翼”,有望每年驅逐100萬人

《大漂亮法案》通過!將重塑庇護系統,偷渡先罰5000美元,ICE“如虎添翼”,有望每年驅逐100萬人

大洛杉磯LA
2025-07-04 05:45:07
海參崴本該在1995年歸還中國,斯大林親筆簽名同意,后來為何黃了?

海參崴本該在1995年歸還中國,斯大林親筆簽名同意,后來為何黃了?

霹靂炮
2025-07-02 21:36:59
溫網戰報!黑馬誕生,轟6-0送蛋,衛冕冠軍險勝,中國金花1勝2負

溫網戰報!黑馬誕生,轟6-0送蛋,衛冕冠軍險勝,中國金花1勝2負

知軒體育
2025-07-04 00:52:26
國航一航班從北京起飛1小時后返航 客服回應:返航系航司原因,非天氣導致

國航一航班從北京起飛1小時后返航 客服回應:返航系航司原因,非天氣導致

紅星新聞
2025-07-04 00:20:09
一套房賬面虧1000萬,珠江網紅小區保利心語從17萬跌至10萬……

一套房賬面虧1000萬,珠江網紅小區保利心語從17萬跌至10萬……

小人物看盡人間百態
2025-07-04 05:50:03
暗夜燈光下的砂砂舞,隨摸隨弄只要三塊,葷素搭配任你挑選

暗夜燈光下的砂砂舞,隨摸隨弄只要三塊,葷素搭配任你挑選

每日一見
2025-07-02 15:14:12
極氪將發超級電混技術架構 有望重塑混動市場格局

極氪將發超級電混技術架構 有望重塑混動市場格局

武漢廣播電視臺
2025-07-04 10:54:35
吃相難看?韓紅向貴州捐款930萬,惡心一幕發生,刀郎被網友逼捐

吃相難看?韓紅向貴州捐款930萬,惡心一幕發生,刀郎被網友逼捐

法老不說教
2025-07-02 18:15:08
Skip:41歲的LBJ 你就不能只拿兩三千萬以此提升湖人奪冠機會?

Skip:41歲的LBJ 你就不能只拿兩三千萬以此提升湖人奪冠機會?

直播吧
2025-07-04 00:55:13
李斌太難了,蔚來又一高管跑路,10年20位副總裁主動離職

李斌太難了,蔚來又一高管跑路,10年20位副總裁主動離職

科技頭版Pro
2025-07-02 14:59:31
55歲雷軍直播罕見生氣!員工準備不充分,一秒黑臉撇嘴看著很嚴肅

55歲雷軍直播罕見生氣!員工準備不充分,一秒黑臉撇嘴看著很嚴肅

娛樂圈圈圓
2025-07-03 17:20:17
泰國少將兒子在酒吧被打,老板放言誰來都得跪,結果如何

泰國少將兒子在酒吧被打,老板放言誰來都得跪,結果如何

第四思維
2025-07-02 18:15:00
咎由自??!本以為能“毀掉”刀郎,誰知老底被扒,終成笑柄

咎由自??!本以為能“毀掉”刀郎,誰知老底被扒,終成笑柄

白面書誏
2025-07-04 00:27:15
刀郎忍無可忍!和云朵“新仇舊恨”一起算,徹底撕碎了云朵的體面

刀郎忍無可忍!和云朵“新仇舊恨”一起算,徹底撕碎了云朵的體面

大笑江湖史
2025-07-04 07:58:12
太離譜!“小區內竟要修路114公里”,5000多戶的超級大盤,近1200萬元維修金成了某些人的“提款機”!業委會原主任被抓

太離譜!“小區內竟要修路114公里”,5000多戶的超級大盤,近1200萬元維修金成了某些人的“提款機”!業委會原主任被抓

每日經濟新聞
2025-07-03 23:17:14
絕不妥協!馬斯克籌建新黨,特朗普想將他驅逐,奧巴馬小布什出山

絕不妥協!馬斯克籌建新黨,特朗普想將他驅逐,奧巴馬小布什出山

阿天愛旅行
2025-07-03 11:31:34
2025-07-04 13:11:00
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
275文章數 130關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

67歲丈夫出軌50歲閨蜜 妻子告上法庭不料查出更多真相

頭條要聞

67歲丈夫出軌50歲閨蜜 妻子告上法庭不料查出更多真相

體育要聞

33歲,她的野心也該火一把了

娛樂要聞

王嘉爾年收四成借朋友 竟遭人間蒸發

財經要聞

闖禍電芯商部分產線停產!羅馬仕通知停工

汽車要聞

純電續航180km/或30萬級 方程豹鈦7四季度上市

態度原創

家居
藝術
游戲
數碼
軍事航空

家居要聞

合理布局 三口之家的溫馨空間

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

《死亡擱淺2》新更新補丁發布!修復內容如下

數碼要聞

4 年等待,谷歌入門耳機 Pixel Buds A 有望今年迎來繼任者

軍事要聞

俄美元首通話約1小時 討論中東局勢、俄烏談判等

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 池州市| 宜兰市| 栾川县| 会同县| 石渠县| 平罗县| 恭城| 福州市| 新蔡县| 雅安市| 洛隆县| 林芝县| 景泰县| 涞源县| 上杭县| 绍兴市| 兰溪市| 新河县| 景宁| 堆龙德庆县| 通榆县| 苏州市| 安平县| 景宁| 綦江县| 蒙阴县| 门源| 贵阳市| 蕉岭县| 南平市| 嘉荫县| 潞城市| 伊吾县| 丰顺县| 沁源县| 宜宾县| 石狮市| 顺平县| 汝州市| 久治县| 莱阳市|