10行代碼，AIME24/25提高15%！揭秘大模型強(qiáng)化學(xué)習(xí)熵機(jī)制

2025-06-05 18:59:11　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

本文作者分別來自于清華大學(xué)、北京大學(xué)、上海AI實(shí)驗(yàn)室等機(jī)構(gòu)。本文共同第一作者崔淦渠、張宇臣、陳嘉誠來自上海AI實(shí)驗(yàn)室，研究方向?yàn)榇竽Ｐ偷耐评碓鰪?qiáng)。通訊作者為上海AI實(shí)驗(yàn)室成宇教授、上海AI實(shí)驗(yàn)室周伯文教授、清華大學(xué)丁寧助理教授。

Nature never undertakes any change unless her interests are served by an increase in entropy.
自然界的任何變化，唯有在熵增符合其利益時(shí)方會(huì)發(fā)生——Max Planck

在強(qiáng)化學(xué)習(xí)中，我們又該如何讓熵增符合我們的利益？

近日，來自上海人工智能實(shí)驗(yàn)室、清北，UIUC等機(jī)構(gòu)的研究者的工作揭示了大模型強(qiáng)化學(xué)習(xí)中的熵變化的機(jī)制。研究內(nèi)容主要如下：

定義了強(qiáng)化學(xué)習(xí)中的熵塌縮問題，并從 4 個(gè)模型家族，11 個(gè)模型上總結(jié)了熵與性能之間的經(jīng)驗(yàn)轉(zhuǎn)換公式，證明了策略熵在強(qiáng)化學(xué)習(xí)中的重要性。
從理論與實(shí)踐的角度發(fā)現(xiàn)了強(qiáng)化學(xué)習(xí)時(shí)的策略熵變化的驅(qū)動(dòng)力：動(dòng)作（模型輸出的 token）發(fā)生的概率及其對應(yīng)獲得的優(yōu)勢之間協(xié)方差。
從該角度出發(fā)，研究提出了兩種簡單（10 行代碼的修改）但十分有效的（AIME24/25 + 15%）的熵增強(qiáng)化學(xué)習(xí)方案 Clip-Cov 與 KL-Cov，實(shí)現(xiàn)了模型在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的持續(xù)探索。

論文標(biāo)題：The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
論文鏈接：https://huggingface.co/papers/2505.22617
代碼倉庫：https://github.com/PRIME-RL/Entropy-Mechanism-of-RL

1. 大模型強(qiáng)化學(xué)習(xí)中的熵塌縮問題

強(qiáng)化學(xué)習(xí)的核心挑戰(zhàn)在于利用 - 探索的權(quán)衡，即在重復(fù)驗(yàn)證策略與尋找新策略之間取得平衡。對于探索而言，衡量策略探索潛力的關(guān)鍵指標(biāo)是策略熵，它反映了策略在動(dòng)作選擇過程中的不確定性。在強(qiáng)化學(xué)習(xí)研究中，抑制策略熵的衰減被視為大多數(shù)算法的關(guān)鍵，傳統(tǒng)強(qiáng)化學(xué)習(xí)中，研究者常通過正則化手段主動(dòng)調(diào)控策略熵。

對于大語言模型，雖然策略熵的典型行為尚未得到充分研究，但我們在大量實(shí)驗(yàn)中發(fā)現(xiàn)了一個(gè)有趣且一致的模式：策略熵在短短幾步訓(xùn)練內(nèi)就會(huì)急劇下降至接近零，表明策略變得極度確定。這種探索能力的缺失直接導(dǎo)致性能停滯，驗(yàn)證集表現(xiàn)也同步陷入瓶頸。定量分析進(jìn)一步揭示，在沒有熵干預(yù)（如熵?fù)p失或 KL 正則化）的情況下，下游性能 (R) 完全由策略熵 (H) 決定，其擬合曲線符合簡單的指數(shù)函數(shù) R = -a exp (H)+ b，如下圖所示。本質(zhì)上，策略正在以可預(yù)測的方式用不確定性（熵）換取獎(jiǎng)勵(lì)。

圖 1 展示了大模型強(qiáng)化學(xué)習(xí)中的熵塌縮問題

在 Qwen,Mistral, LLaMA 和 Deepseek Model family 上，我們驗(yàn)證了這一點(diǎn)：

圖 2 不同 Model Family 中的熵塌縮現(xiàn)象

這一經(jīng)驗(yàn)規(guī)律衍生出兩個(gè)重要推論：（1）類似于Scaling Law，利用 - 探索曲線在給定策略模型和訓(xùn)練數(shù)據(jù)時(shí)即已確定。這使得我們能在強(qiáng)化學(xué)習(xí)早期預(yù)測策略表現(xiàn)，并從小模型推演大模型性能。（2）更重要的是，該方程表明當(dāng)策略熵耗盡時(shí)（H = 0, R = ?a + b），策略性能的上界也隨之確定，這意味著單純增加訓(xùn)練算力對強(qiáng)化學(xué)習(xí)的收益可能極其有限。因此，簡言之，要實(shí)現(xiàn)可擴(kuò)展的強(qiáng)化學(xué)習(xí)，必須突破熵瓶頸。

圖 3 訓(xùn)練前期預(yù)測模型最終性能

圖 4 小模型預(yù)測大模型

2. 大模型強(qiáng)化學(xué)習(xí)中熵與協(xié)方差的關(guān)系

解決這一問題的關(guān)鍵在于理解現(xiàn)象背后的機(jī)制：為何策略熵會(huì)單調(diào)遞減？為此，我們從理論和實(shí)驗(yàn)兩個(gè)維度分析了策略熵的動(dòng)力學(xué)特征。核心發(fā)現(xiàn)表明，對于采用 softmax 策略的 LLMs，連續(xù)兩步間的熵變化正比于動(dòng)作對數(shù)概率與對應(yīng) logit 變化的協(xié)方差。進(jìn)一步地，在策略梯度和自然策略梯度類算法中，logit 差異與動(dòng)作優(yōu)勢度成正比。

直觀而言，高優(yōu)勢度且高概率的動(dòng)作會(huì)降低策略熵，而高優(yōu)勢度的罕見動(dòng)作則會(huì)增加熵。這一理論結(jié)論得到了實(shí)驗(yàn)驗(yàn)證：訓(xùn)練初期，策略在訓(xùn)練數(shù)據(jù)上表現(xiàn)出高協(xié)方差，說明策略置信度良好，因此能安全地利用高置信軌跡，強(qiáng)化置信度并最小化熵（這也與最近的一些最小化熵來提高性能的工作結(jié)論吻合）；隨著訓(xùn)練推進(jìn)，協(xié)方差雖逐漸降低但仍保持正值，持續(xù)將策略熵拖向更低水平。

公式 1 對于熵與協(xié)方差的理論分析

圖 5 熵與協(xié)方差的實(shí)證分析

3. 基于協(xié)方差的熵增強(qiáng)化學(xué)習(xí)方案

我們首先通過實(shí)驗(yàn)驗(yàn)證了，傳統(tǒng)熵 / KL 正則化方法在大模型中收效甚微。

圖 6 傳統(tǒng)正則化手段失效

而對熵動(dòng)力學(xué)的分析表明，高協(xié)方差會(huì)阻礙強(qiáng)化學(xué)習(xí)的可擴(kuò)展性，這為提升策略熵提供了方向 —— 限制高協(xié)方差 token 的更新步長。基于此，我們設(shè)計(jì)了兩種熵控制策略 Clip-Cov 和 KL-Cov，分別替代替代損失中的 clip 和 PPO-KL 方法。Clip-Cov 隨機(jī)選取少量高協(xié)方差 token 并 detach 其梯度：

公式 2 Clip-Cov

KL-Cov 則更簡單，直接對協(xié)方差最大部分的 token 施加 KL 懲罰：

公式 3 KL-Cov

實(shí)驗(yàn)證明，通過調(diào)節(jié)閾值參數(shù)可主動(dòng)控制策略熵，使模型擺脫低熵陷阱：

圖 7 通過 Clip-Cov 與 KL-Cov 來控制熵

實(shí)驗(yàn)表明，在數(shù)學(xué)推理等任務(wù)中取得更優(yōu)的表現(xiàn)，在 Qwen2.5-32B 上，我們獲得了 6.4% 的提升，尤其在 AIME24/25 這樣的具有挑戰(zhàn)性的數(shù)據(jù)集上，提升更是達(dá)到 15%。

圖 8 Clip-Cov 與 KL-Cov 方法下熵，輸出長度，性能的訓(xùn)練動(dòng)態(tài)

圖 9 Clip-Cov 與 KL-Cov 的性能

本研究致力于解決大語言模型推理任務(wù)中強(qiáng)化學(xué)習(xí)的策略熵塌縮問題。通過實(shí)證分析，我們發(fā)現(xiàn)性能提升往往以犧牲探索能力為代價(jià)，這種權(quán)衡關(guān)系為模型改進(jìn)設(shè)置了可預(yù)見的性能上限。為深入理解這一現(xiàn)象，我們從理論層面解析了熵的動(dòng)態(tài)變化規(guī)律，并提出兩種簡單的正則化技術(shù) ——Clip-Cov 與 KL-Cov，通過直接調(diào)控高協(xié)方差標(biāo)記來有效遏制熵塌縮。

展望未來，訓(xùn)練算力將逐漸從預(yù)訓(xùn)練階段轉(zhuǎn)向后訓(xùn)練階段，尤其是強(qiáng)化學(xué)習(xí)。在通過增加算力擴(kuò)展強(qiáng)化學(xué)習(xí)的道路上，保持探索能力、發(fā)現(xiàn)新路徑、實(shí)現(xiàn)持續(xù)改進(jìn)至關(guān)重要唯有如此才能更高效地利用算力。但實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的規(guī)模化發(fā)展需要突破單純熵最小化的局限。我們期待這項(xiàng)研究能為熵的作用機(jī)制提供新見解，促進(jìn)對 LLM 強(qiáng)化學(xué)習(xí)底層機(jī)制的理解、分析與優(yōu)化，推動(dòng)強(qiáng)化學(xué)習(xí)向更高層次的智能邁進(jìn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.