本文作者分別來自于清華大學(xué)、北京大學(xué)、上海AI實(shí)驗(yàn)室等機(jī)構(gòu)。本文共同第一作者崔淦渠、張宇臣、陳嘉誠來自上海AI實(shí)驗(yàn)室,研究方向?yàn)榇竽P偷耐评碓鰪?qiáng)。通訊作者為上海AI實(shí)驗(yàn)室成宇教授、上海AI實(shí)驗(yàn)室周伯文教授、清華大學(xué)丁寧助理教授。
Nature never undertakes any change unless her interests are served by an increase in entropy.
自然界的任何變化,唯有在熵增符合其利益時(shí)方會(huì)發(fā)生——Max Planck
在強(qiáng)化學(xué)習(xí)中,我們又該如何讓熵增符合我們的利益?
近日,來自上海人工智能實(shí)驗(yàn)室、清北,UIUC等機(jī)構(gòu)的研究者的工作揭示了大模型強(qiáng)化學(xué)習(xí)中的熵變化的機(jī)制。研究內(nèi)容主要如下:
- 定義了強(qiáng)化學(xué)習(xí)中的熵塌縮問題,并從 4 個(gè)模型家族,11 個(gè)模型上總結(jié)了熵與性能之間的經(jīng)驗(yàn)轉(zhuǎn)換公式,證明了策略熵在強(qiáng)化學(xué)習(xí)中的重要性。
- 從理論與實(shí)踐的角度發(fā)現(xiàn)了強(qiáng)化學(xué)習(xí)時(shí)的策略熵變化的驅(qū)動(dòng)力:動(dòng)作(模型輸出的 token)發(fā)生的概率及其對應(yīng)獲得的優(yōu)勢之間協(xié)方差。
- 從該角度出發(fā),研究提出了兩種簡單(10 行代碼的修改)但十分有效的(AIME24/25 + 15%)的熵增強(qiáng)化學(xué)習(xí)方案 Clip-Cov 與 KL-Cov,實(shí)現(xiàn)了模型在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的持續(xù)探索。
- 論文標(biāo)題:The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
- 論文鏈接:https://huggingface.co/papers/2505.22617
- 代碼倉庫:https://github.com/PRIME-RL/Entropy-Mechanism-of-RL
1. 大模型強(qiáng)化學(xué)習(xí)中的熵塌縮問題
強(qiáng)化學(xué)習(xí)的核心挑戰(zhàn)在于利用 - 探索的權(quán)衡,即在重復(fù)驗(yàn)證策略與尋找新策略之間取得平衡。對于探索而言,衡量策略探索潛力的關(guān)鍵指標(biāo)是策略熵,它反映了策略在動(dòng)作選擇過程中的不確定性。在強(qiáng)化學(xué)習(xí)研究中,抑制策略熵的衰減被視為大多數(shù)算法的關(guān)鍵,傳統(tǒng)強(qiáng)化學(xué)習(xí)中,研究者常通過正則化手段主動(dòng)調(diào)控策略熵。
對于大語言模型,雖然策略熵的典型行為尚未得到充分研究,但我們在大量實(shí)驗(yàn)中發(fā)現(xiàn)了一個(gè)有趣且一致的模式:策略熵在短短幾步訓(xùn)練內(nèi)就會(huì)急劇下降至接近零,表明策略變得極度確定。這種探索能力的缺失直接導(dǎo)致性能停滯,驗(yàn)證集表現(xiàn)也同步陷入瓶頸。定量分析進(jìn)一步揭示,在沒有熵干預(yù)(如熵?fù)p失或 KL 正則化)的情況下,下游性能 (R) 完全由策略熵 (H) 決定,其擬合曲線符合簡單的指數(shù)函數(shù) R = -a exp (H)+ b,如下圖所示。本質(zhì)上,策略正在以可預(yù)測的方式用不確定性(熵)換取獎(jiǎng)勵(lì)。
圖 1 展示了大模型強(qiáng)化學(xué)習(xí)中的熵塌縮問題
在 Qwen,Mistral, LLaMA 和 Deepseek Model family 上,我們驗(yàn)證了這一點(diǎn):
圖 2 不同 Model Family 中的熵塌縮現(xiàn)象
這一經(jīng)驗(yàn)規(guī)律衍生出兩個(gè)重要推論:(1)類似于Scaling Law,利用 - 探索曲線在給定策略模型和訓(xùn)練數(shù)據(jù)時(shí)即已確定。這使得我們能在強(qiáng)化學(xué)習(xí)早期預(yù)測策略表現(xiàn),并從小模型推演大模型性能。(2)更重要的是,該方程表明當(dāng)策略熵耗盡時(shí)(H = 0, R = ?a + b),策略性能的上界也隨之確定,這意味著單純增加訓(xùn)練算力對強(qiáng)化學(xué)習(xí)的收益可能極其有限。因此,簡言之,要實(shí)現(xiàn)可擴(kuò)展的強(qiáng)化學(xué)習(xí),必須突破熵瓶頸。
圖 3 訓(xùn)練前期預(yù)測模型最終性能
圖 4 小模型預(yù)測大模型
2. 大模型強(qiáng)化學(xué)習(xí)中熵與協(xié)方差的關(guān)系
解決這一問題的關(guān)鍵在于理解現(xiàn)象背后的機(jī)制:為何策略熵會(huì)單調(diào)遞減?為此,我們從理論和實(shí)驗(yàn)兩個(gè)維度分析了策略熵的動(dòng)力學(xué)特征。核心發(fā)現(xiàn)表明,對于采用 softmax 策略的 LLMs,連續(xù)兩步間的熵變化正比于動(dòng)作對數(shù)概率與對應(yīng) logit 變化的協(xié)方差。進(jìn)一步地,在策略梯度和自然策略梯度類算法中,logit 差異與動(dòng)作優(yōu)勢度成正比。
直觀而言,高優(yōu)勢度且高概率的動(dòng)作會(huì)降低策略熵,而高優(yōu)勢度的罕見動(dòng)作則會(huì)增加熵。這一理論結(jié)論得到了實(shí)驗(yàn)驗(yàn)證:訓(xùn)練初期,策略在訓(xùn)練數(shù)據(jù)上表現(xiàn)出高協(xié)方差,說明策略置信度良好,因此能安全地利用高置信軌跡,強(qiáng)化置信度并最小化熵(這也與最近的一些最小化熵來提高性能的工作結(jié)論吻合);隨著訓(xùn)練推進(jìn),協(xié)方差雖逐漸降低但仍保持正值,持續(xù)將策略熵拖向更低水平。
公式 1 對于熵與協(xié)方差的理論分析
圖 5 熵與協(xié)方差的實(shí)證分析
3. 基于協(xié)方差的熵增強(qiáng)化學(xué)習(xí)方案
我們首先通過實(shí)驗(yàn)驗(yàn)證了,傳統(tǒng)熵 / KL 正則化方法在大模型中收效甚微。
圖 6 傳統(tǒng)正則化手段失效
而對熵動(dòng)力學(xué)的分析表明,高協(xié)方差會(huì)阻礙強(qiáng)化學(xué)習(xí)的可擴(kuò)展性,這為提升策略熵提供了方向 —— 限制高協(xié)方差 token 的更新步長。基于此,我們設(shè)計(jì)了兩種熵控制策略 Clip-Cov 和 KL-Cov,分別替代替代損失中的 clip 和 PPO-KL 方法。Clip-Cov 隨機(jī)選取少量高協(xié)方差 token 并 detach 其梯度:
公式 2 Clip-Cov
KL-Cov 則更簡單,直接對協(xié)方差最大部分的 token 施加 KL 懲罰:
公式 3 KL-Cov
實(shí)驗(yàn)證明,通過調(diào)節(jié)閾值參數(shù)可主動(dòng)控制策略熵,使模型擺脫低熵陷阱:
圖 7 通過 Clip-Cov 與 KL-Cov 來控制熵
實(shí)驗(yàn)表明,在數(shù)學(xué)推理等任務(wù)中取得更優(yōu)的表現(xiàn),在 Qwen2.5-32B 上,我們獲得了 6.4% 的提升,尤其在 AIME24/25 這樣的具有挑戰(zhàn)性的數(shù)據(jù)集上,提升更是達(dá)到 15%。
圖 8 Clip-Cov 與 KL-Cov 方法下熵,輸出長度,性能的訓(xùn)練動(dòng)態(tài)
圖 9 Clip-Cov 與 KL-Cov 的性能
本研究致力于解決大語言模型推理任務(wù)中強(qiáng)化學(xué)習(xí)的策略熵塌縮問題。通過實(shí)證分析,我們發(fā)現(xiàn)性能提升往往以犧牲探索能力為代價(jià),這種權(quán)衡關(guān)系為模型改進(jìn)設(shè)置了可預(yù)見的性能上限。為深入理解這一現(xiàn)象,我們從理論層面解析了熵的動(dòng)態(tài)變化規(guī)律,并提出兩種簡單的正則化技術(shù) ——Clip-Cov 與 KL-Cov,通過直接調(diào)控高協(xié)方差標(biāo)記來有效遏制熵塌縮。
展望未來,訓(xùn)練算力將逐漸從預(yù)訓(xùn)練階段轉(zhuǎn)向后訓(xùn)練階段,尤其是強(qiáng)化學(xué)習(xí)。在通過增加算力擴(kuò)展強(qiáng)化學(xué)習(xí)的道路上,保持探索能力、發(fā)現(xiàn)新路徑、實(shí)現(xiàn)持續(xù)改進(jìn)至關(guān)重要唯有如此才能更高效地利用算力。但實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的規(guī)模化發(fā)展需要突破單純熵最小化的局限。我們期待這項(xiàng)研究能為熵的作用機(jī)制提供新見解,促進(jìn)對 LLM 強(qiáng)化學(xué)習(xí)底層機(jī)制的理解、分析與優(yōu)化,推動(dòng)強(qiáng)化學(xué)習(xí)向更高層次的智能邁進(jìn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.