99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

10行代碼,AIME24/25提高15%!揭秘大模型強(qiáng)化學(xué)習(xí)熵機(jī)制

0
分享至



本文作者分別來自于清華大學(xué)、北京大學(xué)、上海AI實(shí)驗(yàn)室等機(jī)構(gòu)。本文共同第一作者崔淦渠、張宇臣、陳嘉誠來自上海AI實(shí)驗(yàn)室,研究方向?yàn)榇竽P偷耐评碓鰪?qiáng)。通訊作者為上海AI實(shí)驗(yàn)室成宇教授、上海AI實(shí)驗(yàn)室周伯文教授、清華大學(xué)丁寧助理教授。

Nature never undertakes any change unless her interests are served by an increase in entropy.
自然界的任何變化,唯有在熵增符合其利益時(shí)方會(huì)發(fā)生——Max Planck

在強(qiáng)化學(xué)習(xí)中,我們又該如何讓熵增符合我們的利益?

近日,來自上海人工智能實(shí)驗(yàn)室、清北,UIUC等機(jī)構(gòu)的研究者的工作揭示了大模型強(qiáng)化學(xué)習(xí)中的熵變化的機(jī)制。研究內(nèi)容主要如下:

  • 定義了強(qiáng)化學(xué)習(xí)中的熵塌縮問題,并從 4 個(gè)模型家族,11 個(gè)模型上總結(jié)了熵與性能之間的經(jīng)驗(yàn)轉(zhuǎn)換公式,證明了策略熵在強(qiáng)化學(xué)習(xí)中的重要性。
  • 從理論與實(shí)踐的角度發(fā)現(xiàn)了強(qiáng)化學(xué)習(xí)時(shí)的策略熵變化的驅(qū)動(dòng)力:動(dòng)作(模型輸出的 token)發(fā)生的概率及其對應(yīng)獲得的優(yōu)勢之間協(xié)方差。
  • 從該角度出發(fā),研究提出了兩種簡單(10 行代碼的修改)但十分有效的(AIME24/25 + 15%)的熵增強(qiáng)化學(xué)習(xí)方案 Clip-Cov 與 KL-Cov,實(shí)現(xiàn)了模型在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的持續(xù)探索。



  • 論文標(biāo)題:The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
  • 論文鏈接:https://huggingface.co/papers/2505.22617
  • 代碼倉庫:https://github.com/PRIME-RL/Entropy-Mechanism-of-RL

1. 大模型強(qiáng)化學(xué)習(xí)中的熵塌縮問題

強(qiáng)化學(xué)習(xí)的核心挑戰(zhàn)在于利用 - 探索的權(quán)衡,即在重復(fù)驗(yàn)證策略與尋找新策略之間取得平衡。對于探索而言,衡量策略探索潛力的關(guān)鍵指標(biāo)是策略熵,它反映了策略在動(dòng)作選擇過程中的不確定性。在強(qiáng)化學(xué)習(xí)研究中,抑制策略熵的衰減被視為大多數(shù)算法的關(guān)鍵,傳統(tǒng)強(qiáng)化學(xué)習(xí)中,研究者常通過正則化手段主動(dòng)調(diào)控策略熵。

對于大語言模型,雖然策略熵的典型行為尚未得到充分研究,但我們在大量實(shí)驗(yàn)中發(fā)現(xiàn)了一個(gè)有趣且一致的模式:策略熵在短短幾步訓(xùn)練內(nèi)就會(huì)急劇下降至接近零,表明策略變得極度確定。這種探索能力的缺失直接導(dǎo)致性能停滯,驗(yàn)證集表現(xiàn)也同步陷入瓶頸。定量分析進(jìn)一步揭示,在沒有熵干預(yù)(如熵?fù)p失或 KL 正則化)的情況下,下游性能 (R) 完全由策略熵 (H) 決定,其擬合曲線符合簡單的指數(shù)函數(shù) R = -a exp (H)+ b,如下圖所示。本質(zhì)上,策略正在以可預(yù)測的方式用不確定性(熵)換取獎(jiǎng)勵(lì)。



圖 1 展示了大模型強(qiáng)化學(xué)習(xí)中的熵塌縮問題

在 Qwen,Mistral, LLaMA 和 Deepseek Model family 上,我們驗(yàn)證了這一點(diǎn):



圖 2 不同 Model Family 中的熵塌縮現(xiàn)象

這一經(jīng)驗(yàn)規(guī)律衍生出兩個(gè)重要推論:(1)類似于Scaling Law,利用 - 探索曲線在給定策略模型和訓(xùn)練數(shù)據(jù)時(shí)即已確定。這使得我們能在強(qiáng)化學(xué)習(xí)早期預(yù)測策略表現(xiàn),并從小模型推演大模型性能。(2)更重要的是,該方程表明當(dāng)策略熵耗盡時(shí)(H = 0, R = ?a + b),策略性能的上界也隨之確定,這意味著單純增加訓(xùn)練算力對強(qiáng)化學(xué)習(xí)的收益可能極其有限。因此,簡言之,要實(shí)現(xiàn)可擴(kuò)展的強(qiáng)化學(xué)習(xí),必須突破熵瓶頸。



圖 3 訓(xùn)練前期預(yù)測模型最終性能



圖 4 小模型預(yù)測大模型

2. 大模型強(qiáng)化學(xué)習(xí)中熵與協(xié)方差的關(guān)系

解決這一問題的關(guān)鍵在于理解現(xiàn)象背后的機(jī)制:為何策略熵會(huì)單調(diào)遞減?為此,我們從理論和實(shí)驗(yàn)兩個(gè)維度分析了策略熵的動(dòng)力學(xué)特征。核心發(fā)現(xiàn)表明,對于采用 softmax 策略的 LLMs,連續(xù)兩步間的熵變化正比于動(dòng)作對數(shù)概率與對應(yīng) logit 變化的協(xié)方差。進(jìn)一步地,在策略梯度和自然策略梯度類算法中,logit 差異與動(dòng)作優(yōu)勢度成正比。

直觀而言,高優(yōu)勢度且高概率的動(dòng)作會(huì)降低策略熵,而高優(yōu)勢度的罕見動(dòng)作則會(huì)增加熵。這一理論結(jié)論得到了實(shí)驗(yàn)驗(yàn)證:訓(xùn)練初期,策略在訓(xùn)練數(shù)據(jù)上表現(xiàn)出高協(xié)方差,說明策略置信度良好,因此能安全地利用高置信軌跡,強(qiáng)化置信度并最小化熵(這也與最近的一些最小化熵來提高性能的工作結(jié)論吻合);隨著訓(xùn)練推進(jìn),協(xié)方差雖逐漸降低但仍保持正值,持續(xù)將策略熵拖向更低水平。



公式 1 對于熵與協(xié)方差的理論分析



圖 5 熵與協(xié)方差的實(shí)證分析

3. 基于協(xié)方差的熵增強(qiáng)化學(xué)習(xí)方案

我們首先通過實(shí)驗(yàn)驗(yàn)證了,傳統(tǒng)熵 / KL 正則化方法在大模型中收效甚微。



圖 6 傳統(tǒng)正則化手段失效

而對熵動(dòng)力學(xué)的分析表明,高協(xié)方差會(huì)阻礙強(qiáng)化學(xué)習(xí)的可擴(kuò)展性,這為提升策略熵提供了方向 —— 限制高協(xié)方差 token 的更新步長。基于此,我們設(shè)計(jì)了兩種熵控制策略 Clip-Cov 和 KL-Cov,分別替代替代損失中的 clip 和 PPO-KL 方法。Clip-Cov 隨機(jī)選取少量高協(xié)方差 token 并 detach 其梯度:





公式 2 Clip-Cov

KL-Cov 則更簡單,直接對協(xié)方差最大部分的 token 施加 KL 懲罰:





公式 3 KL-Cov

實(shí)驗(yàn)證明,通過調(diào)節(jié)閾值參數(shù)可主動(dòng)控制策略熵,使模型擺脫低熵陷阱:



圖 7 通過 Clip-Cov 與 KL-Cov 來控制熵

實(shí)驗(yàn)表明,在數(shù)學(xué)推理等任務(wù)中取得更優(yōu)的表現(xiàn),在 Qwen2.5-32B 上,我們獲得了 6.4% 的提升,尤其在 AIME24/25 這樣的具有挑戰(zhàn)性的數(shù)據(jù)集上,提升更是達(dá)到 15%。



圖 8 Clip-Cov 與 KL-Cov 方法下熵,輸出長度,性能的訓(xùn)練動(dòng)態(tài)



圖 9 Clip-Cov 與 KL-Cov 的性能

本研究致力于解決大語言模型推理任務(wù)中強(qiáng)化學(xué)習(xí)的策略熵塌縮問題。通過實(shí)證分析,我們發(fā)現(xiàn)性能提升往往以犧牲探索能力為代價(jià),這種權(quán)衡關(guān)系為模型改進(jìn)設(shè)置了可預(yù)見的性能上限。為深入理解這一現(xiàn)象,我們從理論層面解析了熵的動(dòng)態(tài)變化規(guī)律,并提出兩種簡單的正則化技術(shù) ——Clip-Cov 與 KL-Cov,通過直接調(diào)控高協(xié)方差標(biāo)記來有效遏制熵塌縮。

展望未來,訓(xùn)練算力將逐漸從預(yù)訓(xùn)練階段轉(zhuǎn)向后訓(xùn)練階段,尤其是強(qiáng)化學(xué)習(xí)。在通過增加算力擴(kuò)展強(qiáng)化學(xué)習(xí)的道路上,保持探索能力、發(fā)現(xiàn)新路徑、實(shí)現(xiàn)持續(xù)改進(jìn)至關(guān)重要唯有如此才能更高效地利用算力。但實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的規(guī)模化發(fā)展需要突破單純熵最小化的局限。我們期待這項(xiàng)研究能為熵的作用機(jī)制提供新見解,促進(jìn)對 LLM 強(qiáng)化學(xué)習(xí)底層機(jī)制的理解、分析與優(yōu)化,推動(dòng)強(qiáng)化學(xué)習(xí)向更高層次的智能邁進(jìn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
亞足聯(lián):自2025年8月起,禁止在人造草皮上進(jìn)行正式比賽

亞足聯(lián):自2025年8月起,禁止在人造草皮上進(jìn)行正式比賽

直播吧
2025-06-12 15:57:20
“中產(chǎn)階級”及格線出來了!全國總共才3320萬戶?你達(dá)標(biāo)了嗎?

“中產(chǎn)階級”及格線出來了!全國總共才3320萬戶?你達(dá)標(biāo)了嗎?

巢客HOME
2025-06-05 16:15:03
廣汽集團(tuán)盤中直線拉升觸及漲停

廣汽集團(tuán)盤中直線拉升觸及漲停

界面新聞
2025-06-12 14:55:09
“數(shù)學(xué)150變135!”清華附女孩全程黑臉走出考場,網(wǎng)友并不買賬

“數(shù)學(xué)150變135!”清華附女孩全程黑臉走出考場,網(wǎng)友并不買賬

熙熙說教
2025-06-10 20:30:23
洛杉磯暴亂讓一個(gè)中國大媽爆紅!因?yàn)橹挥兴诰S護(hù)“世界和瓶”

洛杉磯暴亂讓一個(gè)中國大媽爆紅!因?yàn)橹挥兴诰S護(hù)“世界和瓶”

留學(xué)生日報(bào)
2025-06-11 21:41:09
英雄張偉妻子正面照曝光!長相漂亮氣質(zhì)出眾,舉止看出修養(yǎng)高!

英雄張偉妻子正面照曝光!長相漂亮氣質(zhì)出眾,舉止看出修養(yǎng)高!

古希臘掌管松餅的神
2025-06-12 15:08:42
航跡圖曝光!美政府證實(shí)出動(dòng)MQ-9“死神”無人機(jī)巡航監(jiān)視洛杉磯抗議,引爭議

航跡圖曝光!美政府證實(shí)出動(dòng)MQ-9“死神”無人機(jī)巡航監(jiān)視洛杉磯抗議,引爭議

環(huán)球網(wǎng)資訊
2025-06-12 12:35:30
哪吒汽車宣布今日起居家辦公 員工:門禁失效,母公司將破產(chǎn)重整

哪吒汽車宣布今日起居家辦公 員工:門禁失效,母公司將破產(chǎn)重整

紅星新聞
2025-06-12 14:56:12
亞歷山大:麥康奈爾的5搶斷讓我們非常痛苦,這本來可以避免

亞歷山大:麥康奈爾的5搶斷讓我們非常痛苦,這本來可以避免

懂球帝
2025-06-12 15:48:59
傳汽車博主“賽車星冰樂”被帶走,已20個(gè)小時(shí)未更新

傳汽車博主“賽車星冰樂”被帶走,已20個(gè)小時(shí)未更新

三言科技
2025-06-12 10:33:17
印媒:墜毀客機(jī)載有242名乘客

印媒:墜毀客機(jī)載有242名乘客

新京報(bào)
2025-06-12 17:06:04
石破茂讓全世界都吃驚!日本做出承諾,把話說透,美國絕沒料到

石破茂讓全世界都吃驚!日本做出承諾,把話說透,美國絕沒料到

熒惑手心
2025-06-12 09:21:00
再也藏不住了,肖戰(zhàn)官宣了!

再也藏不住了,肖戰(zhàn)官宣了!

喜歡歷史的阿繁
2025-06-12 10:16:42
拍賣價(jià)108萬的Labubu原始售價(jià)5位數(shù),首任藏家5年前購自演員鄭愷的潮牌店,拍賣價(jià)82萬的Labubu也曾是他的

拍賣價(jià)108萬的Labubu原始售價(jià)5位數(shù),首任藏家5年前購自演員鄭愷的潮牌店,拍賣價(jià)82萬的Labubu也曾是他的

極目新聞
2025-06-11 18:06:21
調(diào)皮!哈利伯頓投進(jìn)三分后克拉克朝他做鎖喉動(dòng)作慶祝

調(diào)皮!哈利伯頓投進(jìn)三分后克拉克朝他做鎖喉動(dòng)作慶祝

雷速體育
2025-06-12 09:44:19
郵儲銀行 2025 年 6 月 11 日利率大調(diào)整!最高年化利率達(dá) 3.5%!

郵儲銀行 2025 年 6 月 11 日利率大調(diào)整!最高年化利率達(dá) 3.5%!

藍(lán)色海邊
2025-06-12 00:59:45
紐森反了!號召全美國人民共同討賊,主持人已稱呼紐森為“總統(tǒng)”

紐森反了!號召全美國人民共同討賊,主持人已稱呼紐森為“總統(tǒng)”

阿龍聊軍事
2025-06-12 10:42:14
央視水均益現(xiàn)狀:在加拿大帶娃未改國籍,13歲龍鳳胎變樣,現(xiàn)回國

央視水均益現(xiàn)狀:在加拿大帶娃未改國籍,13歲龍鳳胎變樣,現(xiàn)回國

星改造
2025-06-12 12:37:50
郴州市桂東縣科技和工業(yè)信息化局原黨組書記扶敏之被“雙開”

郴州市桂東縣科技和工業(yè)信息化局原黨組書記扶敏之被“雙開”

三湘都市報(bào)
2025-06-11 21:13:47
烏先發(fā)制人打擊!烏克蘭襲擊俄首都,烏軍司令:我們才是戰(zhàn)斗民族

烏先發(fā)制人打擊!烏克蘭襲擊俄首都,烏軍司令:我們才是戰(zhàn)斗民族

議紀(jì)史
2025-06-11 16:10:03
2025-06-12 18:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10630文章數(shù) 142337關(guān)注度
往期回顧 全部

科技要聞

一鏡雙目捅破天,華為最快明年Q2超越蘋果

頭條要聞

全美多地或舉行"拒絕國王"抗議活動(dòng) 特朗普已發(fā)出警告

頭條要聞

全美多地或舉行"拒絕國王"抗議活動(dòng) 特朗普已發(fā)出警告

體育要聞

沒有人會(huì)不喜歡TJ-麥康奈爾

娛樂要聞

鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊

財(cái)經(jīng)要聞

"特馬"互撕反轉(zhuǎn)?特朗普回應(yīng)馬斯克反悔

汽車要聞

方程豹最大SUV比豹8便宜?鈦7搭華為智駕

態(tài)度原創(chuàng)

藝術(shù)
教育
家居
手機(jī)
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

南京小升初家長注意!數(shù)學(xué)英語前20%的孩子,升學(xué)暗藏新跳板!

家居要聞

精致奢華 豐富的連貫空間

手機(jī)要聞

魅族新機(jī) M582Q 三證齊全,預(yù)計(jì)為魅族 22 小屏版

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中阳县| 阿坝| 额敏县| 石屏县| 昌图县| 瑞安市| 库伦旗| 崇仁县| 南昌县| 万宁市| 高邮市| 汝州市| 青海省| 吴桥县| 瑞金市| 双流县| 靖远县| 五河县| 梁平县| 通江县| 皮山县| 伊宁县| 怀来县| 宝山区| 黄浦区| 夹江县| 祥云县| 巴中市| 垦利县| 孟州市| 焦作市| 本溪市| 汽车| 阜城县| 罗城| 贵德县| 隆子县| 申扎县| 依安县| 昌江| 南康市|