99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

突破通用領域推理的瓶頸!清華NLP實驗室強化學習新研究RLPR

0
分享至



余天予,清華大學計算機系一年級博士生,導師為清華大學自然語言處理實驗室劉知遠副教授。研究興趣主要包括高效多模態大模型、多模態大模型對齊和強化學習,在 CVPR、AAAI等人工智能領域的著名國際會議和期刊發表多篇學術論文,谷歌學術引用1000余次。

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表現充分展現了 RLVR(Reinforcement Learning with Verifiable Reward,基于可驗證獎勵的強化學習)的巨大潛力。

然而,現有方法的應用范圍局限于數學和代碼等少數領域。面對自然語言固有的豐富多樣性,依賴規則驗證器的方法難以拓展到通用領域上。

針對這一關鍵挑戰,清華大學自然語言處理實驗室提出了一項關鍵性技術 —— 基于參考概率獎勵的強化學習(Reinforcement Learning with Reference Probability Reward,RLPR)。



  • 論文標題:RLPR: Extrapolating RLVR to General Domains without Verifiers
  • 論文地址:https://github.com/OpenBMB/RLPR/blob/main/RLPR_paper.pdf
  • GitHub 倉庫:https://github.com/OpenBMB/RLPR

這項技術通過 Prob-to-Reward 方法顯著提高了概率獎勵(Probability-based Reward, PR)的質量,相比基于似然度的基線方法取得了明顯更佳的性能優勢和訓練穩定性。

同時,RLPR 提出基于獎勵標準差的動態過濾機制,進一步提升強化學習的穩定性和性能提升。目前 RLPR 相關代碼、模型、數據、論文均已開源。

PR 為何有效?挖掘模型的內在評估

研究團隊觀察到,大語言模型(LLM)在推理過程中對于參考答案的生成概率直接反映了模型對于本次推理的質量評估。也就是說,模型的推理越正確,其生成參考答案的概率通常就越高。

在論文中,研究團隊給出了一個具體示例:當模型在輸出 o2 中錯誤地把選項 A 排在了第二位時,可以觀察到參考答案在第二個正確選項位置上的生成概率出現了顯著下降。這一現象清晰地表明,PR 能夠精準捕捉模型對于自身推理質量的判斷,并且與模型推理的正確性表現出高度相關性。



PR 示例,更深的顏色代表更大的輸出概率

RLPR 核心特點

領域無關的高效獎勵生成

現有 RLVR 方法通常需要投入大量的人力和工程資源,為每個領域編寫特定的驗證規則,相比之下,RLPR 僅需要簡單的一次前向傳播(forward pass)就可以生成獎勵分數。通過使用參考答案的生成概率均值作為獎勵。這種方法能夠有效地應對自然語言固有的復雜多樣性。

如下圖所示(右側示例),基于規則匹配的方式無法識別出 y2 和 y3 和參考答案語義等價,而 RLPR 的 PR 機制準確地給予了這兩個答案更高的分數。



RLPR 與現有 RLVR 范式的對比

獎勵糾偏和動態過濾

基礎的 PR 已經呈現出和回答質量很高的相關性,但是仍然受到問題和參考答案風格等無關因素的干擾(即存在偏差)。為此,研究團隊提出構建一個不包含思維鏈過程(z)的對照獎勵,并通過做差的方式去除無關因素對于分數的影響,實現獎勵糾偏。

傳統基于準確率(Accuracy Filtering)的樣本過濾方法難以適用于連續的 PR 值。RLPR 提出基于獎勵標準差的動態過濾機制,保留那些取得較高獎勵標準差的樣本用于訓練,有效提升了訓練的穩定性和效果。考慮到訓練過程中獎勵的標準差會持續變化,RLPR 進一步采用指數移動平均(EMA)的方式持續動態更新過濾閾值。

可靠的獎勵質量和框架魯棒性

研究團隊通過 ROC-AUC 指標定量評估了不同來源獎勵的質量。結果表明,PR 在 0.5B 規模即取得了顯著優于規則獎勵和驗證器模型獎勵的質量。同時,通用領域獎勵質量隨著模型能力的增強可以進一步提高到 0.91 水平。



PR 獎勵質量優于規則獎勵和驗證器模型獎勵

為了驗證框架的魯棒性,研究團隊使用多種不同的訓練模板結合 RLPR 訓練 Qwen2.5 3B 模型,并觀察到 RLPR 在不同訓練模板上都可以取得穩定的性能提升。



RLPR 對不同訓練模板的魯棒性

研究團隊還進一步在 Gemma、Llama 等更多系列的基座模型上進行實驗,驗證 RLPR 框架對于不同基座模型均可以穩定提升模型的推理能力,并超過了使用規則獎勵的 RLVR 基線。



RLPR 在 Gemma、Llama、Qwen 等不同基座模型上均穩定提升推理能力

總結

RLPR 提出了創新的 Prob-to-Reward 獎勵機制,解決了現有 RLVR 范式的領域依賴問題。通過在 Gemma、Llama、Qwen 等主流模型系列上的廣泛驗證,RLPR 不僅證明了其卓越的有效性和相對于傳統規則獎勵的顯著優勢,更在推動強化學習(RL)向更大規模(scaling)發展的道路上,邁出了堅實而有力的一步。

更多研究細節,可參考原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
東航3.21空難調查,決定不公開

東航3.21空難調查,決定不公開

雄韜視線
2025-06-26 19:08:28
寶馬再表態:內燃機是我們賴以生存的根基,也是未來業務重要支撐

寶馬再表態:內燃機是我們賴以生存的根基,也是未來業務重要支撐

IT之家
2025-06-27 08:34:08
93年我晉升副師長,妻子帶女兒探營,司令員見到她后呆住了

93年我晉升副師長,妻子帶女兒探營,司令員見到她后呆住了

今天說故事
2025-06-24 19:49:37
1小時大定突破28.9萬輛!雷軍:拿到這么多訂單挺激動 小米不是靠營銷贏

1小時大定突破28.9萬輛!雷軍:拿到這么多訂單挺激動 小米不是靠營銷贏

每日經濟新聞
2025-06-27 02:53:08
五臺山和尚扔掉老人供奉大米,在佛殿里滿嘴臟話:這種米我們有的是

五臺山和尚扔掉老人供奉大米,在佛殿里滿嘴臟話:這種米我們有的是

小蘿卜絲
2025-06-27 10:52:06
1棵樹采購價近80萬!福州煙臺山公園“天價樹”調查:已有多棵死亡

1棵樹采購價近80萬!福州煙臺山公園“天價樹”調查:已有多棵死亡

揚子晚報
2025-06-27 10:38:28
伊朗外長:以色列目前擁有90枚核彈頭,除以之外中東其他國家沒有一個擁核;外界估計以色列掌握核武器介于90-200枚之間

伊朗外長:以色列目前擁有90枚核彈頭,除以之外中東其他國家沒有一個擁核;外界估計以色列掌握核武器介于90-200枚之間

揚子晚報
2025-06-27 08:08:24
1萬元就能從官網刪行政處罰?1.5萬元還能刪法院判決書?刑法八大重罪也行?信用修復江湖大起底

1萬元就能從官網刪行政處罰?1.5萬元還能刪法院判決書?刑法八大重罪也行?信用修復江湖大起底

每日經濟新聞
2025-06-26 22:03:06
太尷尬了!女兒高考成績662分,朋友圈集體沉默,只收獲幾個贊…

太尷尬了!女兒高考成績662分,朋友圈集體沉默,只收獲幾個贊…

火山詩話
2025-06-27 05:43:50
誰是冠軍單品:抖音電商618熱賣金榜揭曉162個細分品類TOP1!

誰是冠軍單品:抖音電商618熱賣金榜揭曉162個細分品類TOP1!

一點財經
2025-06-27 10:55:18
熱點問答|哈梅內伊的“三個祝賀”有何深意

熱點問答|哈梅內伊的“三個祝賀”有何深意

澎湃新聞
2025-06-27 00:41:04
家庭聚餐要報備?餐館冷清!新華社:基層整治跑偏,普通人遭了殃

家庭聚餐要報備?餐館冷清!新華社:基層整治跑偏,普通人遭了殃

春序娛樂
2025-06-27 11:42:25
不想被電車背刺的人,都去搶小米YU7了

不想被電車背刺的人,都去搶小米YU7了

源Auto
2025-06-26 21:57:28
突發新聞:美國向伊朗開出條件,提供300億美元換取伊朗放棄核彈

突發新聞:美國向伊朗開出條件,提供300億美元換取伊朗放棄核彈

淡然小司
2025-06-27 09:16:21
杜特爾特禍從口出,活著回到菲律賓的希望,或被他親手斷送

杜特爾特禍從口出,活著回到菲律賓的希望,或被他親手斷送

博覽歷史
2025-06-27 08:10:07
為什么要往死里掃黃......

為什么要往死里掃黃......

深度報
2025-06-25 22:38:42
縣長白慶武,任上被查

縣長白慶武,任上被查

新京報
2025-06-27 13:12:01
“屎”無前例!一次大便花了1700元,工地上演最有味道的名場面

“屎”無前例!一次大便花了1700元,工地上演最有味道的名場面

火山詩話
2025-06-26 18:46:25
價格誠意拉滿,全新沃爾沃XC60為守住市場地位拼了

價格誠意拉滿,全新沃爾沃XC60為守住市場地位拼了

汽車公社
2025-06-27 11:30:46
王思聰東京豪宅內部曝光 裝修超豪一條地毯85w王思聰電競房打游戲

王思聰東京豪宅內部曝光 裝修超豪一條地毯85w王思聰電競房打游戲

溫讀史
2025-06-27 10:09:12
2025-06-27 14:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10728文章數 142348關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

急救員回應救護車帶ECMO不用也收費:車上備這是白費

頭條要聞

急救員回應救護車帶ECMO不用也收費:車上備這是白費

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

網傳白玉蘭最佳男女主獎將“爆冷”

財經要聞

1萬就能刪行政處罰?信用修復江湖起底

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

房產
游戲
藝術
親子
旅游

房產要聞

最強黑馬殺出!海南這些區域,教育正悄悄崛起!

《輪盤獵人:命運賭局》試玩報告:內容最豐富的“俄羅斯輪盤賭”"/> 主站 商城 論壇 自運營 登錄 注冊 《輪盤獵人:命運賭局》試玩報告:內容最豐富的“...

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

東北姥姥教寶寶“掉腚下地”,9個月的寶寶居然聽懂了

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 平罗县| 临武县| 县级市| 松江区| 中江县| 江口县| 潞西市| 玛沁县| 襄垣县| 偏关县| 大同县| 阿拉善右旗| 军事| 刚察县| 汽车| 兰州市| 息烽县| 平远县| 桂东县| 左权县| 乌兰浩特市| 建阳市| 高平市| 镇康县| 信宜市| 阿拉善盟| 英山县| 汉寿县| 寿光市| 铜陵市| 陵水| 广东省| 牙克石市| 宣威市| 石狮市| 南投县| 孝感市| 广宗县| 平江县| 大兴区| 延寿县|