網易首頁 > 網易號 > 正文申請入駐

突破通用領域推理的瓶頸！清華NLP實驗室強化學習新研究RLPR

2025-06-27 10:30:06　來源: 機器之心Pro

北京舉報

分享至

余天予，清華大學計算機系一年級博士生，導師為清華大學自然語言處理實驗室劉知遠副教授。研究興趣主要包括高效多模態大模型、多模態大模型對齊和強化學習，在 CVPR、AAAI等人工智能領域的著名國際會議和期刊發表多篇學術論文，谷歌學術引用1000余次。

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表現充分展現了 RLVR（Reinforcement Learning with Verifiable Reward，基于可驗證獎勵的強化學習）的巨大潛力。

然而，現有方法的應用范圍局限于數學和代碼等少數領域。面對自然語言固有的豐富多樣性，依賴規則驗證器的方法難以拓展到通用領域上。

針對這一關鍵挑戰，清華大學自然語言處理實驗室提出了一項關鍵性技術 —— 基于參考概率獎勵的強化學習（Reinforcement Learning with Reference Probability Reward，RLPR）。

論文標題：RLPR: Extrapolating RLVR to General Domains without Verifiers
論文地址：https://github.com/OpenBMB/RLPR/blob/main/RLPR_paper.pdf
GitHub 倉庫：https://github.com/OpenBMB/RLPR

這項技術通過 Prob-to-Reward 方法顯著提高了概率獎勵（Probability-based Reward, PR）的質量，相比基于似然度的基線方法取得了明顯更佳的性能優勢和訓練穩定性。

同時，RLPR 提出基于獎勵標準差的動態過濾機制，進一步提升強化學習的穩定性和性能提升。目前 RLPR 相關代碼、模型、數據、論文均已開源。

PR 為何有效？挖掘模型的內在評估

研究團隊觀察到，大語言模型（LLM）在推理過程中對于參考答案的生成概率直接反映了模型對于本次推理的質量評估。也就是說，模型的推理越正確，其生成參考答案的概率通常就越高。

在論文中，研究團隊給出了一個具體示例：當模型在輸出 o2 中錯誤地把選項 A 排在了第二位時，可以觀察到參考答案在第二個正確選項位置上的生成概率出現了顯著下降。這一現象清晰地表明，PR 能夠精準捕捉模型對于自身推理質量的判斷，并且與模型推理的正確性表現出高度相關性。

PR 示例，更深的顏色代表更大的輸出概率

RLPR 核心特點

領域無關的高效獎勵生成

現有 RLVR 方法通常需要投入大量的人力和工程資源，為每個領域編寫特定的驗證規則，相比之下，RLPR 僅需要簡單的一次前向傳播（forward pass）就可以生成獎勵分數。通過使用參考答案的生成概率均值作為獎勵。這種方法能夠有效地應對自然語言固有的復雜多樣性。

如下圖所示（右側示例），基于規則匹配的方式無法識別出 y2 和 y3 和參考答案語義等價，而 RLPR 的 PR 機制準確地給予了這兩個答案更高的分數。

RLPR 與現有 RLVR 范式的對比

獎勵糾偏和動態過濾

基礎的 PR 已經呈現出和回答質量很高的相關性，但是仍然受到問題和參考答案風格等無關因素的干擾（即存在偏差）。為此，研究團隊提出構建一個不包含思維鏈過程（z）的對照獎勵，并通過做差的方式去除無關因素對于分數的影響，實現獎勵糾偏。

傳統基于準確率（Accuracy Filtering）的樣本過濾方法難以適用于連續的 PR 值。RLPR 提出基于獎勵標準差的動態過濾機制，保留那些取得較高獎勵標準差的樣本用于訓練，有效提升了訓練的穩定性和效果。考慮到訓練過程中獎勵的標準差會持續變化，RLPR 進一步采用指數移動平均（EMA）的方式持續動態更新過濾閾值。

可靠的獎勵質量和框架魯棒性

研究團隊通過 ROC-AUC 指標定量評估了不同來源獎勵的質量。結果表明，PR 在 0.5B 規模即取得了顯著優于規則獎勵和驗證器模型獎勵的質量。同時，通用領域獎勵質量隨著模型能力的增強可以進一步提高到 0.91 水平。

PR 獎勵質量優于規則獎勵和驗證器模型獎勵

為了驗證框架的魯棒性，研究團隊使用多種不同的訓練模板結合 RLPR 訓練 Qwen2.5 3B 模型，并觀察到 RLPR 在不同訓練模板上都可以取得穩定的性能提升。

RLPR 對不同訓練模板的魯棒性

研究團隊還進一步在 Gemma、Llama 等更多系列的基座模型上進行實驗，驗證 RLPR 框架對于不同基座模型均可以穩定提升模型的推理能力，并超過了使用規則獎勵的 RLVR 基線。

RLPR 在 Gemma、Llama、Qwen 等不同基座模型上均穩定提升推理能力

總結

RLPR 提出了創新的 Prob-to-Reward 獎勵機制，解決了現有 RLVR 范式的領域依賴問題。通過在 Gemma、Llama、Qwen 等主流模型系列上的廣泛驗證，RLPR 不僅證明了其卓越的有效性和相對于傳統規則獎勵的顯著優勢，更在推動強化學習（RL）向更大規模（scaling）發展的道路上，邁出了堅實而有力的一步。

更多研究細節，可參考原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.