OpenAI去年挖的坑填上了！獎勵模型首現(xiàn)Scaling Law，1.8B給70B巨獸上了一課

2025-07-11 12:17:15　來源: 新智元

北京舉報

分享至

新智元報道

編輯：定慧好困

【新智元導(dǎo)讀】最近，一款全新的獎勵模型「POLAR」橫空出世。它開創(chuàng)性地采用了對比學(xué)習(xí)范式，通過衡量模型回復(fù)與參考答案的「距離」來給出精細分數(shù)。不僅擺脫了對海量人工標注的依賴，更展現(xiàn)出強大的Scaling潛力，讓小模型也能超越規(guī)模大數(shù)十倍的對手。

一直以來，讓AI更懂人類都是大模型領(lǐng)域的核心議題。

而獎勵模型（RM）便是解決如何「理解人類偏好」的核心技術(shù)，同時也是限制后訓(xùn)練效果的關(guān)鍵因素。

2024年12月，OpenAI提出了一種新的強化微調(diào)（Reinforcement Fine-tuning，RFT）技術(shù)。在RFT過程中，打分器（Grader）會根據(jù)標準答案給出獎勵分數(shù)，從而幫助模型「學(xué)會」如何給出正確結(jié)果。

圖1：OpenAI強化微調(diào)代表樣例

在此啟發(fā)下，一種可以規(guī)避獎勵模型準確度低、泛化性差等固有問題的，基于規(guī)則驗證（RLVR）的方法應(yīng)運而生。

然而，RLVR在很多情況下只能提供0/1獎勵，無法給出更加細粒度的偏好區(qū)分。

比如像寫詩、聊天這類開放式問題，就很難實現(xiàn)泛化，進而限制了在更通用場景中的應(yīng)用。

針對這一問題，來自上海人工智能實驗室和復(fù)旦大學(xué)的研究人員，在最近提出了一種全新的獎勵模型POLAR，并開源了1.8B和7B兩個參數(shù)規(guī)模的版本。

區(qū)別于傳統(tǒng)的「基于絕對偏好」的獎勵模型，POLAR采用了全新對比學(xué)習(xí)預(yù)訓(xùn)練范式，可以根據(jù)參考答案，靈活地對模型回復(fù)給出獎勵分數(shù)。

實測結(jié)果表明，POLAR已經(jīng)充分展現(xiàn)出了一個出色「Grader」的潛質(zhì)。

論文鏈接：https://arxiv.org/abs/2507.05197

項目鏈接：https://github.com/InternLM/POLAR

模型鏈接：https://huggingface.co/internlm/POLAR-7B

我們將開篇提到的OpenAl生物基因領(lǐng)域官方樣例輸入POLAR，并構(gòu)造了一些模型回復(fù)后發(fā)現(xiàn)，POLAR可以完美地給出正確的偏序關(guān)系！

回復(fù)一（與參考完全一致）：

FOXE3

分數(shù)：-0.278

回復(fù)二（正確答案Rank 1）：

genes: [FOXE3, KDM5A, BBS5]

分數(shù)：-7.889

回復(fù)三（正確答案Rank 2）：

genes: [BBS5,FOXE3, KDM5A]

分數(shù)：-7.998

回復(fù)四（正確答案Rank 3）：

genes: [KDM5A, BBS5,FOXE3]

分數(shù)：-8.008

回復(fù)五（與正確答案相似的拼寫錯誤）：

genes: [FOXE2, KDM5A, BBS5]

分數(shù)：-8.965

回復(fù)六（無正確答案）：

genes: [CHD7, KDM5A, BBS5]

分數(shù)：-10.225

除此之外，POLAR對開放問題的回答也能基于參考樣例給出正確的偏序：

問題：請用一句話幽默地概括《三體》第二部。

參考回復(fù)（點出了黑暗森林和關(guān)鍵情節(jié)）：

人類靠一句「我告老師了」擊退三體人的太空艦隊。

回復(fù)一（點出了黑暗森林和關(guān)鍵情節(jié)）：

人類被三體人按在地上摩擦，最后靠羅輯「宇宙碰瓷」嚇退專業(yè)團隊。

分數(shù)：-7.414

回復(fù)二（點出了黑暗森林）：

羅輯苦思冥想一整本書，終于悟出真理：別亂發(fā)朋友圈，否則會被滅口。

分數(shù)：-8.070

回復(fù)三（部分事實錯誤，二向箔是第三部內(nèi)容）：

全宇宙都在玩「黑暗森林」躲貓貓，人類卻把「別殺我」的告示牌掛反了，結(jié)果引來了二向箔拆遷辦。

分數(shù)：-8.141

回復(fù)四（未點出黑暗森林）：

面壁者在演懸疑劇，破壁者在演推理劇，三體人則在看荒誕劇。

分數(shù)：-8.922

回復(fù)五（不夠幽默）：

危機紀元到來，人類選出「面壁者」進行心理博弈，最終用黑暗森林法則威懾住三體文明。

分數(shù)：-9.742

問題：幫我想3個形容雨很大的成語，要求不能重復(fù)。

參考回復(fù)：

1. 傾盆大雨 2. 暴雨如注 3. 瓢潑大雨

回復(fù)一（正確回答）：

1. 大雨滂沱 2. 狂風(fēng)驟雨 3. 大雨如注

分數(shù)：-5.234

回復(fù)二（非成語）：

1. 急雨如瀑 2. 豪雨傾天 3. 雨勢磅礴

分數(shù)：-5.707

回復(fù)三（與參考相似，重復(fù)一個）：

1. 傾盆大雨 2. 暴雨如注 3. 暴雨如注

分數(shù)：-6.656

回復(fù)四（成語正確，多一個）：

1. 大雨滂沱 2. 狂風(fēng)驟雨 3. 大雨如注 4. 傾盆大雨

分數(shù)：-7.023

回復(fù)五（帶雨字成語，兩個含義不符）：

1. 大雨滂沱 2. 雨過天晴 3. 雨后春筍

分數(shù)：-8.578

POLAR完美適配RFT強化學(xué)習(xí)框架，基于問題的參考答案對模型輸出進行打分。如果模型輸出與參考答案更為接近，則會獲得更高的獎勵值。

通過這一訓(xùn)練過程，可以使得策略模型逐步向最優(yōu)策略的方向優(yōu)化。

POLAR是怎么訓(xùn)出來的

POLAR采用了一種與絕對偏好解耦的、可以真正高效擴展的獎勵建模新范式：策略判別學(xué)習(xí)（Policy Discriminative Learning，POLAR），使獎勵模型能夠像大語言模型一樣，具備可擴展性和強泛化能力。

圖2：POLAR的兩階段訓(xùn)練（預(yù)訓(xùn)練和偏好微調(diào)）以及在RFT中的使用方法

與傳統(tǒng)的基于「絕對偏好」的獎勵建模方式不同，POLAR通過衡量訓(xùn)練策略與目標策略之間的「距離」來作為獎勵信號。

當訓(xùn)練策略越接近目標策略時，POLAR就給予越高的獎勵。

具體來說，POLAR使用了一種對比學(xué)習(xí)的方式做距離度量：同一個策略模型采樣的結(jié)果作為正例，不同策略模型采樣的結(jié)果作為負例。

通過這種方式構(gòu)造正負樣本，形成無偏的優(yōu)化目標。同時，把策略模型看作是某個分布的無偏采樣器，通過刻畫樣本間差異來近似刻畫策略之間的距離。

POLAR的預(yù)訓(xùn)練語料完全由自動化合成數(shù)據(jù)構(gòu)建。

具體而言，從LLM預(yù)訓(xùn)練語料中采樣出大量的文本前綴，并從策略模型池中隨機取模型進行軌跡采樣。

這里的策略模型池由開源的131個Base LLM和53個Chat LLM組成，預(yù)訓(xùn)練目標使用Bradley-Terry Loss：

其中，A1和A2代表相同策略模型生成的樣本（正樣本對）；B1代表不同策略模型生成的樣本（負樣本）。

由于「距離」具有相對性，這里的A和B兩個策略模型可以任意選取。

例如，A1和A2可以是由Qwen 1.5B采樣得到，B1可以由Qwen 72B采樣得到。通過這種方式，POLAR的預(yù)訓(xùn)練語料是非常容易擴展的。

在實際的實驗中，POLAR-1.8B共使用了0.94T token的預(yù)訓(xùn)練數(shù)據(jù)，POLAR-7B共使用了3.6T token的預(yù)訓(xùn)練數(shù)據(jù)。

通過預(yù)訓(xùn)練，POLAR可以為距離相近的策略產(chǎn)生的樣本賦予更高獎勵，從而隱式建模策略分布的差異和距離。

之后，POLAR在微調(diào)階段可以使用很少量的偏好數(shù)據(jù)對齊人類偏好。

具體來說，對于同一個Prompt，采樣三條軌跡，由人工標注偏好順序。同樣使用Bradley-Terry Loss進行微調(diào)：

其中，A>B>C，分別代表偏好最優(yōu)、次優(yōu)、最差的軌跡。

這種偏好排序隱式定義了一種「策略差異」，例如A可以視為從最佳策略分布中采樣得到，而C可以視為從一個與最佳策略相差較遠的策略分布中采樣得到。

POLAR的Scaling效應(yīng)

圖3：POLAR的Scaling Law

POLAR展現(xiàn)出了與大語言模型Next Token Prediction目標類似的Scaling效應(yīng)。這體現(xiàn)了POLAR無監(jiān)督預(yù)訓(xùn)練方法的巨大潛力。

從圖3可以觀察到，驗證集損失隨模型參數(shù)N的增加呈冪律關(guān)系下降，擬合R值為0.9886；驗證集損失也隨最優(yōu)訓(xùn)練計算量C的增加呈冪律關(guān)系下降，擬合的R值為0.9912。

這些結(jié)果表明，分配更多的計算資源將持續(xù)帶來更好的POLAR性能。

POLAR的極佳Scaling效應(yīng)，體現(xiàn)出其用于構(gòu)建更通用和更強大的獎勵模型的巨大潛力，也有望打通RL鏈路擴展的最后一環(huán)。

效果如何

POLAR通過對比學(xué)習(xí)預(yù)訓(xùn)練方法，不僅徹底擺脫了對大規(guī)模偏好數(shù)據(jù)的依賴，而且還可以大規(guī)模無監(jiān)督擴展。

結(jié)果就是，POLAR僅靠1.8B～7B的參數(shù)量，便在下游RL效果上超越70B以上的SOTA獎勵模型，顯著增強了獎勵模型的準確性和泛化性。

圖4：偏好評估實驗結(jié)果

在偏好評估方面，POLAR展現(xiàn)出優(yōu)越的性能和全面性，在大多數(shù)任務(wù)維度上優(yōu)于SOTA獎勵模型。

例如，在STEM任務(wù)中，POLAR-1.8B和POLAR-7B分別超越了最佳基線24.9和26.2個百分點，并且能夠準確識別推理、聊天、創(chuàng)意寫作等通用任務(wù)中軌跡的細微區(qū)別，準確預(yù)測人類偏好。

值得注意的是，POLAR-1.8B僅有1.8B參數(shù)，就可取得與Skywork-Reward-27B和WorldPM-72B-UltraFeedback（參數(shù)量分別為其15倍和40倍）相當?shù)慕Y(jié)果。

圖5：強化微調(diào)實驗結(jié)果

在強化微調(diào)RFT實驗中，POLAR持續(xù)優(yōu)于SOTA的開源獎勵模型。

例如，使用POLAR-7B微調(diào)的Llama-3.1-8B在所有基準測試中，相對于初始結(jié)果平均提升了9.0%，相對于WorldPM-72B-UltraFeedback優(yōu)化的結(jié)果提升了6.7%。

POLAR能夠從預(yù)訓(xùn)練階段學(xué)習(xí)策略模型之間的細微區(qū)別，而不僅僅依賴于標注的偏好對，從而顯著增強了實際RL應(yīng)用時的獎勵信號泛化性。

實驗結(jié)果表明，盡管POLAR-1.8B和POLAR-7B在偏好評估中表現(xiàn)相似，但在下游RL實驗中，POLAR-7B展現(xiàn)出了顯著優(yōu)勢。

從1.8B到7B的效果提升，進一步說明了POLAR所具有的Scaling效應(yīng)。這也側(cè)面說明了當前傳統(tǒng)Reward Bench可能存在的局限性，即與真實強化學(xué)習(xí)場景存在較大的差別。

結(jié)語

大模型在Next Token Prediction和Test-time Scaling兩種擴展范式下，通過大規(guī)模的數(shù)據(jù)和模型擴展，實現(xiàn)了能力的持續(xù)躍升。

但相比之下，傳統(tǒng)獎勵模型缺乏系統(tǒng)性的預(yù)訓(xùn)練和擴展方法，導(dǎo)致其能力難以隨計算量增長而持續(xù)提升。而POLAR在獎勵模型預(yù)訓(xùn)練和通用性的道路上邁出了堅實的一步。

POLAR在預(yù)訓(xùn)練階段通過對比學(xué)習(xí)建模策略間的距離，無需大規(guī)模偏好數(shù)據(jù)。

在使用階段，POLAR利用RFT范式對LLM進行強化學(xué)習(xí)，展現(xiàn)出了極佳的泛化性。

POLAR作為一種全新的、可擴展的獎勵模型預(yù)訓(xùn)練方法，為LLM后訓(xùn)練帶來了新的可能，讓通用RFT多了一種有效實踐方案。

最終，有望打通RL鏈路Scaling的最后一環(huán)。

參考資料：

https://arxiv.org/abs/2507.05197

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.