新智元報道
編輯:定慧 好困
【新智元導讀】最近,一款全新的獎勵模型「POLAR」橫空出世。它開創性地采用了對比學習范式,通過衡量模型回復與參考答案的「距離」來給出精細分數。不僅擺脫了對海量人工標注的依賴,更展現出強大的Scaling潛力,讓小模型也能超越規模大數十倍的對手。
一直以來,讓AI更懂人類都是大模型領域的核心議題。
而獎勵模型(RM)便是解決如何「理解人類偏好」的核心技術,同時也是限制后訓練效果的關鍵因素。
2024年12月,OpenAI提出了一種新的強化微調(Reinforcement Fine-tuning,RFT)技術。在RFT過程中,打分器(Grader)會根據標準答案給出獎勵分數,從而幫助模型「學會」如何給出正確結果。
圖1:OpenAI強化微調代表樣例
在此啟發下,一種可以規避獎勵模型準確度低、泛化性差等固有問題的,基于規則驗證(RLVR)的方法應運而生。
然而,RLVR在很多情況下只能提供0/1獎勵,無法給出更加細粒度的偏好區分。
比如像寫詩、聊天這類開放式問題,就很難實現泛化,進而限制了在更通用場景中的應用。
針對這一問題,來自上海人工智能實驗室和復旦大學的研究人員,在最近提出了一種全新的獎勵模型POLAR,并開源了1.8B和7B兩個參數規模的版本。
區別于傳統的「基于絕對偏好」的獎勵模型,POLAR采用了全新對比學習預訓練范式,可以根據參考答案,靈活地對模型回復給出獎勵分數。
實測結果表明,POLAR已經充分展現出了一個出色「Grader」的潛質。
論文鏈接:https://arxiv.org/abs/2507.05197
項目鏈接:https://github.com/InternLM/POLAR
模型鏈接:https://huggingface.co/internlm/POLAR-7B
我們將開篇提到的OpenAl生物基因領域官方樣例輸入POLAR,并構造了一些模型回復后發現,POLAR可以完美地給出正確的偏序關系!
回復一(與參考完全一致):
FOXE3
分數:-0.278
回復二(正確答案Rank 1):
genes: [FOXE3, KDM5A, BBS5]
分數:-7.889
回復三(正確答案Rank 2):
genes: [BBS5,FOXE3, KDM5A]
分數:-7.998
回復四(正確答案Rank 3):
genes: [KDM5A, BBS5,FOXE3]
分數:-8.008
回復五(與正確答案相似的拼寫錯誤):
genes: [FOXE2, KDM5A, BBS5]
分數:-8.965
回復六(無正確答案):
genes: [CHD7, KDM5A, BBS5]
分數:-10.225
除此之外,POLAR對開放問題的回答也能基于參考樣例給出正確的偏序:
問題:請用一句話幽默地概括《三體》第二部。
參考回復(點出了黑暗森林和關鍵情節):
人類靠一句「我告老師了」擊退三體人的太空艦隊。
回復一(點出了黑暗森林和關鍵情節):
人類被三體人按在地上摩擦,最后靠羅輯「宇宙碰瓷」嚇退專業團隊。
分數:-7.414
回復二(點出了黑暗森林):
羅輯苦思冥想一整本書,終于悟出真理:別亂發朋友圈,否則會被滅口。
分數:-8.070
回復三(部分事實錯誤,二向箔是第三部內容):
全宇宙都在玩「黑暗森林」躲貓貓,人類卻把「別殺我」的告示牌掛反了,結果引來了二向箔拆遷辦。
分數:-8.141
回復四(未點出黑暗森林):
面壁者在演懸疑劇,破壁者在演推理劇,三體人則在看荒誕劇。
分數:-8.922
回復五(不夠幽默):
危機紀元到來,人類選出「面壁者」進行心理博弈,最終用黑暗森林法則威懾住三體文明。
分數:-9.742
問題:幫我想3個形容雨很大的成語,要求不能重復。
參考回復:
1. 傾盆大雨 2. 暴雨如注 3. 瓢潑大雨
回復一(正確回答):
1. 大雨滂沱 2. 狂風驟雨 3. 大雨如注
分數:-5.234
回復二(非成語):
1. 急雨如瀑 2. 豪雨傾天 3. 雨勢磅礴
分數:-5.707
回復三(與參考相似,重復一個):
1. 傾盆大雨 2. 暴雨如注 3. 暴雨如注
分數:-6.656
回復四(成語正確,多一個):
1. 大雨滂沱 2. 狂風驟雨 3. 大雨如注 4. 傾盆大雨
分數:-7.023
回復五(帶雨字成語,兩個含義不符):
1. 大雨滂沱 2. 雨過天晴 3. 雨后春筍
分數:-8.578
POLAR完美適配RFT強化學習框架,基于問題的參考答案對模型輸出進行打分。如果模型輸出與參考答案更為接近,則會獲得更高的獎勵值。
通過這一訓練過程,可以使得策略模型逐步向最優策略的方向優化。
POLAR是怎么訓出來的
POLAR采用了一種與絕對偏好解耦的、可以真正高效擴展的獎勵建模新范式:策略判別學習(Policy Discriminative Learning,POLAR),使獎勵模型能夠像大語言模型一樣,具備可擴展性和強泛化能力。
圖2:POLAR的兩階段訓練(預訓練和偏好微調)以及在RFT中的使用方法
與傳統的基于「絕對偏好」的獎勵建模方式不同,POLAR通過衡量訓練策略與目標策略之間的「距離」來作為獎勵信號。
當訓練策略越接近目標策略時,POLAR就給予越高的獎勵。
具體來說,POLAR使用了一種對比學習的方式做距離度量:同一個策略模型采樣的結果作為正例,不同策略模型采樣的結果作為負例。
通過這種方式構造正負樣本,形成無偏的優化目標。同時,把策略模型看作是某個分布的無偏采樣器,通過刻畫樣本間差異來近似刻畫策略之間的距離。
POLAR的預訓練語料完全由自動化合成數據構建。
具體而言,從LLM預訓練語料中采樣出大量的文本前綴,并從策略模型池中隨機取模型進行軌跡采樣。
這里的策略模型池由開源的131個Base LLM和53個Chat LLM組成,預訓練目標使用Bradley-Terry Loss:
其中,A1和A2代表相同策略模型生成的樣本(正樣本對);B1代表不同策略模型生成的樣本(負樣本)。
由于「距離」具有相對性,這里的A和B兩個策略模型可以任意選取。
例如,A1和A2可以是由Qwen 1.5B采樣得到,B1可以由Qwen 72B采樣得到。通過這種方式,POLAR的預訓練語料是非常容易擴展的。
在實際的實驗中,POLAR-1.8B共使用了0.94T token的預訓練數據,POLAR-7B共使用了3.6T token的預訓練數據。
通過預訓練,POLAR可以為距離相近的策略產生的樣本賦予更高獎勵,從而隱式建模策略分布的差異和距離。
之后,POLAR在微調階段可以使用很少量的偏好數據對齊人類偏好。
具體來說,對于同一個Prompt,采樣三條軌跡,由人工標注偏好順序。同樣使用Bradley-Terry Loss進行微調:
其中,A>B>C,分別代表偏好最優、次優、最差的軌跡。
這種偏好排序隱式定義了一種「策略差異」,例如A可以視為從最佳策略分布中采樣得到,而C可以視為從一個與最佳策略相差較遠的策略分布中采樣得到。
POLAR的Scaling效應
圖3:POLAR的Scaling Law
POLAR展現出了與大語言模型Next Token Prediction目標類似的Scaling效應。這體現了POLAR無監督預訓練方法的巨大潛力。
從圖3可以觀察到,驗證集損失隨模型參數N的增加呈冪律關系下降,擬合R值為0.9886;驗證集損失也隨最優訓練計算量C的增加呈冪律關系下降,擬合的R值為0.9912。
這些結果表明,分配更多的計算資源將持續帶來更好的POLAR性能。
POLAR的極佳Scaling效應,體現出其用于構建更通用和更強大的獎勵模型的巨大潛力,也有望打通RL鏈路擴展的最后一環。
效果如何
POLAR通過對比學習預訓練方法,不僅徹底擺脫了對大規模偏好數據的依賴,而且還可以大規模無監督擴展。
結果就是,POLAR僅靠1.8B~7B的參數量,便在下游RL效果上超越70B以上的SOTA獎勵模型,顯著增強了獎勵模型的準確性和泛化性。
圖4:偏好評估實驗結果
在偏好評估方面,POLAR展現出優越的性能和全面性,在大多數任務維度上優于SOTA獎勵模型。
例如,在STEM任務中,POLAR-1.8B和POLAR-7B分別超越了最佳基線24.9和26.2個百分點,并且能夠準確識別推理、聊天、創意寫作等通用任務中軌跡的細微區別,準確預測人類偏好。
值得注意的是,POLAR-1.8B僅有1.8B參數,就可取得與Skywork-Reward-27B和WorldPM-72B-UltraFeedback(參數量分別為其15倍和40倍)相當的結果。
圖5:強化微調實驗結果
在強化微調RFT實驗中,POLAR持續優于SOTA的開源獎勵模型。
例如,使用POLAR-7B微調的Llama-3.1-8B在所有基準測試中,相對于初始結果平均提升了9.0%,相對于WorldPM-72B-UltraFeedback優化的結果提升了6.7%。
POLAR能夠從預訓練階段學習策略模型之間的細微區別,而不僅僅依賴于標注的偏好對,從而顯著增強了實際RL應用時的獎勵信號泛化性。
實驗結果表明,盡管POLAR-1.8B和POLAR-7B在偏好評估中表現相似,但在下游RL實驗中,POLAR-7B展現出了顯著優勢。
從1.8B到7B的效果提升,進一步說明了POLAR所具有的Scaling效應。這也側面說明了當前傳統Reward Bench可能存在的局限性,即與真實強化學習場景存在較大的差別。
結語
大模型在Next Token Prediction和Test-time Scaling兩種擴展范式下,通過大規模的數據和模型擴展,實現了能力的持續躍升。
但相比之下,傳統獎勵模型缺乏系統性的預訓練和擴展方法,導致其能力難以隨計算量增長而持續提升。而POLAR在獎勵模型預訓練和通用性的道路上邁出了堅實的一步。
POLAR在預訓練階段通過對比學習建模策略間的距離,無需大規模偏好數據。
在使用階段,POLAR利用RFT范式對LLM進行強化學習,展現出了極佳的泛化性。
POLAR作為一種全新的、可擴展的獎勵模型預訓練方法,為LLM后訓練帶來了新的可能,讓通用RFT多了一種有效實踐方案。
最終,有望打通RL鏈路Scaling的最后一環。
參考資料:
https://arxiv.org/abs/2507.05197
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.