新智元報道
編輯:定慧 好困
【新智元導(dǎo)讀】最近,一款全新的獎勵模型「POLAR」橫空出世。它開創(chuàng)性地采用了對比學(xué)習(xí)范式,通過衡量模型回復(fù)與參考答案的「距離」來給出精細分數(shù)。不僅擺脫了對海量人工標注的依賴,更展現(xiàn)出強大的Scaling潛力,讓小模型也能超越規(guī)模大數(shù)十倍的對手。
一直以來,讓AI更懂人類都是大模型領(lǐng)域的核心議題。
而獎勵模型(RM)便是解決如何「理解人類偏好」的核心技術(shù),同時也是限制后訓(xùn)練效果的關(guān)鍵因素。
2024年12月,OpenAI提出了一種新的強化微調(diào)(Reinforcement Fine-tuning,RFT)技術(shù)。在RFT過程中,打分器(Grader)會根據(jù)標準答案給出獎勵分數(shù),從而幫助模型「學(xué)會」如何給出正確結(jié)果。
圖1:OpenAI強化微調(diào)代表樣例
在此啟發(fā)下,一種可以規(guī)避獎勵模型準確度低、泛化性差等固有問題的,基于規(guī)則驗證(RLVR)的方法應(yīng)運而生。
然而,RLVR在很多情況下只能提供0/1獎勵,無法給出更加細粒度的偏好區(qū)分。
比如像寫詩、聊天這類開放式問題,就很難實現(xiàn)泛化,進而限制了在更通用場景中的應(yīng)用。
針對這一問題,來自上海人工智能實驗室和復(fù)旦大學(xué)的研究人員,在最近提出了一種全新的獎勵模型POLAR,并開源了1.8B和7B兩個參數(shù)規(guī)模的版本。
區(qū)別于傳統(tǒng)的「基于絕對偏好」的獎勵模型,POLAR采用了全新對比學(xué)習(xí)預(yù)訓(xùn)練范式,可以根據(jù)參考答案,靈活地對模型回復(fù)給出獎勵分數(shù)。
實測結(jié)果表明,POLAR已經(jīng)充分展現(xiàn)出了一個出色「Grader」的潛質(zhì)。
論文鏈接:https://arxiv.org/abs/2507.05197
項目鏈接:https://github.com/InternLM/POLAR
模型鏈接:https://huggingface.co/internlm/POLAR-7B
我們將開篇提到的OpenAl生物基因領(lǐng)域官方樣例輸入POLAR,并構(gòu)造了一些模型回復(fù)后發(fā)現(xiàn),POLAR可以完美地給出正確的偏序關(guān)系!
回復(fù)一(與參考完全一致):
FOXE3
分數(shù):-0.278
回復(fù)二(正確答案Rank 1):
genes: [FOXE3, KDM5A, BBS5]
分數(shù):-7.889
回復(fù)三(正確答案Rank 2):
genes: [BBS5,FOXE3, KDM5A]
分數(shù):-7.998
回復(fù)四(正確答案Rank 3):
genes: [KDM5A, BBS5,FOXE3]
分數(shù):-8.008
回復(fù)五(與正確答案相似的拼寫錯誤):
genes: [FOXE2, KDM5A, BBS5]
分數(shù):-8.965
回復(fù)六(無正確答案):
genes: [CHD7, KDM5A, BBS5]
分數(shù):-10.225
除此之外,POLAR對開放問題的回答也能基于參考樣例給出正確的偏序:
問題:請用一句話幽默地概括《三體》第二部。
參考回復(fù)(點出了黑暗森林和關(guān)鍵情節(jié)):
人類靠一句「我告老師了」擊退三體人的太空艦隊。
回復(fù)一(點出了黑暗森林和關(guān)鍵情節(jié)):
人類被三體人按在地上摩擦,最后靠羅輯「宇宙碰瓷」嚇退專業(yè)團隊。
分數(shù):-7.414
回復(fù)二(點出了黑暗森林):
羅輯苦思冥想一整本書,終于悟出真理:別亂發(fā)朋友圈,否則會被滅口。
分數(shù):-8.070
回復(fù)三(部分事實錯誤,二向箔是第三部內(nèi)容):
全宇宙都在玩「黑暗森林」躲貓貓,人類卻把「別殺我」的告示牌掛反了,結(jié)果引來了二向箔拆遷辦。
分數(shù):-8.141
回復(fù)四(未點出黑暗森林):
面壁者在演懸疑劇,破壁者在演推理劇,三體人則在看荒誕劇。
分數(shù):-8.922
回復(fù)五(不夠幽默):
危機紀元到來,人類選出「面壁者」進行心理博弈,最終用黑暗森林法則威懾住三體文明。
分數(shù):-9.742
問題:幫我想3個形容雨很大的成語,要求不能重復(fù)。
參考回復(fù):
1. 傾盆大雨 2. 暴雨如注 3. 瓢潑大雨
回復(fù)一(正確回答):
1. 大雨滂沱 2. 狂風(fēng)驟雨 3. 大雨如注
分數(shù):-5.234
回復(fù)二(非成語):
1. 急雨如瀑 2. 豪雨傾天 3. 雨勢磅礴
分數(shù):-5.707
回復(fù)三(與參考相似,重復(fù)一個):
1. 傾盆大雨 2. 暴雨如注 3. 暴雨如注
分數(shù):-6.656
回復(fù)四(成語正確,多一個):
1. 大雨滂沱 2. 狂風(fēng)驟雨 3. 大雨如注 4. 傾盆大雨
分數(shù):-7.023
回復(fù)五(帶雨字成語,兩個含義不符):
1. 大雨滂沱 2. 雨過天晴 3. 雨后春筍
分數(shù):-8.578
POLAR完美適配RFT強化學(xué)習(xí)框架,基于問題的參考答案對模型輸出進行打分。如果模型輸出與參考答案更為接近,則會獲得更高的獎勵值。
通過這一訓(xùn)練過程,可以使得策略模型逐步向最優(yōu)策略的方向優(yōu)化。
POLAR是怎么訓(xùn)出來的
POLAR采用了一種與絕對偏好解耦的、可以真正高效擴展的獎勵建模新范式:策略判別學(xué)習(xí)(Policy Discriminative Learning,POLAR),使獎勵模型能夠像大語言模型一樣,具備可擴展性和強泛化能力。
圖2:POLAR的兩階段訓(xùn)練(預(yù)訓(xùn)練和偏好微調(diào))以及在RFT中的使用方法
與傳統(tǒng)的基于「絕對偏好」的獎勵建模方式不同,POLAR通過衡量訓(xùn)練策略與目標策略之間的「距離」來作為獎勵信號。
當訓(xùn)練策略越接近目標策略時,POLAR就給予越高的獎勵。
具體來說,POLAR使用了一種對比學(xué)習(xí)的方式做距離度量:同一個策略模型采樣的結(jié)果作為正例,不同策略模型采樣的結(jié)果作為負例。
通過這種方式構(gòu)造正負樣本,形成無偏的優(yōu)化目標。同時,把策略模型看作是某個分布的無偏采樣器,通過刻畫樣本間差異來近似刻畫策略之間的距離。
POLAR的預(yù)訓(xùn)練語料完全由自動化合成數(shù)據(jù)構(gòu)建。
具體而言,從LLM預(yù)訓(xùn)練語料中采樣出大量的文本前綴,并從策略模型池中隨機取模型進行軌跡采樣。
這里的策略模型池由開源的131個Base LLM和53個Chat LLM組成,預(yù)訓(xùn)練目標使用Bradley-Terry Loss:
其中,A1和A2代表相同策略模型生成的樣本(正樣本對);B1代表不同策略模型生成的樣本(負樣本)。
由于「距離」具有相對性,這里的A和B兩個策略模型可以任意選取。
例如,A1和A2可以是由Qwen 1.5B采樣得到,B1可以由Qwen 72B采樣得到。通過這種方式,POLAR的預(yù)訓(xùn)練語料是非常容易擴展的。
在實際的實驗中,POLAR-1.8B共使用了0.94T token的預(yù)訓(xùn)練數(shù)據(jù),POLAR-7B共使用了3.6T token的預(yù)訓(xùn)練數(shù)據(jù)。
通過預(yù)訓(xùn)練,POLAR可以為距離相近的策略產(chǎn)生的樣本賦予更高獎勵,從而隱式建模策略分布的差異和距離。
之后,POLAR在微調(diào)階段可以使用很少量的偏好數(shù)據(jù)對齊人類偏好。
具體來說,對于同一個Prompt,采樣三條軌跡,由人工標注偏好順序。同樣使用Bradley-Terry Loss進行微調(diào):
其中,A>B>C,分別代表偏好最優(yōu)、次優(yōu)、最差的軌跡。
這種偏好排序隱式定義了一種「策略差異」,例如A可以視為從最佳策略分布中采樣得到,而C可以視為從一個與最佳策略相差較遠的策略分布中采樣得到。
POLAR的Scaling效應(yīng)
圖3:POLAR的Scaling Law
POLAR展現(xiàn)出了與大語言模型Next Token Prediction目標類似的Scaling效應(yīng)。這體現(xiàn)了POLAR無監(jiān)督預(yù)訓(xùn)練方法的巨大潛力。
從圖3可以觀察到,驗證集損失隨模型參數(shù)N的增加呈冪律關(guān)系下降,擬合R值為0.9886;驗證集損失也隨最優(yōu)訓(xùn)練計算量C的增加呈冪律關(guān)系下降,擬合的R值為0.9912。
這些結(jié)果表明,分配更多的計算資源將持續(xù)帶來更好的POLAR性能。
POLAR的極佳Scaling效應(yīng),體現(xiàn)出其用于構(gòu)建更通用和更強大的獎勵模型的巨大潛力,也有望打通RL鏈路擴展的最后一環(huán)。
效果如何
POLAR通過對比學(xué)習(xí)預(yù)訓(xùn)練方法,不僅徹底擺脫了對大規(guī)模偏好數(shù)據(jù)的依賴,而且還可以大規(guī)模無監(jiān)督擴展。
結(jié)果就是,POLAR僅靠1.8B~7B的參數(shù)量,便在下游RL效果上超越70B以上的SOTA獎勵模型,顯著增強了獎勵模型的準確性和泛化性。
圖4:偏好評估實驗結(jié)果
在偏好評估方面,POLAR展現(xiàn)出優(yōu)越的性能和全面性,在大多數(shù)任務(wù)維度上優(yōu)于SOTA獎勵模型。
例如,在STEM任務(wù)中,POLAR-1.8B和POLAR-7B分別超越了最佳基線24.9和26.2個百分點,并且能夠準確識別推理、聊天、創(chuàng)意寫作等通用任務(wù)中軌跡的細微區(qū)別,準確預(yù)測人類偏好。
值得注意的是,POLAR-1.8B僅有1.8B參數(shù),就可取得與Skywork-Reward-27B和WorldPM-72B-UltraFeedback(參數(shù)量分別為其15倍和40倍)相當?shù)慕Y(jié)果。
圖5:強化微調(diào)實驗結(jié)果
在強化微調(diào)RFT實驗中,POLAR持續(xù)優(yōu)于SOTA的開源獎勵模型。
例如,使用POLAR-7B微調(diào)的Llama-3.1-8B在所有基準測試中,相對于初始結(jié)果平均提升了9.0%,相對于WorldPM-72B-UltraFeedback優(yōu)化的結(jié)果提升了6.7%。
POLAR能夠從預(yù)訓(xùn)練階段學(xué)習(xí)策略模型之間的細微區(qū)別,而不僅僅依賴于標注的偏好對,從而顯著增強了實際RL應(yīng)用時的獎勵信號泛化性。
實驗結(jié)果表明,盡管POLAR-1.8B和POLAR-7B在偏好評估中表現(xiàn)相似,但在下游RL實驗中,POLAR-7B展現(xiàn)出了顯著優(yōu)勢。
從1.8B到7B的效果提升,進一步說明了POLAR所具有的Scaling效應(yīng)。這也側(cè)面說明了當前傳統(tǒng)Reward Bench可能存在的局限性,即與真實強化學(xué)習(xí)場景存在較大的差別。
結(jié)語
大模型在Next Token Prediction和Test-time Scaling兩種擴展范式下,通過大規(guī)模的數(shù)據(jù)和模型擴展,實現(xiàn)了能力的持續(xù)躍升。
但相比之下,傳統(tǒng)獎勵模型缺乏系統(tǒng)性的預(yù)訓(xùn)練和擴展方法,導(dǎo)致其能力難以隨計算量增長而持續(xù)提升。而POLAR在獎勵模型預(yù)訓(xùn)練和通用性的道路上邁出了堅實的一步。
POLAR在預(yù)訓(xùn)練階段通過對比學(xué)習(xí)建模策略間的距離,無需大規(guī)模偏好數(shù)據(jù)。
在使用階段,POLAR利用RFT范式對LLM進行強化學(xué)習(xí),展現(xiàn)出了極佳的泛化性。
POLAR作為一種全新的、可擴展的獎勵模型預(yù)訓(xùn)練方法,為LLM后訓(xùn)練帶來了新的可能,讓通用RFT多了一種有效實踐方案。
最終,有望打通RL鏈路Scaling的最后一環(huán)。
參考資料:
https://arxiv.org/abs/2507.05197
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.