允中 發自 凹非寺
量子位 | 公眾號 QbitAI
強化學習改變了大語言模型的后訓練范式,可以說,已成為AI邁向AGI進程中的關鍵技術節點。
然而,其中獎勵模型的設計與訓練,始終是制約后訓練效果、模型能力進一步提升的瓶頸所在。
當前,大模型在Next Token Prediction和Test-time Scaling兩種擴展范式下,通過大規模的數據和模型擴展,實現了能力的持續躍升。但相比之下,獎勵模型缺乏系統性的預訓練和擴展方法,導致其能力難以隨計算量增長而持續提升,成為阻礙強化學習鏈路進一步擴展的短板。
如何解決?
現在,來自上海人工智能實驗室的研究團隊提出了一種新的思路:
他們找到了一種與絕對偏好解耦的、可以真正高效擴展的獎勵建模新范式——策略判別學習(Policy Discriminative Learning, POLAR),使獎勵模型能夠像大語言模型一樣,具備可擴展性和強泛化能力。
POLAR為大模型后訓練帶來突破性進展,并有望打通RL鏈路擴展的最后一環。
什么是POLAR
先來看一下POLAR能做到什么。
與傳統的獎勵模型不同,POLAR是根據參考答案為模型的輸出打分。這意味著POLAR可以靈活地基于不同場景的參考答案給出不同的獎勵分數,輕松適配多樣的定制化需求。
下面是一個開放問題的例子,對應有三個不同風格的回復:
問題:彩虹是怎么形成的?
回答一:彩虹是陽光經過水滴折射和反射后形成的。
回答二:當陽光照射到空氣中的小水滴時,光線會進入水滴發生折射,再從水滴的內壁反射后再次折射出水滴。由于不同波長的光折射角度不同,最終呈現出不同的顏色,這些顏色組合起來就形成了我們所看到的彩虹。
回答三:彩虹是陽光通過空氣中的水滴折射和反射后形成的。生活中我們經常在雨后或噴泉、水幕附近看到彩虹,有時候還會看到雙彩虹甚至三重彩虹呢!不過很可惜,彩虹本身只是光學現象,沒法真正走近摸到。
對于這種開放問題,不同的用戶可能會偏向不同風格的回復。此時,傳統獎勵模型的“絕對偏好”無法靈活應對不同的定制化場景。而POLAR只需要根據不同的參考回復,即可為三種回答給出不同的偏序關系,無需重新訓練獎勵模型。
來看POLAR實際打分的例子。如果給定的參考風格是簡短扼要,POLAR會給第一個回答最高的分數。
參考一:陽光穿過水滴的折射與反射形成了彩虹。
回答一:-2.095703125
回答二:-5.859375
回答三:-7.44921875
如果參考的是詳細分析風格,POLAR會給第二個回答最高分。
參考二:彩虹是陽光經過空氣中的許多小水滴后,通過連續的折射與反射而產生的。當陽光進入水滴時,光線首先被折射進入水滴內部,然后在水滴內壁發生一次反射,隨后再次折射射出水滴。因為陽光中不同顏色的光線波長各不相同,折射時產生的角度也略有差別,這使得光線被分解成紅、橙、黃、綠、藍、靛、紫等顏色,從而形成了我們所看到的絢麗彩虹。
回答一:-8.5625
回答二:-5.2421875
回答三:-8.125
如果參考的是俏皮發散風格,此時第三個回答的獎勵分數最高。
參考三:彩虹是陽光經過水滴折射和反射后形成的。在日常生活中,只要條件合適,比如剛下完雨、噴泉邊,甚至在水幕電影附近,都能邂逅這種美麗的景象。不過呢,雖然彩虹看上去很近,但它畢竟只是光的奇妙游戲,我們無論怎么追逐,都無法真正觸碰到它,這也是大自然給我們留下的小小遺憾吧~
回答一:-9.53125
回答二:-8.609375
回答三:-4.484375
除了上述處理開放問題的靈活性,POLAR也能解決有標準答案的閉式問題。相比“基于規則的驗證”(RLVR)所提供的0/1二元獎勵,POLAR可以提供更加細粒度的偏好區分。
下面是一個例子:
問題:公交車上原本有10名乘客,到站后下去了3名,上來了5名,現在車上有多少名乘客?
參考答案: 10名乘客 - 3名下車 + 5名上車。答案是12。
回答一(答案正確,思路正確):最初有10名乘客,到站后3個人下車,因此剩下7人;又新上來了5人,7人加上5人,總共是12人。因此最終有12名乘客。
分數:-5.1953125
回答二(答案正確,無思路):現在車上有12名乘客。
分數:-5.6171875
回答三(答案錯誤,思路正確):10名乘客 - 3名下車 + 5名上車。答案是13。
分數:-8.953125
回答四(答案正確,思路錯誤):10名乘客 + 3名下車 - 5名上車。答案是12。
分數:-9.5859375
回答五(答案錯誤,無思路):現在車上有13名乘客。
分數:-11.0703125
回答六(答案錯誤,思路錯誤):10名乘客 + 3名下車 - 5名上車。答案是13。
分數:-12.125
由此可見,POLAR不僅擺脫了傳統獎勵模型“絕對偏好”的限制,更加彌補了RLVR難以拓展場景、獎勵信號稀疏等問題。
POLAR基于參考答案對模型輸出進行打分,對更加接近參考答案的輸出賦予更高的獎勵值,在強化學習過程中讓訓練策略逐步向最優策略偏移。
這種特性使得POLAR完美契合強化微調框架(Reinforcement Fine-tuning,RFT),讓RFT在通用場景的應用成為可能。
POLAR是如何訓練的
在探討POLAR的訓練方式之前,我們首先回顧一下大語言模型(LLM)的成功之路。
傳統的機器學習是為特定的任務訓練特定的模型,例如為翻譯任務訓練翻譯模型,很難做到任務間的泛化。
LLM的成功就在于用Next Token Prediction的形式統一了所有任務,解決了任務形式不同導致無法泛化的難題。
現在獎勵模型(RM)的設計仍然在重蹈傳統方案的老路,即為特定場景標注偏好數據,訓特定場景的RM。
其中,RM的打分標準是基于人類偏好來設定的,而打分標準就如同LLM的任務形式,具有多樣性且無法窮舉。
那么,能不能仿照LLM的成功之路,重新設計RM的訓練范式,就像消除LLM的“任務形式”一樣,找到一個脫離于“打分標準”之外的更本質的優化目標函數來進行預訓練呢?
正是基于這樣的思路,上海AI Lab提出了預訓練獎勵模型POLAR。
△POLAR的兩階段訓練(預訓練和偏好微調)以及在RFT中的使用方法
與傳統的基于“絕對偏好”的獎勵建模方式不同,POLAR 通過衡量訓練策略與目標策略之間的“距離”來作為獎勵信號。當訓練策略越接近目標策略時,POLAR 就給予越高的獎勵。
具體來說,POLAR 使用了一種對比學習(Contrastive Learning)的方式學會策略分布的距離度量:同一個策略模型采樣的結果作為正例,不同策略模型采樣的結果作為負例。
通過這種方式構造正負樣本,雖然有一些反直覺,但它是一種真正無偏的信號,和對抗生成網絡(GAN)中判斷是否是真實樣本類似。
由于“距離”是一種相對性的概念,因此目標策略可任意指定,從而擺脫了對偏好數據人工標注的依賴,具有極強的可擴展潛力。實際上,POLAR的預訓練語料完全通過自動化合成數據構建。
具體而言,研究人員從LLM預訓練語料中采樣出大量的文本前綴,并從策略模型池(由開源的131個Base LLM和53個Chat LLM組成)中隨機取模型進行軌跡采樣。預訓練目標使用Bradley-Terry Loss:
其中,A1和A2代表相同策略模型生成的軌跡(正樣本對);B1代表不同策略模型生成的軌跡(負樣本)。
由于“距離”具有相對性,這里的A和B兩個策略模型可以任意選取。例如,A1和A2可以由Qwen 1.5B采樣得到,B1可以由Qwen 72B采樣得到。通過這種方式,POLAR的預訓練語料非常容易擴展。
POLAR使RM學會為相近策略產生的軌跡賦予更高獎勵,從而隱式建模策略分布的差異和距離。在這一階段,POLAR-1.8B共使用了0.94T Token的預訓練數據,POLAR-7B共使用了3.6T Token的預訓練數據。
在預訓練階段之后,POLAR可以使用少量的偏好數據對齊人類偏好。具體來說,對于同一個Prompt,采樣三條軌跡,由人工標注偏好順序。同樣使用Bradley-Terry Loss進行微調:
其中,A > B > C,分別代表偏好最優、次優、最差的軌跡。這種偏好排序隱式定義了一種“策略差異”,例如A可以視為從最佳策略分布中采樣得到,而C可以視為從一個與最佳策略相差較遠的策略分布中采樣得到。
POLAR具有Scaling效應嗎?
△POLAR的Scaling Laws
一個重要的問題是,POLAR預訓練范式是否真的能展現Scaling效應?
研究人員從模型參數N和計算量C兩個方面進行了實驗。
如圖所示,POLAR的驗證集損失隨模型參數N的增加呈冪律關系下降,擬合的R2值為0.9886。
驗證集損失也隨最優訓練計算量C的增加呈冪律關系下降,擬合的R2值為0.9912。
這些結果表明,分配更多的計算資源將持續帶來更好的POLAR性能。也就是說,新范式展現出了與大語言模型Next Token Prediction目標類似的Scaling Laws。
這體現了POLAR預訓練方法的顯著擴展優勢,以及用于構建更通用和更強大的獎勵模型的巨大潛力。
POLAR效果如何?
研究人員通過一系列實驗證明,POLAR能做到對性能和泛化的雙重保證。
△偏好評估實驗結果
在偏好評估方面,POLAR展現出優越的性能和全面性,在大多數任務維度上優于SOTA獎勵模型。
例如,在STEM任務中,POLAR-1.8B和POLAR-7B分別超越了最佳基線24.9和26.2個百分點,并且能夠準確識別推理、聊天、創意寫作等通用任務中軌跡的細微區別,準確預測人類偏好。
值得注意的是,POLAR-1.8B僅有1.8B參數,就可取得與Skywork-Reward-27B和WorldPM-72B-UltraFeedback(參數量分別為其15倍和40倍)相當的結果,凸顯了POLAR的強大潛力。
△強化微調實驗結果
在強化微調實驗中,POLAR持續優于SOTA的開源獎勵模型。
例如,使用POLAR-7B微調的Llama-3.1-8B在所有基準測試中,相對于初始結果平均提升了9.0%,相對于WorldPM-72B-UltraFeedback優化的結果提升了6.7%。
POLAR能夠從預訓練階段學習策略模型之間的細微區別,而不僅僅依賴于標注的偏好對,從而顯著增強了實際RL應用時的獎勵信號泛化性。
實驗結果表明,盡管POLAR-1.8B和POLAR-7B在偏好評估中表現相似,但在下游RL實驗中,POLAR-7B展現出了顯著優勢。從1.8B到7B的效果提升,進一步說明了POLAR所具有的Scaling效應。
總結來說,POLAR在預訓練階段通過對比學習建模策略間的距離,僅需少量偏好樣本就可對齊人類偏好。在使用階段,POLAR利用RFT范式對LLM進行強化學習,展現出了極佳的泛化性。POLAR作為一種全新的、可擴展的獎勵模型預訓練方法,為LLM后訓練帶來了新的可能,讓通用RFT多了一種有效實踐方案。有望打通RL鏈路Scaling的最后一環。
論文鏈接:https://arxiv.org/pdf/2507.05197
項目鏈接:https://github.com/InternLM/POLAR
模型鏈接:https://huggingface.co/internlm/POLAR-7B
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.