允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
強(qiáng)化學(xué)習(xí)改變了大語言模型的后訓(xùn)練范式,可以說,已成為AI邁向AGI進(jìn)程中的關(guān)鍵技術(shù)節(jié)點(diǎn)。
然而,其中獎(jiǎng)勵(lì)模型的設(shè)計(jì)與訓(xùn)練,始終是制約后訓(xùn)練效果、模型能力進(jìn)一步提升的瓶頸所在。
當(dāng)前,大模型在Next Token Prediction和Test-time Scaling兩種擴(kuò)展范式下,通過大規(guī)模的數(shù)據(jù)和模型擴(kuò)展,實(shí)現(xiàn)了能力的持續(xù)躍升。但相比之下,獎(jiǎng)勵(lì)模型缺乏系統(tǒng)性的預(yù)訓(xùn)練和擴(kuò)展方法,導(dǎo)致其能力難以隨計(jì)算量增長(zhǎng)而持續(xù)提升,成為阻礙強(qiáng)化學(xué)習(xí)鏈路進(jìn)一步擴(kuò)展的短板。
如何解決?
現(xiàn)在,來自上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一種新的思路:
他們找到了一種與絕對(duì)偏好解耦的、可以真正高效擴(kuò)展的獎(jiǎng)勵(lì)建模新范式——策略判別學(xué)習(xí)(Policy Discriminative Learning, POLAR),使獎(jiǎng)勵(lì)模型能夠像大語言模型一樣,具備可擴(kuò)展性和強(qiáng)泛化能力。
POLAR為大模型后訓(xùn)練帶來突破性進(jìn)展,并有望打通RL鏈路擴(kuò)展的最后一環(huán)。
什么是POLAR
先來看一下POLAR能做到什么。
與傳統(tǒng)的獎(jiǎng)勵(lì)模型不同,POLAR是根據(jù)參考答案為模型的輸出打分。這意味著POLAR可以靈活地基于不同場(chǎng)景的參考答案給出不同的獎(jiǎng)勵(lì)分?jǐn)?shù),輕松適配多樣的定制化需求。
下面是一個(gè)開放問題的例子,對(duì)應(yīng)有三個(gè)不同風(fēng)格的回復(fù):
問題:彩虹是怎么形成的?
回答一:彩虹是陽光經(jīng)過水滴折射和反射后形成的。
回答二:當(dāng)陽光照射到空氣中的小水滴時(shí),光線會(huì)進(jìn)入水滴發(fā)生折射,再?gòu)乃蔚膬?nèi)壁反射后再次折射出水滴。由于不同波長(zhǎng)的光折射角度不同,最終呈現(xiàn)出不同的顏色,這些顏色組合起來就形成了我們所看到的彩虹。
回答三:彩虹是陽光通過空氣中的水滴折射和反射后形成的。生活中我們經(jīng)常在雨后或噴泉、水幕附近看到彩虹,有時(shí)候還會(huì)看到雙彩虹甚至三重彩虹呢!不過很可惜,彩虹本身只是光學(xué)現(xiàn)象,沒法真正走近摸到。
對(duì)于這種開放問題,不同的用戶可能會(huì)偏向不同風(fēng)格的回復(fù)。此時(shí),傳統(tǒng)獎(jiǎng)勵(lì)模型的“絕對(duì)偏好”無法靈活應(yīng)對(duì)不同的定制化場(chǎng)景。而POLAR只需要根據(jù)不同的參考回復(fù),即可為三種回答給出不同的偏序關(guān)系,無需重新訓(xùn)練獎(jiǎng)勵(lì)模型。
來看POLAR實(shí)際打分的例子。如果給定的參考風(fēng)格是簡(jiǎn)短扼要,POLAR會(huì)給第一個(gè)回答最高的分?jǐn)?shù)。
參考一:陽光穿過水滴的折射與反射形成了彩虹。
回答一:-2.095703125
回答二:-5.859375
回答三:-7.44921875
如果參考的是詳細(xì)分析風(fēng)格,POLAR會(huì)給第二個(gè)回答最高分。
參考二:彩虹是陽光經(jīng)過空氣中的許多小水滴后,通過連續(xù)的折射與反射而產(chǎn)生的。當(dāng)陽光進(jìn)入水滴時(shí),光線首先被折射進(jìn)入水滴內(nèi)部,然后在水滴內(nèi)壁發(fā)生一次反射,隨后再次折射射出水滴。因?yàn)殛柟庵胁煌伾墓饩€波長(zhǎng)各不相同,折射時(shí)產(chǎn)生的角度也略有差別,這使得光線被分解成紅、橙、黃、綠、藍(lán)、靛、紫等顏色,從而形成了我們所看到的絢麗彩虹。
回答一:-8.5625
回答二:-5.2421875
回答三:-8.125
如果參考的是俏皮發(fā)散風(fēng)格,此時(shí)第三個(gè)回答的獎(jiǎng)勵(lì)分?jǐn)?shù)最高。
參考三:彩虹是陽光經(jīng)過水滴折射和反射后形成的。在日常生活中,只要條件合適,比如剛下完雨、噴泉邊,甚至在水幕電影附近,都能邂逅這種美麗的景象。不過呢,雖然彩虹看上去很近,但它畢竟只是光的奇妙游戲,我們無論怎么追逐,都無法真正觸碰到它,這也是大自然給我們留下的小小遺憾吧~
回答一:-9.53125
回答二:-8.609375
回答三:-4.484375
除了上述處理開放問題的靈活性,POLAR也能解決有標(biāo)準(zhǔn)答案的閉式問題。相比“基于規(guī)則的驗(yàn)證”(RLVR)所提供的0/1二元獎(jiǎng)勵(lì),POLAR可以提供更加細(xì)粒度的偏好區(qū)分。
下面是一個(gè)例子:
問題:公交車上原本有10名乘客,到站后下去了3名,上來了5名,現(xiàn)在車上有多少名乘客?
參考答案: 10名乘客 - 3名下車 + 5名上車。答案是12。
回答一(答案正確,思路正確):最初有10名乘客,到站后3個(gè)人下車,因此剩下7人;又新上來了5人,7人加上5人,總共是12人。因此最終有12名乘客。
分?jǐn)?shù):-5.1953125
回答二(答案正確,無思路):現(xiàn)在車上有12名乘客。
分?jǐn)?shù):-5.6171875
回答三(答案錯(cuò)誤,思路正確):10名乘客 - 3名下車 + 5名上車。答案是13。
分?jǐn)?shù):-8.953125
回答四(答案正確,思路錯(cuò)誤):10名乘客 + 3名下車 - 5名上車。答案是12。
分?jǐn)?shù):-9.5859375
回答五(答案錯(cuò)誤,無思路):現(xiàn)在車上有13名乘客。
分?jǐn)?shù):-11.0703125
回答六(答案錯(cuò)誤,思路錯(cuò)誤):10名乘客 + 3名下車 - 5名上車。答案是13。
分?jǐn)?shù):-12.125
由此可見,POLAR不僅擺脫了傳統(tǒng)獎(jiǎng)勵(lì)模型“絕對(duì)偏好”的限制,更加彌補(bǔ)了RLVR難以拓展場(chǎng)景、獎(jiǎng)勵(lì)信號(hào)稀疏等問題。
POLAR基于參考答案對(duì)模型輸出進(jìn)行打分,對(duì)更加接近參考答案的輸出賦予更高的獎(jiǎng)勵(lì)值,在強(qiáng)化學(xué)習(xí)過程中讓訓(xùn)練策略逐步向最優(yōu)策略偏移。
這種特性使得POLAR完美契合強(qiáng)化微調(diào)框架(Reinforcement Fine-tuning,RFT),讓RFT在通用場(chǎng)景的應(yīng)用成為可能。
POLAR是如何訓(xùn)練的
在探討POLAR的訓(xùn)練方式之前,我們首先回顧一下大語言模型(LLM)的成功之路。
傳統(tǒng)的機(jī)器學(xué)習(xí)是為特定的任務(wù)訓(xùn)練特定的模型,例如為翻譯任務(wù)訓(xùn)練翻譯模型,很難做到任務(wù)間的泛化。
LLM的成功就在于用Next Token Prediction的形式統(tǒng)一了所有任務(wù),解決了任務(wù)形式不同導(dǎo)致無法泛化的難題。
現(xiàn)在獎(jiǎng)勵(lì)模型(RM)的設(shè)計(jì)仍然在重蹈?jìng)鹘y(tǒng)方案的老路,即為特定場(chǎng)景標(biāo)注偏好數(shù)據(jù),訓(xùn)特定場(chǎng)景的RM。
其中,RM的打分標(biāo)準(zhǔn)是基于人類偏好來設(shè)定的,而打分標(biāo)準(zhǔn)就如同LLM的任務(wù)形式,具有多樣性且無法窮舉。
那么,能不能仿照LLM的成功之路,重新設(shè)計(jì)RM的訓(xùn)練范式,就像消除LLM的“任務(wù)形式”一樣,找到一個(gè)脫離于“打分標(biāo)準(zhǔn)”之外的更本質(zhì)的優(yōu)化目標(biāo)函數(shù)來進(jìn)行預(yù)訓(xùn)練呢?
正是基于這樣的思路,上海AI Lab提出了預(yù)訓(xùn)練獎(jiǎng)勵(lì)模型POLAR。
△POLAR的兩階段訓(xùn)練(預(yù)訓(xùn)練和偏好微調(diào))以及在RFT中的使用方法
與傳統(tǒng)的基于“絕對(duì)偏好”的獎(jiǎng)勵(lì)建模方式不同,POLAR 通過衡量訓(xùn)練策略與目標(biāo)策略之間的“距離”來作為獎(jiǎng)勵(lì)信號(hào)。當(dāng)訓(xùn)練策略越接近目標(biāo)策略時(shí),POLAR 就給予越高的獎(jiǎng)勵(lì)。
具體來說,POLAR 使用了一種對(duì)比學(xué)習(xí)(Contrastive Learning)的方式學(xué)會(huì)策略分布的距離度量:同一個(gè)策略模型采樣的結(jié)果作為正例,不同策略模型采樣的結(jié)果作為負(fù)例。
通過這種方式構(gòu)造正負(fù)樣本,雖然有一些反直覺,但它是一種真正無偏的信號(hào),和對(duì)抗生成網(wǎng)絡(luò)(GAN)中判斷是否是真實(shí)樣本類似。
由于“距離”是一種相對(duì)性的概念,因此目標(biāo)策略可任意指定,從而擺脫了對(duì)偏好數(shù)據(jù)人工標(biāo)注的依賴,具有極強(qiáng)的可擴(kuò)展?jié)摿Α?shí)際上,POLAR的預(yù)訓(xùn)練語料完全通過自動(dòng)化合成數(shù)據(jù)構(gòu)建。
具體而言,研究人員從LLM預(yù)訓(xùn)練語料中采樣出大量的文本前綴,并從策略模型池(由開源的131個(gè)Base LLM和53個(gè)Chat LLM組成)中隨機(jī)取模型進(jìn)行軌跡采樣。預(yù)訓(xùn)練目標(biāo)使用Bradley-Terry Loss:
其中,A1和A2代表相同策略模型生成的軌跡(正樣本對(duì));B1代表不同策略模型生成的軌跡(負(fù)樣本)。
由于“距離”具有相對(duì)性,這里的A和B兩個(gè)策略模型可以任意選取。例如,A1和A2可以由Qwen 1.5B采樣得到,B1可以由Qwen 72B采樣得到。通過這種方式,POLAR的預(yù)訓(xùn)練語料非常容易擴(kuò)展。
POLAR使RM學(xué)會(huì)為相近策略產(chǎn)生的軌跡賦予更高獎(jiǎng)勵(lì),從而隱式建模策略分布的差異和距離。在這一階段,POLAR-1.8B共使用了0.94T Token的預(yù)訓(xùn)練數(shù)據(jù),POLAR-7B共使用了3.6T Token的預(yù)訓(xùn)練數(shù)據(jù)。
在預(yù)訓(xùn)練階段之后,POLAR可以使用少量的偏好數(shù)據(jù)對(duì)齊人類偏好。具體來說,對(duì)于同一個(gè)Prompt,采樣三條軌跡,由人工標(biāo)注偏好順序。同樣使用Bradley-Terry Loss進(jìn)行微調(diào):
其中,A > B > C,分別代表偏好最優(yōu)、次優(yōu)、最差的軌跡。這種偏好排序隱式定義了一種“策略差異”,例如A可以視為從最佳策略分布中采樣得到,而C可以視為從一個(gè)與最佳策略相差較遠(yuǎn)的策略分布中采樣得到。
POLAR具有Scaling效應(yīng)嗎?
△POLAR的Scaling Laws
一個(gè)重要的問題是,POLAR預(yù)訓(xùn)練范式是否真的能展現(xiàn)Scaling效應(yīng)?
研究人員從模型參數(shù)N和計(jì)算量C兩個(gè)方面進(jìn)行了實(shí)驗(yàn)。
如圖所示,POLAR的驗(yàn)證集損失隨模型參數(shù)N的增加呈冪律關(guān)系下降,擬合的R2值為0.9886。
驗(yàn)證集損失也隨最優(yōu)訓(xùn)練計(jì)算量C的增加呈冪律關(guān)系下降,擬合的R2值為0.9912。
這些結(jié)果表明,分配更多的計(jì)算資源將持續(xù)帶來更好的POLAR性能。也就是說,新范式展現(xiàn)出了與大語言模型Next Token Prediction目標(biāo)類似的Scaling Laws。
這體現(xiàn)了POLAR預(yù)訓(xùn)練方法的顯著擴(kuò)展優(yōu)勢(shì),以及用于構(gòu)建更通用和更強(qiáng)大的獎(jiǎng)勵(lì)模型的巨大潛力。
POLAR效果如何?
研究人員通過一系列實(shí)驗(yàn)證明,POLAR能做到對(duì)性能和泛化的雙重保證。
△偏好評(píng)估實(shí)驗(yàn)結(jié)果
在偏好評(píng)估方面,POLAR展現(xiàn)出優(yōu)越的性能和全面性,在大多數(shù)任務(wù)維度上優(yōu)于SOTA獎(jiǎng)勵(lì)模型。
例如,在STEM任務(wù)中,POLAR-1.8B和POLAR-7B分別超越了最佳基線24.9和26.2個(gè)百分點(diǎn),并且能夠準(zhǔn)確識(shí)別推理、聊天、創(chuàng)意寫作等通用任務(wù)中軌跡的細(xì)微區(qū)別,準(zhǔn)確預(yù)測(cè)人類偏好。
值得注意的是,POLAR-1.8B僅有1.8B參數(shù),就可取得與Skywork-Reward-27B和WorldPM-72B-UltraFeedback(參數(shù)量分別為其15倍和40倍)相當(dāng)?shù)慕Y(jié)果,凸顯了POLAR的強(qiáng)大潛力。
△強(qiáng)化微調(diào)實(shí)驗(yàn)結(jié)果
在強(qiáng)化微調(diào)實(shí)驗(yàn)中,POLAR持續(xù)優(yōu)于SOTA的開源獎(jiǎng)勵(lì)模型。
例如,使用POLAR-7B微調(diào)的Llama-3.1-8B在所有基準(zhǔn)測(cè)試中,相對(duì)于初始結(jié)果平均提升了9.0%,相對(duì)于WorldPM-72B-UltraFeedback優(yōu)化的結(jié)果提升了6.7%。
POLAR能夠從預(yù)訓(xùn)練階段學(xué)習(xí)策略模型之間的細(xì)微區(qū)別,而不僅僅依賴于標(biāo)注的偏好對(duì),從而顯著增強(qiáng)了實(shí)際RL應(yīng)用時(shí)的獎(jiǎng)勵(lì)信號(hào)泛化性。
實(shí)驗(yàn)結(jié)果表明,盡管POLAR-1.8B和POLAR-7B在偏好評(píng)估中表現(xiàn)相似,但在下游RL實(shí)驗(yàn)中,POLAR-7B展現(xiàn)出了顯著優(yōu)勢(shì)。從1.8B到7B的效果提升,進(jìn)一步說明了POLAR所具有的Scaling效應(yīng)。
總結(jié)來說,POLAR在預(yù)訓(xùn)練階段通過對(duì)比學(xué)習(xí)建模策略間的距離,僅需少量偏好樣本就可對(duì)齊人類偏好。在使用階段,POLAR利用RFT范式對(duì)LLM進(jìn)行強(qiáng)化學(xué)習(xí),展現(xiàn)出了極佳的泛化性。POLAR作為一種全新的、可擴(kuò)展的獎(jiǎng)勵(lì)模型預(yù)訓(xùn)練方法,為L(zhǎng)LM后訓(xùn)練帶來了新的可能,讓通用RFT多了一種有效實(shí)踐方案。有望打通RL鏈路Scaling的最后一環(huán)。
論文鏈接:https://arxiv.org/pdf/2507.05197
項(xiàng)目鏈接:https://github.com/InternLM/POLAR
模型鏈接:https://huggingface.co/internlm/POLAR-7B
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.