99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI去年挖的坑填上了!獎勵模型首現(xiàn)Scaling Law,1.8B給70B巨獸上了一課

0
分享至


新智元報道

編輯:定慧 好困

【新智元導(dǎo)讀】最近,一款全新的獎勵模型「POLAR」橫空出世。它開創(chuàng)性地采用了對比學(xué)習(xí)范式,通過衡量模型回復(fù)與參考答案的「距離」來給出精細分數(shù)。不僅擺脫了對海量人工標注的依賴,更展現(xiàn)出強大的Scaling潛力,讓小模型也能超越規(guī)模大數(shù)十倍的對手。

一直以來,讓AI更懂人類都是大模型領(lǐng)域的核心議題。

而獎勵模型(RM)便是解決如何「理解人類偏好」的核心技術(shù),同時也是限制后訓(xùn)練效果的關(guān)鍵因素。

2024年12月,OpenAI提出了一種新的強化微調(diào)(Reinforcement Fine-tuning,RFT)技術(shù)。在RFT過程中,打分器(Grader)會根據(jù)標準答案給出獎勵分數(shù),從而幫助模型「學(xué)會」如何給出正確結(jié)果。


1:OpenAI強化微調(diào)代表樣例

在此啟發(fā)下,一種可以規(guī)避獎勵模型準確度低、泛化性差等固有問題的,基于規(guī)則驗證(RLVR)的方法應(yīng)運而生。

然而,RLVR在很多情況下只能提供0/1獎勵,無法給出更加細粒度的偏好區(qū)分。

比如像寫詩、聊天這類開放式問題,就很難實現(xiàn)泛化,進而限制了在更通用場景中的應(yīng)用。

針對這一問題,來自上海人工智能實驗室和復(fù)旦大學(xué)的研究人員,在最近提出了一種全新的獎勵模型POLAR,并開源了1.8B和7B兩個參數(shù)規(guī)模的版本。

區(qū)別于傳統(tǒng)的「基于絕對偏好」的獎勵模型,POLAR采用了全新對比學(xué)習(xí)預(yù)訓(xùn)練范式,可以根據(jù)參考答案,靈活地對模型回復(fù)給出獎勵分數(shù)。

實測結(jié)果表明,POLAR已經(jīng)充分展現(xiàn)出了一個出色「Grader」的潛質(zhì)。


論文鏈接:https://arxiv.org/abs/2507.05197

項目鏈接:https://github.com/InternLM/POLAR

模型鏈接:https://huggingface.co/internlm/POLAR-7B

我們將開篇提到的OpenAl生物基因領(lǐng)域官方樣例輸入POLAR,并構(gòu)造了一些模型回復(fù)后發(fā)現(xiàn),POLAR可以完美地給出正確的偏序關(guān)系!

回復(fù)一(與參考完全一致):

FOXE3

分數(shù):-0.278

回復(fù)二(正確答案Rank 1):

genes: [FOXE3, KDM5A, BBS5]

分數(shù):-7.889

回復(fù)三(正確答案Rank 2):

genes: [BBS5,FOXE3, KDM5A]

分數(shù):-7.998

回復(fù)四(正確答案Rank 3):

genes: [KDM5A, BBS5,FOXE3]

分數(shù):-8.008

回復(fù)五(與正確答案相似的拼寫錯誤):

genes: [FOXE2, KDM5A, BBS5]

分數(shù):-8.965

回復(fù)六(無正確答案):

genes: [CHD7, KDM5A, BBS5]

分數(shù):-10.225

除此之外,POLAR對開放問題的回答也能基于參考樣例給出正確的偏序:

問題:請用一句話幽默地概括《三體》第二部。

參考回復(fù)(點出了黑暗森林和關(guān)鍵情節(jié)):

人類靠一句「我告老師了」擊退三體人的太空艦隊。

回復(fù)一(點出了黑暗森林和關(guān)鍵情節(jié)):

人類被三體人按在地上摩擦,最后靠羅輯「宇宙碰瓷」嚇退專業(yè)團隊。

分數(shù):-7.414

回復(fù)二(點出了黑暗森林):

羅輯苦思冥想一整本書,終于悟出真理:別亂發(fā)朋友圈,否則會被滅口。

分數(shù):-8.070

回復(fù)三(部分事實錯誤,二向箔是第三部內(nèi)容):

全宇宙都在玩「黑暗森林」躲貓貓,人類卻把「別殺我」的告示牌掛反了,結(jié)果引來了二向箔拆遷辦。

分數(shù):-8.141

回復(fù)四(未點出黑暗森林):

面壁者在演懸疑劇,破壁者在演推理劇,三體人則在看荒誕劇。

分數(shù):-8.922

回復(fù)五(不夠幽默):

危機紀元到來,人類選出「面壁者」進行心理博弈,最終用黑暗森林法則威懾住三體文明。

分數(shù):-9.742

問題:幫我想3個形容雨很大的成語,要求不能重復(fù)。

參考回復(fù):

1. 傾盆大雨 2. 暴雨如注 3. 瓢潑大雨

回復(fù)一(正確回答):

1. 大雨滂沱 2. 狂風(fēng)驟雨 3. 大雨如注

分數(shù):-5.234

回復(fù)二(非成語):

1. 急雨如瀑 2. 豪雨傾天 3. 雨勢磅礴

分數(shù):-5.707

回復(fù)三(與參考相似,重復(fù)一個):

1. 傾盆大雨 2. 暴雨如注 3. 暴雨如注

分數(shù):-6.656

回復(fù)四(成語正確,多一個):

1. 大雨滂沱 2. 狂風(fēng)驟雨 3. 大雨如注 4. 傾盆大雨

分數(shù):-7.023

回復(fù)五(帶雨字成語,兩個含義不符):

1. 大雨滂沱 2. 雨過天晴 3. 雨后春筍

分數(shù):-8.578

POLAR完美適配RFT強化學(xué)習(xí)框架,基于問題的參考答案對模型輸出進行打分。如果模型輸出與參考答案更為接近,則會獲得更高的獎勵值。

通過這一訓(xùn)練過程,可以使得策略模型逐步向最優(yōu)策略的方向優(yōu)化。

POLAR是怎么訓(xùn)出來的

POLAR采用了一種與絕對偏好解耦的、可以真正高效擴展的獎勵建模新范式:策略判別學(xué)習(xí)(Policy Discriminative Learning,POLAR),使獎勵模型能夠像大語言模型一樣,具備可擴展性和強泛化能力。


2:POLAR的兩階段訓(xùn)練(預(yù)訓(xùn)練和偏好微調(diào))以及在RFT中的使用方法

與傳統(tǒng)的基于「絕對偏好」的獎勵建模方式不同,POLAR通過衡量訓(xùn)練策略與目標策略之間的「距離」來作為獎勵信號。

當訓(xùn)練策略越接近目標策略時,POLAR就給予越高的獎勵。

具體來說,POLAR使用了一種對比學(xué)習(xí)的方式做距離度量:同一個策略模型采樣的結(jié)果作為正例,不同策略模型采樣的結(jié)果作為負例

通過這種方式構(gòu)造正負樣本,形成無偏的優(yōu)化目標。同時,把策略模型看作是某個分布的無偏采樣器,通過刻畫樣本間差異來近似刻畫策略之間的距離。

POLAR的預(yù)訓(xùn)練語料完全由自動化合成數(shù)據(jù)構(gòu)建

具體而言,從LLM預(yù)訓(xùn)練語料中采樣出大量的文本前綴,并從策略模型池中隨機取模型進行軌跡采樣。

這里的策略模型池由開源的131個Base LLM和53個Chat LLM組成,預(yù)訓(xùn)練目標使用Bradley-Terry Loss:


其中,A1和A2代表相同策略模型生成的樣本(正樣本對);B1代表不同策略模型生成的樣本(負樣本)。

由于「距離」具有相對性,這里的A和B兩個策略模型可以任意選取。

例如,A1和A2可以是由Qwen 1.5B采樣得到,B1可以由Qwen 72B采樣得到。通過這種方式,POLAR的預(yù)訓(xùn)練語料是非常容易擴展的。

在實際的實驗中,POLAR-1.8B共使用了0.94T token的預(yù)訓(xùn)練數(shù)據(jù),POLAR-7B共使用了3.6T token的預(yù)訓(xùn)練數(shù)據(jù)。

通過預(yù)訓(xùn)練,POLAR可以為距離相近的策略產(chǎn)生的樣本賦予更高獎勵,從而隱式建模策略分布的差異和距離。

之后,POLAR在微調(diào)階段可以使用很少量的偏好數(shù)據(jù)對齊人類偏好。

具體來說,對于同一個Prompt,采樣三條軌跡,由人工標注偏好順序。同樣使用Bradley-Terry Loss進行微調(diào):


其中,A>B>C,分別代表偏好最優(yōu)、次優(yōu)、最差的軌跡。

這種偏好排序隱式定義了一種「策略差異」,例如A可以視為從最佳策略分布中采樣得到,而C可以視為從一個與最佳策略相差較遠的策略分布中采樣得到。

POLAR的Scaling效應(yīng)


3:POLAR的Scaling Law

POLAR展現(xiàn)出了與大語言模型Next Token Prediction目標類似的Scaling效應(yīng)。這體現(xiàn)了POLAR無監(jiān)督預(yù)訓(xùn)練方法的巨大潛力。

從圖3可以觀察到,驗證集損失隨模型參數(shù)N的增加呈冪律關(guān)系下降,擬合R值為0.9886;驗證集損失也隨最優(yōu)訓(xùn)練計算量C的增加呈冪律關(guān)系下降,擬合的R值為0.9912。

這些結(jié)果表明,分配更多的計算資源將持續(xù)帶來更好的POLAR性能。

POLAR的極佳Scaling效應(yīng),體現(xiàn)出其用于構(gòu)建更通用和更強大的獎勵模型的巨大潛力,也有望打通RL鏈路擴展的最后一環(huán)。

效果如何

POLAR通過對比學(xué)習(xí)預(yù)訓(xùn)練方法,不僅徹底擺脫了對大規(guī)模偏好數(shù)據(jù)的依賴,而且還可以大規(guī)模無監(jiān)督擴展。

結(jié)果就是,POLAR僅靠1.8B~7B的參數(shù)量,便在下游RL效果上超越70B以上的SOTA獎勵模型,顯著增強了獎勵模型的準確性和泛化性。


4:偏好評估實驗結(jié)果

在偏好評估方面,POLAR展現(xiàn)出優(yōu)越的性能和全面性,在大多數(shù)任務(wù)維度上優(yōu)于SOTA獎勵模型。

例如,在STEM任務(wù)中,POLAR-1.8B和POLAR-7B分別超越了最佳基線24.9和26.2個百分點,并且能夠準確識別推理、聊天、創(chuàng)意寫作等通用任務(wù)中軌跡的細微區(qū)別,準確預(yù)測人類偏好。

值得注意的是,POLAR-1.8B僅有1.8B參數(shù),就可取得與Skywork-Reward-27B和WorldPM-72B-UltraFeedback(參數(shù)量分別為其15倍和40倍)相當?shù)慕Y(jié)果。


5:強化微調(diào)實驗結(jié)果

在強化微調(diào)RFT實驗中,POLAR持續(xù)優(yōu)于SOTA的開源獎勵模型。

例如,使用POLAR-7B微調(diào)的Llama-3.1-8B在所有基準測試中,相對于初始結(jié)果平均提升了9.0%,相對于WorldPM-72B-UltraFeedback優(yōu)化的結(jié)果提升了6.7%。

POLAR能夠從預(yù)訓(xùn)練階段學(xué)習(xí)策略模型之間的細微區(qū)別,而不僅僅依賴于標注的偏好對,從而顯著增強了實際RL應(yīng)用時的獎勵信號泛化性。

實驗結(jié)果表明,盡管POLAR-1.8B和POLAR-7B在偏好評估中表現(xiàn)相似,但在下游RL實驗中,POLAR-7B展現(xiàn)出了顯著優(yōu)勢。

從1.8B到7B的效果提升,進一步說明了POLAR所具有的Scaling效應(yīng)。這也側(cè)面說明了當前傳統(tǒng)Reward Bench可能存在的局限性,即與真實強化學(xué)習(xí)場景存在較大的差別。

結(jié)語

大模型在Next Token Prediction和Test-time Scaling兩種擴展范式下,通過大規(guī)模的數(shù)據(jù)和模型擴展,實現(xiàn)了能力的持續(xù)躍升。

但相比之下,傳統(tǒng)獎勵模型缺乏系統(tǒng)性的預(yù)訓(xùn)練和擴展方法,導(dǎo)致其能力難以隨計算量增長而持續(xù)提升。而POLAR在獎勵模型預(yù)訓(xùn)練和通用性的道路上邁出了堅實的一步。

POLAR在預(yù)訓(xùn)練階段通過對比學(xué)習(xí)建模策略間的距離,無需大規(guī)模偏好數(shù)據(jù)。

在使用階段,POLAR利用RFT范式對LLM進行強化學(xué)習(xí),展現(xiàn)出了極佳的泛化性。

POLAR作為一種全新的、可擴展的獎勵模型預(yù)訓(xùn)練方法,為LLM后訓(xùn)練帶來了新的可能,讓通用RFT多了一種有效實踐方案。

最終,有望打通RL鏈路Scaling的最后一環(huán)。

參考資料:

https://arxiv.org/abs/2507.05197


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1992年,驚動軍委的3.20軍事機密被竊案偵破始末

1992年,驚動軍委的3.20軍事機密被竊案偵破始末

憶史君
2025-07-11 11:23:38
中年女人這3句話,潛臺詞就是想讓你“睡”,錯不了

中年女人這3句話,潛臺詞就是想讓你“睡”,錯不了

故衣談歷史
2025-06-27 00:26:47
NFL球星布雷迪,與C羅前女友分手,首富婚禮上邂逅兩位好萊塢女星

NFL球星布雷迪,與C羅前女友分手,首富婚禮上邂逅兩位好萊塢女星

藝兔體壇
2025-07-11 18:34:07
中山大學(xué)取消133人錄取資格!605分竟能撿漏中大?

中山大學(xué)取消133人錄取資格!605分竟能撿漏中大?

戶外釣魚哥阿勇
2025-07-11 15:35:41
警惕“蛇出沒”!臺州一男子被毒蛇咬傷,這些急救誤區(qū)要避開

警惕“蛇出沒”!臺州一男子被毒蛇咬傷,這些急救誤區(qū)要避開

臺州交通廣播
2025-07-12 00:35:38
不到40萬的瑪莎拉蒂,狠狠背刺大批中產(chǎn)

不到40萬的瑪莎拉蒂,狠狠背刺大批中產(chǎn)

鳴金網(wǎng)
2025-07-11 21:04:42
謝淑薇/奧斯塔彭科直落兩盤擊敗頭號種子,晉級溫網(wǎng)女雙決賽

謝淑薇/奧斯塔彭科直落兩盤擊敗頭號種子,晉級溫網(wǎng)女雙決賽

直播吧
2025-07-12 08:32:06
中汽協(xié)怒懟汽車銷量周榜:嚴重歪曲行業(yè)運行情況

中汽協(xié)怒懟汽車銷量周榜:嚴重歪曲行業(yè)運行情況

大象新聞
2025-07-11 20:36:05
絕境逆轉(zhuǎn)!0-3到4-3!陳熠大敗早田希娜,晉級4強沖冠

絕境逆轉(zhuǎn)!0-3到4-3!陳熠大敗早田希娜,晉級4強沖冠

最愛乒乓球
2025-07-12 06:54:08
楊少華有多卑微?被馬志明戲耍、被侯家兄弟輕視,翡翠麻將成痛點

楊少華有多卑微?被馬志明戲耍、被侯家兄弟輕視,翡翠麻將成痛點

不似少年游
2025-05-18 07:30:03
李知恩:又玩下身消失術(shù)了

李知恩:又玩下身消失術(shù)了

鄉(xiāng)野小珥
2025-07-10 00:34:46
貴州財經(jīng)大學(xué)黨委副書記彭潔調(diào)任貴州大學(xué)黨委副書記

貴州財經(jīng)大學(xué)黨委副書記彭潔調(diào)任貴州大學(xué)黨委副書記

澎湃新聞
2025-07-11 22:10:36
建國后粟裕為何仕途不順?陳賡:沒辦法,不受歡迎的2種人他都占

建國后粟裕為何仕途不順?陳賡:沒辦法,不受歡迎的2種人他都占

南書房
2025-04-12 23:50:03
沈飛殲16D量產(chǎn)速度改寫全球空中格局

沈飛殲16D量產(chǎn)速度改寫全球空中格局

曉劗就是我
2025-07-12 05:29:25
菲律賓做夢也想不到,自己安排的“仁愛礁”破船,對中國幫助很大

菲律賓做夢也想不到,自己安排的“仁愛礁”破船,對中國幫助很大

boss外傳
2025-06-19 08:55:03
兒子緊盯滿桌鈔票,哭暈要人扶,一場葬禮,透露出楊少華真實處境

兒子緊盯滿桌鈔票,哭暈要人扶,一場葬禮,透露出楊少華真實處境

凡知
2025-07-11 19:12:27
譯文|《出師表》翻譯成江湖話,能活活氣死諸葛亮!

譯文|《出師表》翻譯成江湖話,能活活氣死諸葛亮!

尚曦讀史
2025-07-10 23:15:03
江蘇省人大財政經(jīng)濟委員會原副主任委員戴元湖接受審查調(diào)查

江蘇省人大財政經(jīng)濟委員會原副主任委員戴元湖接受審查調(diào)查

澎湃新聞
2025-07-12 12:21:07
維金斯正式申請交易,怒罵萊利太過分,遭韋德指責是個白眼狼

維金斯正式申請交易,怒罵萊利太過分,遭韋德指責是個白眼狼

安徽紅蜻蜓雜志社
2025-07-11 22:56:27
貓和人類不是同類,為什么貓卻喜歡和人類一起生活?

貓和人類不是同類,為什么貓卻喜歡和人類一起生活?

詩意世界
2025-07-11 11:00:03
2025-07-12 12:51:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13043文章數(shù) 66094關(guān)注度
往期回顧 全部

科技要聞

黃仁勛警示AI風(fēng)險:沒新想法,就集體失業(yè)

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

王晶曝張國榮自殺原因 抑郁癥只是其一

財經(jīng)要聞

中國超半數(shù)城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優(yōu)點很多缺點也很多

態(tài)度原創(chuàng)

健康
親子
教育
時尚
本地

呼吸科專家破解呼吸道九大謠言!

親子要聞

這衣服漂亮不?

教育要聞

晨鐘暮鼓379:活色生香,為所欲為!

盛夏最清爽的三組配色,很好看!

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 哈巴河县| 博乐市| 长垣县| 安顺市| 怀宁县| 久治县| 阳泉市| 海安县| 青州市| 柘荣县| 湖口县| 太湖县| 阜阳市| 兴城市| 丹东市| 浑源县| 遵义市| 花垣县| 井冈山市| 台州市| 彭州市| 三门峡市| 波密县| 苍梧县| 宁阳县| 洞头县| 镇沅| 广汉市| 濉溪县| 黔西| 文昌市| 吴江市| 务川| 祁门县| 泽库县| 济源市| 西贡区| 陆河县| 阿荣旗| 宜良县| 吉林省|