99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI去年挖的坑填上了!獎勵模型首現Scaling Law,1.8B給70B巨獸上了一課

0
分享至


新智元報道

編輯:定慧 好困

【新智元導讀】最近,一款全新的獎勵模型「POLAR」橫空出世。它開創性地采用了對比學習范式,通過衡量模型回復與參考答案的「距離」來給出精細分數。不僅擺脫了對海量人工標注的依賴,更展現出強大的Scaling潛力,讓小模型也能超越規模大數十倍的對手。

一直以來,讓AI更懂人類都是大模型領域的核心議題。

而獎勵模型(RM)便是解決如何「理解人類偏好」的核心技術,同時也是限制后訓練效果的關鍵因素。

2024年12月,OpenAI提出了一種新的強化微調(Reinforcement Fine-tuning,RFT)技術。在RFT過程中,打分器(Grader)會根據標準答案給出獎勵分數,從而幫助模型「學會」如何給出正確結果。


1:OpenAI強化微調代表樣例

在此啟發下,一種可以規避獎勵模型準確度低、泛化性差等固有問題的,基于規則驗證(RLVR)的方法應運而生。

然而,RLVR在很多情況下只能提供0/1獎勵,無法給出更加細粒度的偏好區分。

比如像寫詩、聊天這類開放式問題,就很難實現泛化,進而限制了在更通用場景中的應用。

針對這一問題,來自上海人工智能實驗室和復旦大學的研究人員,在最近提出了一種全新的獎勵模型POLAR,并開源了1.8B和7B兩個參數規模的版本。

區別于傳統的「基于絕對偏好」的獎勵模型,POLAR采用了全新對比學習預訓練范式,可以根據參考答案,靈活地對模型回復給出獎勵分數

實測結果表明,POLAR已經充分展現出了一個出色「Grader」的潛質。


論文鏈接:https://arxiv.org/abs/2507.05197

項目鏈接:https://github.com/InternLM/POLAR

模型鏈接:https://huggingface.co/internlm/POLAR-7B

我們將開篇提到的OpenAl生物基因領域官方樣例輸入POLAR,并構造了一些模型回復后發現,POLAR可以完美地給出正確的偏序關系!

回復一(與參考完全一致):

FOXE3

分數:-0.278

回復二(正確答案Rank 1):

genes: [FOXE3, KDM5A, BBS5]

分數:-7.889

回復三(正確答案Rank 2):

genes: [BBS5,FOXE3, KDM5A]

分數:-7.998

回復四(正確答案Rank 3):

genes: [KDM5A, BBS5,FOXE3]

分數:-8.008

回復五(與正確答案相似的拼寫錯誤):

genes: [FOXE2, KDM5A, BBS5]

分數:-8.965

回復六(無正確答案):

genes: [CHD7, KDM5A, BBS5]

分數:-10.225

除此之外,POLAR對開放問題的回答也能基于參考樣例給出正確的偏序:

問題:請用一句話幽默地概括《三體》第二部。

參考回復(點出了黑暗森林和關鍵情節):

人類靠一句「我告老師了」擊退三體人的太空艦隊。

回復一(點出了黑暗森林和關鍵情節):

人類被三體人按在地上摩擦,最后靠羅輯「宇宙碰瓷」嚇退專業團隊。

分數:-7.414

回復二(點出了黑暗森林):

羅輯苦思冥想一整本書,終于悟出真理:別亂發朋友圈,否則會被滅口。

分數:-8.070

回復三(部分事實錯誤,二向箔是第三部內容):

全宇宙都在玩「黑暗森林」躲貓貓,人類卻把「別殺我」的告示牌掛反了,結果引來了二向箔拆遷辦。

分數:-8.141

回復四(未點出黑暗森林):

面壁者在演懸疑劇,破壁者在演推理劇,三體人則在看荒誕劇。

分數:-8.922

回復五(不夠幽默):

危機紀元到來,人類選出「面壁者」進行心理博弈,最終用黑暗森林法則威懾住三體文明。

分數:-9.742

問題:幫我想3個形容雨很大的成語,要求不能重復。

參考回復:

1. 傾盆大雨 2. 暴雨如注 3. 瓢潑大雨

回復一(正確回答):

1. 大雨滂沱 2. 狂風驟雨 3. 大雨如注

分數:-5.234

回復二(非成語):

1. 急雨如瀑 2. 豪雨傾天 3. 雨勢磅礴

分數:-5.707

回復三(與參考相似,重復一個):

1. 傾盆大雨 2. 暴雨如注 3. 暴雨如注

分數:-6.656

回復四(成語正確,多一個):

1. 大雨滂沱 2. 狂風驟雨 3. 大雨如注 4. 傾盆大雨

分數:-7.023

回復五(帶雨字成語,兩個含義不符):

1. 大雨滂沱 2. 雨過天晴 3. 雨后春筍

分數:-8.578

POLAR完美適配RFT強化學習框架,基于問題的參考答案對模型輸出進行打分。如果模型輸出與參考答案更為接近,則會獲得更高的獎勵值。

通過這一訓練過程,可以使得策略模型逐步向最優策略的方向優化。

POLAR是怎么訓出來的

POLAR采用了一種與絕對偏好解耦的、可以真正高效擴展的獎勵建模新范式:策略判別學習(Policy Discriminative Learning,POLAR),使獎勵模型能夠像大語言模型一樣,具備可擴展性和強泛化能力。


2:POLAR的兩階段訓練(預訓練和偏好微調)以及在RFT中的使用方法

與傳統的基于「絕對偏好」的獎勵建模方式不同,POLAR通過衡量訓練策略與目標策略之間的「距離」來作為獎勵信號。

當訓練策略越接近目標策略時,POLAR就給予越高的獎勵。

具體來說,POLAR使用了一種對比學習的方式做距離度量:同一個策略模型采樣的結果作為正例,不同策略模型采樣的結果作為負例

通過這種方式構造正負樣本,形成無偏的優化目標。同時,把策略模型看作是某個分布的無偏采樣器,通過刻畫樣本間差異來近似刻畫策略之間的距離。

POLAR的預訓練語料完全由自動化合成數據構建

具體而言,從LLM預訓練語料中采樣出大量的文本前綴,并從策略模型池中隨機取模型進行軌跡采樣。

這里的策略模型池由開源的131個Base LLM和53個Chat LLM組成,預訓練目標使用Bradley-Terry Loss:


其中,A1和A2代表相同策略模型生成的樣本(正樣本對);B1代表不同策略模型生成的樣本(負樣本)。

由于「距離」具有相對性,這里的A和B兩個策略模型可以任意選取

例如,A1和A2可以是由Qwen 1.5B采樣得到,B1可以由Qwen 72B采樣得到。通過這種方式,POLAR的預訓練語料是非常容易擴展的。

在實際的實驗中,POLAR-1.8B共使用了0.94T token的預訓練數據,POLAR-7B共使用了3.6T token的預訓練數據。

通過預訓練,POLAR可以為距離相近的策略產生的樣本賦予更高獎勵,從而隱式建模策略分布的差異和距離。

之后,POLAR在微調階段可以使用很少量的偏好數據對齊人類偏好。

具體來說,對于同一個Prompt,采樣三條軌跡,由人工標注偏好順序。同樣使用Bradley-Terry Loss進行微調:


其中,A>B>C,分別代表偏好最優、次優、最差的軌跡。

這種偏好排序隱式定義了一種「策略差異」,例如A可以視為從最佳策略分布中采樣得到,而C可以視為從一個與最佳策略相差較遠的策略分布中采樣得到。

POLAR的Scaling效應


3:POLAR的Scaling Law

POLAR展現出了與大語言模型Next Token Prediction目標類似的Scaling效應。這體現了POLAR無監督預訓練方法的巨大潛力。

從圖3可以觀察到,驗證集損失隨模型參數N的增加呈冪律關系下降,擬合R值為0.9886;驗證集損失也隨最優訓練計算量C的增加呈冪律關系下降,擬合的R值為0.9912。

這些結果表明,分配更多的計算資源將持續帶來更好的POLAR性能

POLAR的極佳Scaling效應,體現出其用于構建更通用和更強大的獎勵模型的巨大潛力,也有望打通RL鏈路擴展的最后一環。

效果如何

POLAR通過對比學習預訓練方法,不僅徹底擺脫了對大規模偏好數據的依賴,而且還可以大規模無監督擴展。

結果就是,POLAR僅靠1.8B~7B的參數量,便在下游RL效果上超越70B以上的SOTA獎勵模型,顯著增強了獎勵模型的準確性和泛化性。


4:偏好評估實驗結果

在偏好評估方面,POLAR展現出優越的性能和全面性,在大多數任務維度上優于SOTA獎勵模型。

例如,在STEM任務中,POLAR-1.8B和POLAR-7B分別超越了最佳基線24.9和26.2個百分點,并且能夠準確識別推理、聊天、創意寫作等通用任務中軌跡的細微區別,準確預測人類偏好。

值得注意的是,POLAR-1.8B僅有1.8B參數,就可取得與Skywork-Reward-27B和WorldPM-72B-UltraFeedback(參數量分別為其15倍和40倍)相當的結果。


5:強化微調實驗結果

在強化微調RFT實驗中,POLAR持續優于SOTA的開源獎勵模型。

例如,使用POLAR-7B微調的Llama-3.1-8B在所有基準測試中,相對于初始結果平均提升了9.0%,相對于WorldPM-72B-UltraFeedback優化的結果提升了6.7%。

POLAR能夠從預訓練階段學習策略模型之間的細微區別,而不僅僅依賴于標注的偏好對,從而顯著增強了實際RL應用時的獎勵信號泛化性。

實驗結果表明,盡管POLAR-1.8B和POLAR-7B在偏好評估中表現相似,但在下游RL實驗中,POLAR-7B展現出了顯著優勢。

從1.8B到7B的效果提升,進一步說明了POLAR所具有的Scaling效應。這也側面說明了當前傳統Reward Bench可能存在的局限性,即與真實強化學習場景存在較大的差別。

結語

大模型在Next Token Prediction和Test-time Scaling兩種擴展范式下,通過大規模的數據和模型擴展,實現了能力的持續躍升。

但相比之下,傳統獎勵模型缺乏系統性的預訓練和擴展方法,導致其能力難以隨計算量增長而持續提升。而POLAR在獎勵模型預訓練和通用性的道路上邁出了堅實的一步。

POLAR在預訓練階段通過對比學習建模策略間的距離,無需大規模偏好數據。

在使用階段,POLAR利用RFT范式對LLM進行強化學習,展現出了極佳的泛化性。

POLAR作為一種全新的、可擴展的獎勵模型預訓練方法,為LLM后訓練帶來了新的可能,讓通用RFT多了一種有效實踐方案。

最終,有望打通RL鏈路Scaling的最后一環。

參考資料:

https://arxiv.org/abs/2507.05197


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
打起來了,以色列被炸?20架戰機連夜出擊,美失聲,以總理要出國

打起來了,以色列被炸?20架戰機連夜出擊,美失聲,以總理要出國

阿七說史
2025-07-09 18:28:29
廣東初二男孩被5名同學圍毆,父親掄起鐵棍將其中一名活活打死,判決結果出來后,網友不淡定了…

廣東初二男孩被5名同學圍毆,父親掄起鐵棍將其中一名活活打死,判決結果出來后,網友不淡定了…

譚老師地理工作室
2025-03-11 12:58:06
金正恩為什么不來華參加閱兵?

金正恩為什么不來華參加閱兵?

周邊問題研究所
2025-07-11 00:04:17
曝楊少華帶貨報價,30天播27場,給兒子各買一套房,郭德綱說對了

曝楊少華帶貨報價,30天播27場,給兒子各買一套房,郭德綱說對了

一娛三分地
2025-07-11 22:20:08
江蘇狀元被火箭軍大學錄取!軍裝領導送通知書,母親露面惹人心酸

江蘇狀元被火箭軍大學錄取!軍裝領導送通知書,母親露面惹人心酸

不寫散文詩
2025-07-11 22:42:43
宋慧喬以狼尾造型代言Fendi,穿上高筒靴,畫了黑眼線的她很魅!

宋慧喬以狼尾造型代言Fendi,穿上高筒靴,畫了黑眼線的她很魅!

檸檬有娛樂
2025-07-11 13:27:54
新聞1+1丨暑期防溺水 除了“堵”,還能怎么“疏”?

新聞1+1丨暑期防溺水 除了“堵”,還能怎么“疏”?

大象新聞
2025-07-11 09:05:32
2025年福建8地中考成績出爐!最高分曝光!附各地市切線比對!

2025年福建8地中考成績出爐!最高分曝光!附各地市切線比對!

福建升學指南
2025-07-10 17:17:16
《白鹿原》:真正把人困在底層的,不是出身不好,不是環境惡劣,更不是能力不足,而是始終意識不到這 3 點

《白鹿原》:真正把人困在底層的,不是出身不好,不是環境惡劣,更不是能力不足,而是始終意識不到這 3 點

互聯網思維
2025-07-10 23:12:18
2025年養老金上漲2%,工齡15年、25年和35年,分別能漲多少?看看

2025年養老金上漲2%,工齡15年、25年和35年,分別能漲多少?看看

興史興談
2025-07-10 17:38:59
拔指甲!關鐵籠!白家電詐園區完整“懲戒體系”曝光

拔指甲!關鐵籠!白家電詐園區完整“懲戒體系”曝光

看看新聞Knews
2025-07-11 17:41:04
死者為大!楊少華去世,郭德綱因兩個動作,就實現了“口碑暴增”

死者為大!楊少華去世,郭德綱因兩個動作,就實現了“口碑暴增”

麥大人
2025-07-11 14:21:14
山東某學校通知:暑假沒有收到續聘電話的老師,可自行找工作!

山東某學校通知:暑假沒有收到續聘電話的老師,可自行找工作!

古希臘掌管松餅的神
2025-07-09 15:49:08
馬英九說:統一要尊重臺灣人民的意愿。郭正亮:統一不需要民意

馬英九說:統一要尊重臺灣人民的意愿。郭正亮:統一不需要民意

大道無形我有型
2025-07-11 11:33:14
“江蘇一姐男寵”曾歡,1米88肌肉發達,被抓后卻翻臉不認人

“江蘇一姐男寵”曾歡,1米88肌肉發達,被抓后卻翻臉不認人

莉雅細細談
2024-06-02 19:34:46
中紀委劃紅線!機關事業單位職工下班后,不能去這8類場所!

中紀委劃紅線!機關事業單位職工下班后,不能去這8類場所!

金哥說新能源車
2025-06-11 13:29:08
這下事情鬧大了!聯合國兒童基金會為天水幼兒血鉛異常事件發聲…

這下事情鬧大了!聯合國兒童基金會為天水幼兒血鉛異常事件發聲…

翻開歷史和現實
2025-07-10 12:45:20
國乒2男3女進單打四強!女雙盼會師混雙爭冠,日本男女單表現亮眼

國乒2男3女進單打四強!女雙盼會師混雙爭冠,日本男女單表現亮眼

叮咚體壇
2025-07-11 19:10:19
歐足聯官方:水晶宮被剝奪歐聯杯資格,將參加歐協聯

歐足聯官方:水晶宮被剝奪歐聯杯資格,將參加歐協聯

直播吧
2025-07-11 23:36:03
負債117億,知名汽車巨頭宣布破產!這個國產車,將徹底退出中國

負債117億,知名汽車巨頭宣布破產!這個國產車,將徹底退出中國

史行途
2025-07-09 11:49:26
2025-07-12 05:52:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13041文章數 66094關注度
往期回顧 全部

科技要聞

稚暉君神操作 宇樹痛失"人形機器人第一股"

頭條要聞

王毅會見魯比奧后 魯比奧就"中美領導人會面"表態

頭條要聞

王毅會見魯比奧后 魯比奧就"中美領導人會面"表態

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

新聞聯播鏡頭下的宋佳面相變了

財經要聞

管濤:百年美元信用將崩塌?

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙 嵐圖FREE+閉眼沖

態度原創

旅游
手機
本地
時尚
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

粉色換紫色,蘋果 iPhone 17/17 Air 共 9 款配色曝光

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

T恤+高腰下裝=顯瘦天花板,比"露奶衫"高級100倍!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 苏尼特右旗| 乌兰浩特市| 久治县| 临安市| 江门市| 金塔县| 句容市| 册亨县| 白水县| 延庆县| 平原县| 南投县| 闻喜县| 东乡族自治县| 册亨县| 绥中县| 康定县| 浑源县| 湄潭县| 洞口县| 宝鸡市| 威宁| 仪陇县| 明溪县| 鄄城县| 称多县| 辉南县| 昌图县| 呈贡县| 西和县| 从江县| 应城市| 扬中市| 股票| 博湖县| 银川市| 凤台县| 娄底市| 安图县| 镇巴县| 略阳县|