99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

獎勵模型也能Scaling!上海AI Lab突破強化學習短板

0
分享至

允中 發自 凹非寺
量子位 | 公眾號 QbitAI

強化學習改變了大語言模型的后訓練范式,可以說,已成為AI邁向AGI進程中的關鍵技術節點。

然而,其中獎勵模型的設計與訓練,始終是制約后訓練效果、模型能力進一步提升的瓶頸所在。

當前,大模型在Next Token PredictionTest-time Scaling兩種擴展范式下,通過大規模的數據和模型擴展,實現了能力的持續躍升。但相比之下,獎勵模型缺乏系統性的預訓練和擴展方法,導致其能力難以隨計算量增長而持續提升,成為阻礙強化學習鏈路進一步擴展的短板。

如何解決?



現在,來自上海人工智能實驗室的研究團隊提出了一種新的思路:

他們找到了一種與絕對偏好解耦的、可以真正高效擴展的獎勵建模新范式——策略判別學習(Policy Discriminative Learning, POLAR),使獎勵模型能夠像大語言模型一樣,具備可擴展性和強泛化能力。

POLAR為大模型后訓練帶來突破性進展,并有望打通RL鏈路擴展的最后一環。

什么是POLAR

先來看一下POLAR能做到什么。

與傳統的獎勵模型不同,POLAR是根據參考答案為模型的輸出打分。這意味著POLAR可以靈活地基于不同場景的參考答案給出不同的獎勵分數,輕松適配多樣的定制化需求。

下面是一個開放問題的例子,對應有三個不同風格的回復:

問題:彩虹是怎么形成的?

回答一:彩虹是陽光經過水滴折射和反射后形成的。

回答二:當陽光照射到空氣中的小水滴時,光線會進入水滴發生折射,再從水滴的內壁反射后再次折射出水滴。由于不同波長的光折射角度不同,最終呈現出不同的顏色,這些顏色組合起來就形成了我們所看到的彩虹。

回答三:彩虹是陽光通過空氣中的水滴折射和反射后形成的。生活中我們經常在雨后或噴泉、水幕附近看到彩虹,有時候還會看到雙彩虹甚至三重彩虹呢!不過很可惜,彩虹本身只是光學現象,沒法真正走近摸到。

對于這種開放問題,不同的用戶可能會偏向不同風格的回復。此時,傳統獎勵模型的“絕對偏好”無法靈活應對不同的定制化場景。而POLAR只需要根據不同的參考回,即可為三種回答給出不同的偏序關系,無需重新訓練獎勵模型

來看POLAR實際打分的例子。如果給定的參考風格是簡短扼要,POLAR會給第一個回答最高的分數。

參考一:陽光穿過水滴的折射與反射形成了彩虹。

回答一:-2.095703125

回答二:-5.859375

回答三:-7.44921875

如果參考的是詳細分析風格,POLAR會給第二個回答最高分。

參考二:彩虹是陽光經過空氣中的許多小水滴后,通過連續的折射與反射而產生的。當陽光進入水滴時,光線首先被折射進入水滴內部,然后在水滴內壁發生一次反射,隨后再次折射射出水滴。因為陽光中不同顏色的光線波長各不相同,折射時產生的角度也略有差別,這使得光線被分解成紅、橙、黃、綠、藍、靛、紫等顏色,從而形成了我們所看到的絢麗彩虹。

回答一:-8.5625

回答二:-5.2421875

回答三:-8.125

如果參考的是俏皮發散風格,此時第三個回答的獎勵分數最高。

參考三:彩虹是陽光經過水滴折射和反射后形成的。在日常生活中,只要條件合適,比如剛下完雨、噴泉邊,甚至在水幕電影附近,都能邂逅這種美麗的景象。不過呢,雖然彩虹看上去很近,但它畢竟只是光的奇妙游戲,我們無論怎么追逐,都無法真正觸碰到它,這也是大自然給我們留下的小小遺憾吧~

回答一:-9.53125

回答二:-8.609375

回答三:-4.484375

除了上述處理開放問題的靈活性,POLAR也能解決有標準答案的閉式問題。相比“基于規則的驗證”(RLVR)所提供的0/1二元獎勵,POLAR可以提供更加細粒度的偏好區分。

下面是一個例子:

問題:公交車上原本有10名乘客,到站后下去了3名,上來了5名,現在車上有多少名乘客?

參考答案: 10名乘客 - 3名下車 + 5名上車。答案是12。

回答一(答案正確,思路正確):最初有10名乘客,到站后3個人下車,因此剩下7人;又新上來了5人,7人加上5人,總共是12人。因此最終有12名乘客。

分數:-5.1953125

回答二(答案正確,無思路):現在車上有12名乘客。

分數:-5.6171875

回答三(答案錯誤,思路正確):10名乘客 - 3名下車 + 5名上車。答案是13。

分數:-8.953125

回答四(答案正確,思路錯誤):10名乘客 + 3名下車 - 5名上車。答案是12。

分數:-9.5859375

回答五(答案錯誤,無思路):現在車上有13名乘客。

分數:-11.0703125

回答六(答案錯誤,思路錯誤):10名乘客 + 3名下車 - 5名上車。答案是13。

分數:-12.125

由此可見,POLAR不僅擺脫了傳統獎勵模型“絕對偏好”的限制,更加彌補了RLVR難以拓展場景、獎勵信號稀疏等問題。

POLAR基于參考答案對模型輸出進行打分,對更加接近參考答案的輸出賦予更高的獎勵值,在強化學習過程中讓訓練策略逐步向最優策略偏移。

這種特性使得POLAR完美契合強化微調框架(Reinforcement Fine-tuning,RFT),讓RFT在通用場景的應用成為可能。

POLAR是如何訓練的

在探討POLAR的訓練方式之前,我們首先回顧一下大語言模型(LLM)的成功之路。

傳統的機器學習是為特定的任務訓練特定的模型,例如為翻譯任務訓練翻譯模型,很難做到任務間的泛化。

LLM的成功就在于用Next Token Prediction的形式統一了所有任務,解決了任務形式不同導致無法泛化的難題。

現在獎勵模型(RM)的設計仍然在重蹈傳統方案的老路,即為特定場景標注偏好數據,訓特定場景的RM。

其中,RM的打分標準是基于人類偏好來設定的,而打分標準就如同LLM的任務形式,具有多樣性且無法窮舉。

那么,能不能仿照LLM的成功之路,重新設計RM的訓練范式,就像消除LLM的“任務形式”一樣,找到一個脫離于“打分標準”之外的更本質的優化目標函數來進行預訓練呢?

正是基于這樣的思路,上海AI Lab提出了預訓練獎勵模型POLAR



△POLAR的兩階段訓練(預訓練和偏好微調)以及在RFT中的使用方法

與傳統的基于“絕對偏好”的獎勵建模方式不同,POLAR 通過衡量訓練策略與目標策略之間的“距離”來作為獎勵信號。當訓練策略越接近目標策略時,POLAR 就給予越高的獎勵。

具體來說,POLAR 使用了一種對比學習(Contrastive Learning)的方式學會策略分布的距離度量:同一個策略模型采樣的結果作為正例,不同策略模型采樣的結果作為負例

通過這種方式構造正負樣本,雖然有一些反直覺,但它是一種真正無偏的信號,和對抗生成網絡(GAN)中判斷是否是真實樣本類似。

由于“距離”是一種相對性的概念,因此目標策略可任意指定,從而擺脫了對偏好數據人工標注的依賴,具有極強的可擴展潛力。實際上,POLAR的預訓練語料完全通過自動化合成數據構建

具體而言,研究人員從LLM預訓練語料中采樣出大量的文本前綴,并從策略模型池(由開源的131個Base LLM和53個Chat LLM組成)中隨機取模型進行軌跡采樣。預訓練目標使用Bradley-Terry Loss:



其中,A1和A2代表相同策略模型生成的軌跡(正樣本對);B1代表不同策略模型生成的軌跡(負樣本)。

由于“距離”具有相對性,這里的A和B兩個策略模型可以任意選取。例如,A1和A2可以由Qwen 1.5B采樣得到,B1可以由Qwen 72B采樣得到。通過這種方式,POLAR的預訓練語料非常容易擴展。

POLAR使RM學會為相近策略產生的軌跡賦予更高獎勵,從而隱式建模策略分布的差異和距離。在這一階段,POLAR-1.8B共使用了0.94T Token的預訓練數據,POLAR-7B共使用了3.6T Token的預訓練數據。

在預訓練階段之后,POLAR可以使用少量的偏好數據對齊人類偏好。具體來說,對于同一個Prompt,采樣三條軌跡,由人工標注偏好順序。同樣使用Bradley-Terry Loss進行微調:



其中,A > B > C,分別代表偏好最優、次優、最差的軌跡。這種偏好排序隱式定義了一種“策略差異”,例如A可以視為從最佳策略分布中采樣得到,而C可以視為從一個與最佳策略相差較遠的策略分布中采樣得到。

POLAR具有Scaling效應嗎?



△POLAR的Scaling Laws

一個重要的問題是,POLAR預訓練范式是否真的能展現Scaling效應?

研究人員從模型參數N和計算量C兩個方面進行了實驗。

如圖所示,POLAR的驗證集損失隨模型參數N的增加呈冪律關系下降,擬合的R2值為0.9886。

驗證集損失也隨最優訓練計算量C的增加呈冪律關系下降,擬合的R2值為0.9912。

這些結果表明,分配更多的計算資源將持續帶來更好的POLAR性能。也就是說,新范式展現出了與大語言模型Next Token Prediction目標類似的Scaling Laws。

這體現了POLAR預訓練方法的顯著擴展優勢,以及用于構建更通用和更強大的獎勵模型的巨大潛力。

POLAR效果如何?

研究人員通過一系列實驗證明,POLAR能做到對性能和泛化的雙重保證。



△偏好評估實驗結果

在偏好評估方面,POLAR展現出優越的性能和全面性,在大多數任務維度上優于SOTA獎勵模型。

例如,在STEM任務中,POLAR-1.8B和POLAR-7B分別超越了最佳基線24.9和26.2個百分點,并且能夠準確識別推理、聊天、創意寫作等通用任務中軌跡的細微區別,準確預測人類偏好。

值得注意的是,POLAR-1.8B僅有1.8B參數,就可取得與Skywork-Reward-27B和WorldPM-72B-UltraFeedback(參數量分別為其15倍和40倍)相當的結果,凸顯了POLAR的強大潛力。



△強化微調實驗結果

在強化微調實驗中,POLAR持續優于SOTA的開源獎勵模型。

例如,使用POLAR-7B微調的Llama-3.1-8B在所有基準測試中,相對于初始結果平均提升了9.0%,相對于WorldPM-72B-UltraFeedback優化的結果提升了6.7%。

POLAR能夠從預訓練階段學習策略模型之間的細微區別,而不僅僅依賴于標注的偏好對,從而顯著增強了實際RL應用時的獎勵信號泛化性。

實驗結果表明,盡管POLAR-1.8B和POLAR-7B在偏好評估中表現相似,但在下游RL實驗中,POLAR-7B展現出了顯著優勢。從1.8B到7B的效果提升,進一步說明了POLAR所具有的Scaling效應。

總結來說,POLAR在預訓練階段通過對比學習建模策略間的距離,僅需少量偏好樣本就可對齊人類偏好。在使用階段,POLAR利用RFT范式對LLM進行強化學習,展現出了極佳的泛化性。POLAR作為一種全新的、可擴展的獎勵模型預訓練方法,為LLM后訓練帶來了新的可能,讓通用RFT多了一種有效實踐方案。有望打通RL鏈路Scaling的最后一環。

論文鏈接:https://arxiv.org/pdf/2507.05197
項目鏈接:https://github.com/InternLM/POLAR
模型鏈接:https://huggingface.co/internlm/POLAR-7B

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
印度再次成世界笑話!嘲笑山東艦甲板太粗糙,稱印度航母甲板絲滑

印度再次成世界笑話!嘲笑山東艦甲板太粗糙,稱印度航母甲板絲滑

掌青說歷史
2025-07-12 15:10:56
侯耀華不送楊少華最后一程,還是打心眼里看不起楊家

侯耀華不送楊少華最后一程,還是打心眼里看不起楊家

合贊歷史
2025-07-12 16:55:45
被猥褻女顧客稱已獲椰島賠償2萬元 涉事店員永不錄用,店長被罰5000元

被猥褻女顧客稱已獲椰島賠償2萬元 涉事店員永不錄用,店長被罰5000元

封面新聞
2025-07-12 20:35:07
撿塊石頭竟自燃!醫生急喊:這3件事千萬別做

撿塊石頭竟自燃!醫生急喊:這3件事千萬別做

極目新聞
2025-07-12 10:51:05
甘肅省阿克塞縣警方通報“青甘大環線三車12胎被扎”事件:兩名犯罪嫌疑人被抓獲

甘肅省阿克塞縣警方通報“青甘大環線三車12胎被扎”事件:兩名犯罪嫌疑人被抓獲

環球網資訊
2025-07-12 07:05:10
內地女子在澳門報警稱遭同鄉強奸,實為約好性交易!案情曝光

內地女子在澳門報警稱遭同鄉強奸,實為約好性交易!案情曝光

南方都市報
2025-07-12 17:52:19
男子趕到機場懵了!飛機提前近5小時起飛?平臺:對受影響旅客給予相應補償

男子趕到機場懵了!飛機提前近5小時起飛?平臺:對受影響旅客給予相應補償

瀟湘晨報
2025-07-12 10:37:02
印度空難報告:波音737的燃油控制開關在安裝時未啟用鎖定功能

印度空難報告:波音737的燃油控制開關在安裝時未啟用鎖定功能

奇聞不要看
2025-07-12 17:28:50
男子吹“日本一包裝技術”中國10年學不會,遭打臉:中國廠家產品

男子吹“日本一包裝技術”中國10年學不會,遭打臉:中國廠家產品

可達鴨面面觀
2025-07-12 16:07:19
校門外石墩圓球個個加設鋼管護欄,是否多此一舉?涉事學校稱是出于安全考慮防止車輛撞擊

校門外石墩圓球個個加設鋼管護欄,是否多此一舉?涉事學校稱是出于安全考慮防止車輛撞擊

大風新聞
2025-07-12 20:15:39
李筱強,利用公權力謀取個人利益,從證監會離職后仍不知止

李筱強,利用公權力謀取個人利益,從證監會離職后仍不知止

政知新媒體
2025-07-12 20:42:51
他枯瘦如柴卻力大無窮,出手必傷人,一生比武無敗績,名字很耳熟

他枯瘦如柴卻力大無窮,出手必傷人,一生比武無敗績,名字很耳熟

近史談
2025-07-11 18:01:13
甘肅省提級調查褐石培心幼兒園幼兒血鉛異常問題

甘肅省提級調查褐石培心幼兒園幼兒血鉛異常問題

新京報
2025-07-12 21:43:39
WTT大滿貫!女單4強出爐,國乒2人,伊藤大爆發,陳幸同+橋本出局

WTT大滿貫!女單4強出爐,國乒2人,伊藤大爆發,陳幸同+橋本出局

知軒體育
2025-07-12 11:55:44
甘肅截癱女子男友實錘:她把腳放在中控臺上,網戀一個月確定關系

甘肅截癱女子男友實錘:她把腳放在中控臺上,網戀一個月確定關系

水晶的視界
2025-07-11 06:28:34
印航空難發動機燃料供應為何被切斷?飛行員:我沒關 飛機曾兩次更換燃油控制模塊

印航空難發動機燃料供應為何被切斷?飛行員:我沒關 飛機曾兩次更換燃油控制模塊

紅星新聞
2025-07-12 12:31:39
46歲女星MaggieQ官宣結婚,歷任男友包括吳彥祖、丹尼爾·亨利

46歲女星MaggieQ官宣結婚,歷任男友包括吳彥祖、丹尼爾·亨利

魯中晨報
2025-07-12 11:07:09
廢掉一個孩子,就讓他待在家里,一天到晚待在家里(深度好文)

廢掉一個孩子,就讓他待在家里,一天到晚待在家里(深度好文)

新東方家庭教育
2025-07-11 17:14:32
一場0-2“爆冷”,揪出國足6大水貨,賽后數據不會說謊,太拉胯!

一場0-2“爆冷”,揪出國足6大水貨,賽后數據不會說謊,太拉胯!

大秦壁虎白話體育
2025-07-12 22:13:58
特朗普還沒訪華,美方下達禁令,不許中方做三件事,王毅斬釘截鐵

特朗普還沒訪華,美方下達禁令,不許中方做三件事,王毅斬釘截鐵

叮當當科技
2025-07-13 00:38:29
2025-07-13 03:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10847文章數 176189關注度
往期回顧 全部

科技要聞

Kimi深夜整活,開源了首個萬億參數模型

頭條要聞

尹錫悅被收押后 身邊人士稱其或申請前往外部醫院治療

頭條要聞

尹錫悅被收押后 身邊人士稱其或申請前往外部醫院治療

體育要聞

夏聯-開拓者大勝勇士 楊瀚森首秀10+4+5+3帽

娛樂要聞

鹿晗賬號解禁后首曬自拍,漲粉超400萬

財經要聞

中國超半數城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優點很多缺點也很多

態度原創

家居
藝術
健康
旅游
教育

家居要聞

生活憧憬 自由浪漫之境

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

自律不是管出來的!經常被管被催的孩子會更拖拉

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 贡嘎县| 保康县| 陇南市| 台湾省| 静乐县| 车险| 南和县| 如东县| 乐至县| 武冈市| 云浮市| 綦江县| 柏乡县| 吉林省| 磐石市| 五台县| 商洛市| 柳州市| 怀宁县| 汽车| 吉安县| 安西县| 博客| 林口县| 西丰县| 马公市| 柳州市| 西城区| 思南县| 潍坊市| 陈巴尔虎旗| 济源市| 大埔区| 保亭| 利津县| 开封市| 杭锦旗| 潜江市| 西平县| 大理市| 泰和县|