機器之心報道
編輯:杜偉、澤南
大語言模型(LLM)以生成能力強而著稱,但如何能讓它「聽話」,是一門很深的學(xué)問。
基于人類反饋的強化學(xué)習(xí)(RLHF)就是用來解決這個問題的,其中的獎勵模型 (Reward Model, RM)扮演著重要的裁判作用,它專門負責(zé)給 LLM 生成的內(nèi)容打分,告訴模型什么是好,什么是不好,可以保證大模型的「三觀」正確。
因此,獎勵模型對大模型能力來說舉足輕重:它既需要能夠準確進行評判,又需要足夠通用化,覆蓋多個知識領(lǐng)域,還需要具備靈活的判斷能力,可以處理多種輸入,并具備足夠的可擴展性。
7 月 4 日,國內(nèi) AI 科技公司昆侖萬維發(fā)布了新一代獎勵模型 Skywork-Reward-V2 系列,把這項技術(shù)的上限再次提升了一截。
Skywork-Reward-V2 系列共包含 8 個基于不同基座模型和不同大小的獎勵模型,參數(shù)規(guī)模從 6 億到 80 億不等,它在七大主流獎勵模型評測榜單上全部獲得了第一。
Skywork-Reward-V2 系列模型在主流基準上的成績。
與此同時,該系列模型展現(xiàn)出了廣泛的適用性,它在多個能力維度上表現(xiàn)出色,包括對人類偏好的通用對齊、客觀正確性、安全性、風(fēng)格偏差的抵抗能力,以及 best-of-N 擴展能力等。Skywork-Reward-V2 系列模型目前已經(jīng)開源。
- 技術(shù)報告:https://arxiv.org/abs/2507.01352
- HuggingFace 地址:https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84
- GitHub 地址:https://github.com/SkyworkAI/Skywork-Reward-V2
其實在去年 9 月,昆侖萬維首次開源 Skywork-Reward 系列模型及數(shù)據(jù)集就獲得了 AI 社區(qū)的歡迎。過去九個月中,該工作已被開源社區(qū)廣泛應(yīng)用于研究與實踐,在 Hugging Face 平臺上的累計下載量超過 75 萬次,并助力多個前沿模型在 RewardBench 等權(quán)威評測中取得成績
這一次,昆侖萬維再次開源的獎勵模型,或許會帶來更大的關(guān)注度。
打造千萬級人類偏好數(shù)據(jù)
想讓大模型的輸出總是符合人類偏好,并不是一個簡單的任務(wù)。
由于現(xiàn)實世界任務(wù)的復(fù)雜性和多樣性,獎勵模型往往只能作為理想偏好的不完美代理。這種不完美性可能導(dǎo)致模型在針對獎勵模型優(yōu)化時出現(xiàn)過度優(yōu)化問題 —— 模型可能會過分迎合獎勵模型的偏差而偏離真實的人類偏好。
從實際效果來看,當前最先進的開源獎勵模型在大多數(shù)主流評測基準上表現(xiàn)仍然說不上好。它們經(jīng)常不能有效捕捉人類偏好中細致而復(fù)雜的特征,尤其是在面對多維度、多層次反饋時,其能力尤為有限。此外,許多獎勵模型容易在特定的基準任務(wù)上表現(xiàn)突出,卻難以遷移到新任務(wù)或新場景,表現(xiàn)出明顯的「過擬合」現(xiàn)象。
盡管已有研究嘗試通過優(yōu)化目標函數(shù)、改進模型架構(gòu),以及近期興起的生成式獎勵模型(Generative Reward Model)等方法來提升性能,但整體效果仍然十分有限。
左圖:31 個頂尖開源獎勵模型在 RewardBench 上的能力對比;右圖:分數(shù)的相關(guān)性 —— 可見很多模型在 RewardBench 上性能提升后,在其他 Benchmark 上成績卻「原地踏步」,這可能意味著過擬合現(xiàn)象。
同時,以 OpenAI 的 o 系列模型和 DeepSeek-R1 為代表的模型推動了「可驗證獎勵強化學(xué)習(xí)」(Reinforcement Learning with Verifiable Reward, RLVR)方法的發(fā)展,通過字符匹配、系統(tǒng)化單元測試或更復(fù)雜的多規(guī)則匹配機制,來判斷模型生成結(jié)果是否滿足預(yù)設(shè)要求。雖然此類方法在特定場景中具備較高的可控性與穩(wěn)定性,但本質(zhì)上難以捕捉復(fù)雜、細致的人類偏好,因此在優(yōu)化開放式、主觀性較強的任務(wù)時存在明顯局限。
對此,昆侖萬維在數(shù)據(jù)構(gòu)建和基礎(chǔ)模型兩大方向上嘗試解決問題。
首先,他們構(gòu)建了迄今為止規(guī)模最大的偏好混合數(shù)據(jù)集 Skywork-SynPref-40M,總計包含 4000 萬對偏好樣本。其核心創(chuàng)新在于一條「人機協(xié)同、兩階段迭代」的數(shù)據(jù)甄選流水線。
兩階段偏好數(shù)據(jù)整理流程。
如圖所示,這個流程分為兩大階段:
第一階段,人類引導(dǎo)的小規(guī)模高質(zhì)量偏好構(gòu)建。此階段研究人員針對 RLHF 可能存在的「高質(zhì)量數(shù)據(jù)缺乏→模型弱→生成數(shù)據(jù)質(zhì)量低」惡性循環(huán),獨創(chuàng)「金標準錨定質(zhì)量 + 銀標準擴展規(guī)模」的雙軌機制,一方面利用有限人工精準突破初始瓶頸,另一方面利用模型自身能力實現(xiàn)規(guī)模化突破。
具體來說,人工和大模型會分別標注出「黃金」和「白銀」偏好數(shù)據(jù),獎勵模型在白銀數(shù)據(jù)上進行訓(xùn)練,并與黃金數(shù)據(jù)對比評估其不足之處。接著,系統(tǒng)選擇當前獎勵模型表現(xiàn)不佳的相似偏好樣本進行重新標注,以訓(xùn)練 RM 的下一次迭代,這一過程重復(fù)多次。
第二階段,全自動大規(guī)模偏好數(shù)據(jù)擴展。此階段不再由人工參與審核,而是讓訓(xùn)練完成的獎勵模型獨挑大梁,通過執(zhí)行一致性過濾,對數(shù)據(jù)進行二次篩選。
此時,系統(tǒng)將第一階段的獎勵模型與一個專門基于驗證的人類數(shù)據(jù)訓(xùn)練的「黃金」獎勵模型相結(jié)合,通過一致性機制來指導(dǎo)數(shù)據(jù)的選擇。由于這一階段無需人工監(jiān)督,因此能夠擴展到數(shù)百萬個偏好數(shù)據(jù)對。
從效果來看,該流程結(jié)合了人工驗證的質(zhì)量保證與基于人類偏好的大型語言模型(LLM)的注釋,實現(xiàn)了高度可擴展性。
最終,原始的 4000 萬樣本「瘦身」為 2600 萬條精選數(shù)據(jù),不僅人工標注負擔(dān)大大減輕,偏好數(shù)據(jù)在規(guī)模與質(zhì)量之間也實現(xiàn)了很好的平衡。
突破體量限制:參數(shù)差數(shù)十倍依然能打
經(jīng)過人機結(jié)合數(shù)據(jù)訓(xùn)練的 Skywork-Reward-V2 系列模型,實現(xiàn)了超出預(yù)期的能力。
相比去年 9 月發(fā)布的 Skywork-Reward,工程人員在 Skywork-Reward-V2 系列上基于 Qwen3 和 LLaMA 3 等模型訓(xùn)練了 8 個獎勵模型,參數(shù)規(guī)模覆蓋更廣。
我們從下表可以看到,在 RewardBench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench 等主流獎勵模型評估基準上,Skywork-Reward-V2 均創(chuàng)下最佳紀錄
取得 SOTA 成績的背后,我們可以提煉出以下幾點關(guān)鍵發(fā)現(xiàn):
首先,數(shù)據(jù)質(zhì)量與豐富度的提升極大地抵消了參數(shù)規(guī)模的限制,使得獎勵模型在特定任務(wù)上可以精煉為小型專家模型
比如在獎勵模型評估基準 RewardBench v2 上,Skywork-Reward-V2 在精準遵循指令方面展現(xiàn)出了卓越能力。即使是最小的 Skywork-Reward-V2-Qwen3-0.6B,其大大拉近了與上一代最強模型 Skywork-Reward-Gemma-2-27B-v0.2 的整體差距,參數(shù)規(guī)模整整相差了 45 倍。
更進一步,Skywork-Reward-V2-Qwen3-1.7B 的平均性能與當前開源獎勵模型的 SOTA ——INF-ORM-Llama3.1-70B 相差不大,某些指標實現(xiàn)超越(如 Precise IF、Math)。最大規(guī)模的 Skywork-Reward-V2-Llama-3.1-8B 和 Skywork-Reward-V2-Llama-3.1-8B-40M 通過學(xué)習(xí)純偏好表示,勝過了強大的閉源模型(Claude-3.7-Sonnet)以及最新的生成式獎勵模型,在所有主流基準測試中實現(xiàn)全面超越,成為當前獎勵模型新王。
RewardBench v2 基準測試結(jié)果。
跑分拉升意味著數(shù)據(jù)工程策略的作用越來越大,有針對性、高質(zhì)量的訓(xùn)練數(shù)據(jù)能支撐起「小打大」;另外,數(shù)據(jù)驅(qū)動 + 結(jié)構(gòu)優(yōu)化足以與單純堆參數(shù)正面競爭,精工細作的模型訓(xùn)練范式同樣值得考慮。
其次,隨著對人類價值的結(jié)構(gòu)性建模能力增強,獎勵模型開始從「弱監(jiān)督評分器」走向「強泛化價值建模器」
客觀正確性評估基準(JudgeBench)上,Skywork-Reward-V2 整體性能雖弱于 OpenAI o 系列等少數(shù)專注于推理與編程的閉源模型,但在知識密集型任務(wù)上優(yōu)于所有其他模型,其中 Skywork-Reward-V2-Llama-3.2-3B 的數(shù)學(xué)表現(xiàn)達到了 o3-mini (high) 同等水平,Skywork-Reward-V2-Llama-3.1-8B 更是完成超越。
JudgeBench(知識、推理、數(shù)學(xué)與編程)基準上與頂級 LLM-as-a-Judge 模型(如 GPT-4o)和推理模型(o1、o3 系列)的性能對比。
另一客觀正確性評估基準 PPE Correctness 上, Skywork-Reward-V2 全系 8 個模型在有用性(helpfulness)和無害性(harmlessness)指標上均展現(xiàn)出了強大的 BoN(Best-of-N)能力,超越此前 SOTA 模型 GPT-4o,最高領(lǐng)先達 20 分。
另外,從下面 PPE Correctness 五項高難度任務(wù)的 BoN 曲線可以看到,Skywork-Reward-V2 表現(xiàn)出持續(xù)正擴展性,均達到 SOTA。
同樣在偏見抵抗能力測試(RM-Bench)、復(fù)雜指令理解及真實性判斷(RewardBench v2)等其他高級能力評估中,Skywork-Reward-V2 取得領(lǐng)先,展現(xiàn)出強大的泛化能力與實用性。
在難度較高、專注評估模型抵抗風(fēng)格偏差的 RM-Bench 上,Skywork-Reward-V2 取得 SOTA。
最后,在后續(xù)多輪迭代訓(xùn)練中,精篩和過濾后的偏好數(shù)據(jù)能夠持續(xù)有效地提升獎勵模型的整體性能,再次印證 Skywork-SynPref 數(shù)據(jù)集的規(guī)模領(lǐng)先與質(zhì)量優(yōu)勢,也凸顯出「少而精」范式的魔力。
為了驗證這一點,工程人員嘗試在早期版本的 1600 萬條數(shù)據(jù)子集上進行實驗,結(jié)果顯示(下圖),僅使用其中 1.8%(約 29 萬條) 的高質(zhì)量數(shù)據(jù)訓(xùn)練一個 8B 規(guī)模模型,其性能就已超過當前的 70B 級 SOTA 獎勵模型。
圖左展示了整個數(shù)據(jù)篩選流程(包含原始數(shù)據(jù)、過濾后數(shù)據(jù)、過濾后數(shù)據(jù) + 校正偏好對三個階段)中獎勵模型得分的變化趨勢;圖右展示了 Skywork-Reward-V2-Llama-3.1-8B 獎勵模型的初始版本(即 Llama-3.1-8B-BTRM)在最終訓(xùn)練輪次的平均得分。
可以預(yù)見,隨著獎勵模型的能力邊界不斷擴展,未來其將在多維偏好理解、復(fù)雜決策評估以及人類價值對齊中承擔(dān)更核心的角色。
結(jié)語
Skywork-Reward-V2 的一系列實證結(jié)果輸出了這樣一種觀點:隨著數(shù)據(jù)集構(gòu)建本身成為一種建模行為,不僅可以提升當前獎勵模型的表現(xiàn),未來也有可能在 RLHF 中引發(fā)更多對「數(shù)據(jù)驅(qū)動對齊」技術(shù)的演進。
對獎勵模型的訓(xùn)練來說,常規(guī)的偏好數(shù)據(jù)往往非常依賴人工標注,不僅成本很高、效率低,有時還會產(chǎn)生噪聲。結(jié)合大語言模型的自動化標注方法,讓人工驗證的標簽「指導(dǎo)」AI 進行標注,這樣可以兼具人類的準確與 AI 的速度,進而實現(xiàn)大規(guī)模的偏好數(shù)據(jù)生成,為大模型能力的提升奠定了基礎(chǔ)。
這次發(fā)布 Skywork-Reward-V2 時,昆侖萬維表示,未來基于人類 + AI 的數(shù)據(jù)整理方式,還可以激發(fā)出大模型的更多潛力。
除了再次開源獎勵模型,2025 年初至今,昆侖萬維一定程度上也是業(yè)內(nèi)開源 SOTA 大模型最多的 AI 企業(yè)之一,其開源包括:
- 軟件工程(Software Engineering, SWE)自主代碼智能體基座模型「Skywork-SWE」:在開源 32B 模型規(guī)模下實現(xiàn)了業(yè)界最強的倉庫級代碼修復(fù)能力;
- 空間智能模型「Matrix-Game」:工業(yè)界首個開源的 10B + 空間智能大模型;
- 多模態(tài)思維鏈推理模型「Skywork-R1V」:成功實現(xiàn)強文本推理能力向視覺模態(tài)的遷移;
- 視頻生成系列模型:SkyReels-V1,以及今年 4 月發(fā)布的迭代版 —— 全球首個使用擴散強迫框架的無限時長電影生成模型 SkyReels-V2;
- 數(shù)學(xué)代碼推理模型「Skywork-OR1」:在同等參數(shù)規(guī)模下實現(xiàn)了業(yè)界領(lǐng)先的推理性能,進一步突破了大模型在邏輯理解與復(fù)雜任務(wù)求解方面的能力瓶頸。
這一系列的開源,勢必將加速大模型領(lǐng)域技術(shù)迭代的速度。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.