人機協(xié)同篩出2600萬條數(shù)據(jù),七項基準SOTA,昆侖萬維獎勵模型新突破

2025-07-04 10:55:11　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：杜偉、澤南

大語言模型（LLM）以生成能力強而著稱，但如何能讓它「聽話」，是一門很深的學(xué)問。

基于人類反饋的強化學(xué)習(xí)（RLHF）就是用來解決這個問題的，其中的獎勵模型（Reward Model, RM）扮演著重要的裁判作用，它專門負責(zé)給 LLM 生成的內(nèi)容打分，告訴模型什么是好，什么是不好，可以保證大模型的「三觀」正確。

因此，獎勵模型對大模型能力來說舉足輕重：它既需要能夠準確進行評判，又需要足夠通用化，覆蓋多個知識領(lǐng)域，還需要具備靈活的判斷能力，可以處理多種輸入，并具備足夠的可擴展性。

7 月 4 日，國內(nèi) AI 科技公司昆侖萬維發(fā)布了新一代獎勵模型 Skywork-Reward-V2 系列，把這項技術(shù)的上限再次提升了一截。

Skywork-Reward-V2 系列共包含 8 個基于不同基座模型和不同大小的獎勵模型，參數(shù)規(guī)模從 6 億到 80 億不等，它在七大主流獎勵模型評測榜單上全部獲得了第一。

Skywork-Reward-V2 系列模型在主流基準上的成績。

與此同時，該系列模型展現(xiàn)出了廣泛的適用性，它在多個能力維度上表現(xiàn)出色，包括對人類偏好的通用對齊、客觀正確性、安全性、風(fēng)格偏差的抵抗能力，以及 best-of-N 擴展能力等。Skywork-Reward-V2 系列模型目前已經(jīng)開源。

技術(shù)報告：https://arxiv.org/abs/2507.01352
HuggingFace 地址：https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84
GitHub 地址：https://github.com/SkyworkAI/Skywork-Reward-V2

其實在去年 9 月，昆侖萬維首次開源 Skywork-Reward 系列模型及數(shù)據(jù)集就獲得了 AI 社區(qū)的歡迎。過去九個月中，該工作已被開源社區(qū)廣泛應(yīng)用于研究與實踐，在 Hugging Face 平臺上的累計下載量超過 75 萬次，并助力多個前沿模型在 RewardBench 等權(quán)威評測中取得成績

這一次，昆侖萬維再次開源的獎勵模型，或許會帶來更大的關(guān)注度。

打造千萬級人類偏好數(shù)據(jù)

想讓大模型的輸出總是符合人類偏好，并不是一個簡單的任務(wù)。

由于現(xiàn)實世界任務(wù)的復(fù)雜性和多樣性，獎勵模型往往只能作為理想偏好的不完美代理。這種不完美性可能導(dǎo)致模型在針對獎勵模型優(yōu)化時出現(xiàn)過度優(yōu)化問題 —— 模型可能會過分迎合獎勵模型的偏差而偏離真實的人類偏好。

從實際效果來看，當前最先進的開源獎勵模型在大多數(shù)主流評測基準上表現(xiàn)仍然說不上好。它們經(jīng)常不能有效捕捉人類偏好中細致而復(fù)雜的特征，尤其是在面對多維度、多層次反饋時，其能力尤為有限。此外，許多獎勵模型容易在特定的基準任務(wù)上表現(xiàn)突出，卻難以遷移到新任務(wù)或新場景，表現(xiàn)出明顯的「過擬合」現(xiàn)象。

盡管已有研究嘗試通過優(yōu)化目標函數(shù)、改進模型架構(gòu)，以及近期興起的生成式獎勵模型（Generative Reward Model）等方法來提升性能，但整體效果仍然十分有限。

左圖：31 個頂尖開源獎勵模型在 RewardBench 上的能力對比；右圖：分數(shù)的相關(guān)性 —— 可見很多模型在 RewardBench 上性能提升后，在其他 Benchmark 上成績卻「原地踏步」，這可能意味著過擬合現(xiàn)象。

同時，以 OpenAI 的 o 系列模型和 DeepSeek-R1 為代表的模型推動了「可驗證獎勵強化學(xué)習(xí)」（Reinforcement Learning with Verifiable Reward, RLVR）方法的發(fā)展，通過字符匹配、系統(tǒng)化單元測試或更復(fù)雜的多規(guī)則匹配機制，來判斷模型生成結(jié)果是否滿足預(yù)設(shè)要求。雖然此類方法在特定場景中具備較高的可控性與穩(wěn)定性，但本質(zhì)上難以捕捉復(fù)雜、細致的人類偏好，因此在優(yōu)化開放式、主觀性較強的任務(wù)時存在明顯局限。

對此，昆侖萬維在數(shù)據(jù)構(gòu)建和基礎(chǔ)模型兩大方向上嘗試解決問題。

首先，他們構(gòu)建了迄今為止規(guī)模最大的偏好混合數(shù)據(jù)集 Skywork-SynPref-40M，總計包含 4000 萬對偏好樣本。其核心創(chuàng)新在于一條「人機協(xié)同、兩階段迭代」的數(shù)據(jù)甄選流水線。

兩階段偏好數(shù)據(jù)整理流程。

如圖所示，這個流程分為兩大階段：

第一階段，人類引導(dǎo)的小規(guī)模高質(zhì)量偏好構(gòu)建。此階段研究人員針對 RLHF 可能存在的「高質(zhì)量數(shù)據(jù)缺乏→模型弱→生成數(shù)據(jù)質(zhì)量低」惡性循環(huán)，獨創(chuàng)「金標準錨定質(zhì)量 + 銀標準擴展規(guī)模」的雙軌機制，一方面利用有限人工精準突破初始瓶頸，另一方面利用模型自身能力實現(xiàn)規(guī)模化突破。

具體來說，人工和大模型會分別標注出「黃金」和「白銀」偏好數(shù)據(jù)，獎勵模型在白銀數(shù)據(jù)上進行訓(xùn)練，并與黃金數(shù)據(jù)對比評估其不足之處。接著，系統(tǒng)選擇當前獎勵模型表現(xiàn)不佳的相似偏好樣本進行重新標注，以訓(xùn)練 RM 的下一次迭代，這一過程重復(fù)多次。

第二階段，全自動大規(guī)模偏好數(shù)據(jù)擴展。此階段不再由人工參與審核，而是讓訓(xùn)練完成的獎勵模型獨挑大梁，通過執(zhí)行一致性過濾，對數(shù)據(jù)進行二次篩選。

此時，系統(tǒng)將第一階段的獎勵模型與一個專門基于驗證的人類數(shù)據(jù)訓(xùn)練的「黃金」獎勵模型相結(jié)合，通過一致性機制來指導(dǎo)數(shù)據(jù)的選擇。由于這一階段無需人工監(jiān)督，因此能夠擴展到數(shù)百萬個偏好數(shù)據(jù)對。

從效果來看，該流程結(jié)合了人工驗證的質(zhì)量保證與基于人類偏好的大型語言模型（LLM）的注釋，實現(xiàn)了高度可擴展性。

最終，原始的 4000 萬樣本「瘦身」為 2600 萬條精選數(shù)據(jù)，不僅人工標注負擔(dān)大大減輕，偏好數(shù)據(jù)在規(guī)模與質(zhì)量之間也實現(xiàn)了很好的平衡。

突破體量限制：參數(shù)差數(shù)十倍依然能打

經(jīng)過人機結(jié)合數(shù)據(jù)訓(xùn)練的 Skywork-Reward-V2 系列模型，實現(xiàn)了超出預(yù)期的能力。

相比去年 9 月發(fā)布的 Skywork-Reward，工程人員在 Skywork-Reward-V2 系列上基于 Qwen3 和 LLaMA 3 等模型訓(xùn)練了 8 個獎勵模型，參數(shù)規(guī)模覆蓋更廣。

我們從下表可以看到，在 RewardBench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench 等主流獎勵模型評估基準上，Skywork-Reward-V2 均創(chuàng)下最佳紀錄

取得 SOTA 成績的背后，我們可以提煉出以下幾點關(guān)鍵發(fā)現(xiàn)：

首先，數(shù)據(jù)質(zhì)量與豐富度的提升極大地抵消了參數(shù)規(guī)模的限制，使得獎勵模型在特定任務(wù)上可以精煉為小型專家模型

比如在獎勵模型評估基準 RewardBench v2 上，Skywork-Reward-V2 在精準遵循指令方面展現(xiàn)出了卓越能力。即使是最小的 Skywork-Reward-V2-Qwen3-0.6B，其大大拉近了與上一代最強模型 Skywork-Reward-Gemma-2-27B-v0.2 的整體差距，參數(shù)規(guī)模整整相差了 45 倍。

更進一步，Skywork-Reward-V2-Qwen3-1.7B 的平均性能與當前開源獎勵模型的 SOTA ——INF-ORM-Llama3.1-70B 相差不大，某些指標實現(xiàn)超越（如 Precise IF、Math）。最大規(guī)模的 Skywork-Reward-V2-Llama-3.1-8B 和 Skywork-Reward-V2-Llama-3.1-8B-40M 通過學(xué)習(xí)純偏好表示，勝過了強大的閉源模型（Claude-3.7-Sonnet）以及最新的生成式獎勵模型，在所有主流基準測試中實現(xiàn)全面超越，成為當前獎勵模型新王。

RewardBench v2 基準測試結(jié)果。

跑分拉升意味著數(shù)據(jù)工程策略的作用越來越大，有針對性、高質(zhì)量的訓(xùn)練數(shù)據(jù)能支撐起「小打大」；另外，數(shù)據(jù)驅(qū)動 + 結(jié)構(gòu)優(yōu)化足以與單純堆參數(shù)正面競爭，精工細作的模型訓(xùn)練范式同樣值得考慮。

其次，隨著對人類價值的結(jié)構(gòu)性建模能力增強，獎勵模型開始從「弱監(jiān)督評分器」走向「強泛化價值建模器」

客觀正確性評估基準（JudgeBench）上，Skywork-Reward-V2 整體性能雖弱于 OpenAI o 系列等少數(shù)專注于推理與編程的閉源模型，但在知識密集型任務(wù)上優(yōu)于所有其他模型，其中 Skywork-Reward-V2-Llama-3.2-3B 的數(shù)學(xué)表現(xiàn)達到了 o3-mini (high) 同等水平，Skywork-Reward-V2-Llama-3.1-8B 更是完成超越。

JudgeBench（知識、推理、數(shù)學(xué)與編程）基準上與頂級 LLM-as-a-Judge 模型（如 GPT-4o）和推理模型（o1、o3 系列）的性能對比。

另一客觀正確性評估基準 PPE Correctness 上， Skywork-Reward-V2 全系 8 個模型在有用性（helpfulness）和無害性（harmlessness）指標上均展現(xiàn)出了強大的 BoN（Best-of-N）能力，超越此前 SOTA 模型 GPT-4o，最高領(lǐng)先達 20 分。

另外，從下面 PPE Correctness 五項高難度任務(wù)的 BoN 曲線可以看到，Skywork-Reward-V2 表現(xiàn)出持續(xù)正擴展性，均達到 SOTA。

同樣在偏見抵抗能力測試（RM-Bench）、復(fù)雜指令理解及真實性判斷（RewardBench v2）等其他高級能力評估中，Skywork-Reward-V2 取得領(lǐng)先，展現(xiàn)出強大的泛化能力與實用性。

在難度較高、專注評估模型抵抗風(fēng)格偏差的 RM-Bench 上，Skywork-Reward-V2 取得 SOTA。

最后，在后續(xù)多輪迭代訓(xùn)練中，精篩和過濾后的偏好數(shù)據(jù)能夠持續(xù)有效地提升獎勵模型的整體性能，再次印證 Skywork-SynPref 數(shù)據(jù)集的規(guī)模領(lǐng)先與質(zhì)量優(yōu)勢，也凸顯出「少而精」范式的魔力。

為了驗證這一點，工程人員嘗試在早期版本的 1600 萬條數(shù)據(jù)子集上進行實驗，結(jié)果顯示（下圖），僅使用其中 1.8%（約 29 萬條）的高質(zhì)量數(shù)據(jù)訓(xùn)練一個 8B 規(guī)模模型，其性能就已超過當前的 70B 級 SOTA 獎勵模型。

圖左展示了整個數(shù)據(jù)篩選流程（包含原始數(shù)據(jù)、過濾后數(shù)據(jù)、過濾后數(shù)據(jù) + 校正偏好對三個階段）中獎勵模型得分的變化趨勢；圖右展示了 Skywork-Reward-V2-Llama-3.1-8B 獎勵模型的初始版本（即 Llama-3.1-8B-BTRM）在最終訓(xùn)練輪次的平均得分。

可以預(yù)見，隨著獎勵模型的能力邊界不斷擴展，未來其將在多維偏好理解、復(fù)雜決策評估以及人類價值對齊中承擔(dān)更核心的角色。

結(jié)語

Skywork-Reward-V2 的一系列實證結(jié)果輸出了這樣一種觀點：隨著數(shù)據(jù)集構(gòu)建本身成為一種建模行為，不僅可以提升當前獎勵模型的表現(xiàn)，未來也有可能在 RLHF 中引發(fā)更多對「數(shù)據(jù)驅(qū)動對齊」技術(shù)的演進。

對獎勵模型的訓(xùn)練來說，常規(guī)的偏好數(shù)據(jù)往往非常依賴人工標注，不僅成本很高、效率低，有時還會產(chǎn)生噪聲。結(jié)合大語言模型的自動化標注方法，讓人工驗證的標簽「指導(dǎo)」AI 進行標注，這樣可以兼具人類的準確與 AI 的速度，進而實現(xiàn)大規(guī)模的偏好數(shù)據(jù)生成，為大模型能力的提升奠定了基礎(chǔ)。

這次發(fā)布 Skywork-Reward-V2 時，昆侖萬維表示，未來基于人類 + AI 的數(shù)據(jù)整理方式，還可以激發(fā)出大模型的更多潛力。

除了再次開源獎勵模型，2025 年初至今，昆侖萬維一定程度上也是業(yè)內(nèi)開源 SOTA 大模型最多的 AI 企業(yè)之一，其開源包括：

軟件工程（Software Engineering, SWE）自主代碼智能體基座模型「Skywork-SWE」：在開源 32B 模型規(guī)模下實現(xiàn)了業(yè)界最強的倉庫級代碼修復(fù)能力；
空間智能模型「Matrix-Game」：工業(yè)界首個開源的 10B + 空間智能大模型；
多模態(tài)思維鏈推理模型「Skywork-R1V」：成功實現(xiàn)強文本推理能力向視覺模態(tài)的遷移；
視頻生成系列模型：SkyReels-V1，以及今年 4 月發(fā)布的迭代版 —— 全球首個使用擴散強迫框架的無限時長電影生成模型 SkyReels-V2；
數(shù)學(xué)代碼推理模型「Skywork-OR1」：在同等參數(shù)規(guī)模下實現(xiàn)了業(yè)界領(lǐng)先的推理性能，進一步突破了大模型在邏輯理解與復(fù)雜任務(wù)求解方面的能力瓶頸。

這一系列的開源，勢必將加速大模型領(lǐng)域技術(shù)迭代的速度。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.