99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人機協(xié)同篩出2600萬條數(shù)據(jù),七項基準SOTA,昆侖萬維獎勵模型新突破

0
分享至



機器之心報道

編輯:杜偉、澤南

大語言模型(LLM)以生成能力強而著稱,但如何能讓它「聽話」,是一門很深的學(xué)問。

基于人類反饋的強化學(xué)習(xí)(RLHF)就是用來解決這個問題的,其中的獎勵模型 (Reward Model, RM)扮演著重要的裁判作用,它專門負責(zé)給 LLM 生成的內(nèi)容打分,告訴模型什么是好,什么是不好,可以保證大模型的「三觀」正確。

因此,獎勵模型對大模型能力來說舉足輕重:它既需要能夠準確進行評判,又需要足夠通用化,覆蓋多個知識領(lǐng)域,還需要具備靈活的判斷能力,可以處理多種輸入,并具備足夠的可擴展性。

7 月 4 日,國內(nèi) AI 科技公司昆侖萬維發(fā)布了新一代獎勵模型 Skywork-Reward-V2 系列,把這項技術(shù)的上限再次提升了一截。

Skywork-Reward-V2 系列共包含 8 個基于不同基座模型和不同大小的獎勵模型,參數(shù)規(guī)模從 6 億到 80 億不等,它在七大主流獎勵模型評測榜單上全部獲得了第一。



Skywork-Reward-V2 系列模型在主流基準上的成績。

與此同時,該系列模型展現(xiàn)出了廣泛的適用性,它在多個能力維度上表現(xiàn)出色,包括對人類偏好的通用對齊、客觀正確性、安全性、風(fēng)格偏差的抵抗能力,以及 best-of-N 擴展能力等。Skywork-Reward-V2 系列模型目前已經(jīng)開源。

  • 技術(shù)報告:https://arxiv.org/abs/2507.01352
  • HuggingFace 地址:https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84
  • GitHub 地址:https://github.com/SkyworkAI/Skywork-Reward-V2

其實在去年 9 月,昆侖萬維首次開源 Skywork-Reward 系列模型及數(shù)據(jù)集就獲得了 AI 社區(qū)的歡迎。過去九個月中,該工作已被開源社區(qū)廣泛應(yīng)用于研究與實踐,在 Hugging Face 平臺上的累計下載量超過 75 萬次,并助力多個前沿模型在 RewardBench 等權(quán)威評測中取得成績



這一次,昆侖萬維再次開源的獎勵模型,或許會帶來更大的關(guān)注度。

打造千萬級人類偏好數(shù)據(jù)

想讓大模型的輸出總是符合人類偏好,并不是一個簡單的任務(wù)。

由于現(xiàn)實世界任務(wù)的復(fù)雜性和多樣性,獎勵模型往往只能作為理想偏好的不完美代理。這種不完美性可能導(dǎo)致模型在針對獎勵模型優(yōu)化時出現(xiàn)過度優(yōu)化問題 —— 模型可能會過分迎合獎勵模型的偏差而偏離真實的人類偏好。

從實際效果來看,當前最先進的開源獎勵模型在大多數(shù)主流評測基準上表現(xiàn)仍然說不上好。它們經(jīng)常不能有效捕捉人類偏好中細致而復(fù)雜的特征,尤其是在面對多維度、多層次反饋時,其能力尤為有限。此外,許多獎勵模型容易在特定的基準任務(wù)上表現(xiàn)突出,卻難以遷移到新任務(wù)或新場景,表現(xiàn)出明顯的「過擬合」現(xiàn)象。

盡管已有研究嘗試通過優(yōu)化目標函數(shù)、改進模型架構(gòu),以及近期興起的生成式獎勵模型(Generative Reward Model)等方法來提升性能,但整體效果仍然十分有限。



左圖:31 個頂尖開源獎勵模型在 RewardBench 上的能力對比;右圖:分數(shù)的相關(guān)性 —— 可見很多模型在 RewardBench 上性能提升后,在其他 Benchmark 上成績卻「原地踏步」,這可能意味著過擬合現(xiàn)象。

同時,以 OpenAI 的 o 系列模型和 DeepSeek-R1 為代表的模型推動了「可驗證獎勵強化學(xué)習(xí)」(Reinforcement Learning with Verifiable Reward, RLVR)方法的發(fā)展,通過字符匹配、系統(tǒng)化單元測試或更復(fù)雜的多規(guī)則匹配機制,來判斷模型生成結(jié)果是否滿足預(yù)設(shè)要求。雖然此類方法在特定場景中具備較高的可控性與穩(wěn)定性,但本質(zhì)上難以捕捉復(fù)雜、細致的人類偏好,因此在優(yōu)化開放式、主觀性較強的任務(wù)時存在明顯局限。

對此,昆侖萬維在數(shù)據(jù)構(gòu)建和基礎(chǔ)模型兩大方向上嘗試解決問題。

首先,他們構(gòu)建了迄今為止規(guī)模最大的偏好混合數(shù)據(jù)集 Skywork-SynPref-40M,總計包含 4000 萬對偏好樣本。其核心創(chuàng)新在于一條「人機協(xié)同、兩階段迭代」的數(shù)據(jù)甄選流水線。



兩階段偏好數(shù)據(jù)整理流程。

如圖所示,這個流程分為兩大階段:

第一階段,人類引導(dǎo)的小規(guī)模高質(zhì)量偏好構(gòu)建。此階段研究人員針對 RLHF 可能存在的「高質(zhì)量數(shù)據(jù)缺乏→模型弱→生成數(shù)據(jù)質(zhì)量低」惡性循環(huán),獨創(chuàng)「金標準錨定質(zhì)量 + 銀標準擴展規(guī)模」的雙軌機制,一方面利用有限人工精準突破初始瓶頸,另一方面利用模型自身能力實現(xiàn)規(guī)模化突破。

具體來說,人工和大模型會分別標注出「黃金」和「白銀」偏好數(shù)據(jù),獎勵模型在白銀數(shù)據(jù)上進行訓(xùn)練,并與黃金數(shù)據(jù)對比評估其不足之處。接著,系統(tǒng)選擇當前獎勵模型表現(xiàn)不佳的相似偏好樣本進行重新標注,以訓(xùn)練 RM 的下一次迭代,這一過程重復(fù)多次。

第二階段,全自動大規(guī)模偏好數(shù)據(jù)擴展。此階段不再由人工參與審核,而是讓訓(xùn)練完成的獎勵模型獨挑大梁,通過執(zhí)行一致性過濾,對數(shù)據(jù)進行二次篩選。

此時,系統(tǒng)將第一階段的獎勵模型與一個專門基于驗證的人類數(shù)據(jù)訓(xùn)練的「黃金」獎勵模型相結(jié)合,通過一致性機制來指導(dǎo)數(shù)據(jù)的選擇。由于這一階段無需人工監(jiān)督,因此能夠擴展到數(shù)百萬個偏好數(shù)據(jù)對。

從效果來看,該流程結(jié)合了人工驗證的質(zhì)量保證與基于人類偏好的大型語言模型(LLM)的注釋,實現(xiàn)了高度可擴展性。

最終,原始的 4000 萬樣本「瘦身」為 2600 萬條精選數(shù)據(jù),不僅人工標注負擔(dān)大大減輕,偏好數(shù)據(jù)在規(guī)模與質(zhì)量之間也實現(xiàn)了很好的平衡。

突破體量限制:參數(shù)差數(shù)十倍依然能打

經(jīng)過人機結(jié)合數(shù)據(jù)訓(xùn)練的 Skywork-Reward-V2 系列模型,實現(xiàn)了超出預(yù)期的能力。

相比去年 9 月發(fā)布的 Skywork-Reward,工程人員在 Skywork-Reward-V2 系列上基于 Qwen3 和 LLaMA 3 等模型訓(xùn)練了 8 個獎勵模型,參數(shù)規(guī)模覆蓋更廣。

我們從下表可以看到,在 RewardBench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench 等主流獎勵模型評估基準上,Skywork-Reward-V2 均創(chuàng)下最佳紀錄



取得 SOTA 成績的背后,我們可以提煉出以下幾點關(guān)鍵發(fā)現(xiàn):

首先,數(shù)據(jù)質(zhì)量與豐富度的提升極大地抵消了參數(shù)規(guī)模的限制,使得獎勵模型在特定任務(wù)上可以精煉為小型專家模型

比如在獎勵模型評估基準 RewardBench v2 上,Skywork-Reward-V2 在精準遵循指令方面展現(xiàn)出了卓越能力。即使是最小的 Skywork-Reward-V2-Qwen3-0.6B,其大大拉近了與上一代最強模型 Skywork-Reward-Gemma-2-27B-v0.2 的整體差距,參數(shù)規(guī)模整整相差了 45 倍。

更進一步,Skywork-Reward-V2-Qwen3-1.7B 的平均性能與當前開源獎勵模型的 SOTA ——INF-ORM-Llama3.1-70B 相差不大,某些指標實現(xiàn)超越(如 Precise IF、Math)。最大規(guī)模的 Skywork-Reward-V2-Llama-3.1-8B 和 Skywork-Reward-V2-Llama-3.1-8B-40M 通過學(xué)習(xí)純偏好表示,勝過了強大的閉源模型(Claude-3.7-Sonnet)以及最新的生成式獎勵模型,在所有主流基準測試中實現(xiàn)全面超越,成為當前獎勵模型新王。



RewardBench v2 基準測試結(jié)果。

跑分拉升意味著數(shù)據(jù)工程策略的作用越來越大,有針對性、高質(zhì)量的訓(xùn)練數(shù)據(jù)能支撐起「小打大」;另外,數(shù)據(jù)驅(qū)動 + 結(jié)構(gòu)優(yōu)化足以與單純堆參數(shù)正面競爭,精工細作的模型訓(xùn)練范式同樣值得考慮。

其次,隨著對人類價值的結(jié)構(gòu)性建模能力增強,獎勵模型開始從「弱監(jiān)督評分器」走向「強泛化價值建模器」

客觀正確性評估基準(JudgeBench)上,Skywork-Reward-V2 整體性能雖弱于 OpenAI o 系列等少數(shù)專注于推理與編程的閉源模型,但在知識密集型任務(wù)上優(yōu)于所有其他模型,其中 Skywork-Reward-V2-Llama-3.2-3B 的數(shù)學(xué)表現(xiàn)達到了 o3-mini (high) 同等水平,Skywork-Reward-V2-Llama-3.1-8B 更是完成超越。



JudgeBench(知識、推理、數(shù)學(xué)與編程)基準上與頂級 LLM-as-a-Judge 模型(如 GPT-4o)和推理模型(o1、o3 系列)的性能對比。

另一客觀正確性評估基準 PPE Correctness 上, Skywork-Reward-V2 全系 8 個模型在有用性(helpfulness)和無害性(harmlessness)指標上均展現(xiàn)出了強大的 BoN(Best-of-N)能力,超越此前 SOTA 模型 GPT-4o,最高領(lǐng)先達 20 分。



另外,從下面 PPE Correctness 五項高難度任務(wù)的 BoN 曲線可以看到,Skywork-Reward-V2 表現(xiàn)出持續(xù)正擴展性,均達到 SOTA。



同樣在偏見抵抗能力測試(RM-Bench)、復(fù)雜指令理解及真實性判斷(RewardBench v2)等其他高級能力評估中,Skywork-Reward-V2 取得領(lǐng)先,展現(xiàn)出強大的泛化能力與實用性。



在難度較高、專注評估模型抵抗風(fēng)格偏差的 RM-Bench 上,Skywork-Reward-V2 取得 SOTA。

最后,在后續(xù)多輪迭代訓(xùn)練中,精篩和過濾后的偏好數(shù)據(jù)能夠持續(xù)有效地提升獎勵模型的整體性能,再次印證 Skywork-SynPref 數(shù)據(jù)集的規(guī)模領(lǐng)先與質(zhì)量優(yōu)勢,也凸顯出「少而精」范式的魔力。

為了驗證這一點,工程人員嘗試在早期版本的 1600 萬條數(shù)據(jù)子集上進行實驗,結(jié)果顯示(下圖),僅使用其中 1.8%(約 29 萬條) 的高質(zhì)量數(shù)據(jù)訓(xùn)練一個 8B 規(guī)模模型,其性能就已超過當前的 70B 級 SOTA 獎勵模型。



圖左展示了整個數(shù)據(jù)篩選流程(包含原始數(shù)據(jù)、過濾后數(shù)據(jù)、過濾后數(shù)據(jù) + 校正偏好對三個階段)中獎勵模型得分的變化趨勢;圖右展示了 Skywork-Reward-V2-Llama-3.1-8B 獎勵模型的初始版本(即 Llama-3.1-8B-BTRM)在最終訓(xùn)練輪次的平均得分。

可以預(yù)見,隨著獎勵模型的能力邊界不斷擴展,未來其將在多維偏好理解、復(fù)雜決策評估以及人類價值對齊中承擔(dān)更核心的角色。

結(jié)語

Skywork-Reward-V2 的一系列實證結(jié)果輸出了這樣一種觀點:隨著數(shù)據(jù)集構(gòu)建本身成為一種建模行為,不僅可以提升當前獎勵模型的表現(xiàn),未來也有可能在 RLHF 中引發(fā)更多對「數(shù)據(jù)驅(qū)動對齊」技術(shù)的演進。

對獎勵模型的訓(xùn)練來說,常規(guī)的偏好數(shù)據(jù)往往非常依賴人工標注,不僅成本很高、效率低,有時還會產(chǎn)生噪聲。結(jié)合大語言模型的自動化標注方法,讓人工驗證的標簽「指導(dǎo)」AI 進行標注,這樣可以兼具人類的準確與 AI 的速度,進而實現(xiàn)大規(guī)模的偏好數(shù)據(jù)生成,為大模型能力的提升奠定了基礎(chǔ)。

這次發(fā)布 Skywork-Reward-V2 時,昆侖萬維表示,未來基于人類 + AI 的數(shù)據(jù)整理方式,還可以激發(fā)出大模型的更多潛力。

除了再次開源獎勵模型,2025 年初至今,昆侖萬維一定程度上也是業(yè)內(nèi)開源 SOTA 大模型最多的 AI 企業(yè)之一,其開源包括:

  • 軟件工程(Software Engineering, SWE)自主代碼智能體基座模型「Skywork-SWE」:在開源 32B 模型規(guī)模下實現(xiàn)了業(yè)界最強的倉庫級代碼修復(fù)能力;
  • 空間智能模型「Matrix-Game」:工業(yè)界首個開源的 10B + 空間智能大模型;
  • 多模態(tài)思維鏈推理模型「Skywork-R1V」:成功實現(xiàn)強文本推理能力向視覺模態(tài)的遷移;
  • 視頻生成系列模型:SkyReels-V1,以及今年 4 月發(fā)布的迭代版 —— 全球首個使用擴散強迫框架的無限時長電影生成模型 SkyReels-V2;
  • 數(shù)學(xué)代碼推理模型「Skywork-OR1」:在同等參數(shù)規(guī)模下實現(xiàn)了業(yè)界領(lǐng)先的推理性能,進一步突破了大模型在邏輯理解與復(fù)雜任務(wù)求解方面的能力瓶頸。



這一系列的開源,勢必將加速大模型領(lǐng)域技術(shù)迭代的速度。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
網(wǎng)盤中的加密文件,二十年后依然回味無窮

網(wǎng)盤中的加密文件,二十年后依然回味無窮

街機時代
2025-04-27 16:10:02
55歲雷軍直播罕見生氣!員工準備不充分,一秒黑臉撇嘴看著很嚴肅

55歲雷軍直播罕見生氣!員工準備不充分,一秒黑臉撇嘴看著很嚴肅

娛樂圈圈圓
2025-07-03 17:20:17
中央批準,鄔小撐任東南大學(xué)黨委書記

中央批準,鄔小撐任東南大學(xué)黨委書記

政知新媒體
2025-07-04 16:33:58
“折騰”十年,辭職看世界女教師,如今還是回到鄭州,繼續(xù)老本行

“折騰”十年,辭職看世界女教師,如今還是回到鄭州,繼續(xù)老本行

新語愛八卦
2025-06-21 17:13:15
87年女友考上清華跟我分手,我當兵立功升職,在慶功宴上再次相遇

87年女友考上清華跟我分手,我當兵立功升職,在慶功宴上再次相遇

凱裕說故事
2025-07-01 17:12:18
“牡丹花下死,做鬼也風(fēng)流”!這一次,沒人勸得了61歲的曹可凡

“牡丹花下死,做鬼也風(fēng)流”!這一次,沒人勸得了61歲的曹可凡

趣文說娛
2025-07-04 16:36:59
掘金白忙活,國王虧大了!名記Stein確認:瓦蘭決定放棄NBA合同

掘金白忙活,國王虧大了!名記Stein確認:瓦蘭決定放棄NBA合同

移動擋拆
2025-07-04 21:09:44
中國058型驅(qū)逐艦,1.7萬噸排水量,超越日本成亞洲第一

中國058型驅(qū)逐艦,1.7萬噸排水量,超越日本成亞洲第一

浮生墨箋
2025-07-02 14:19:07
川普給了新能源致命一擊

川普給了新能源致命一擊

關(guān)不羽
2025-07-04 14:23:21
“牡丹花下死,做鬼也風(fēng)流”!這一次,沒人勸得了61歲的曹可凡

“牡丹花下死,做鬼也風(fēng)流”!這一次,沒人勸得了61歲的曹可凡

冷紫葉
2025-07-04 19:04:47
黃政江,3年接受24次宴請

黃政江,3年接受24次宴請

新京報
2025-07-04 14:23:12
曾被炒到幾百萬的瑞士手表,如今跌到零售價,為啥突然賣不動了?

曾被炒到幾百萬的瑞士手表,如今跌到零售價,為啥突然賣不動了?

深析古今
2025-07-04 10:29:12
格力集團董事長換人不到24小時,董明珠一句話,再次實現(xiàn)口碑暴漲

格力集團董事長換人不到24小時,董明珠一句話,再次實現(xiàn)口碑暴漲

跳跳歷史
2025-07-04 16:01:42
萬萬沒想到!義烏一頂 40 美元的帽子,讓美國人搶瘋了,年銷過億!

萬萬沒想到!義烏一頂 40 美元的帽子,讓美國人搶瘋了,年銷過億!

石辰搞笑日常
2025-07-04 08:28:30
“爬過來躺我身上”,用親女兒打窩的父親,再一次被刷新三觀

“爬過來躺我身上”,用親女兒打窩的父親,再一次被刷新三觀

熙熙說教
2025-07-04 20:01:39
為了把張格爾押到京師凌遲,道光花了多少代價?四個字:不計成本

為了把張格爾押到京師凌遲,道光花了多少代價?四個字:不計成本

丁丁鯉史紀
2025-07-03 16:11:57
9.5分封神!韓國最新懸疑電影、一口氣看完

9.5分封神!韓國最新懸疑電影、一口氣看完

君笙的拂兮
2025-07-04 10:42:06
中國驕傲!張帥組合2-1晉級溫網(wǎng)女雙16強 4年3進女雙第三輪

中國驕傲!張帥組合2-1晉級溫網(wǎng)女雙16強 4年3進女雙第三輪

醉臥浮生
2025-07-04 20:49:36
美記:瓦蘭將加盟希臘聯(lián)賽,掘金獲得全額中產(chǎn)特例,可以繼續(xù)補強

美記:瓦蘭將加盟希臘聯(lián)賽,掘金獲得全額中產(chǎn)特例,可以繼續(xù)補強

雷速體育
2025-07-04 21:22:28
員工曝羅馬仕已通知全面停工停產(chǎn),工資只發(fā)到6月份

員工曝羅馬仕已通知全面停工停產(chǎn),工資只發(fā)到6月份

界面新聞
2025-07-03 21:34:42
2025-07-04 23:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10788文章數(shù) 142353關(guān)注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰(zhàn)報

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

體育要聞

體壇最爽打工人:37歲被裁,工資領(lǐng)到72歲

娛樂要聞

李宇春身上的標簽?zāi)膫€才是真的?

財經(jīng)要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

重生之拿回銷量 領(lǐng)克10 EM-P搶鮮實拍

態(tài)度原創(chuàng)

手機
游戲
藝術(shù)
本地
公開課

手機要聞

澎湃OS 2發(fā)力:安卓16 Beta版已推送,你收到了嗎?

逆水寒又雙叒涼了?周年慶流水直沖前三,萌新扎堆涌入也叫涼了?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

建筑地標如何成為城市人才匯聚的 “強磁場”?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 临夏市| 绩溪县| 辉南县| 措美县| 龙泉市| 龙口市| 博爱县| 夏河县| 彭水| 辽宁省| 九寨沟县| 泽库县| 巴塘县| 洛扎县| 云阳县| 汉川市| 安陆市| 卢湾区| 杭锦后旗| 宿州市| 惠水县| 永清县| 河北区| 清镇市| 邵武市| 运城市| 聂拉木县| 泌阳县| 高青县| 临西县| 井研县| 漳平市| 莎车县| 丰都县| 连云港市| 温宿县| 南宁市| 巴林右旗| 宣武区| 鄂州市| 盐山县|