網易首頁 > 網易號 > 正文申請入駐

DeepSeek新論文提新訓練方法SPCT，R2要來了？

2025-04-07 22:02:44　來源: AI先鋒官

北京舉報

分享至

作者｜沐風

來源｜AI先鋒官

近日，DeepSeek和清華大學共同發表了一篇論文《Inference-Time Scaling for Generalist Reward Modeling》，探討了獎勵模型的推理時Scaling方法。

現在，強化學習（RL）已廣泛應用于LLM的大規模后訓練階段。

簡單說，就是先訓練一個獎勵模型 (Reward Model, RM) 來模仿人類對 LLM 輸出的偏好（比如判斷哪個回答更好，或者給回答打分），然后用這個RM作為“獎勵信號”去指導 LLM 的進一步學習，讓LLM生成更符合人類期望的內容。

但現有的RM在通用領域卻表現出受限的情況，尤其是在面對復雜、多樣化任務的時候。

因此，就出現了兩個關鍵挑戰點。

一個是通用RM需要靈活性（支持單響應、多響應評分）和準確性（跨領域高質量獎勵）。

另一個則是現有RM（如標量RM、半標量RM）在推理時擴展性差，無法通過增加計算資源顯著提升性能。

是否有可能通過增加推理計算資源，來提升通用查詢場景下RM的能力，即通用RM在推理階段的可擴展性呢？

DeepSeek和清華的研究者發現，在RM方法上采用點式生成式獎勵建模（Pointwise Generative Reward Modeling, GRM），就能提升模型對不同輸入類型的靈活適應能力，并具備推理階段可擴展的潛力。

對此，這篇論文提出了一種新的訓練方法“SPCT”（Self-Principled Critique Tuning），可以理解為“自定原則、自我點評”的調優方法。

SPCT 主要用在GRM上，通過在線強化學習（RL）訓練GRM，使其能動態生成高質量的原則（principles）和點評（critiques），從而提升獎勵質量。

SPCT的核心思想是： GRM先評估應該看重哪些“原則” (Principles)，然后再根據這些剛定好的原則去寫一段“點評”（Critique），最后再從點評中提煉出分數。

簡單來說，SPCT就是把RM的工作流程從“直接給分”變成了“定原則-寫點評-提分數”的間接評估。

整體來看，SPCT包括兩個階段，它們分別是：

拒絕式微調（rejective fine-tuning）作為冷啟動階段，通過采樣和拒絕策略生成初始數據。

基于規則的在線RL，通過提升生成的原則和點評內容來強化通用獎勵的生成過程。

另外，SPCT還可以促進GRM在推理階段的可擴展行為。

他們基于Gemma-2-27B經過SPCT訓練后推出了DeepSeek-GRM-27B。

可以發現，SPCT顯著提高了GRM的質量和可擴展性，在多個綜合RM基準測試中優于現有方法和模型。

強制模型先想原則再點評，評估結果自然更準確、更可靠。

另外，他們還引入一個元獎勵模型（Meta RM），專門評估每次采樣生成的 (原則, 點評) 的質量，以提升擴展性能。

SPCT的另外一個核心亮點是“越算越準”。

對同一個問題和回答，讓模型獨立地、帶點隨機性地（比如 temperature > 0）思考 k 次。因為想法（生成過程）有多樣性，每次可能會得到不同的原則、點評和分數。

論文里的實驗結果清楚地顯示，隨著采樣次數 k 增加，不管是Voting還是Meta RM，DeepSeek-GRM 的性能都會往上漲，證明了它確實能有效地“越算越準”。

總的來說，SPCT 是個挺有創意的 GRM 訓練方法。它通過讓模型學會“先定規則、再點評打分”的模式，實打實地提升了獎勵模型的準確性、透明度、靈活性和通用性。

最關鍵的是，它訓練出的GRM具備了出色的推理時可擴展性，可以通過多花算力來換取更高的評估質量。

論文也提到，未來可以繼續優化 GRM 的效率，或者讓它學會使用工具來處理更復雜的評估任務。

論文地址：

https://arxiv.org/pdf/2504.02495

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Transformer八周年！Attention Is All You Need被引破18萬封神

新智元 2025-06-13 13:35:52
3 跟貼 3
全面評測圖像編輯模型推理能力：所有模型在程序性推理方面表現差

量子位 2025-06-13 14:20:11
0 跟貼 0

謝賽寧開炮，現場打臉CVPR評審！Sora開山之作DiT被拒，怒斥AI學術圈畸形

新智元 2025-06-14 16:49:57
0 跟貼 0

垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
統一20+多智能體方法，MASLab震撼發布

機器之心Pro 2025-06-13 16:07:44
2 跟貼 2

剛剛，LeCun親自出鏡，Meta推出新世界模型！

機器之心Pro 2025-06-12 10:47:22
0 跟貼 0

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
從天價咨詢到免費AI，夸克能改變志愿填報這門生意嗎？

量子位 2025-06-14 17:04:50
1 跟貼 1

機器人“滿場跑”！京東MALL北京二店開業劉強東“等比例復刻”能否帶火線下“618”？

每日經濟新聞 2025-06-14 18:55:38
0 跟貼 0
臺灣館長剛參觀完城隍廟被粉絲包圍合影，并體驗deepseek

Hello吖小志 2025-06-12 18:25:20
13 跟貼 13
十大推理模型挑戰2025年高考數學題：DeepSeek-R1、騰訊混元T1并列第一，馬斯克的Grok 3遭遇“滑鐵盧”

每日經濟新聞 2025-06-10 21:04:19
36 跟貼 36
俄軍突入第聶伯，升級報復！普京調整對烏策略，瓦格納回國參戰！

搞笑龍眼 2025-06-12 08:14:51
1 跟貼 1
1200行代碼逆襲！DeepSeek工程師開源輕量級vLLM，吞吐量逼近原版

機器之心Pro 2025-06-13 14:17:09
21 跟貼 21
伊朗對該國互聯網使用實施臨時限制

新京報 2025-06-13 19:26:01
12304 跟貼 12304
小伙房間里寫論文抬頭發現，院子里多了只沐浴在陽光下的小狐貍網友：你住在童話世界里??？

營天下 2025-06-12 16:21:29
3 跟貼 3
謝賽寧蘇昊CVPR25獲獎！華人博士王建元一作拿下最佳論文

量子位 2025-06-14 17:22:24
2 跟貼 2
女朋友展示新學的技能，結果萬萬想不到，難怪朋友都勸分！

故居生活 2025-06-14 08:54:52
0 跟貼 0
如果腕表也高考，“理科狀元”RM

盧曦采訪手記 2025-06-13 10:37:04
3 跟貼 3
中東一哥喊話伊朗人民:它們壓迫你們50年、站起來的時刻到了！

ConfusionMax 2025-06-14 08:49:52
9621 跟貼 9621
女教授吐槽：實在不愿帶女學生了！三個真實案例揭開女生教育困境

教育人看世界 2025-06-14 15:47:48
5 跟貼 5
超越英偉達B200！AMD最強AI芯：1.6倍大內存、大模型推理快30%

量子位 2025-06-13 10:41:55
10 跟貼 10
有些人的技能他就是天生帶來的

皮特兒動漫 2025-06-13 17:07:05
1 跟貼 1
本科生推翻圖靈獎得主猜想：40年前的論文是錯的

量子位 2025-03-27 11:37:28
0 跟貼 0
華南理工成果被世界頂級期刊《數學學報》接受發表

中國日報網 2025-06-14 15:26:10
38 跟貼 38
當院長騎電驢摔傷住院醫護人員紛紛拍照

凌晨看看 2025-06-14 09:03:19
4564 跟貼 4564
象棋專業術語“葉底藏花將軍脫袍”兩個技能合一，有多大殺傷力？

星哥講棋 2025-06-14 15:41:54
3 跟貼 3
谷歌視頻模型Veo3正在顛覆好萊塢：星球大戰風暴兵系列之訓練新兵

鏈聞科技 2025-06-13 11:14:00
3 跟貼 3
中國“九天”無人機重塑戰爭規則

究竟誰主沉浮 2025-06-14 06:51:42
0 跟貼 0
黑芝麻智能參加2025香港車博會，展示芯片及域控制器產品

全球TMT 2025-06-13 10:37:27
0 跟貼 0
看完當場手撕杠精的絕學秘籍

科學公園 2025-06-11 14:13:24
16 跟貼 16
應對烏龜咬住不放的策略

看你像個寶 2025-06-14 12:07:17
1 跟貼 1
老師催交論文了怎么辦，文件損壞器來幫你，網友：賽博版忘帶了

河海觀潮 2025-06-13 16:54:18
0 跟貼 0
把280萬篇論文繪制成星空，探索知識最浪漫的方式之一

量子位 2025-05-20 18:25:54
0 跟貼 0
外網評價中國Deepseek完勝美國openAI震驚不已！

一本道街拍 2025-06-13 14:13:53
0 跟貼 0
科研狗狂喜，論文太多看不過來，一鍵生成文獻綜述

機器之心Pro 2025-04-10 17:55:06
0 跟貼 0
人類群星論文閃耀時，探索arXiv星空，280萬篇論文浪漫集結

機器之心Pro 2025-05-21 17:16:15
0 跟貼 0
當全網都在玩梗的時候，江蘇人已經忙掙錢了

揚子晚報 2025-06-13 21:27:45
1015 跟貼 1015
勇士隊策略轉變：專注年輕力量與國際球員潛力挖掘

徐癘解說 2025-06-13 20:57:08
1 跟貼 1
一些有點奇葩的規則，關鍵時候可以拯救自己

世界生活點滴 2025-06-12 17:56:04
0 跟貼 0
【DeepSeek談藝】戴藝強·水彩畫 | 用明澈輕盈的水色鋪陳自然韻味

文化視界網 2025-06-14 15:05:50
1 跟貼 1

手機 / 數碼

房產 / 家居

DeepSeek新論文提新訓練方法SPCT，R2要來了？

一輛新車比特斯拉FSD都便宜，全行業陪葬？

小伙500萬裝修婚房翻車:孩子快上幼兒園漏水還沒修好

小伙500萬裝修婚房翻車:孩子快上幼兒園漏水還沒修好

32隊爭10億獎金，全新世俱杯來了！

曾毅塌房了？戴性暗示手表 腳踹女員工

樓市權威發聲

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

熱聞|清明假期將至，熱門目的地有哪些?

《劍星》開發商公開新作設定：東方奇幻題材！

穿最乖的衣服耍最帥的酷，她做起來讓我有種動作好簡單的錯覺！

高考報志愿，院校該如何排序！

DeepSeek新論文提新訓練方法SPCT，R2要來了？

一輛新車比特斯拉FSD都便宜，全行業陪葬？

32隊爭10億獎金，全新世俱杯來了！

曾毅塌房了？戴性暗示手表腳踹女員工

《劍星》開發商公開新作設定：東方奇幻題材！

高考報志愿，院校該如何排序！