99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek新論文提新訓練方法SPCT,R2要來了?

0
分享至

作者|沐風

來源|AI先鋒官

近日,DeepSeek和清華大學共同發表了一篇論文《Inference-Time Scaling for Generalist Reward Modeling》,探討了獎勵模型的推理時Scaling方法。

現在,強化學習(RL)已廣泛應用于LLM的大規模后訓練階段。

簡單說,就是先訓練一個獎勵模型 (Reward Model, RM) 來模仿人類對 LLM 輸出的偏好(比如判斷哪個回答更好,或者給回答打分),然后用這個RM作為“獎勵信號”去指導 LLM 的進一步學習,讓LLM生成更符合人類期望的內容。

但現有的RM在通用領域卻表現出受限的情況,尤其是在面對復雜、多樣化任務的時候。

因此,就出現了兩個關鍵挑戰點。

一個是通用RM需要靈活性(支持單響應、多響應評分)和準確性(跨領域高質量獎勵)。

另一個則是現有RM(如標量RM、半標量RM)在推理時擴展性差,無法通過增加計算資源顯著提升性能。


是否有可能通過增加推理計算資源,來提升通用查詢場景下RM的能力,即通用RM在推理階段的可擴展性呢?

DeepSeek和清華的研究者發現,在RM方法上采用點式生成式獎勵建模(Pointwise Generative Reward Modeling, GRM),就能提升模型對不同輸入類型的靈活適應能力,并具備推理階段可擴展的潛力。

對此,這篇論文提出了一種新的訓練方法“SPCT”(Self-Principled Critique Tuning),可以理解為“自定原則、自我點評”的調優方法。

SPCT 主要用在GRM上,通過在線強化學習(RL)訓練GRM,使其能動態生成高質量的原則(principles)和點評(critiques),從而提升獎勵質量。

SPCT的核心思想是: GRM先評估應該看重哪些“原則” (Principles),然后再根據這些剛定好的原則去寫一段“點評”(Critique),最后再從點評中提煉出分數。

簡單來說,SPCT就是把RM的工作流程從“直接給分”變成了“定原則-寫點評-提分數”的間接評估。

整體來看,SPCT包括兩個階段,它們分別是:

拒絕式微調(rejective fine-tuning)作為冷啟動階段,通過采樣和拒絕策略生成初始數據。

基于規則的在線RL,通過提升生成的原則和點評內容來強化通用獎勵的生成過程。


另外,SPCT還可以促進GRM在推理階段的可擴展行為。

他們基于Gemma-2-27B經過SPCT訓練后推出了DeepSeek-GRM-27B。

可以發現,SPCT顯著提高了GRM的質量和可擴展性,在多個綜合RM基準測試中優于現有方法和模型。

強制模型先想原則再點評,評估結果自然更準確、更可靠。

另外,他們還引入一個元獎勵模型(Meta RM),專門評估每次采樣生成的 (原則, 點評) 的質量,以提升擴展性能。

SPCT的另外一個核心亮點是“越算越準”。

對同一個問題和回答,讓模型獨立地、帶點隨機性地(比如 temperature > 0)思考 k 次。因為想法(生成過程)有多樣性,每次可能會得到不同的原則、點評和分數。

論文里的實驗結果清楚地顯示,隨著采樣次數 k 增加,不管是Voting還是Meta RM,DeepSeek-GRM 的性能都會往上漲,證明了它確實能有效地“越算越準”。


總的來說,SPCT 是個挺有創意的 GRM 訓練方法。它通過讓模型學會“先定規則、再點評打分”的模式,實打實地提升了獎勵模型的準確性、透明度、靈活性和通用性。

最關鍵的是,它訓練出的GRM具備了出色的推理時可擴展性,可以通過多花算力來換取更高的評估質量。

論文也提到,未來可以繼續優化 GRM 的效率,或者讓它學會使用工具來處理更復雜的評估任務。

論文地址:

https://arxiv.org/pdf/2504.02495

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

往期文章回顧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭新宇,央視新主播

鄭新宇,央視新主播

新京報
2025-06-14 19:00:45
獻血對身體有害嗎?中國工程院院士:適齡健康人群獻血400ml沒有危害

獻血對身體有害嗎?中國工程院院士:適齡健康人群獻血400ml沒有危害

極目新聞
2025-06-12 17:23:52
毛主席提議從軍隊選個副主席,周總理聽完后,立馬心領神會

毛主席提議從軍隊選個副主席,周總理聽完后,立馬心領神會

阿甘文史呀
2025-06-13 15:37:17
塔利班不管中國答不答應,先把瓦罕走廊的路,通到了中國家門口

塔利班不管中國答不答應,先把瓦罕走廊的路,通到了中國家門口

影史觀
2025-06-13 07:20:03
一文看懂遼寧40所公辦本科院校!今年高考填報志愿必看干貨

一文看懂遼寧40所公辦本科院校!今年高考填報志愿必看干貨

狐貍先森講升學規劃
2025-06-14 09:50:03
美首席代表剛回國,就向全球宣布一件大事,徹底撕掉特朗普遮羞布

美首席代表剛回國,就向全球宣布一件大事,徹底撕掉特朗普遮羞布

離離言幾許
2025-06-14 18:16:36
湖媒嘲諷:威少同意底薪重回湖人 但湖人沒同意

湖媒嘲諷:威少同意底薪重回湖人 但湖人沒同意

直播吧
2025-06-14 13:04:14
手速逆天!美國大叔潑水神技創下新紀錄,網友:這手是抽水機?

手速逆天!美國大叔潑水神技創下新紀錄,網友:這手是抽水機?

隨波蕩漾的漂流瓶
2025-05-28 18:54:38
以軍放狠話挑釁中方,中式裝備亮相前線,局勢突變

以軍放狠話挑釁中方,中式裝備亮相前線,局勢突變

智觀科技
2025-06-11 12:11:06
國足揪出30年來,最大罪人,讓中國國足丟盡顏面

國足揪出30年來,最大罪人,讓中國國足丟盡顏面

體壇狗哥
2025-06-14 10:46:13
韓國要改國旗了?在要錢和要命之間,李在明選擇先苦一苦日本人

韓國要改國旗了?在要錢和要命之間,李在明選擇先苦一苦日本人

忠誠TALK
2025-06-13 23:08:39
羅帥宇家屬稱已拿到醫院補償,從20萬到85.3萬,后來要再給1500萬

羅帥宇家屬稱已拿到醫院補償,從20萬到85.3萬,后來要再給1500萬

小人物看盡人間百態
2025-06-13 20:34:38
下館子時,盡量少點這5道菜,很多都是預制菜,懂行人基本不吃!

下館子時,盡量少點這5道菜,很多都是預制菜,懂行人基本不吃!

簡食記工作號
2025-06-13 00:15:00
中國發言人曾公開說:“中國已經做到最高程度的克制!

中國發言人曾公開說:“中國已經做到最高程度的克制!

老友科普
2025-06-13 20:05:01
羅馬仕就“高校禁用充電寶”事件致歉:如鑒定存在缺陷將依法承擔全部責任

羅馬仕就“高校禁用充電寶”事件致歉:如鑒定存在缺陷將依法承擔全部責任

界面新聞
2025-06-14 18:58:34
時隔26天,王曉晨終于回應,短短10個字,沒給俞灝明留一絲體面

時隔26天,王曉晨終于回應,短短10個字,沒給俞灝明留一絲體面

頭號劇委會
2025-06-12 18:42:36
虛云:活到120歲,曾斷言毛主席不是凡人,晚年卻拒絕主席的邀請

虛云:活到120歲,曾斷言毛主席不是凡人,晚年卻拒絕主席的邀請

江東浪流史
2024-03-12 13:03:30
美媒警告:一旦爆發沖突,中國的壓倒性優勢,將摧毀90%美軍戰機

美媒警告:一旦爆發沖突,中國的壓倒性優勢,將摧毀90%美軍戰機

掌青說歷史
2025-06-14 17:22:38
小姑子擺滿月酒我沒去,老公回來帶給我一包東西,打開后我哭了

小姑子擺滿月酒我沒去,老公回來帶給我一包東西,打開后我哭了

秀秀情感課堂
2025-06-14 18:20:07
比恒大更狠的造車新勢力,誕生

比恒大更狠的造車新勢力,誕生

投資家
2025-06-13 21:02:10
2025-06-14 19:32:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
295文章數 18關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

小伙500萬裝修婚房翻車:孩子快上幼兒園漏水還沒修好

頭條要聞

小伙500萬裝修婚房翻車:孩子快上幼兒園漏水還沒修好

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

曾毅塌房了?戴性暗示手表 腳踹女員工

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

旅游
游戲
親子
教育
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

《劍星》開發商公開新作設定:東方奇幻題材!

親子要聞

穿最乖的衣服耍最帥的酷,她做起來讓我有種動作好簡單的錯覺!

教育要聞

高考報志愿,院校該如何排序!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阳高县| 沐川县| 广灵县| 保康县| 垦利县| 静海县| 锡林浩特市| 茶陵县| 射洪县| 梅州市| 吉安县| 姜堰市| 连城县| 鹰潭市| 沭阳县| 富平县| 汽车| 疏勒县| 泰兴市| 和硕县| 沙洋县| 常山县| 凌海市| 清河县| 汉阴县| 增城市| 鹤山市| 永春县| 梨树县| 台东县| 重庆市| 许昌市| 招远市| 广宗县| 澄迈县| 科技| 锦屏县| 邵阳市| 朔州市| 广汉市| 肇东市|