99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek聯(lián)合清華公布新論文!R2要來了?

0
分享至

最新:DeepSeek,編輯:機器之心

這會是 DeepSeek R2 的雛形嗎?本周五,DeepSeek 提交到 arXiv 上的最新論文正在 AI 社區(qū)逐漸升溫。

當前,強化學習(RL)已廣泛應用于大語言模型(LLM)的后期訓練。最近 RL 對 LLM 推理能力的激勵表明,適當?shù)膶W習方法可以實現(xiàn)有效的推理時間可擴展性。RL 的一個關鍵挑戰(zhàn)是在可驗證問題或人工規(guī)則之外的各個領域獲得 LLM 的準確獎勵信號。

本周五提交的一項工作中,來自 DeepSeek、清華大學的研究人員探索了獎勵模型(RM)的不同方法,發(fā)現(xiàn)逐點生成獎勵模型(GRM)可以統(tǒng)一純語言表示中單個、成對和多個響應的評分,從而克服了挑戰(zhàn)。研究者探索了某些原則可以指導 GRM 在適當標準內(nèi)生成獎勵,從而提高獎勵的質(zhì)量,這啟發(fā)我們,RM 的推理時間可擴展性可以通過擴展高質(zhì)量原則和準確批評的生成來實現(xiàn)。


  • 論文標題:Inference-Time Scaling for Generalist Reward Modeling

  • 論文鏈接:https://arxiv.org/abs/2504.02495

基于這一初步成果,作者提出了一種新學習方法,即自我原則批評調(diào)整(SPCT),以促進 GRM 中有效的推理時間可擴展行為。通過利用基于規(guī)則的在線 RL,SPCT 使 GRM 能夠?qū)W習根據(jù)輸入查詢和響應自適應地提出原則和批評,從而在一般領域獲得更好的結(jié)果獎勵。

基于此技術(shù),DeepSeek 提出了 DeepSeek-GRM-27B,它基于 Gemma-2-27B 用 SPCT 進行后訓練。對于推理時間擴展,它通過多次采樣來擴展計算使用量。通過并行采樣,DeepSeek-GRM 可以生成不同的原則集和相應的批評,然后投票選出最終的獎勵。通過更大規(guī)模的采樣,DeepSeek-GRM 可以更準確地判斷具有更高多樣性的原則,并以更細的粒度輸出獎勵,從而解決挑戰(zhàn)。

除了投票以獲得更好的擴展性能外,DeepSeek 還訓練了一個元 RM。從實驗結(jié)果上看,SPCT 顯著提高了 GRM 的質(zhì)量和可擴展性,在多個綜合 RM 基準測試中優(yōu)于現(xiàn)有方法和模型,且沒有嚴重的領域偏差。作者還將 DeepSeek-GRM-27B 的推理時間擴展性能與多達 671B 個參數(shù)的較大模型進行了比較,發(fā)現(xiàn)它在模型大小上可以獲得比訓練時間擴展更好的性能。雖然當前方法在效率和特定任務方面面臨挑戰(zhàn),但憑借 SPCT 之外的努力,DeepSeek 相信,具有增強可擴展性和效率的 GRM 可以作為通用獎勵系統(tǒng)的多功能接口,推動 LLM 后訓練和推理的前沿發(fā)展。

這項研究的主要貢獻有以下三點:

  • 研究者們提出了一種新方法:Self-Principled Critique Tuning(SPCT),用于提升通用獎勵模型在推理階段的可擴展性,并由此訓練出 DeepSeek-GRM 系列模型。同時,他們進一步引入了一種元獎勵模型(meta RM),使 DeepSeek-GRM 的推理效果在超越傳統(tǒng)投票機制的基礎上得到進一步提升。

  • 實驗證明,SPCT 在生成質(zhì)量和推理階段的可擴展性方面,明顯優(yōu)于現(xiàn)有方法,并超過了多個強大的開源模型。

  • SPCT 的訓練方案還被應用到更大規(guī)模的語言模型上。研究者們發(fā)現(xiàn)推理階段的擴展性收益甚至超過了通過增加模型規(guī)模所帶來的訓練效果提升。


技術(shù)細節(jié)

我們一起來看看這篇論文所討論的技術(shù)細節(jié)。

Self-Principled Critique Tuning (SPCT)

受到初步實驗結(jié)果的啟發(fā),研究者提出了一種用于逐點通用獎勵模型的新方法,能夠?qū)W習生成具有適應性和高質(zhì)量的原則,以有效引導批評內(nèi)容的生成,該方法被稱為自我原則批評調(diào)整(SPCT)。

如圖 3 所示,SPCT 包含兩個階段:

1. 拒絕式微調(diào)(rejective fine-tuning),作為冷啟動階段;

2. 基于規(guī)則的在線強化學習(rule-based online RL),通過不斷優(yōu)化生成的準則和評論,進一步增強泛化型獎勵生成能力。

此外,SPCT 還能促使獎勵模型在推理階段展現(xiàn)出良好的擴展能力。


研究者們觀察到,高質(zhì)量的準則能夠在特定評判標準下有效引導獎勵的生成,是提升獎勵模型表現(xiàn)的關鍵因素。然而,對于通用型獎勵模型而言,如何自動生成適應性強、指導性強的準則仍是一個核心難題。

為此,他們提出將準則的作用由傳統(tǒng)的理解階段的輔助性輸入,轉(zhuǎn)變?yōu)楠剟钌蛇^程中的核心組成部分。具體而言,這項研究不再將準則僅作為模型生成前的提示信息,而是使模型能夠在生成過程中主動生成并運用準則,從而實現(xiàn)更強的獎勵泛化能力與推理階段的可擴展性。

在該研究的設定中,GRM 可以自主生成準則,并在此基礎上生成對應的批評內(nèi)容,其過程可形式化表示為:

其中,p_θ 表示由參數(shù) θ 所定義的準則生成函數(shù),該函數(shù)與獎勵生成函數(shù) r_θ 共享同一模型架構(gòu)。這樣的設計使得準則可以根據(jù)輸入的 query 和響應自適應生成,從而動態(tài)引導獎勵的生成過程。此外,準則及其對應批評的質(zhì)量與細粒度可以通過對 GRM 進行后訓練進一步提升。

當模型具備大規(guī)模生成準則的能力后,GRM 便能夠在更合理的準則框架下輸出更細致的獎勵評價,這對于推理階段的可擴展性具有關鍵意義。

基于規(guī)則的強化學習

為同步優(yōu)化 GRM 中的原則生成與批判生成,DeepSeek 提出 SPCT 框架,整合了拒絕式微調(diào)與基于規(guī)則的強化學習。拒絕式微調(diào)作為冷啟動階段。

拒絕式微調(diào)(冷啟動階段) 的核心目標是使 GRM 能夠生成格式正確且適配多種輸入類型的原則與批判。

不同于 Vu 等人(2024)、Cao 等人(2024)和 Alexandru 等人(2025)將單響應、配對響應和多響應格式的 RM 數(shù)據(jù)混合使用的方案,DeepSeek 采用第 2.1 節(jié)提出的逐點 GRM,能以統(tǒng)一格式為任意數(shù)量響應生成獎勵。

數(shù)據(jù)構(gòu)建方面,除通用指令數(shù)據(jù)外,DeepSeek 還通過預訓練 GRM 對 RM 數(shù)據(jù)中不同響應數(shù)量的查詢 - 響應對進行軌跡采樣,每個查詢 - 響應對采樣次。拒絕策略也采用統(tǒng)一標準:拒絕預測獎勵與真實值不符(錯誤)的軌跡,以及所有次軌跡均正確(過于簡單)的查詢 - 響應對。形式化定義為:令表示查詢 x 第 i 個響應的真實獎勵,當預測逐點獎勵滿足以下條件時視為正確:

這里需確保真實獎勵僅包含一個最大值。然而,與 Zhang 等人(2025a)的研究類似,DeepSeek 發(fā)現(xiàn)預訓練 GRM 在有限采樣次數(shù)內(nèi)難以對部分查詢及其響應生成正確獎勵。

因此,他們選擇性地在 GRM 提示中追加(稱為暗示采樣),期望預測獎勵能與真實值對齊,同時保留非暗示采樣方式。對于暗示采樣,每個查詢及其響應僅采樣一次,僅當預測錯誤時才拒絕軌跡。相較于 Li 等人(2024a)和 Mahan 等人(2024)的研究,我們觀察到暗示采樣軌跡有時會簡化生成的批判(尤其在推理任務中),這表明 GRM 在線強化學習的必要性和潛在優(yōu)勢。

通過基于規(guī)則的在線 RL,研究者對 GRM 進行了進一步的微調(diào)。與 DeepSeek R1 不同的是,沒有使用格式獎勵。相反,為了確保格式和避免嚴重偏差,KL 懲罰采用了較大的系數(shù)。從形式上看,對給定查詢 x 和響應的第 i 次輸出 o_i 的獎勵為:

逐點獎勵是從 o_i 中提取的。

獎勵函數(shù)鼓勵 GRM 通過在線優(yōu)化原則和批判來區(qū)分最佳響應,從而實現(xiàn)有效的推理時間擴展。獎勵信號可以從任何偏好數(shù)據(jù)集和標注的 LLM 響應中無縫獲取。

SPCT 的推理時擴展

為了進一步提高 DeepSeek-GRM 在使用更多推理計算生成通用獎勵方面的性能,研究者探索了基于采樣的策略,以實現(xiàn)有效的推理時可擴展性。

利用生成獎勵進行投票?;仡櫟?2.1 節(jié)中的方法,逐點 GRM 的投票過程定義為獎勵總和:

其中,是第 i 個響應(i = 1, ..., n)的最終獎勵。由于 S_i,j 通常設置在一個較小的離散范圍內(nèi),例如 {1,...,10},因此投票過程實際上將獎勵空間擴大了 k 倍,并使 GRM 能夠生成大量原則,從而有利于提高最終獎勵的質(zhì)量和粒度。

一個直觀的解釋是,如果每個原則都可以被視為判斷視角的代表,那么更多的原則可能會更準確地反映真實的分布情況,從而提高效率。值得注意的是,為了避免位置偏差和多樣性,在采樣之前會對回答進行洗牌。

元獎勵模型指導投票。DeepSeek-GRM 的投票過程需要多次采樣,由于隨機性或模型的局限性,少數(shù)生成的原則和評論可能存在偏差或質(zhì)量不高。因此,研究者訓練了一個元 RM 來指導投票過程。

引導投票非常簡單: 元 RM 對 k 個采樣獎勵輸出元獎勵,最終結(jié)果由 k_meta ≤ k 個元獎勵的獎勵投票決定,從而過濾掉低質(zhì)量樣本。

獎勵模型 Benchmark 上的結(jié)果

不同方法和模型在獎勵模型基準測試上的整體結(jié)果如表 2 所示。


不同方法在推理階段的擴展性能結(jié)果如表 3 所示,整體趨勢可見圖 1。


表 4 展示了 SPCT 各個組成部分所做的消融實驗結(jié)果。

研究者們還進一步研究了 DeepSeek-GRM-27B 在推理階段和訓練階段的擴展性能,通過在不同規(guī)模的 LLM 上進行后訓練進行評估。所有模型均在 Reward Bench 上進行測試,結(jié)果如圖 4 所示。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
浙江30歲獨自爬山男子已找到,遺體在水域發(fā)現(xiàn),事發(fā)地曾多人被困

浙江30歲獨自爬山男子已找到,遺體在水域發(fā)現(xiàn),事發(fā)地曾多人被困

墜入二次元的海洋
2025-05-08 00:29:36
郵報:維拉今夏或出售大馬丁,球員已接觸門德斯經(jīng)紀公司

郵報:維拉今夏或出售大馬丁,球員已接觸門德斯經(jīng)紀公司

懂球帝
2025-05-08 14:32:08
重慶男子將一箱茅臺埋地下15年,兒子婚宴那天挖出,眾人都呆住了

重慶男子將一箱茅臺埋地下15年,兒子婚宴那天挖出,眾人都呆住了

白云故事
2025-04-08 09:35:03
張萌隨手一拍,都那么吸引人,充滿了誘惑力

張萌隨手一拍,都那么吸引人,充滿了誘惑力

傲嬌的馬甲線
2025-05-08 17:40:03
減了半倉出來,繼續(xù)等待新的機會

減了半倉出來,繼續(xù)等待新的機會

股市漁夫
2025-05-08 17:20:32
佛說:當你感覺到不順時,就去做這五件事,生活會變成坦途

佛說:當你感覺到不順時,就去做這五件事,生活會變成坦途

阿珂讀書
2025-01-21 13:42:06
32分28分20分!希望哈登能留隊,弗蘭克發(fā)出請求,小卡也把話挑明

32分28分20分!希望哈登能留隊,弗蘭克發(fā)出請求,小卡也把話挑明

巴叔GO聊體育
2025-05-08 15:59:33
女跑者穿瑜伽褲,那條線讓人浮想聯(lián)翩

女跑者穿瑜伽褲,那條線讓人浮想聯(lián)翩

跑者排球視角
2025-05-07 21:04:51
去留隨意!皇馬放行雙星無限制:要價高達2.25億,英超搶翻天了

去留隨意!皇馬放行雙星無限制:要價高達2.25億,英超搶翻天了

叁炮體育
2025-05-08 17:48:04
王雷一家四口住北京大平層,3歲兒子幫李小萌拍照,拍的媽媽好美

王雷一家四口住北京大平層,3歲兒子幫李小萌拍照,拍的媽媽好美

八怪娛
2025-05-08 14:31:14
拆掉硬盤也讀取不了文件!華為鴻蒙電腦隱私保護拉滿

拆掉硬盤也讀取不了文件!華為鴻蒙電腦隱私保護拉滿

快科技
2025-05-08 11:09:06
很嚴重了,大家勒緊褲腰帶過日子吧!

很嚴重了,大家勒緊褲腰帶過日子吧!

傳達室
2025-05-07 15:12:58
太陽報:因諾伊爾39歲還在踢球,24歲嬌妻為家庭放棄自己的手球生涯

太陽報:因諾伊爾39歲還在踢球,24歲嬌妻為家庭放棄自己的手球生涯

雷速體育
2025-05-08 10:26:11
接班李隼沒戲?秦志戩被放棄,王勵勤遇困難,國乒總教練人選出爐

接班李隼沒戲?秦志戩被放棄,王勵勤遇困難,國乒總教練人選出爐

忠橙家族
2025-05-08 14:35:47
李寧教科級翻臉!全紅嬋徹底破防了!陳芋汐也很尷尬

李寧教科級翻臉!全紅嬋徹底破防了!陳芋汐也很尷尬

西樓知趣雜談
2025-05-08 12:47:10
全紅嬋蓋房新進展!被調(diào)侃真有錢,老板娘監(jiān)工,鄰居成最大受益人

全紅嬋蓋房新進展!被調(diào)侃真有錢,老板娘監(jiān)工,鄰居成最大受益人

鋭娛之樂
2025-05-08 12:28:08
保時捷男去年交通事故造2人死亡,今年又能開車?官方發(fā)文解釋

保時捷男去年交通事故造2人死亡,今年又能開車?官方發(fā)文解釋

明月聊史
2025-05-07 12:39:18
勇士賭上11天恢復期!庫里帶傷隨隊治療背后有何玄機?

勇士賭上11天恢復期!庫里帶傷隨隊治療背后有何玄機?

田先生籃球
2025-05-08 15:26:31
中國斷供美稀土,聯(lián)想就出口稀土外殼電腦,國內(nèi)專家:愚蠢的說法

中國斷供美稀土,聯(lián)想就出口稀土外殼電腦,國內(nèi)專家:愚蠢的說法

一個有靈魂的作者
2025-05-08 09:21:29
媒體人:杰曼因場上出汗太多,導致賽后四十分鐘都沒能完成尿檢

媒體人:杰曼因場上出汗太多,導致賽后四十分鐘都沒能完成尿檢

雷速體育
2025-05-08 07:58:19
2025-05-08 20:24:49
機器學習與Python社區(qū) incentive-icons
機器學習與Python社區(qū)
機器學習算法與Python
2949文章數(shù) 11008關注度
往期回顧 全部

科技要聞

迎戰(zhàn)618,靠AI出圈后,快手有了新打法

頭條要聞

法方確認印軍"陣風"戰(zhàn)機被擊落 巴總理透露空戰(zhàn)細節(jié)

頭條要聞

法方確認印軍"陣風"戰(zhàn)機被擊落 巴總理透露空戰(zhàn)細節(jié)

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補刀 清場風波口碑翻車!

財經(jīng)要聞

57政策解讀:力度空前的系統(tǒng)性穩(wěn)增長舉措

汽車要聞

昨天李想點評了AI 今天我讓AI點評了理想

態(tài)度原創(chuàng)

教育
親子
數(shù)碼
公開課
軍事航空

教育要聞

演都不演了?把“淘汰低收入家庭”寫在明面上,特長招生要求火了

親子要聞

揭秘胚胎寶寶第一套“住房”

數(shù)碼要聞

高性價比純欲風主板,藍寶石PURE極地B650M WIFI主板測評

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

山東艦航母現(xiàn)身菲北部海域 國防部回應

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 舞钢市| 吉隆县| 新疆| 苍南县| 富锦市| 兴国县| 黔江区| 崇明县| 阿图什市| 太原市| 松江区| 化德县| 盐城市| 盘山县| 法库县| 盐山县| 永登县| 英吉沙县| 五指山市| 宜都市| 仙居县| 灵石县| 德令哈市| 和政县| 息烽县| 宁乡县| 海安县| 鄯善县| 德庆县| 延寿县| 乌鲁木齐县| 寻乌县| 泾阳县| 柘城县| 泊头市| 余庆县| 大丰市| 乐至县| 依安县| 枣阳市| 姚安县|