最新:DeepSeek,編輯:機器之心
這會是 DeepSeek R2 的雛形嗎?本周五,DeepSeek 提交到 arXiv 上的最新論文正在 AI 社區(qū)逐漸升溫。
當前,強化學習(RL)已廣泛應用于大語言模型(LLM)的后期訓練。最近 RL 對 LLM 推理能力的激勵表明,適當?shù)膶W習方法可以實現(xiàn)有效的推理時間可擴展性。RL 的一個關鍵挑戰(zhàn)是在可驗證問題或人工規(guī)則之外的各個領域獲得 LLM 的準確獎勵信號。
本周五提交的一項工作中,來自 DeepSeek、清華大學的研究人員探索了獎勵模型(RM)的不同方法,發(fā)現(xiàn)逐點生成獎勵模型(GRM)可以統(tǒng)一純語言表示中單個、成對和多個響應的評分,從而克服了挑戰(zhàn)。研究者探索了某些原則可以指導 GRM 在適當標準內(nèi)生成獎勵,從而提高獎勵的質(zhì)量,這啟發(fā)我們,RM 的推理時間可擴展性可以通過擴展高質(zhì)量原則和準確批評的生成來實現(xiàn)。
論文標題:Inference-Time Scaling for Generalist Reward Modeling
論文鏈接:https://arxiv.org/abs/2504.02495
基于這一初步成果,作者提出了一種新學習方法,即自我原則批評調(diào)整(SPCT),以促進 GRM 中有效的推理時間可擴展行為。通過利用基于規(guī)則的在線 RL,SPCT 使 GRM 能夠?qū)W習根據(jù)輸入查詢和響應自適應地提出原則和批評,從而在一般領域獲得更好的結(jié)果獎勵。
基于此技術(shù),DeepSeek 提出了 DeepSeek-GRM-27B,它基于 Gemma-2-27B 用 SPCT 進行后訓練。對于推理時間擴展,它通過多次采樣來擴展計算使用量。通過并行采樣,DeepSeek-GRM 可以生成不同的原則集和相應的批評,然后投票選出最終的獎勵。通過更大規(guī)模的采樣,DeepSeek-GRM 可以更準確地判斷具有更高多樣性的原則,并以更細的粒度輸出獎勵,從而解決挑戰(zhàn)。
除了投票以獲得更好的擴展性能外,DeepSeek 還訓練了一個元 RM。從實驗結(jié)果上看,SPCT 顯著提高了 GRM 的質(zhì)量和可擴展性,在多個綜合 RM 基準測試中優(yōu)于現(xiàn)有方法和模型,且沒有嚴重的領域偏差。作者還將 DeepSeek-GRM-27B 的推理時間擴展性能與多達 671B 個參數(shù)的較大模型進行了比較,發(fā)現(xiàn)它在模型大小上可以獲得比訓練時間擴展更好的性能。雖然當前方法在效率和特定任務方面面臨挑戰(zhàn),但憑借 SPCT 之外的努力,DeepSeek 相信,具有增強可擴展性和效率的 GRM 可以作為通用獎勵系統(tǒng)的多功能接口,推動 LLM 后訓練和推理的前沿發(fā)展。
這項研究的主要貢獻有以下三點:
研究者們提出了一種新方法:Self-Principled Critique Tuning(SPCT),用于提升通用獎勵模型在推理階段的可擴展性,并由此訓練出 DeepSeek-GRM 系列模型。同時,他們進一步引入了一種元獎勵模型(meta RM),使 DeepSeek-GRM 的推理效果在超越傳統(tǒng)投票機制的基礎上得到進一步提升。
實驗證明,SPCT 在生成質(zhì)量和推理階段的可擴展性方面,明顯優(yōu)于現(xiàn)有方法,并超過了多個強大的開源模型。
SPCT 的訓練方案還被應用到更大規(guī)模的語言模型上。研究者們發(fā)現(xiàn)推理階段的擴展性收益甚至超過了通過增加模型規(guī)模所帶來的訓練效果提升。
技術(shù)細節(jié)
我們一起來看看這篇論文所討論的技術(shù)細節(jié)。
Self-Principled Critique Tuning (SPCT)
受到初步實驗結(jié)果的啟發(fā),研究者提出了一種用于逐點通用獎勵模型的新方法,能夠?qū)W習生成具有適應性和高質(zhì)量的原則,以有效引導批評內(nèi)容的生成,該方法被稱為自我原則批評調(diào)整(SPCT)。
如圖 3 所示,SPCT 包含兩個階段:
1. 拒絕式微調(diào)(rejective fine-tuning),作為冷啟動階段;
2. 基于規(guī)則的在線強化學習(rule-based online RL),通過不斷優(yōu)化生成的準則和評論,進一步增強泛化型獎勵生成能力。
此外,SPCT 還能促使獎勵模型在推理階段展現(xiàn)出良好的擴展能力。
研究者們觀察到,高質(zhì)量的準則能夠在特定評判標準下有效引導獎勵的生成,是提升獎勵模型表現(xiàn)的關鍵因素。然而,對于通用型獎勵模型而言,如何自動生成適應性強、指導性強的準則仍是一個核心難題。
為此,他們提出將準則的作用由傳統(tǒng)的理解階段的輔助性輸入,轉(zhuǎn)變?yōu)楠剟钌蛇^程中的核心組成部分。具體而言,這項研究不再將準則僅作為模型生成前的提示信息,而是使模型能夠在生成過程中主動生成并運用準則,從而實現(xiàn)更強的獎勵泛化能力與推理階段的可擴展性。
在該研究的設定中,GRM 可以自主生成準則,并在此基礎上生成對應的批評內(nèi)容,其過程可形式化表示為:
其中,p_θ 表示由參數(shù) θ 所定義的準則生成函數(shù),該函數(shù)與獎勵生成函數(shù) r_θ 共享同一模型架構(gòu)。這樣的設計使得準則可以根據(jù)輸入的 query 和響應自適應生成,從而動態(tài)引導獎勵的生成過程。此外,準則及其對應批評的質(zhì)量與細粒度可以通過對 GRM 進行后訓練進一步提升。
當模型具備大規(guī)模生成準則的能力后,GRM 便能夠在更合理的準則框架下輸出更細致的獎勵評價,這對于推理階段的可擴展性具有關鍵意義。
基于規(guī)則的強化學習
為同步優(yōu)化 GRM 中的原則生成與批判生成,DeepSeek 提出 SPCT 框架,整合了拒絕式微調(diào)與基于規(guī)則的強化學習。拒絕式微調(diào)作為冷啟動階段。
拒絕式微調(diào)(冷啟動階段) 的核心目標是使 GRM 能夠生成格式正確且適配多種輸入類型的原則與批判。
不同于 Vu 等人(2024)、Cao 等人(2024)和 Alexandru 等人(2025)將單響應、配對響應和多響應格式的 RM 數(shù)據(jù)混合使用的方案,DeepSeek 采用第 2.1 節(jié)提出的逐點 GRM,能以統(tǒng)一格式為任意數(shù)量響應生成獎勵。
數(shù)據(jù)構(gòu)建方面,除通用指令數(shù)據(jù)外,DeepSeek 還通過預訓練 GRM 對 RM 數(shù)據(jù)中不同響應數(shù)量的查詢 - 響應對進行軌跡采樣,每個查詢 - 響應對采樣次。拒絕策略也采用統(tǒng)一標準:拒絕預測獎勵與真實值不符(錯誤)的軌跡,以及所有次軌跡均正確(過于簡單)的查詢 - 響應對。形式化定義為:令表示查詢 x 第 i 個響應的真實獎勵,當預測逐點獎勵滿足以下條件時視為正確:
這里需確保真實獎勵僅包含一個最大值。然而,與 Zhang 等人(2025a)的研究類似,DeepSeek 發(fā)現(xiàn)預訓練 GRM 在有限采樣次數(shù)內(nèi)難以對部分查詢及其響應生成正確獎勵。
因此,他們選擇性地在 GRM 提示中追加(稱為暗示采樣),期望預測獎勵能與真實值對齊,同時保留非暗示采樣方式。對于暗示采樣,每個查詢及其響應僅采樣一次,僅當預測錯誤時才拒絕軌跡。相較于 Li 等人(2024a)和 Mahan 等人(2024)的研究,我們觀察到暗示采樣軌跡有時會簡化生成的批判(尤其在推理任務中),這表明 GRM 在線強化學習的必要性和潛在優(yōu)勢。
通過基于規(guī)則的在線 RL,研究者對 GRM 進行了進一步的微調(diào)。與 DeepSeek R1 不同的是,沒有使用格式獎勵。相反,為了確保格式和避免嚴重偏差,KL 懲罰采用了較大的系數(shù)。從形式上看,對給定查詢 x 和響應的第 i 次輸出 o_i 的獎勵為:
逐點獎勵是從 o_i 中提取的。
獎勵函數(shù)鼓勵 GRM 通過在線優(yōu)化原則和批判來區(qū)分最佳響應,從而實現(xiàn)有效的推理時間擴展。獎勵信號可以從任何偏好數(shù)據(jù)集和標注的 LLM 響應中無縫獲取。
SPCT 的推理時擴展
為了進一步提高 DeepSeek-GRM 在使用更多推理計算生成通用獎勵方面的性能,研究者探索了基于采樣的策略,以實現(xiàn)有效的推理時可擴展性。
利用生成獎勵進行投票?;仡櫟?2.1 節(jié)中的方法,逐點 GRM 的投票過程定義為獎勵總和:
其中,是第 i 個響應(i = 1, ..., n)的最終獎勵。由于 S_i,j 通常設置在一個較小的離散范圍內(nèi),例如 {1,...,10},因此投票過程實際上將獎勵空間擴大了 k 倍,并使 GRM 能夠生成大量原則,從而有利于提高最終獎勵的質(zhì)量和粒度。
一個直觀的解釋是,如果每個原則都可以被視為判斷視角的代表,那么更多的原則可能會更準確地反映真實的分布情況,從而提高效率。值得注意的是,為了避免位置偏差和多樣性,在采樣之前會對回答進行洗牌。
元獎勵模型指導投票。DeepSeek-GRM 的投票過程需要多次采樣,由于隨機性或模型的局限性,少數(shù)生成的原則和評論可能存在偏差或質(zhì)量不高。因此,研究者訓練了一個元 RM 來指導投票過程。
引導投票非常簡單: 元 RM 對 k 個采樣獎勵輸出元獎勵,最終結(jié)果由 k_meta ≤ k 個元獎勵的獎勵投票決定,從而過濾掉低質(zhì)量樣本。
獎勵模型 Benchmark 上的結(jié)果
不同方法和模型在獎勵模型基準測試上的整體結(jié)果如表 2 所示。
不同方法在推理階段的擴展性能結(jié)果如表 3 所示,整體趨勢可見圖 1。
表 4 展示了 SPCT 各個組成部分所做的消融實驗結(jié)果。
研究者們還進一步研究了 DeepSeek-GRM-27B 在推理階段和訓練階段的擴展性能,通過在不同規(guī)模的 LLM 上進行后訓練進行評估。所有模型均在 Reward Bench 上進行測試,結(jié)果如圖 4 所示。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.