作者|沐風
來源|AI先鋒官
近日,DeepSeek和清華大學共同發表了一篇論文《Inference-Time Scaling for Generalist Reward Modeling》,探討了獎勵模型的推理時Scaling方法。
現在,強化學習(RL)已廣泛應用于LLM的大規模后訓練階段。
簡單說,就是先訓練一個獎勵模型 (Reward Model, RM) 來模仿人類對 LLM 輸出的偏好(比如判斷哪個回答更好,或者給回答打分),然后用這個RM作為“獎勵信號”去指導 LLM 的進一步學習,讓LLM生成更符合人類期望的內容。
但現有的RM在通用領域卻表現出受限的情況,尤其是在面對復雜、多樣化任務的時候。
因此,就出現了兩個關鍵挑戰點。
一個是通用RM需要靈活性(支持單響應、多響應評分)和準確性(跨領域高質量獎勵)。
另一個則是現有RM(如標量RM、半標量RM)在推理時擴展性差,無法通過增加計算資源顯著提升性能。
是否有可能通過增加推理計算資源,來提升通用查詢場景下RM的能力,即通用RM在推理階段的可擴展性呢?
DeepSeek和清華的研究者發現,在RM方法上采用點式生成式獎勵建模(Pointwise Generative Reward Modeling, GRM),就能提升模型對不同輸入類型的靈活適應能力,并具備推理階段可擴展的潛力。
對此,這篇論文提出了一種新的訓練方法“SPCT”(Self-Principled Critique Tuning),可以理解為“自定原則、自我點評”的調優方法。
SPCT 主要用在GRM上,通過在線強化學習(RL)訓練GRM,使其能動態生成高質量的原則(principles)和點評(critiques),從而提升獎勵質量。
SPCT的核心思想是: GRM先評估應該看重哪些“原則” (Principles),然后再根據這些剛定好的原則去寫一段“點評”(Critique),最后再從點評中提煉出分數。
簡單來說,SPCT就是把RM的工作流程從“直接給分”變成了“定原則-寫點評-提分數”的間接評估。
整體來看,SPCT包括兩個階段,它們分別是:
拒絕式微調(rejective fine-tuning)作為冷啟動階段,通過采樣和拒絕策略生成初始數據。
基于規則的在線RL,通過提升生成的原則和點評內容來強化通用獎勵的生成過程。
另外,SPCT還可以促進GRM在推理階段的可擴展行為。
他們基于Gemma-2-27B經過SPCT訓練后推出了DeepSeek-GRM-27B。
可以發現,SPCT顯著提高了GRM的質量和可擴展性,在多個綜合RM基準測試中優于現有方法和模型。
強制模型先想原則再點評,評估結果自然更準確、更可靠。
另外,他們還引入一個元獎勵模型(Meta RM),專門評估每次采樣生成的 (原則, 點評) 的質量,以提升擴展性能。
SPCT的另外一個核心亮點是“越算越準”。
對同一個問題和回答,讓模型獨立地、帶點隨機性地(比如 temperature > 0)思考 k 次。因為想法(生成過程)有多樣性,每次可能會得到不同的原則、點評和分數。
論文里的實驗結果清楚地顯示,隨著采樣次數 k 增加,不管是Voting還是Meta RM,DeepSeek-GRM 的性能都會往上漲,證明了它確實能有效地“越算越準”。
總的來說,SPCT 是個挺有創意的 GRM 訓練方法。它通過讓模型學會“先定規則、再點評打分”的模式,實打實地提升了獎勵模型的準確性、透明度、靈活性和通用性。
最關鍵的是,它訓練出的GRM具備了出色的推理時可擴展性,可以通過多花算力來換取更高的評估質量。
論文也提到,未來可以繼續優化 GRM 的效率,或者讓它學會使用工具來處理更復雜的評估任務。
論文地址:
https://arxiv.org/pdf/2504.02495
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.