網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

周志華團(tuán)隊(duì)新作：LLM中存在獎(jiǎng)勵(lì)模型，首次理論證明RL對(duì)LLM有效性

2025-07-02 16:42:57　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

將大語言模型（LLMs）與復(fù)雜的人類價(jià)值觀對(duì)齊，仍然是 AI 面臨的一個(gè)核心挑戰(zhàn)。當(dāng)前主要的方法是基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）。該流程依賴于一個(gè)通過人類偏好訓(xùn)練的獎(jiǎng)勵(lì)模型來對(duì)模型輸出進(jìn)行評(píng)分，最終對(duì)齊后的 LLM 的質(zhì)量在根本上取決于該獎(jiǎng)勵(lì)模型的質(zhì)量。

因此，創(chuàng)建一個(gè)先進(jìn)的獎(jiǎng)勵(lì)模型需要建立龐大且高質(zhì)量的人類偏好數(shù)據(jù)集，而這一過程通常既緩慢、昂貴，又難以擴(kuò)展。

這種對(duì)人類標(biāo)注數(shù)據(jù)的依賴促使研究者探索其他對(duì)齊方法。一個(gè)重要的研究方向是基于 AI 反饋的強(qiáng)化學(xué)習(xí)（RLAIF）。該方法利用強(qiáng)大的專有大語言模型生成獎(jiǎng)勵(lì)信號(hào)或偏好標(biāo)簽，從而規(guī)避人類標(biāo)注需求。雖然成本效益顯著，但這些方法缺乏嚴(yán)謹(jǐn)?shù)睦碚摶A(chǔ)，且容易繼承評(píng)判模型本身的風(fēng)格偏差與固有偏見。這引發(fā)了一個(gè)關(guān)鍵問題：高質(zhì)量獎(jiǎng)勵(lì)信號(hào)是否必須依賴外部來源？

來自南京大學(xué)的研究者發(fā)現(xiàn)，一個(gè)強(qiáng)大的通用獎(jiǎng)勵(lì)模型并非需要構(gòu)建，而是可以挖掘出來的，因?yàn)樗呀?jīng)潛在地存在于通過標(biāo)準(zhǔn)的下一個(gè) Token 預(yù)測(cè)訓(xùn)練的任何語言模型中，稱之為「內(nèi)源性獎(jiǎng)勵(lì)（endogenous reward）」。

本文的核心貢獻(xiàn)是為這一觀點(diǎn)提供嚴(yán)格的理論基礎(chǔ)。本文證明了可以從標(biāo)準(zhǔn)的下一個(gè) Token 預(yù)測(cè)目標(biāo)中恢復(fù)出一種特定形式的離線逆強(qiáng)化學(xué)習(xí)（IRL）獎(jiǎng)勵(lì)函數(shù)，該目標(biāo)用于預(yù)訓(xùn)練和監(jiān)督微調(diào)（SFT）。這一見解能夠超越啟發(fā)式方法，并建立一種原則性的方法，來引出語言模型在訓(xùn)練過程中隱式學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)。

具體來說，本文展示了語言模型的 logits 可以直接解釋為 soft Q 函數(shù)，通過逆 soft 貝爾曼算子可以從中恢復(fù)出獎(jiǎng)勵(lì)函數(shù)。

至關(guān)重要的是，這一理論聯(lián)系不僅僅提供了一種獎(jiǎng)勵(lì)提取的方法。本文還證明了，使用模型自身的內(nèi)源性獎(jiǎng)勵(lì)進(jìn)行微調(diào)可以使策略在誤差界限上優(yōu)于基線模型。強(qiáng)化學(xué)習(xí)過程有效地修正了標(biāo)準(zhǔn)模仿學(xué)習(xí)（即下一個(gè) Token 預(yù)測(cè)）中的累積誤差，將性能差距從任務(wù)視野的二次依賴關(guān)系 O (H2) 降低到優(yōu)越的線性關(guān)系 O (H)。

據(jù)了解，這是首次理論證明強(qiáng)化學(xué)習(xí)在 LLM 中的有效性。廣泛實(shí)驗(yàn)驗(yàn)證了這一理論，表明這種內(nèi)源性獎(jiǎng)勵(lì)不僅優(yōu)于現(xiàn)有的 LLM-as-a-judge 方法而且可以超越那些通過昂貴的人類標(biāo)注數(shù)據(jù)顯式訓(xùn)練的獎(jiǎng)勵(lì)模型的表現(xiàn)。

論文標(biāo)題： GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS
論文鏈接：https://arxiv.org/pdf/2506.23235

這篇論文提出了解決 LLM 的對(duì)齊問題，通過利用模型內(nèi)部的獎(jiǎng)勵(lì)機(jī)制，而不是依賴外部的人類反饋，這可能會(huì)改變未來 LLMs 的開發(fā)和應(yīng)用方式。

本文在實(shí)驗(yàn)中旨在評(píng)估以下核心問題：

Q1：在與啟發(fā)式基線方法和顯式訓(xùn)練的最新獎(jiǎng)勵(lì)模型對(duì)比時(shí)，免訓(xùn)練內(nèi)源性獎(jiǎng)勵(lì)模型（EndoRM）在常見獎(jiǎng)勵(lì)模型基準(zhǔn)測(cè)試中的表現(xiàn)如何？

Q2：內(nèi)源性獎(jiǎng)勵(lì)是否具備強(qiáng)大的指令遵循能力，能否作為可通過提示詞調(diào)用的通用獎(jiǎng)勵(lì)模型？

Q3：基于內(nèi)源性獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)能否產(chǎn)生更優(yōu)策略，實(shí)現(xiàn)理論預(yù)測(cè)的自我改進(jìn)效果？

多樣偏好對(duì)上的獎(jiǎng)勵(lì)準(zhǔn)確率（Q1）

為回答 Q1，本研究通過預(yù)測(cè) RM-Bench 中被選中的回復(fù)來評(píng)估獎(jiǎng)勵(lì)模型性能。更高的準(zhǔn)確率意味著獎(jiǎng)勵(lì)質(zhì)量更優(yōu)。

由于本評(píng)估的方法無需訓(xùn)練，因此本評(píng)估將其與其他無需訓(xùn)練的方法進(jìn)行對(duì)比：生成式驗(yàn)證器（Generative Verifier）、GenRM-Pairwise 和 GenRM-Pointwise 。

所有基線方法及本評(píng)估的 EndoRM 均采用 Qwen2.5-7B-Instruct 作為基礎(chǔ)模型以確保公平比較。此外，本評(píng)估還列出了四個(gè)顯式訓(xùn)練的高性能獎(jiǎng)勵(lì)模型的結(jié)果作為參考。

表 1 中的結(jié)果顯示，EndoRM 不僅顯著優(yōu)于所有使用相同基礎(chǔ)模型的無需訓(xùn)練基線方法，還以更高的平均得分超越了最先進(jìn)的顯式訓(xùn)練獎(jiǎng)勵(lì)模型。

這一發(fā)現(xiàn)表明，EndoRM 相比依賴高成本偏好數(shù)據(jù)篩選和訓(xùn)練的獎(jiǎng)勵(lì)模型更具有效性。

圖 1 中進(jìn)一步展示了 Multifaceted-Bench 的實(shí)驗(yàn)結(jié)果，從中可以觀察到 EndoRM 在五個(gè)領(lǐng)域上始終優(yōu)于所有基線方法。考慮到 Multifaceted-Bench 中可能包含數(shù)以千計(jì)的偏好對(duì)，這一結(jié)果證明了即使在任務(wù)復(fù)雜度和偏好多樣性增加的情況下，EndoRM 仍能實(shí)現(xiàn)可擴(kuò)展的魯棒性。

這一發(fā)現(xiàn)進(jìn)一步驗(yàn)證了本評(píng)估的核心假設(shè)：強(qiáng)大的獎(jiǎng)勵(lì)信號(hào)已潛在存在于基礎(chǔ)模型之中。

驗(yàn)證指令遵循能力（Q2）

一個(gè)關(guān)鍵論點(diǎn)是內(nèi)源性獎(jiǎng)勵(lì)并非靜態(tài)的，而是可以通過提示來引導(dǎo)。

為驗(yàn)證這一點(diǎn)，本文使用了 DSP 數(shù)據(jù)集，該數(shù)據(jù)集包含四個(gè)不同的領(lǐng)域。本評(píng)估通過將 DSP 論文中相應(yīng)的系統(tǒng)提示作為輸入，創(chuàng)建了四個(gè)特定領(lǐng)域的版本的內(nèi)源性獎(jiǎng)勵(lì)。

然后，本評(píng)估測(cè)試每個(gè)特定領(lǐng)域的內(nèi)源性獎(jiǎng)勵(lì)在所有四個(gè)測(cè)試集上的響應(yīng)分類準(zhǔn)確率。

表 2 中的結(jié)果顯示出強(qiáng)烈的對(duì)角模式：每個(gè) EndoRM 在其自身領(lǐng)域上表現(xiàn)最佳。例如，EndoRM-Academy 在學(xué)術(shù)數(shù)據(jù)上達(dá)到了其最高準(zhǔn)確率（76.89%）。

這證實(shí)了內(nèi)源性獎(jiǎng)勵(lì)不是一個(gè)固定的評(píng)估器，而是一個(gè)動(dòng)態(tài)的、可提示的評(píng)判器，繼承了基礎(chǔ)大型語言模型強(qiáng)大的指令遵循能力。

通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自我提升（Q3）

最后，本評(píng)估測(cè)試了定理 2 中的核心理論主張：帶有內(nèi)源性獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)可以通過減輕復(fù)合誤差來改進(jìn)基礎(chǔ)策略。

本評(píng)估在 MATH-lighteval 數(shù)據(jù)集上通過強(qiáng)化學(xué)習(xí)對(duì)基礎(chǔ)模型 Qwen2.5-Math-7B 進(jìn)行訓(xùn)練。內(nèi)源性獎(jiǎng)勵(lì)模型同樣是 Qwen2.5-Math-7B，在策略學(xué)習(xí)期間其參數(shù)保持固定。提示和響應(yīng)的最大長(zhǎng)度均設(shè)為 1024，KL 系數(shù)設(shè)為 0.01。

表 3 中的結(jié)果表明，帶有內(nèi)源性獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)微調(diào)有助于模型在所有五個(gè)基準(zhǔn)測(cè)試中一致地優(yōu)于基礎(chǔ)模型。

本評(píng)估還在附錄 E 中給出了模型在強(qiáng)化學(xué)習(xí)前后的響應(yīng)示例，從中可以看出，對(duì)于同一個(gè)問題，在基于內(nèi)源性獎(jiǎng)勵(lì)進(jìn)行優(yōu)化之前，模型無法解決問題，并且隨著響應(yīng)的進(jìn)行開始胡言亂語，甚至輸出 Python 代碼。

相比之下，本評(píng)估的方法提供了一個(gè)清晰簡(jiǎn)潔的解決方案。

了解更多內(nèi)容，請(qǐng)參考原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.