機(jī)器之心報(bào)道
機(jī)器之心編輯部
將大語言模型(LLMs)與復(fù)雜的人類價(jià)值觀對(duì)齊,仍然是 AI 面臨的一個(gè)核心挑戰(zhàn)。當(dāng)前主要的方法是基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。該流程依賴于一個(gè)通過人類偏好訓(xùn)練的獎(jiǎng)勵(lì)模型來對(duì)模型輸出進(jìn)行評(píng)分,最終對(duì)齊后的 LLM 的質(zhì)量在根本上取決于該獎(jiǎng)勵(lì)模型的質(zhì)量。
因此,創(chuàng)建一個(gè)先進(jìn)的獎(jiǎng)勵(lì)模型需要建立龐大且高質(zhì)量的人類偏好數(shù)據(jù)集,而這一過程通常既緩慢、昂貴,又難以擴(kuò)展。
這種對(duì)人類標(biāo)注數(shù)據(jù)的依賴促使研究者探索其他對(duì)齊方法。一個(gè)重要的研究方向是基于 AI 反饋的強(qiáng)化學(xué)習(xí)(RLAIF)。該方法利用強(qiáng)大的專有大語言模型生成獎(jiǎng)勵(lì)信號(hào)或偏好標(biāo)簽,從而規(guī)避人類標(biāo)注需求。雖然成本效益顯著,但這些方法缺乏嚴(yán)謹(jǐn)?shù)睦碚摶A(chǔ),且容易繼承評(píng)判模型本身的風(fēng)格偏差與固有偏見。這引發(fā)了一個(gè)關(guān)鍵問題:高質(zhì)量獎(jiǎng)勵(lì)信號(hào)是否必須依賴外部來源?
來自南京大學(xué)的研究者發(fā)現(xiàn),一個(gè)強(qiáng)大的通用獎(jiǎng)勵(lì)模型并非需要構(gòu)建,而是可以挖掘出來的, 因?yàn)樗呀?jīng)潛在地存在于通過標(biāo)準(zhǔn)的下一個(gè) Token 預(yù)測(cè)訓(xùn)練的任何語言模型中,稱之為「內(nèi)源性獎(jiǎng)勵(lì)(endogenous reward)」。
本文的核心貢獻(xiàn)是為這一觀點(diǎn)提供嚴(yán)格的理論基礎(chǔ)。本文證明了可以從標(biāo)準(zhǔn)的下一個(gè) Token 預(yù)測(cè)目標(biāo)中恢復(fù)出一種特定形式的離線逆強(qiáng)化學(xué)習(xí)(IRL)獎(jiǎng)勵(lì)函數(shù),該目標(biāo)用于預(yù)訓(xùn)練和監(jiān)督微調(diào)(SFT)。這一見解能夠超越啟發(fā)式方法,并建立一種原則性的方法,來引出語言模型在訓(xùn)練過程中隱式學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)。
具體來說,本文展示了語言模型的 logits 可以直接解釋為 soft Q 函數(shù),通過逆 soft 貝爾曼算子可以從中恢復(fù)出獎(jiǎng)勵(lì)函數(shù)。
至關(guān)重要的是,這一理論聯(lián)系不僅僅提供了一種獎(jiǎng)勵(lì)提取的方法。本文還證明了,使用模型自身的內(nèi)源性獎(jiǎng)勵(lì)進(jìn)行微調(diào)可以使策略在誤差界限上優(yōu)于基線模型。強(qiáng)化學(xué)習(xí)過程有效地修正了標(biāo)準(zhǔn)模仿學(xué)習(xí)(即下一個(gè) Token 預(yù)測(cè))中的累積誤差,將性能差距從任務(wù)視野的二次依賴關(guān)系 O (H2) 降低到優(yōu)越的線性關(guān)系 O (H)。
據(jù)了解,這是首次理論證明強(qiáng)化學(xué)習(xí)在 LLM 中的有效性。廣泛實(shí)驗(yàn)驗(yàn)證了這一理論,表明這種內(nèi)源性獎(jiǎng)勵(lì)不僅優(yōu)于現(xiàn)有的 LLM-as-a-judge 方法而且可以超越那些通過昂貴的人類標(biāo)注數(shù)據(jù)顯式訓(xùn)練的獎(jiǎng)勵(lì)模型的表現(xiàn)。
- 論文標(biāo)題: GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS
- 論文鏈接:https://arxiv.org/pdf/2506.23235
這篇論文提出了解決 LLM 的對(duì)齊問題,通過利用模型內(nèi)部的獎(jiǎng)勵(lì)機(jī)制,而不是依賴外部的人類反饋,這可能會(huì)改變未來 LLMs 的開發(fā)和應(yīng)用方式。
本文在實(shí)驗(yàn)中旨在評(píng)估以下核心問題:
Q1:在與啟發(fā)式基線方法和顯式訓(xùn)練的最新獎(jiǎng)勵(lì)模型對(duì)比時(shí),免訓(xùn)練內(nèi)源性獎(jiǎng)勵(lì)模型(EndoRM)在常見獎(jiǎng)勵(lì)模型基準(zhǔn)測(cè)試中的表現(xiàn)如何?
Q2:內(nèi)源性獎(jiǎng)勵(lì)是否具備強(qiáng)大的指令遵循能力,能否作為可通過提示詞調(diào)用的通用獎(jiǎng)勵(lì)模型?
Q3:基于內(nèi)源性獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)能否產(chǎn)生更優(yōu)策略,實(shí)現(xiàn)理論預(yù)測(cè)的自我改進(jìn)效果?
多樣偏好對(duì)上的獎(jiǎng)勵(lì)準(zhǔn)確率(Q1)
為回答 Q1,本研究通過預(yù)測(cè) RM-Bench 中被選中的回復(fù)來評(píng)估獎(jiǎng)勵(lì)模型性能。更高的準(zhǔn)確率意味著獎(jiǎng)勵(lì)質(zhì)量更優(yōu)。
由于本評(píng)估的方法無需訓(xùn)練,因此本評(píng)估將其與其他無需訓(xùn)練的方法進(jìn)行對(duì)比:生成式驗(yàn)證器(Generative Verifier)、GenRM-Pairwise 和 GenRM-Pointwise 。
所有基線方法及本評(píng)估的 EndoRM 均采用 Qwen2.5-7B-Instruct 作為基礎(chǔ)模型以確保公平比較。此外,本評(píng)估還列出了四個(gè)顯式訓(xùn)練的高性能獎(jiǎng)勵(lì)模型的結(jié)果作為參考。
表 1 中的結(jié)果顯示,EndoRM 不僅顯著優(yōu)于所有使用相同基礎(chǔ)模型的無需訓(xùn)練基線方法,還以更高的平均得分超越了最先進(jìn)的顯式訓(xùn)練獎(jiǎng)勵(lì)模型。
這一發(fā)現(xiàn)表明,EndoRM 相比依賴高成本偏好數(shù)據(jù)篩選和訓(xùn)練的獎(jiǎng)勵(lì)模型更具有效性。
圖 1 中進(jìn)一步展示了 Multifaceted-Bench 的實(shí)驗(yàn)結(jié)果,從中可以觀察到 EndoRM 在五個(gè)領(lǐng)域上始終優(yōu)于所有基線方法。考慮到 Multifaceted-Bench 中可能包含數(shù)以千計(jì)的偏好對(duì),這一結(jié)果證明了即使在任務(wù)復(fù)雜度和偏好多樣性增加的情況下,EndoRM 仍能實(shí)現(xiàn)可擴(kuò)展的魯棒性。
這一發(fā)現(xiàn)進(jìn)一步驗(yàn)證了本評(píng)估的核心假設(shè):強(qiáng)大的獎(jiǎng)勵(lì)信號(hào)已潛在存在于基礎(chǔ)模型之中。
驗(yàn)證指令遵循能力(Q2)
一個(gè)關(guān)鍵論點(diǎn)是內(nèi)源性獎(jiǎng)勵(lì)并非靜態(tài)的,而是可以通過提示來引導(dǎo)。
為驗(yàn)證這一點(diǎn),本文使用了 DSP 數(shù)據(jù)集,該數(shù)據(jù)集包含四個(gè)不同的領(lǐng)域。本評(píng)估通過將 DSP 論文中相應(yīng)的系統(tǒng)提示作為輸入,創(chuàng)建了四個(gè)特定領(lǐng)域的版本的內(nèi)源性獎(jiǎng)勵(lì)。
然后,本評(píng)估測(cè)試每個(gè)特定領(lǐng)域的內(nèi)源性獎(jiǎng)勵(lì)在所有四個(gè)測(cè)試集上的響應(yīng)分類準(zhǔn)確率。
表 2 中的結(jié)果顯示出強(qiáng)烈的對(duì)角模式:每個(gè) EndoRM 在其自身領(lǐng)域上表現(xiàn)最佳。例如,EndoRM-Academy 在學(xué)術(shù)數(shù)據(jù)上達(dá)到了其最高準(zhǔn)確率(76.89%)。
這證實(shí)了內(nèi)源性獎(jiǎng)勵(lì)不是一個(gè)固定的評(píng)估器,而是一個(gè)動(dòng)態(tài)的、可提示的評(píng)判器,繼承了基礎(chǔ)大型語言模型強(qiáng)大的指令遵循能力。
通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自我提升(Q3)
最后,本評(píng)估測(cè)試了定理 2 中的核心理論主張:帶有內(nèi)源性獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)可以通過減輕復(fù)合誤差來改進(jìn)基礎(chǔ)策略。
本評(píng)估在 MATH-lighteval 數(shù)據(jù)集上通過強(qiáng)化學(xué)習(xí)對(duì)基礎(chǔ)模型 Qwen2.5-Math-7B 進(jìn)行訓(xùn)練。內(nèi)源性獎(jiǎng)勵(lì)模型同樣是 Qwen2.5-Math-7B,在策略學(xué)習(xí)期間其參數(shù)保持固定。提示和響應(yīng)的最大長(zhǎng)度均設(shè)為 1024,KL 系數(shù)設(shè)為 0.01。
表 3 中的結(jié)果表明,帶有內(nèi)源性獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)微調(diào)有助于模型在所有五個(gè)基準(zhǔn)測(cè)試中一致地優(yōu)于基礎(chǔ)模型。
本評(píng)估還在附錄 E 中給出了模型在強(qiáng)化學(xué)習(xí)前后的響應(yīng)示例,從中可以看出,對(duì)于同一個(gè)問題,在基于內(nèi)源性獎(jiǎng)勵(lì)進(jìn)行優(yōu)化之前,模型無法解決問題,并且隨著響應(yīng)的進(jìn)行開始胡言亂語,甚至輸出 Python 代碼。
相比之下,本評(píng)估的方法提供了一個(gè)清晰簡(jiǎn)潔的解決方案。
了解更多內(nèi)容,請(qǐng)參考原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.