99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

周志華團(tuán)隊(duì)新作:LLM中存在獎(jiǎng)勵(lì)模型,首次理論證明RL對(duì)LLM有效性

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

將大語言模型(LLMs)與復(fù)雜的人類價(jià)值觀對(duì)齊,仍然是 AI 面臨的一個(gè)核心挑戰(zhàn)。當(dāng)前主要的方法是基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。該流程依賴于一個(gè)通過人類偏好訓(xùn)練的獎(jiǎng)勵(lì)模型來對(duì)模型輸出進(jìn)行評(píng)分,最終對(duì)齊后的 LLM 的質(zhì)量在根本上取決于該獎(jiǎng)勵(lì)模型的質(zhì)量。

因此,創(chuàng)建一個(gè)先進(jìn)的獎(jiǎng)勵(lì)模型需要建立龐大且高質(zhì)量的人類偏好數(shù)據(jù)集,而這一過程通常既緩慢、昂貴,又難以擴(kuò)展。

這種對(duì)人類標(biāo)注數(shù)據(jù)的依賴促使研究者探索其他對(duì)齊方法。一個(gè)重要的研究方向是基于 AI 反饋的強(qiáng)化學(xué)習(xí)(RLAIF)。該方法利用強(qiáng)大的專有大語言模型生成獎(jiǎng)勵(lì)信號(hào)或偏好標(biāo)簽,從而規(guī)避人類標(biāo)注需求。雖然成本效益顯著,但這些方法缺乏嚴(yán)謹(jǐn)?shù)睦碚摶A(chǔ),且容易繼承評(píng)判模型本身的風(fēng)格偏差與固有偏見。這引發(fā)了一個(gè)關(guān)鍵問題:高質(zhì)量獎(jiǎng)勵(lì)信號(hào)是否必須依賴外部來源?

來自南京大學(xué)的研究者發(fā)現(xiàn),一個(gè)強(qiáng)大的通用獎(jiǎng)勵(lì)模型并非需要構(gòu)建,而是可以挖掘出來的, 因?yàn)樗呀?jīng)潛在地存在于通過標(biāo)準(zhǔn)的下一個(gè) Token 預(yù)測(cè)訓(xùn)練的任何語言模型中,稱之為「內(nèi)源性獎(jiǎng)勵(lì)(endogenous reward)」。

本文的核心貢獻(xiàn)是為這一觀點(diǎn)提供嚴(yán)格的理論基礎(chǔ)。本文證明了可以從標(biāo)準(zhǔn)的下一個(gè) Token 預(yù)測(cè)目標(biāo)中恢復(fù)出一種特定形式的離線逆強(qiáng)化學(xué)習(xí)(IRL)獎(jiǎng)勵(lì)函數(shù),該目標(biāo)用于預(yù)訓(xùn)練和監(jiān)督微調(diào)(SFT)。這一見解能夠超越啟發(fā)式方法,并建立一種原則性的方法,來引出語言模型在訓(xùn)練過程中隱式學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)。

具體來說,本文展示了語言模型的 logits 可以直接解釋為 soft Q 函數(shù),通過逆 soft 貝爾曼算子可以從中恢復(fù)出獎(jiǎng)勵(lì)函數(shù)。

至關(guān)重要的是,這一理論聯(lián)系不僅僅提供了一種獎(jiǎng)勵(lì)提取的方法。本文還證明了,使用模型自身的內(nèi)源性獎(jiǎng)勵(lì)進(jìn)行微調(diào)可以使策略在誤差界限上優(yōu)于基線模型。強(qiáng)化學(xué)習(xí)過程有效地修正了標(biāo)準(zhǔn)模仿學(xué)習(xí)(即下一個(gè) Token 預(yù)測(cè))中的累積誤差,將性能差距從任務(wù)視野的二次依賴關(guān)系 O (H2) 降低到優(yōu)越的線性關(guān)系 O (H)。

據(jù)了解,這是首次理論證明強(qiáng)化學(xué)習(xí)在 LLM 中的有效性。廣泛實(shí)驗(yàn)驗(yàn)證了這一理論,表明這種內(nèi)源性獎(jiǎng)勵(lì)不僅優(yōu)于現(xiàn)有的 LLM-as-a-judge 方法而且可以超越那些通過昂貴的人類標(biāo)注數(shù)據(jù)顯式訓(xùn)練的獎(jiǎng)勵(lì)模型的表現(xiàn)。



  • 論文標(biāo)題: GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS
  • 論文鏈接:https://arxiv.org/pdf/2506.23235

這篇論文提出了解決 LLM 的對(duì)齊問題,通過利用模型內(nèi)部的獎(jiǎng)勵(lì)機(jī)制,而不是依賴外部的人類反饋,這可能會(huì)改變未來 LLMs 的開發(fā)和應(yīng)用方式。

本文在實(shí)驗(yàn)中旨在評(píng)估以下核心問題:

Q1:在與啟發(fā)式基線方法和顯式訓(xùn)練的最新獎(jiǎng)勵(lì)模型對(duì)比時(shí),免訓(xùn)練內(nèi)源性獎(jiǎng)勵(lì)模型(EndoRM)在常見獎(jiǎng)勵(lì)模型基準(zhǔn)測(cè)試中的表現(xiàn)如何?

Q2:內(nèi)源性獎(jiǎng)勵(lì)是否具備強(qiáng)大的指令遵循能力,能否作為可通過提示詞調(diào)用的通用獎(jiǎng)勵(lì)模型?

Q3:基于內(nèi)源性獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)能否產(chǎn)生更優(yōu)策略,實(shí)現(xiàn)理論預(yù)測(cè)的自我改進(jìn)效果?

多樣偏好對(duì)上的獎(jiǎng)勵(lì)準(zhǔn)確率(Q1)

為回答 Q1,本研究通過預(yù)測(cè) RM-Bench 中被選中的回復(fù)來評(píng)估獎(jiǎng)勵(lì)模型性能。更高的準(zhǔn)確率意味著獎(jiǎng)勵(lì)質(zhì)量更優(yōu)。

由于本評(píng)估的方法無需訓(xùn)練,因此本評(píng)估將其與其他無需訓(xùn)練的方法進(jìn)行對(duì)比:生成式驗(yàn)證器(Generative Verifier)、GenRM-Pairwise 和 GenRM-Pointwise 。

所有基線方法及本評(píng)估的 EndoRM 均采用 Qwen2.5-7B-Instruct 作為基礎(chǔ)模型以確保公平比較。此外,本評(píng)估還列出了四個(gè)顯式訓(xùn)練的高性能獎(jiǎng)勵(lì)模型的結(jié)果作為參考。



表 1 中的結(jié)果顯示,EndoRM 不僅顯著優(yōu)于所有使用相同基礎(chǔ)模型的無需訓(xùn)練基線方法,還以更高的平均得分超越了最先進(jìn)的顯式訓(xùn)練獎(jiǎng)勵(lì)模型。

這一發(fā)現(xiàn)表明,EndoRM 相比依賴高成本偏好數(shù)據(jù)篩選和訓(xùn)練的獎(jiǎng)勵(lì)模型更具有效性。

圖 1 中進(jìn)一步展示了 Multifaceted-Bench 的實(shí)驗(yàn)結(jié)果,從中可以觀察到 EndoRM 在五個(gè)領(lǐng)域上始終優(yōu)于所有基線方法。考慮到 Multifaceted-Bench 中可能包含數(shù)以千計(jì)的偏好對(duì),這一結(jié)果證明了即使在任務(wù)復(fù)雜度和偏好多樣性增加的情況下,EndoRM 仍能實(shí)現(xiàn)可擴(kuò)展的魯棒性。

這一發(fā)現(xiàn)進(jìn)一步驗(yàn)證了本評(píng)估的核心假設(shè):強(qiáng)大的獎(jiǎng)勵(lì)信號(hào)已潛在存在于基礎(chǔ)模型之中。



驗(yàn)證指令遵循能力(Q2)

一個(gè)關(guān)鍵論點(diǎn)是內(nèi)源性獎(jiǎng)勵(lì)并非靜態(tài)的,而是可以通過提示來引導(dǎo)。

為驗(yàn)證這一點(diǎn),本文使用了 DSP 數(shù)據(jù)集,該數(shù)據(jù)集包含四個(gè)不同的領(lǐng)域。本評(píng)估通過將 DSP 論文中相應(yīng)的系統(tǒng)提示作為輸入,創(chuàng)建了四個(gè)特定領(lǐng)域的版本的內(nèi)源性獎(jiǎng)勵(lì)。

然后,本評(píng)估測(cè)試每個(gè)特定領(lǐng)域的內(nèi)源性獎(jiǎng)勵(lì)在所有四個(gè)測(cè)試集上的響應(yīng)分類準(zhǔn)確率。

表 2 中的結(jié)果顯示出強(qiáng)烈的對(duì)角模式:每個(gè) EndoRM 在其自身領(lǐng)域上表現(xiàn)最佳。例如,EndoRM-Academy 在學(xué)術(shù)數(shù)據(jù)上達(dá)到了其最高準(zhǔn)確率(76.89%)。

這證實(shí)了內(nèi)源性獎(jiǎng)勵(lì)不是一個(gè)固定的評(píng)估器,而是一個(gè)動(dòng)態(tài)的、可提示的評(píng)判器,繼承了基礎(chǔ)大型語言模型強(qiáng)大的指令遵循能力。



通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自我提升(Q3)

最后,本評(píng)估測(cè)試了定理 2 中的核心理論主張:帶有內(nèi)源性獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)可以通過減輕復(fù)合誤差來改進(jìn)基礎(chǔ)策略。

本評(píng)估在 MATH-lighteval 數(shù)據(jù)集上通過強(qiáng)化學(xué)習(xí)對(duì)基礎(chǔ)模型 Qwen2.5-Math-7B 進(jìn)行訓(xùn)練。內(nèi)源性獎(jiǎng)勵(lì)模型同樣是 Qwen2.5-Math-7B,在策略學(xué)習(xí)期間其參數(shù)保持固定。提示和響應(yīng)的最大長(zhǎng)度均設(shè)為 1024,KL 系數(shù)設(shè)為 0.01。

表 3 中的結(jié)果表明,帶有內(nèi)源性獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)微調(diào)有助于模型在所有五個(gè)基準(zhǔn)測(cè)試中一致地優(yōu)于基礎(chǔ)模型。

本評(píng)估還在附錄 E 中給出了模型在強(qiáng)化學(xué)習(xí)前后的響應(yīng)示例,從中可以看出,對(duì)于同一個(gè)問題,在基于內(nèi)源性獎(jiǎng)勵(lì)進(jìn)行優(yōu)化之前,模型無法解決問題,并且隨著響應(yīng)的進(jìn)行開始胡言亂語,甚至輸出 Python 代碼。

相比之下,本評(píng)估的方法提供了一個(gè)清晰簡(jiǎn)潔的解決方案。



了解更多內(nèi)容,請(qǐng)參考原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
哈工大招生被罵!冷門專業(yè)塞人提前批,學(xué)霸家長(zhǎng)怒了:玩不起!

哈工大招生被罵!冷門專業(yè)塞人提前批,學(xué)霸家長(zhǎng)怒了:玩不起!

鬼菜生活
2025-07-03 11:13:07
北京環(huán)球影城發(fā)生惡劣事件!

北京環(huán)球影城發(fā)生惡劣事件!

天津生活通
2025-07-03 12:19:28
伊朗前軍官說漏嘴,當(dāng)年有機(jī)會(huì)拿下100架殲-10,可魯哈尼要買陣風(fēng)

伊朗前軍官說漏嘴,當(dāng)年有機(jī)會(huì)拿下100架殲-10,可魯哈尼要買陣風(fēng)

大國觀察眼
2025-07-03 12:05:08
女子高考成績(jī)差清華1分,父親托關(guān)系查卷,看到卷上3字瞬間癱倒

女子高考成績(jī)差清華1分,父親托關(guān)系查卷,看到卷上3字瞬間癱倒

蘭姐說故事
2025-06-19 17:00:07
身價(jià)8000萬!西媒:皇馬前鋒被巴黎圣日耳曼列為重要引援目標(biāo)

身價(jià)8000萬!西媒:皇馬前鋒被巴黎圣日耳曼列為重要引援目標(biāo)

星耀國際足壇
2025-07-03 09:20:12
陳賡在總理房間翻抽屜,警衛(wèi)員喊來鄧大姐,陳咧嘴:我就找點(diǎn)吃的

陳賡在總理房間翻抽屜,警衛(wèi)員喊來鄧大姐,陳咧嘴:我就找點(diǎn)吃的

一只番茄魚
2025-07-03 16:21:12
結(jié)束13年巴薩生涯!馬卡:佩尼亞將離開西甲,已收到多份海外邀約

結(jié)束13年巴薩生涯!馬卡:佩尼亞將離開西甲,已收到多份海外邀約

直播吧
2025-07-03 18:52:12
一杯就醉,英國一網(wǎng)球教練發(fā)現(xiàn)酒量大不如前,結(jié)果查出皮膚癌

一杯就醉,英國一網(wǎng)球教練發(fā)現(xiàn)酒量大不如前,結(jié)果查出皮膚癌

瀟湘晨報(bào)
2025-07-03 10:03:26
香港被英國殖民156年,為何港人對(duì)英國沒有 “怨恨”?

香港被英國殖民156年,為何港人對(duì)英國沒有 “怨恨”?

詩意世界
2025-07-01 23:13:43
鹿晗濃妝艷抹越來越陰柔,怪不得關(guān)曉彤對(duì)他不感興趣

鹿晗濃妝艷抹越來越陰柔,怪不得關(guān)曉彤對(duì)他不感興趣

葡萄說娛
2025-07-02 11:37:14
“回歸舞臺(tái)”不到兩月,董卿突傳壞消息,這一次無關(guān)國籍無關(guān)丈夫

“回歸舞臺(tái)”不到兩月,董卿突傳壞消息,這一次無關(guān)國籍無關(guān)丈夫

振華觀史
2025-07-03 18:11:05
美眾議院通過支持臺(tái)灣加入IMF的法案 外交部回應(yīng)

美眾議院通過支持臺(tái)灣加入IMF的法案 外交部回應(yīng)

看看新聞Knews
2025-07-03 17:34:38
父親癡呆25年,突然念叨北京有300平四合院,兒女趕過去后愣住

父親癡呆25年,突然念叨北京有300平四合院,兒女趕過去后愣住

會(huì)一帆風(fēng)順的
2025-06-17 16:27:37
雷軍回應(yīng)“大定有水分”:SU7轉(zhuǎn)單數(shù)不足YU7總訂單的15%

雷軍回應(yīng)“大定有水分”:SU7轉(zhuǎn)單數(shù)不足YU7總訂單的15%

新京報(bào)
2025-07-02 23:40:12
我在印度生活幾個(gè)月,說真的,印度是我去過最讓人破防的國家。

我在印度生活幾個(gè)月,說真的,印度是我去過最讓人破防的國家。

侃侃兒談
2025-05-03 08:41:37
70班——C919創(chuàng)造單日運(yùn)行新記錄!

70班——C919創(chuàng)造單日運(yùn)行新記錄!

興史興談
2025-07-02 10:59:58
美一參議員要求調(diào)查特朗普與派拉蒙和解案

美一參議員要求調(diào)查特朗普與派拉蒙和解案

新華社
2025-07-03 18:14:14
卡西利亞:C羅曾給皇馬全體員工購買蘋果手機(jī),他簡(jiǎn)直像超人

卡西利亞:C羅曾給皇馬全體員工購買蘋果手機(jī),他簡(jiǎn)直像超人

雷速體育
2025-07-02 20:44:28
10小時(shí)發(fā)生60余次地震 日本政府召開緊急記者會(huì)

10小時(shí)發(fā)生60余次地震 日本政府召開緊急記者會(huì)

環(huán)球網(wǎng)資訊
2025-07-02 17:34:10
巴黎官方祝福迪馬利亞:祝你回家順利??

巴黎官方祝福迪馬利亞:祝你回家順利??

懂球帝
2025-07-03 08:59:23
2025-07-03 19:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10780文章數(shù) 142353關(guān)注度
往期回顧 全部

科技要聞

再不改飯碗都快沒了?百度搜索終于放大招

頭條要聞

特斯拉FSD在華難落地催生灰產(chǎn)鏈:山寨版安裝僅需幾百

頭條要聞

特斯拉FSD在華難落地催生灰產(chǎn)鏈:山寨版安裝僅需幾百

體育要聞

湖人得到艾頓,而沒有了艾頓的開拓者呢?

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財(cái)經(jīng)要聞

百億債務(wù)壓頂 風(fēng)流傳奇大佬全面"崩塌"

汽車要聞

比亞迪對(duì)旅行車出手!海豹06DM-i旅行版沖全球市場(chǎng)

態(tài)度原創(chuàng)

家居
時(shí)尚
手機(jī)
旅游
公開課

家居要聞

溫潤(rùn)質(zhì)感 生活如此明亮動(dòng)人

中年女人,無需追趕潮流,把優(yōu)雅與時(shí)髦融進(jìn)每一套日常搭配中

手機(jī)要聞

王騰探班吐魯番夏測(cè)現(xiàn)場(chǎng):K80至尊版高溫游戲表現(xiàn)本周揭曉

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 宿松县| 余干县| 开封市| 定边县| 吴堡县| 射阳县| 青河县| 罗源县| 石首市| 璧山县| 留坝县| 莫力| 兴安盟| 北海市| 伊宁市| 邻水| 龙岩市| 阜宁县| 阿坝县| 三明市| 吴旗县| 吉林市| 绥德县| 永济市| 安宁市| 静安区| 临洮县| 莱芜市| 泗洪县| 雷山县| 太仆寺旗| 手机| 青州市| 志丹县| 沙田区| 苍梧县| 磐石市| 大英县| 平湖市| 富民县| 陵川县|