99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

為什么用錯獎勵模型也能提分?新研究:模型學(xué)的不是新知識,是思維

0
分享至




本文主要作者是呂昂和謝若冰。呂昂,中國人民大學(xué)博士生,研究方向為語言模型結(jié)構(gòu)優(yōu)化,導(dǎo)師為嚴睿教授;謝若冰,騰訊高級研究員,研究方向為大語言模型、推薦系統(tǒng)。

最近的一篇論文中,來自人大和騰訊的研究者們的研究表明,語言模型對強化學(xué)習(xí)中的獎勵噪音具有魯棒性,即使翻轉(zhuǎn)相當(dāng)一部分的獎勵(例如,正確答案得 0 分,錯誤答案得 1 分),也不會顯著影響下游任務(wù)的表現(xiàn)。

研究者解釋道,強化學(xué)習(xí)對下游任務(wù)的提升,關(guān)鍵不僅在于獎勵的準確性,而更在于模型是否能夠產(chǎn)生高質(zhì)量的思考過程。僅通過獎勵模型輸出中關(guān)鍵思考詞的出現(xiàn)頻率,而非基于答案正確性的獎勵,語言模型依然能夠在下游任務(wù)中取得非常高的峰值表現(xiàn)。這表明,強化學(xué)習(xí)對下游任務(wù)的提升,更多來源于讓模型學(xué)會采用恰當(dāng)?shù)乃伎悸窂浇咏_答案。而相關(guān)的解題基礎(chǔ)能力,模型已在預(yù)訓(xùn)練階段獲得。因此,預(yù)訓(xùn)練階段的能力提升依然至關(guān)重要。

研究者還展示了基于思考模式的極簡獎勵如何有效校準獎勵模型,從而在開放性 NLP 任務(wù)中增強語言模型的表現(xiàn),并使較小的模型也能通過強化學(xué)習(xí)成功獲得思考能力。



  • 論文地址:https://huggingface.co/papers/2505.22653
  • 代碼鏈接:https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason

論文概覽

作者們首先研究了數(shù)學(xué)任務(wù)中獎勵噪音對語言模型的影響,因為數(shù)學(xué)任務(wù)使用簡單的規(guī)則校驗,根據(jù)答案的正確性進行獎勵,這使得人為控制獎勵噪音變得非常簡單(例如,通過將基于答案正確性的獎勵函數(shù)結(jié)果進行 p% 的反轉(zhuǎn),正確答案得 0 分,錯誤答案得 1 分),從而便于研究。在訓(xùn)練 Qwen-2.5-7B 模型時,實驗發(fā)現(xiàn)即使 p 值非常高,模型在下游任務(wù)中的表現(xiàn)幾乎沒有下降。只有當(dāng) p 值達到 50%(即完全隨機獎勵)時,訓(xùn)練效果才開始崩潰。這一現(xiàn)象引發(fā)了一個重要問題:為何即便模型給出錯誤答案并且得到獎勵,訓(xùn)練效果依然保持不變?



圖 1:使用不同程度獎勵反轉(zhuǎn)后的 Qwen-2.5-7B 在 MATH-500 數(shù)據(jù)集上的準確率變化,橫軸為訓(xùn)練步數(shù)。

針對這一現(xiàn)象,作者提出了一種可能的解釋:盡管答案錯誤,輸出中的某些信息依然為模型的輸出提供了獎勵的價值。研究者認為,這些有價值的信息反映在模型的思考過程上。當(dāng)模型生成諸如「First, I need to」,「second, I will」,「given these factors」,「finally」等思考模式時,無論最終答案是否正確,這一思考過程本身值得獎勵。

為了驗證這一假設(shè),作者統(tǒng)計了在沒有噪聲獎勵訓(xùn)練(即 p=0)的情況下,Qwen-2.5-7B 在數(shù)學(xué)任務(wù)中輸出的高頻思考關(guān)鍵詞,并設(shè)計了一種非常簡單的獎勵機制 ——Reasoning Pattern Reward(RPR)。每當(dāng)模型輸出包含這些高頻思考關(guān)鍵詞時,便根據(jù)出現(xiàn)頻次給予相應(yīng)獎勵,頻次越高,獎勵越大。



圖 2: RPR 示意

僅使用 RPR 機制,完全不考慮答案的正確性,Qwen-2.5-7B 仍然能夠在 MATH-500 數(shù)據(jù)集上將準確率從 5% 提升至 70% 以上。盡管在后續(xù)訓(xùn)練中準確率有所下降,作者通過案例研究指出,這一下降源于 RPR 使得模型在獲得正確答案后「過度思考」,從而導(dǎo)致輸出超長無法提取正確答案。作者承認,僅使用 RPR 而不使用其他答案校驗獎勵可能會被模型「hack」并產(chǎn)生問題,但他們強調(diào),此實驗的目的是證明思考模式在能力提升中的重要性,而非為了獲得最好的結(jié)果。

這一實驗表明,強化學(xué)習(xí)中,語言模型的提升主要源自輸出格式的轉(zhuǎn)變而非新知識的獲取:模型在 RL 期間采樣到具有良好思維模式的輸出,而這種思維模式能夠提高模型逐 token 接近正確答案的概率。

以上基于獎勵函數(shù)的實驗結(jié)果讓作者們意識到,這一發(fā)現(xiàn)也許對于基于獎勵模型(reward model)的強化學(xué)習(xí)后訓(xùn)練具有重要啟示:由于獎勵模型通常并不完美,輸出中往往會包含噪聲。如果語言模型能夠在開放性任務(wù)中保持對獎勵模型輸出噪聲的魯棒性,那么我們或許不必過于追求極度精準的獎勵模型,確保其「足夠好」即可。

為驗證這一點,作者在 Nvidia-HelpSteer3 數(shù)據(jù)集(一個多領(lǐng)域 AI 幫助性回復(fù)生成任務(wù))上進行了實驗。通過控制訓(xùn)練步數(shù),訓(xùn)練了不同準確率的獎勵模型,并用這些模型訓(xùn)練 Qwen-2.5-7B。作者認為獎勵模型的準確率與其提供的獎勵噪聲呈負相關(guān)關(guān)系,即獎勵模型準確率越高,獎勵噪聲越低。模型在測試集上輸出的回復(fù)由人類 + GPT-4o 判斷幫助性、信息度、與綜合質(zhì)量。



圖 3: 獎勵模型在 HelpSteer3 訓(xùn)練過程中,在驗證集上的準確率,作者選取不同訓(xùn)練步數(shù)的 checkpoint 作為獎勵模型進行訓(xùn)練。

實驗結(jié)果顯示,當(dāng)獎勵模型準確率超過 75% 時,不同獎勵模型訓(xùn)練得到的語言模型在下游任務(wù)中的主觀評測得分相似。這一現(xiàn)象與在數(shù)學(xué)任務(wù)中的觀察相符,表明語言模型能夠容忍一定程度的獎勵噪聲。然而,當(dāng)獎勵模型準確率低于 75% 時,訓(xùn)練效果顯著下降;當(dāng)準確率降至 65% 時,模型的表現(xiàn)大幅不如使用高準確率獎勵模型訓(xùn)練得到的結(jié)果。這也許指出了 Qwen-2.5-7B 在該任務(wù)上的噪聲耐受限度。



圖 4: 不同獎勵模型訓(xùn)練得到的語言模型在 HelpSteer3 任務(wù)中的主觀評測表現(xiàn)

這一發(fā)現(xiàn)或許對許多研究人員而言提供了慰藉:在很多應(yīng)用場景中,我們不必過分追求獎勵模型的高準確率,因為超過某個臨界點后,進一步提高獎勵模型的準確率對任務(wù)性能的提升將變得有限

作者們進一步思考,如果真的無法獲得「足夠好」的獎勵模型,如何增強現(xiàn)有獎勵模型以提升下游任務(wù)表現(xiàn)?

為此,作者提出通過 RPR 對獎勵模型進行校準:如果某個輸出被獎勵模型評為低分,但其思考模式較好(即 RPR 得分較高),那么這個低分可能是一個假陰性,應(yīng)該根據(jù)其思考模式通過 RPR 機制對獎勵模型的輸出進行補償。通過這種方式,作者在 HelpSteer3 任務(wù)中驗證了,即使獎勵模型的準確率為 65%,經(jīng)過 RPR 校準后,模型表現(xiàn)接近原本 85% 準確率的獎勵模型訓(xùn)練出的效果。同時,85% 準確率獎勵模型經(jīng)過校準后,模型在下游任務(wù)中的表現(xiàn)進一步增強,突破了作者們所擁有的獎勵模型質(zhì)量的限制。



圖 5: 經(jīng)過 RPR 校準后,所有獎勵模型訓(xùn)得的語言模型質(zhì)量都有提升。

作者們的另一個重要發(fā)現(xiàn)是,即便使用作者所擁有的最精確的獎勵模型(準確率 85%),Qwen-2.5-3B 在 HelpSteer3 任務(wù)上發(fā)生了訓(xùn)練崩潰,表現(xiàn)為輸出長度急劇下降,僅剩數(shù)十個 token。但經(jīng)過 RPR 校準后,3B 模型成功完成了訓(xùn)練,避免了崩潰并獲得了良好的效果,并且在很多復(fù)雜的開放任務(wù)中,比如根據(jù)指令做 PPT,呈現(xiàn)出良好的解題思路。



圖 6: 經(jīng)過 RPR 校準獎勵模型后,3B 的模型也可以在 HelpSteer 任務(wù)上成功訓(xùn)練;而使用未校準的獎勵模型,RL 發(fā)生了崩潰。

研究者們希望通過展示語言模型對基于結(jié)果的獎勵噪聲的魯棒性,以及單獨使用 RPR 獲得下游任務(wù)提升的結(jié)果,來強調(diào)強化學(xué)習(xí)對語言模型的影響更在于改變其輸出風(fēng)格,形成良好的思考模式,而非教授新知識

此外,思考模式的重要性在使用獎勵模型進行訓(xùn)練的開放性任務(wù)中得到了驗證,也為強化學(xué)習(xí)后訓(xùn)練算法的改進提供了新思路。

作者指出,模型預(yù)訓(xùn)練技術(shù)的增強仍然值得持續(xù)投入,因為如果強化學(xué)習(xí)只專注于思考模式的培養(yǎng),語言模型預(yù)訓(xùn)練階段的能力依然會對下游任務(wù)構(gòu)成瓶頸(例如文中對 Llama3 的實驗表明,由于 Llama3 預(yù)訓(xùn)練模型難以生成較高質(zhì)量的思考路徑,導(dǎo)致其在各個任務(wù)中的表現(xiàn)和抗噪音能力遠遜色于 Qwen 模型)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
新華社消息|美國加州州長要求撤回向洛杉磯部署國民警衛(wèi)隊命令

新華社消息|美國加州州長要求撤回向洛杉磯部署國民警衛(wèi)隊命令

新華社
2025-06-09 12:44:46
烏東告急,恐全部陷落了

烏東告急,恐全部陷落了

那山星火
2025-06-09 15:28:53
男籃亞冠最神奇逆襲!廣廈0勝躺著晉級8強:感謝韓國隊神助攻!

男籃亞冠最神奇逆襲!廣廈0勝躺著晉級8強:感謝韓國隊神助攻!

籃球快餐車
2025-06-09 05:37:58
兩個標(biāo)志性人物,一個自殺,一個被抓,預(yù)示著一個時代的結(jié)束

兩個標(biāo)志性人物,一個自殺,一個被抓,預(yù)示著一個時代的結(jié)束

貓眼觀史
2025-05-29 23:24:30
外交部拉美司副司長:中方從不認為拉美和加勒比地區(qū)是誰的“后院”,而是一片充滿活力的熱土

外交部拉美司副司長:中方從不認為拉美和加勒比地區(qū)是誰的“后院”,而是一片充滿活力的熱土

環(huán)球網(wǎng)資訊
2025-06-09 18:50:29
我被降薪開除后,立馬入職了隔壁,老板笑著說:怎么舍得開除你?

我被降薪開除后,立馬入職了隔壁,老板笑著說:怎么舍得開除你?

白云故事
2025-06-06 05:10:04
中越航空史上首次!中國南方航空與越南航空成立合資公司,8月1日正式啟動

中越航空史上首次!中國南方航空與越南航空成立合資公司,8月1日正式啟動

緬甸中文網(wǎng)
2025-06-09 15:12:43
萬萬沒想到,馬斯克的“星鏈”衛(wèi)星突然大批墜落!

萬萬沒想到,馬斯克的“星鏈”衛(wèi)星突然大批墜落!

史行途
2025-06-09 18:20:46
最新!烏襲擊俄軍用機場及一軍工廠,兩架俄戰(zhàn)機被擊中,軍工廠被迫停產(chǎn),俄外長:英國為烏克蘭對俄實施恐怖襲擊提供幫助

最新!烏襲擊俄軍用機場及一軍工廠,兩架俄戰(zhàn)機被擊中,軍工廠被迫停產(chǎn),俄外長:英國為烏克蘭對俄實施恐怖襲擊提供幫助

每日經(jīng)濟新聞
2025-06-09 21:40:23
加州州長:川普違法,還我軍團!

加州州長:川普違法,還我軍團!

寰宇大觀察
2025-06-09 19:54:29
軍事專家杜文龍:烏克蘭根本無還手余地,戰(zhàn)爭多久結(jié)束全取決于俄

軍事專家杜文龍:烏克蘭根本無還手余地,戰(zhàn)爭多久結(jié)束全取決于俄

阿龍聊軍事
2025-06-07 21:42:36
什么時候放暑假?一起來看2025深圳中小學(xué)生暑假安排

什么時候放暑假?一起來看2025深圳中小學(xué)生暑假安排

南方都市報
2025-06-09 16:37:20
通過今年的高考,能看出中國社會,有兩個方面發(fā)生了巨大的變化!

通過今年的高考,能看出中國社會,有兩個方面發(fā)生了巨大的變化!

小企鵝侃世界
2025-06-08 12:43:45
俄羅斯公布最新民調(diào)顯示,美國并非頭號敵人,中國也非最親密盟友

俄羅斯公布最新民調(diào)顯示,美國并非頭號敵人,中國也非最親密盟友

碳基生物關(guān)懷組織
2025-06-07 15:30:31
看好了,這才是7家大模型做高考數(shù)學(xué)題的真實分數(shù)。

看好了,這才是7家大模型做高考數(shù)學(xué)題的真實分數(shù)。

數(shù)字生命卡茲克
2025-06-09 09:05:00
短劇女頂流被曝:整容換臉、甩男友、耍大牌,內(nèi)娛這么好混?

短劇女頂流被曝:整容換臉、甩男友、耍大牌,內(nèi)娛這么好混?

老吳教育課堂
2025-06-09 08:34:12
阿爾卡拉斯豪取3000萬英鎊獎金卻獨鐘球鞋,拒奢華生活成網(wǎng)壇清流

阿爾卡拉斯豪取3000萬英鎊獎金卻獨鐘球鞋,拒奢華生活成網(wǎng)壇清流

體育妞世界
2025-06-09 05:21:26
馬來西亞15名學(xué)生在車輛相撞事故中身亡

馬來西亞15名學(xué)生在車輛相撞事故中身亡

澎湃新聞
2025-06-09 12:31:14
194:3極端投票,李在明清算開始:沒人愿保尹錫悅,死刑等著他

194:3極端投票,李在明清算開始:沒人愿保尹錫悅,死刑等著他

藍星特快
2025-06-09 15:30:04
阿爾茨海默病“神藥”已停產(chǎn),多地“斷貨”

阿爾茨海默病“神藥”已停產(chǎn),多地“斷貨”

21新健康
2025-06-09 20:13:10
2025-06-10 00:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10607文章數(shù) 142336關(guān)注度
往期回顧 全部

科技要聞

今年618平臺集體想通了,主打一個簡單粗暴

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰(zhàn)斗

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰(zhàn)斗

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經(jīng)要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態(tài)度原創(chuàng)

健康
旅游
藝術(shù)
教育
軍事航空

減重專家破解減肥九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

走進上海一年花費30萬的私立學(xué)校

軍事要聞

烏方稱俄發(fā)動沖突以來最大空襲

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 平山县| 安吉县| 乐至县| 巩义市| 新巴尔虎左旗| 邵阳县| 盘锦市| 祁门县| 辽源市| 洛扎县| 都兰县| 永登县| 华亭县| 久治县| 盘山县| 丰都县| 沁水县| 两当县| 南通市| 邮箱| 静海县| 左权县| 安徽省| 大冶市| 南安市| 芦溪县| 北安市| 岢岚县| 灵武市| 长沙县| 旅游| 三穗县| 北碚区| 中西区| 曲阜市| 泽州县| 集安市| 吉林省| 丰镇市| 滦南县| 麻江县|