為什么用錯獎勵模型也能提分?新研究:模型學(xué)的不是新知識，是思維

2025-06-09 10:56:35　來源: 機器之心Pro

北京舉報

分享至

本文主要作者是呂昂和謝若冰。呂昂，中國人民大學(xué)博士生，研究方向為語言模型結(jié)構(gòu)優(yōu)化，導(dǎo)師為嚴睿教授；謝若冰，騰訊高級研究員，研究方向為大語言模型、推薦系統(tǒng)。

最近的一篇論文中，來自人大和騰訊的研究者們的研究表明，語言模型對強化學(xué)習(xí)中的獎勵噪音具有魯棒性，即使翻轉(zhuǎn)相當(dāng)一部分的獎勵（例如，正確答案得 0 分，錯誤答案得 1 分），也不會顯著影響下游任務(wù)的表現(xiàn)。

研究者解釋道，強化學(xué)習(xí)對下游任務(wù)的提升，關(guān)鍵不僅在于獎勵的準確性，而更在于模型是否能夠產(chǎn)生高質(zhì)量的思考過程。僅通過獎勵模型輸出中關(guān)鍵思考詞的出現(xiàn)頻率，而非基于答案正確性的獎勵，語言模型依然能夠在下游任務(wù)中取得非常高的峰值表現(xiàn)。這表明，強化學(xué)習(xí)對下游任務(wù)的提升，更多來源于讓模型學(xué)會采用恰當(dāng)?shù)乃伎悸窂浇咏_答案。而相關(guān)的解題基礎(chǔ)能力，模型已在預(yù)訓(xùn)練階段獲得。因此，預(yù)訓(xùn)練階段的能力提升依然至關(guān)重要。

研究者還展示了基于思考模式的極簡獎勵如何有效校準獎勵模型，從而在開放性 NLP 任務(wù)中增強語言模型的表現(xiàn)，并使較小的模型也能通過強化學(xué)習(xí)成功獲得思考能力。

論文地址：https://huggingface.co/papers/2505.22653
代碼鏈接：https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason

論文概覽

作者們首先研究了數(shù)學(xué)任務(wù)中獎勵噪音對語言模型的影響，因為數(shù)學(xué)任務(wù)使用簡單的規(guī)則校驗，根據(jù)答案的正確性進行獎勵，這使得人為控制獎勵噪音變得非常簡單（例如，通過將基于答案正確性的獎勵函數(shù)結(jié)果進行 p% 的反轉(zhuǎn)，正確答案得 0 分，錯誤答案得 1 分），從而便于研究。在訓(xùn)練 Qwen-2.5-7B 模型時，實驗發(fā)現(xiàn)即使 p 值非常高，模型在下游任務(wù)中的表現(xiàn)幾乎沒有下降。只有當(dāng) p 值達到 50%（即完全隨機獎勵）時，訓(xùn)練效果才開始崩潰。這一現(xiàn)象引發(fā)了一個重要問題：為何即便模型給出錯誤答案并且得到獎勵，訓(xùn)練效果依然保持不變？

圖 1：使用不同程度獎勵反轉(zhuǎn)后的 Qwen-2.5-7B 在 MATH-500 數(shù)據(jù)集上的準確率變化，橫軸為訓(xùn)練步數(shù)。

針對這一現(xiàn)象，作者提出了一種可能的解釋：盡管答案錯誤，輸出中的某些信息依然為模型的輸出提供了獎勵的價值。研究者認為，這些有價值的信息反映在模型的思考過程上。當(dāng)模型生成諸如「First, I need to」，「second, I will」，「given these factors」，「finally」等思考模式時，無論最終答案是否正確，這一思考過程本身值得獎勵。

為了驗證這一假設(shè)，作者統(tǒng)計了在沒有噪聲獎勵訓(xùn)練（即 p=0）的情況下，Qwen-2.5-7B 在數(shù)學(xué)任務(wù)中輸出的高頻思考關(guān)鍵詞，并設(shè)計了一種非常簡單的獎勵機制 ——Reasoning Pattern Reward（RPR）。每當(dāng)模型輸出包含這些高頻思考關(guān)鍵詞時，便根據(jù)出現(xiàn)頻次給予相應(yīng)獎勵，頻次越高，獎勵越大。

圖 2: RPR 示意

僅使用 RPR 機制，完全不考慮答案的正確性，Qwen-2.5-7B 仍然能夠在 MATH-500 數(shù)據(jù)集上將準確率從 5% 提升至 70% 以上。盡管在后續(xù)訓(xùn)練中準確率有所下降，作者通過案例研究指出，這一下降源于 RPR 使得模型在獲得正確答案后「過度思考」，從而導(dǎo)致輸出超長無法提取正確答案。作者承認，僅使用 RPR 而不使用其他答案校驗獎勵可能會被模型「hack」并產(chǎn)生問題，但他們強調(diào)，此實驗的目的是證明思考模式在能力提升中的重要性，而非為了獲得最好的結(jié)果。

這一實驗表明，強化學(xué)習(xí)中，語言模型的提升主要源自輸出格式的轉(zhuǎn)變而非新知識的獲取：模型在 RL 期間采樣到具有良好思維模式的輸出，而這種思維模式能夠提高模型逐 token 接近正確答案的概率。

以上基于獎勵函數(shù)的實驗結(jié)果讓作者們意識到，這一發(fā)現(xiàn)也許對于基于獎勵模型（reward model）的強化學(xué)習(xí)后訓(xùn)練具有重要啟示：由于獎勵模型通常并不完美，輸出中往往會包含噪聲。如果語言模型能夠在開放性任務(wù)中保持對獎勵模型輸出噪聲的魯棒性，那么我們或許不必過于追求極度精準的獎勵模型，確保其「足夠好」即可。

為驗證這一點，作者在 Nvidia-HelpSteer3 數(shù)據(jù)集（一個多領(lǐng)域 AI 幫助性回復(fù)生成任務(wù)）上進行了實驗。通過控制訓(xùn)練步數(shù)，訓(xùn)練了不同準確率的獎勵模型，并用這些模型訓(xùn)練 Qwen-2.5-7B。作者認為獎勵模型的準確率與其提供的獎勵噪聲呈負相關(guān)關(guān)系，即獎勵模型準確率越高，獎勵噪聲越低。模型在測試集上輸出的回復(fù)由人類 + GPT-4o 判斷幫助性、信息度、與綜合質(zhì)量。

圖 3: 獎勵模型在 HelpSteer3 訓(xùn)練過程中，在驗證集上的準確率，作者選取不同訓(xùn)練步數(shù)的 checkpoint 作為獎勵模型進行訓(xùn)練。

實驗結(jié)果顯示，當(dāng)獎勵模型準確率超過 75% 時，不同獎勵模型訓(xùn)練得到的語言模型在下游任務(wù)中的主觀評測得分相似。這一現(xiàn)象與在數(shù)學(xué)任務(wù)中的觀察相符，表明語言模型能夠容忍一定程度的獎勵噪聲。然而，當(dāng)獎勵模型準確率低于 75% 時，訓(xùn)練效果顯著下降；當(dāng)準確率降至 65% 時，模型的表現(xiàn)大幅不如使用高準確率獎勵模型訓(xùn)練得到的結(jié)果。這也許指出了 Qwen-2.5-7B 在該任務(wù)上的噪聲耐受限度。

圖 4: 不同獎勵模型訓(xùn)練得到的語言模型在 HelpSteer3 任務(wù)中的主觀評測表現(xiàn)

這一發(fā)現(xiàn)或許對許多研究人員而言提供了慰藉：在很多應(yīng)用場景中，我們不必過分追求獎勵模型的高準確率，因為超過某個臨界點后，進一步提高獎勵模型的準確率對任務(wù)性能的提升將變得有限

作者們進一步思考，如果真的無法獲得「足夠好」的獎勵模型，如何增強現(xiàn)有獎勵模型以提升下游任務(wù)表現(xiàn)？

為此，作者提出通過 RPR 對獎勵模型進行校準：如果某個輸出被獎勵模型評為低分，但其思考模式較好（即 RPR 得分較高），那么這個低分可能是一個假陰性，應(yīng)該根據(jù)其思考模式通過 RPR 機制對獎勵模型的輸出進行補償。通過這種方式，作者在 HelpSteer3 任務(wù)中驗證了，即使獎勵模型的準確率為 65%，經(jīng)過 RPR 校準后，模型表現(xiàn)接近原本 85% 準確率的獎勵模型訓(xùn)練出的效果。同時，85% 準確率獎勵模型經(jīng)過校準后，模型在下游任務(wù)中的表現(xiàn)進一步增強，突破了作者們所擁有的獎勵模型質(zhì)量的限制。

圖 5: 經(jīng)過 RPR 校準后，所有獎勵模型訓(xùn)得的語言模型質(zhì)量都有提升。

作者們的另一個重要發(fā)現(xiàn)是，即便使用作者所擁有的最精確的獎勵模型（準確率 85%），Qwen-2.5-3B 在 HelpSteer3 任務(wù)上發(fā)生了訓(xùn)練崩潰，表現(xiàn)為輸出長度急劇下降，僅剩數(shù)十個 token。但經(jīng)過 RPR 校準后，3B 模型成功完成了訓(xùn)練，避免了崩潰并獲得了良好的效果，并且在很多復(fù)雜的開放任務(wù)中，比如根據(jù)指令做 PPT，呈現(xiàn)出良好的解題思路。

圖 6: 經(jīng)過 RPR 校準獎勵模型后，3B 的模型也可以在 HelpSteer 任務(wù)上成功訓(xùn)練；而使用未校準的獎勵模型，RL 發(fā)生了崩潰。

研究者們希望通過展示語言模型對基于結(jié)果的獎勵噪聲的魯棒性，以及單獨使用 RPR 獲得下游任務(wù)提升的結(jié)果，來強調(diào)強化學(xué)習(xí)對語言模型的影響更在于改變其輸出風(fēng)格，形成良好的思考模式，而非教授新知識

此外，思考模式的重要性在使用獎勵模型進行訓(xùn)練的開放性任務(wù)中得到了驗證，也為強化學(xué)習(xí)后訓(xùn)練算法的改進提供了新思路。

作者指出，模型預(yù)訓(xùn)練技術(shù)的增強仍然值得持續(xù)投入，因為如果強化學(xué)習(xí)只專注于思考模式的培養(yǎng)，語言模型預(yù)訓(xùn)練階段的能力依然會對下游任務(wù)構(gòu)成瓶頸（例如文中對 Llama3 的實驗表明，由于 Llama3 預(yù)訓(xùn)練模型難以生成較高質(zhì)量的思考路徑，導(dǎo)致其在各個任務(wù)中的表現(xiàn)和抗噪音能力遠遜色于 Qwen 模型）。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.