本文主要作者是呂昂和謝若冰。呂昂,中國人民大學(xué)博士生,研究方向為語言模型結(jié)構(gòu)優(yōu)化,導(dǎo)師為嚴睿教授;謝若冰,騰訊高級研究員,研究方向為大語言模型、推薦系統(tǒng)。
最近的一篇論文中,來自人大和騰訊的研究者們的研究表明,語言模型對強化學(xué)習(xí)中的獎勵噪音具有魯棒性,即使翻轉(zhuǎn)相當(dāng)一部分的獎勵(例如,正確答案得 0 分,錯誤答案得 1 分),也不會顯著影響下游任務(wù)的表現(xiàn)。
研究者解釋道,強化學(xué)習(xí)對下游任務(wù)的提升,關(guān)鍵不僅在于獎勵的準確性,而更在于模型是否能夠產(chǎn)生高質(zhì)量的思考過程。僅通過獎勵模型輸出中關(guān)鍵思考詞的出現(xiàn)頻率,而非基于答案正確性的獎勵,語言模型依然能夠在下游任務(wù)中取得非常高的峰值表現(xiàn)。這表明,強化學(xué)習(xí)對下游任務(wù)的提升,更多來源于讓模型學(xué)會采用恰當(dāng)?shù)乃伎悸窂浇咏_答案。而相關(guān)的解題基礎(chǔ)能力,模型已在預(yù)訓(xùn)練階段獲得。因此,預(yù)訓(xùn)練階段的能力提升依然至關(guān)重要。
研究者還展示了基于思考模式的極簡獎勵如何有效校準獎勵模型,從而在開放性 NLP 任務(wù)中增強語言模型的表現(xiàn),并使較小的模型也能通過強化學(xué)習(xí)成功獲得思考能力。
- 論文地址:https://huggingface.co/papers/2505.22653
- 代碼鏈接:https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason
論文概覽
作者們首先研究了數(shù)學(xué)任務(wù)中獎勵噪音對語言模型的影響,因為數(shù)學(xué)任務(wù)使用簡單的規(guī)則校驗,根據(jù)答案的正確性進行獎勵,這使得人為控制獎勵噪音變得非常簡單(例如,通過將基于答案正確性的獎勵函數(shù)結(jié)果進行 p% 的反轉(zhuǎn),正確答案得 0 分,錯誤答案得 1 分),從而便于研究。在訓(xùn)練 Qwen-2.5-7B 模型時,實驗發(fā)現(xiàn)即使 p 值非常高,模型在下游任務(wù)中的表現(xiàn)幾乎沒有下降。只有當(dāng) p 值達到 50%(即完全隨機獎勵)時,訓(xùn)練效果才開始崩潰。這一現(xiàn)象引發(fā)了一個重要問題:為何即便模型給出錯誤答案并且得到獎勵,訓(xùn)練效果依然保持不變?
圖 1:使用不同程度獎勵反轉(zhuǎn)后的 Qwen-2.5-7B 在 MATH-500 數(shù)據(jù)集上的準確率變化,橫軸為訓(xùn)練步數(shù)。
針對這一現(xiàn)象,作者提出了一種可能的解釋:盡管答案錯誤,輸出中的某些信息依然為模型的輸出提供了獎勵的價值。研究者認為,這些有價值的信息反映在模型的思考過程上。當(dāng)模型生成諸如「First, I need to」,「second, I will」,「given these factors」,「finally」等思考模式時,無論最終答案是否正確,這一思考過程本身值得獎勵。
為了驗證這一假設(shè),作者統(tǒng)計了在沒有噪聲獎勵訓(xùn)練(即 p=0)的情況下,Qwen-2.5-7B 在數(shù)學(xué)任務(wù)中輸出的高頻思考關(guān)鍵詞,并設(shè)計了一種非常簡單的獎勵機制 ——Reasoning Pattern Reward(RPR)。每當(dāng)模型輸出包含這些高頻思考關(guān)鍵詞時,便根據(jù)出現(xiàn)頻次給予相應(yīng)獎勵,頻次越高,獎勵越大。
圖 2: RPR 示意
僅使用 RPR 機制,完全不考慮答案的正確性,Qwen-2.5-7B 仍然能夠在 MATH-500 數(shù)據(jù)集上將準確率從 5% 提升至 70% 以上。盡管在后續(xù)訓(xùn)練中準確率有所下降,作者通過案例研究指出,這一下降源于 RPR 使得模型在獲得正確答案后「過度思考」,從而導(dǎo)致輸出超長無法提取正確答案。作者承認,僅使用 RPR 而不使用其他答案校驗獎勵可能會被模型「hack」并產(chǎn)生問題,但他們強調(diào),此實驗的目的是證明思考模式在能力提升中的重要性,而非為了獲得最好的結(jié)果。
這一實驗表明,強化學(xué)習(xí)中,語言模型的提升主要源自輸出格式的轉(zhuǎn)變而非新知識的獲取:模型在 RL 期間采樣到具有良好思維模式的輸出,而這種思維模式能夠提高模型逐 token 接近正確答案的概率。
以上基于獎勵函數(shù)的實驗結(jié)果讓作者們意識到,這一發(fā)現(xiàn)也許對于基于獎勵模型(reward model)的強化學(xué)習(xí)后訓(xùn)練具有重要啟示:由于獎勵模型通常并不完美,輸出中往往會包含噪聲。如果語言模型能夠在開放性任務(wù)中保持對獎勵模型輸出噪聲的魯棒性,那么我們或許不必過于追求極度精準的獎勵模型,確保其「足夠好」即可。
為驗證這一點,作者在 Nvidia-HelpSteer3 數(shù)據(jù)集(一個多領(lǐng)域 AI 幫助性回復(fù)生成任務(wù))上進行了實驗。通過控制訓(xùn)練步數(shù),訓(xùn)練了不同準確率的獎勵模型,并用這些模型訓(xùn)練 Qwen-2.5-7B。作者認為獎勵模型的準確率與其提供的獎勵噪聲呈負相關(guān)關(guān)系,即獎勵模型準確率越高,獎勵噪聲越低。模型在測試集上輸出的回復(fù)由人類 + GPT-4o 判斷幫助性、信息度、與綜合質(zhì)量。
圖 3: 獎勵模型在 HelpSteer3 訓(xùn)練過程中,在驗證集上的準確率,作者選取不同訓(xùn)練步數(shù)的 checkpoint 作為獎勵模型進行訓(xùn)練。
實驗結(jié)果顯示,當(dāng)獎勵模型準確率超過 75% 時,不同獎勵模型訓(xùn)練得到的語言模型在下游任務(wù)中的主觀評測得分相似。這一現(xiàn)象與在數(shù)學(xué)任務(wù)中的觀察相符,表明語言模型能夠容忍一定程度的獎勵噪聲。然而,當(dāng)獎勵模型準確率低于 75% 時,訓(xùn)練效果顯著下降;當(dāng)準確率降至 65% 時,模型的表現(xiàn)大幅不如使用高準確率獎勵模型訓(xùn)練得到的結(jié)果。這也許指出了 Qwen-2.5-7B 在該任務(wù)上的噪聲耐受限度。
圖 4: 不同獎勵模型訓(xùn)練得到的語言模型在 HelpSteer3 任務(wù)中的主觀評測表現(xiàn)
這一發(fā)現(xiàn)或許對許多研究人員而言提供了慰藉:在很多應(yīng)用場景中,我們不必過分追求獎勵模型的高準確率,因為超過某個臨界點后,進一步提高獎勵模型的準確率對任務(wù)性能的提升將變得有限
作者們進一步思考,如果真的無法獲得「足夠好」的獎勵模型,如何增強現(xiàn)有獎勵模型以提升下游任務(wù)表現(xiàn)?
為此,作者提出通過 RPR 對獎勵模型進行校準:如果某個輸出被獎勵模型評為低分,但其思考模式較好(即 RPR 得分較高),那么這個低分可能是一個假陰性,應(yīng)該根據(jù)其思考模式通過 RPR 機制對獎勵模型的輸出進行補償。通過這種方式,作者在 HelpSteer3 任務(wù)中驗證了,即使獎勵模型的準確率為 65%,經(jīng)過 RPR 校準后,模型表現(xiàn)接近原本 85% 準確率的獎勵模型訓(xùn)練出的效果。同時,85% 準確率獎勵模型經(jīng)過校準后,模型在下游任務(wù)中的表現(xiàn)進一步增強,突破了作者們所擁有的獎勵模型質(zhì)量的限制。
圖 5: 經(jīng)過 RPR 校準后,所有獎勵模型訓(xùn)得的語言模型質(zhì)量都有提升。
作者們的另一個重要發(fā)現(xiàn)是,即便使用作者所擁有的最精確的獎勵模型(準確率 85%),Qwen-2.5-3B 在 HelpSteer3 任務(wù)上發(fā)生了訓(xùn)練崩潰,表現(xiàn)為輸出長度急劇下降,僅剩數(shù)十個 token。但經(jīng)過 RPR 校準后,3B 模型成功完成了訓(xùn)練,避免了崩潰并獲得了良好的效果,并且在很多復(fù)雜的開放任務(wù)中,比如根據(jù)指令做 PPT,呈現(xiàn)出良好的解題思路。
圖 6: 經(jīng)過 RPR 校準獎勵模型后,3B 的模型也可以在 HelpSteer 任務(wù)上成功訓(xùn)練;而使用未校準的獎勵模型,RL 發(fā)生了崩潰。
研究者們希望通過展示語言模型對基于結(jié)果的獎勵噪聲的魯棒性,以及單獨使用 RPR 獲得下游任務(wù)提升的結(jié)果,來強調(diào)強化學(xué)習(xí)對語言模型的影響更在于改變其輸出風(fēng)格,形成良好的思考模式,而非教授新知識
此外,思考模式的重要性在使用獎勵模型進行訓(xùn)練的開放性任務(wù)中得到了驗證,也為強化學(xué)習(xí)后訓(xùn)練算法的改進提供了新思路。
作者指出,模型預(yù)訓(xùn)練技術(shù)的增強仍然值得持續(xù)投入,因為如果強化學(xué)習(xí)只專注于思考模式的培養(yǎng),語言模型預(yù)訓(xùn)練階段的能力依然會對下游任務(wù)構(gòu)成瓶頸(例如文中對 Llama3 的實驗表明,由于 Llama3 預(yù)訓(xùn)練模型難以生成較高質(zhì)量的思考路徑,導(dǎo)致其在各個任務(wù)中的表現(xiàn)和抗噪音能力遠遜色于 Qwen 模型)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.