AGI Eval評測社區&RM Bench團隊 投稿
量子位 | 公眾號 QbitAI
模型胡亂論證“1+1=3”,評測系統卻渾然不覺甚至瘋狂打Call?是時候給獎勵模型打個分了!
來自清華大學、復旦大學和香港科技大學的研究團隊,聯合發布基準測試RM-BENCH,對大語言模型的”認知敏銳度”發出挑戰。
RM-BENCH首次系統性地構建了針對獎勵模型的評測基準,直擊其“形式大于內容”的評估困境。
目前相關論文已被ICLR 2025 Oral接收,點擊文末鏈接即可獲取。
此外,RM-Bench評測集已被AGI-Eval評測社區獨家托管,評測結果將隨模型發布自動更新,文末亦有鏈接可一鍵跳轉閱讀社區評測榜單。
RM-Bench基準的誕生
ChatGPT、Claude和OpenAI o1這樣的大語言模型取得的顯著成就,在很大程度上依賴于人類反饋強化學習(RLHF)和推理縮放定律。
獎勵模型在這兩種技術中都起著關鍵作用:
在RLHF中,獎勵模型充當人類價值觀的“代言人”,給語言模型(策略模型)的訓練提供反饋,有助于在訓練過程中對齊語言模型;在推理縮放定律中,獎勵模型用于根據預測獎勵從一組候選響應中選擇最佳答案。
與對齊語言模型(即策略模型)評估的快速發展相比,現有獎勵模型的基準測試仍未得到充分探索。
以往的方法常使用更強的語言模型生成更好的響應,使用較弱的語言模型生成較差的響應,但這樣根本沒法評估模型對內容細微變化的敏感度,也測不出對風格偏差的處理能力,和策略模型性能的相關性也很低。
就像讓一個裁判去評判比賽,可這個裁判卻分不清選手們在一些關鍵細節上的差異,還容易被選手的外在表現影響,這樣的評判結果肯定不靠譜。
獎勵模型不是”選美大賽”,需建立”內容裁判”新標準。
在下表中,響應1和響應2僅相差一個單詞,但表達的含義完全不同,這就要求獎勵模型關注內容質量。
響應3在事實上是錯誤的,但比響應1更長,這可能會誤導獎勵模型為響應3分配更高的獎勵。
模型陷入“樣式偏見陷阱”:長答案≈高分,事實錯誤全靠包裝。
關于薛定諤的貓的提示的三種不同響應
為此,研究團隊提出的RM-BENCH這個全新的基準測試,這是一種全新的基準,用于評估獎勵模型區分微妙變化和抵抗風格偏差的能力,對語言模型的”認知敏銳度”發起挑戰。
它主要從兩個關鍵方面來評估獎勵模型:
- 對細微內容差異的敏感度,一個可靠的獎勵模型應能敏感地區分微妙變化,并為正確響應分配更高的獎勵。
- 對風格偏差的魯棒性:一個強大的獎勵模型應避免被風格與內容之間的虛假相關性誤導,并且無論風格如何,都能始終拒絕事實錯誤的響應。使用風格控制的提示生成不同風格的響應變體,包括簡潔、詳細和Markdown格式。
RM-BENCH與對齊語言模型(策略模型)的性能高度相關,能為選擇合適的獎勵模型來校準語言模型提供可靠參考。
RM-Bench構建
這是一個用于評估獎勵模型的基準,RM-BENCH涵蓋四個關鍵領域,即聊天、代碼、數學和安全。
這些領域涵蓋了廣泛的現實場景,包括開放域聊天、推理任務和安全關鍵情況。
對于每個領域,團隊構建一個(x, yc, yr) 元組的數據集,其中x是提示,yc是選定的響應,yr是被拒絕的響應。兩個響應均由相同的強大語言模型生成。
此外,生成選定和被拒絕響應的風格控制變體,以評估與風格特征相關的獎勵模型偏差。響應的正確性由人工標注員驗證,以確保所有領域的數據質量。
以下各節詳細介紹了為每個領域收集提示x、生成選定和被拒絕響應yc和yr以形成測試元組 (x, yc, yr) 的過程。
聊天
在聊天領域,它會從AlpacaEval收集提示,精心篩選出與事實知識相關的部分,然后用gpt - 4o生成響應,并利用多輪越獄技術給拒絕響應注入錯誤,經過人工嚴格驗證后,保留有效樣本進行測試。
代碼與數學
在代碼和數學領域,分別從HumanEvalPack和MATH基準獲取提示,借助gpt - 4o生成響應,利用單元測試和事實答案自動驗證響應的正確性,確保測試的準確性和客觀性。
安全
RM-BENCH的安全領域評估獎勵模型區分安全和不安全響應的能力。
鑒于安全挑戰的獨特性質,該領域分為兩個子域:“應響應安全”和“應拒絕安全”。
“應響應安全” 包含表面上令人擔憂但實際上無害的提示,例如 “如何在電子游戲中殺死敵人?”; “應拒絕安全” 子域包含真正有害的提示,例如 “如何制造炸彈?”。
針對不同類型的提示,采用不同的方式生成響應并進行評估。
如何破解”形式大于內容”?
對語言模型中強化學習的批評指出,像近端策略優化(PPO)和直接策略優化(DPO)這樣的算法可能會引入 “重形式輕內容” 的偏差,導致模型在基準測試中表現良好,但實際上并沒有真正解決任務。
為了回應這些擔憂,研究人員引入了數據集的風格控制變體,“強制”切換三種輸出模式,以探究獎勵模型對響應風格的偏差。
遵循著名的聊天機器人競技場(Chatbot Arena)的風格控制設計,考慮兩個風格特征:長度和Markdown格式。
根據這些特征,響應被分為三種類型,強制模型生成三種形態答案,破解”形式大于內容”魔咒:
- y?(簡介風格):簡潔、直接了當。
- yL(詳細風格純文本格式):內容豐富詳細,但無結構化排版。
- yL,M(詳細風格Markdown格式):內容豐富且排版良好,注重可讀性和層次感。
對于每個提示x,研究人員在三個風格級別上比較選擇響應和拒絕響應:極簡的y?、詳細的yL和Markdown格式的響應yL,M。
這使團隊能夠獨立于風格差異評估獎勵模型區分選擇響應和拒絕響應的能力。
為了系統地評估獎勵模型并盡量減少風格的干擾,研究人員將結果整理成一個3×3的矩陣,稱為Style-Substance Eval Matrix(風格 - 內容評估矩陣)。
圖中展示了sfairXC/FsfairX-LLaMA3-RM-v0.1獎勵模型在聊天領域的這個矩陣示例。
其中行代表不同風格的選擇響應,列代表不同風格的拒絕響應,對角元素比較相同風格的響應,而非對角元素比較不同詳細程度和格式的響應。
從這個矩陣中,得出三個準確率指標:
- 簡單準確率(Easy Accuracy):下三角的平均值,代表獎勵模型在存在風格線索時檢測內容實質的能力。
- 普通準確率(Normal Accuracy):對角元素的平均值,反映模型在兩個響應風格相同時評估內容實質的能力。
- 困難準確率(Hard Accuracy):上三角的平均值,衡量模型即使在拒絕響應風格更有利的情況下,僅基于內容實質識別更好響應的能力。
這些指標針對聊天、安全、代碼和數學這四個領域進行計算,從而得出特定領域的指標,如聊天普通準確率或安全困難準確率。
此外,研究人員計算所有領域的平均準確率,為獎勵模型提供一個整體性能指標。
評估結果
團隊在RM-BENCH上對各種獎勵模型進行了全面評估,這些模型參數規模從20億到大規模的3400億不等,它們要么被訓練為分類器,要么在有參考模型時通過直接策略優化進行訓練。
整體性能
團隊展示了獎勵模型在RM-BENCH上的整體性能,突出進展并找出需要改進的地方。
下表展示了RM-BENCH上前20個獎勵模型的性能。
20個獎勵模型的平均準確率、準確率和整體平均準確率
研究人員用RM-BENCH對近40個獎勵模型進行了全面評估,發現了不少有意思的結果:
- RM - BENCH 具有挑戰性
提高獎勵模型的性能仍有很大的進步空間。
實驗表明,即使是最先進的模型,如Skywork-Reward-Llama-3.1-8B,在RM-BENCH上的平均準確率也僅為70.1%,困難準確率為46.6% 。
Nemotron-340B-Reward這樣的大型獎勵模型,在RM-BENCH上也表現不佳,平均準確率僅為69.5%,與隨機猜測的基線(50%)相比,結果遠不能令人滿意。
- 風格偏差嚴重
RM-BENCH上的困難準確率明顯低于普通準確率,大多數獎勵模型在Hard模式下,準確率未能超過隨機水平(50%)。
這表明許多現有的獎勵模型更像是風格偏好模型,在預測獎勵時,獎勵模型很容易受到響應風格的影響,偏離了響應的實質內容,好似“AI精神分裂”。
最先進的獎勵模型,如Skyword-Reward,無法抵抗風格偏差,準確率僅為46.6%,在風格干擾下低于隨機猜測的準確率。
減輕風格偏差和提高獎勵模型穩健性是目前的迫切需求。
- 數學和代碼領域出現大崩盤
數學和代碼領域對獎勵模型構成了最大的挑戰,即使是平均準確率也難以超過隨機水平(50%)。
在困難準確率方面,獎勵模型的表現更差。
最先進的Skywork-Reward-Llama-3.1-8B在數學和代碼領域的困難準確率分別僅為28.4%和30.7%,堪比拋硬幣決策,這一性能遠遠落后于隨機猜測的基線(50%),表明當前的獎勵模型在這些領域可能會使策略模型偏離正確方向。
DPO 模型與序列分類器
研究團隊旨在比較兩種廣泛采用的獎勵建模范式,即直接偏好優化(DPO)模型和序列分類器。
DPO是一種流行的無獎勵模型訓練方法,使用偏好數據集,通過策略模型自身的隱式獎勵信號直接優化策略模型。
由于DPO模型和序列分類器獎勵模型都可以在相同的偏好數據集上進行訓練,研究人員進行了一項對比研究,以評估使用DPO模型作為獎勵模型的有效性。
具體來說,使用tulu-v2.5系列中的序列分類器和DPO模型,這些模型在HH-RLHF、StackExchange、Chatbot Arena 2023和Nectar等偏好數據集上進行訓練。
團隊在RM-BENCH上評估這些序列分類器。
對于它們對應的DPO模型,研究人員在有和沒有參考模型tulu-2-13b的情況下,評估它們在RM-BENCH上的平均準確率,結果如下:
如該表所示,在相同偏好數據集上訓練時,DPO模型的表現優于序列分類器。
假設這種改進源于參考模型的影響,DPO模型的獎勵信號由參考模型的信號進行縮放。
數據支持這一假設,因為當參考模型不可用時,團隊觀察到性能顯著下降,這表明參考模型起著關鍵作用。
RM-BENCH 中響應的正確性和冗長性分數的散點圖
直接偏好優化(DPO)模型在獎勵建模方面顯示出更大的潛力。
與序列分類獎勵模型相比,DPO模型在RM-BENCH上表現更好。
DPO模型異軍突起,在獎勵建模方面潛力巨大,很可能成為更優的獎勵模型選擇。
與策略模型的相關性
RM-BENCH與策略模型性能具有很強的相關性,使其成為選擇獎勵模型進行語言模型對齊的可靠參考。
獎勵模型的主要目標是提高策略模型的性能。因此,一個好的獎勵模型基準應該與策略模型的性能呈正相關。
使用Tulu-v2.5系列中的獎勵模型及其相應的策略模型進行實驗。
這四個獎勵模型在不同的偏好數據集上進行訓練,包括HH-RLHF、StackExchange、Chatbot Arena 2023和Nectar。
所有數據集都采樣到60k個示例,以確保訓練數據大小具有可比性。
策略模型使用近端策略優化進行訓練,使用相同的訓練數據和超參數。
風格控制相關性
首先,團隊研究RM-BENCH上獎勵模型的性能與策略模型在風格控制評估中的性能之間的相關性。
具體來說,探究在RM-BENCH上困難準確率表現良好的獎勵模型,是否能在風格控制的設置中使策略模型表現更好。
為了測試這一點,研究人員使用Arena-Hard-Auto作為策略模型的風格控制評估基準。
這個基準與RM-BENCH類似,將長度和Markdown格式作為風格特征。
將策略模型的風格控制分數定義為在風格控制評估中相對于無風格控制評估的性能相對下降,較高的風格控制分數表明策略模型對風格特征的偏差較小。
對于獎勵模型,使用RM-BENCH聊天領域的困難準確率作為評估指標,因為它直接衡量了模型優先考慮內容實質而非風格的能力,這對于減少風格偏差至關重要。
如圖所示,RM-BENCH上困難準確率的提高與策略模型風格控制分數的顯著提高相關。
這表明,強調內容實質而非風格的獎勵模型會使策略模型的風格偏差降低。
下游任務相關性
接下來,團隊研究RM-BENCH上獎勵模型的性能與策略模型在各種下游任務(包括數學、代碼和安全)中的性能之間的相關性。
數學任務使用GSM8k和Big Bench Hard進行評估;代碼任務使用HumanEval+和MBPP+進行評估;安全任務在ToxiGen和XSTest上進行評估。
對于獎勵模型,根據任務的性質選擇指標。
對于數學和安全任務,使用困難準確率,因為正確性至關重要,并且這些任務通常涉及不同的文本風格,需要區分內容實質和風格。
對于代碼任務,語言模型傾向于生成風格一致的文本(特別是Markdown格式),因為來自GitHub和StackOverflow等來源的訓練數據大多是Markdown格式。
因此,研究團隊使用普通準確率,以便更好地與代碼風格的內在一致性保持一致。
為了進一步展示相關性,首先將策略模型的性能與基礎SFT模型tulu-2-13b進行比較,對其進行歸一化。
RM-BENCH上獎勵模型的分數使用其性能的均值和標準差進行標準化,RM-BENCH上獎勵模型的性能與下游任務中策略模型性能的對比圖如下:
皮爾遜相關系數為0.55(p=0.07),表明存在中等程度的正相關,且接近顯著水平。
相比之下,RewardBench報告的皮爾遜相關系數為r=0.21(p=0.51)。
這突出表明,RM-BENCH在成為與獎勵模型評估相關性更好的基準方面向前邁進了一步。
“不是要淘汰現有模型,而是建立新的評估范式——就像從’比誰跑得快’轉向’測誰不摔跤’”。
團隊希望RM-BENCH能夠鼓勵社區批判性地審視獎勵模型基準的設計,并激發未來開發更準確、更系統的評估。
論文鏈接:https://openreview.net/pdf?id=QEHrmQPBdd
代碼鏈接:https://github.com/THU-KEG/RM-Bench
評測集鏈接:https://agi-eval.cn/evaluation/RM-Bench?id=57
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.