新智元報道
編輯:LRST
【新智元導讀】MMLU-CF是一個無污染的多任務語言理解基準測試,旨在更公平、準確地評估大語言模型的能力。通過去污染規則和閉源測試集防止數據泄露,確保評估結果可靠。該基準包含20,000道題目,涵蓋14個學科,驗證集公開透明,測試集閉源防泄露。
近年來,隨著大語言模型(LLM)的不斷進步,如何準確評估其能力已經成為研究的熱點問題。
諸如大規模多任務語言理解基準MMLU(Massive Multitask Language Understanding),在評估大語言模型中起到重要作用。
然而,由于開放源代碼和訓練數據的多樣性,現有基準測試難免存在數據污染問題,影響評估結果的可靠性。
為了提供更為準確、公平的評估,微軟亞洲研究院推出了MMLU-CF,它是基于公開數據源,經過去污染設計的大語言模型理解基準,并已在Huggingface上開放。
MMLU-CF是一個「無污染」的、更具挑戰性的多項選擇題基準數據集。
論文鏈接:https://arxiv.org/pdf/2412.15194
代碼鏈接:https://github.com/microsoft/MMLU-CF
數據連接:https://huggingface.co/datasets/microsoft/MMLU-CF
數據集包含20,000道題目,分為10,000道驗證集題目和10,000道測試集題目,其中驗證集開源,測試集閉源,涵蓋健康、數學、物理、商業、化學、哲學、法律、工程等14個學科領域。
MMLU-CF為大語言模型的評估提供了一個更加公平和可靠的基準,不僅幫助研究者準確理解模型的能力,也為未來模型優化提供了寶貴的數據支持。
MMLU-CF的貢獻
消除數據污染
傳統基準測試可能存在數據污染,影響評估的公正性。MMLU-CF通過引入三條去污染規則并擴展數據源,確保測試結果更可靠。
防止惡意數據泄露
研究人員將數據集分為驗證集和測試集,確保測試集保持閉源,避免數據泄漏引發的不公正結果。同時,驗證集開源以促進透明度,便于獨立驗證。
對比結果
評估結果顯示,OpenAI o1在MMLU-CF測試集上的5-shot得分為80.3%,顯著低于其在MMLU上取得的92.3%得分,表明了MMLU-CF基準的嚴格性。
圖1 主流大模型在MMLU-CF的測試集的5-shot得分表現
基準對比
MMLU與MMLU-Pro基準測試主要關注任務的廣度、推理能力和難度,但未考慮數據污染問題。
對于MMLU-CF,研究人員在數據收集時應用了去污染規則,確保避免數據泄露,同時將測試集保持閉源,防止惡意泄露。
以下是幾款主流模型在MMLU與MMLU-CF數據集上的表現與排名變化:
圖2 主流大模型在MMLU-CF和MMLU上的表現與排名
新的基準MMLU-CF擾亂了已評估的語言模型(LM)在MMLU上的性能排名。
排名前三的語言模型:OpenAI o1、Deepseek-R1和Deepseek-V3 ,保持了領先地位,排名沒有任何變化。
有趣的是,在顯著的排名變化(>=3位)中,排名下降的往往比上升的更為顯著。
平均而言,排名下降的語言模型下降了5.14位次,而排名上升的語言模型上升了3.78位次。
這種不對稱性表明,性能大幅下降比上升更容易,這可能是由于預訓練語料庫中的數據污染造成的。
與規模較大的語言模型相比,規模較小的語言模型在新的MMLU-CF基準測試中似乎更具破壞性。
測試集與驗證集的劃分
在MMLU-CF中,研究人員將數據集劃分為測試集和驗證集,并通過計算「絕對分數差異」評估模型的泛化能力。統計結果顯示,約60%的差異值小于0.5,96%的差異值低于1.0,表明測試集和驗證集的評估結果高度一致。
圖3 數據構建流程圖
MMLU-CF的數據構建包括以下幾個步驟:
1.題目收集:從廣泛的開放互聯網域收集問題,保證問題的多樣性。
2.題目清洗:確保收集到的問題質量高,適合用于評估。
3.難度采樣:確保問題的難度分布合理。
4.大模型檢查:使用GPT-4o、Gemini、Claude模型對數據的準確性和安全性進行檢查。
5.去污染處理:通過去污染處理,確保數據集的無污染性。
最終,MMLU-CF數據集分別包含了10,000道測試集域驗證集題目,同時測試集保持閉源,驗證集則公開以保證透明性。
去污染處理規則
為了避免無意中的污染并評估模型的推理和理解能力,研究人員采用了三條去污染規則:
?規則1:改寫問題,減少模型對已見數據的依賴。
?規則2:打亂選項,避免模型通過記憶選項順序做出正確答案。
?規則3:隨機替換選項,增加模型的推理難度。
圖4 去污染示例
這些規則有效減少了惡意和無意的泄漏風險,確保了數據集的「無污染」性。
參考資料:
https://arxiv.org/pdf/2412.15194
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.