數學推理能力作為衡量模型智能水平的關鍵指標,需對其進行全面公平的評估。然而,現有的 GSM8K、MATH 數學基準因覆蓋不足和易被數據污染飽受詬病,要么缺乏對本科水平數學問題的廣泛覆蓋,要么可能受到測試集的污染。
為了填補這些空白,來自香港科技大學的研究團隊近日發表在 ICLR 2025的最新研究 UGMathBench——首個針對本科數學的多元化動態評測體系,專為評估 LLM 在本科階段各類數學主題下的推理能力而設計。它提供了動態多樣的評估工具,首次將數學推理評測帶入「動態污染防控」時代,標志著 LLMs 數學推理評估從“淺層解題”邁向“深層理解”。
論文地址:https://arxiv.org/pdf/2501.13766
該基準測試已經與 AGI-Eval 大模型評測社區達成合作,可至社區查看 UGMathBench 的所有子集!
UGMathBench 與現有基準的區別
1.1 數據集深度
數學推理對于評估 LLM 的基本推理能力越來越重要,隨著現代 LLM 變得越來越強大,已有的基準測試對最新的 LLM 缺乏足夠的挑戰。在該領域現有數據集如 GSM8K(小學)、MATH(競賽),大多聚焦中小學或競賽數學,已逐漸被 LLM “攻克”,缺乏本科 level 的深度與廣度。
UGMathBench 包含更廣泛的主題、答案類型和測試示例,還有幾個跨模態數學相關的數據集,以填補本科數學評估的空白。與常用數學基準相比,UGMathBench 被證明更具挑戰性。例如,OpenAI-o1-mini 在 MATH 上 達到了94.8%的準確率,相比之下在 UGMathBench 上只達到了 56.3%。大多數開源 LLM(包括大多數專業的數學模型),在 UGMathBench 中都難以達到 30% 的 EAcc。
1.2 測試集污染
由于預訓練數據通常從網上抓取大型語料庫,任何靜態基準都有數據污染的“記憶風險”—— 模型可能通過訓練數據接觸過測試題。數學推理的基準測試數據出現在新模型的訓練集中,通過人為夸大性能,嚴重挑戰公平的 LLM 評估。
為了緩解這種情況,最近的基準測試有兩種解決方案:
一是維護私有測試集,要求希望評估其模型的人在排行榜發布結果之前提交預測以供集中處理,但這個過程可能效率低下,并且缺乏錯誤分析的透明度。其二是發布定期更新的動態基準。 UGMathBench 就是一個動態基準測試,通過設置不同的隨機種子來為變量提供不同的采樣值。
總之,UGMathBench 與其他數學基準的核心區別在于現有基準如 GSM8K(小學)、MATH(競賽)層次較低,為靜態基準,有數據污染的風險;UGMathBench 專注于本科數學推理,用動態隨機化題目檢測模型真實推理能力,其創新指標 EAcc 和 Δ 可有效衡量模型對變量擾動的真實推理能力,避免測試集污染。
UGMathBench 的設計
UGMathBench 的構建是從在線作業評分系統中精心收集、整理和格式化本科水平的數學問題,核心優勢體現在其全面性與動態性。
2.1 核心亮點
超全學科覆蓋:UGMathBench 涵蓋本科階段數學的 16 個核心學科領域,包括單變量微積分、多變量微積分、微分方程、概率等,從而有111 個細分主題及 583 個子主題,包含 5062 個問題。
答案類型多元:分為 8 種原子答案類型和 2 種復合答案類型,答案類型范圍從原子類型(例如,數值、表達式)到復合類型(例如,有序或無序列表中的多個答案),使 UGMathBench 與許多其他主要關注具有原子類型的單個答案的數學相關基準區分開來。
動態評估體系:每個問題包括 3 個隨機版本,未來計劃隨模型性能提升而增加版本數。通過變量擾動(如系數、邊界條件變化)創建多版本試題,確保模型依靠推理,進而真正理解階梯邏輯,而非依靠記憶生成答案。
2.2 關鍵指標
平均準確率(Acc):的準確率定義為模型在版本題集上的平均準確率,來評估該版本的平均性能。
魯棒效率(RE):Δ與EAcc的比值,表示為 RE=Δ/EAcc,反映推理差距的相對大小。
傳統準確率(Acc)難以揭示模型在問題變體中的穩定性。UGMathBench 引入兩項創新指標:
平均準確率(AAcc):定義為所有 Acc 的平均值,
有效準確率(EAcc):衡量模型在所有隨機化版本中均能正確解決問題的比例,量化真實推理。
公式:
若模型僅靠記憶特定數值,EAcc 會顯著低于單一版本準確率。
推理差距(Δ):計算平均準確率與有效準確率的差值。
公式:Δ=AAcc?EAcc,衡量模型在面對問題變體時的推理魯棒性,用來評估推理的穩健性,Δ=0表示完美魯棒性。
UGMathBench 的評估
研究團隊對 OpenAI、Meta、Anthropic 等機構的23 個 LLMs進行了全面測試,結果揭示當前模型的短板。參測模型共23個,含 4 個閉源模型(如 OpenAI-o1-mini、GPT-4o)和 19 個開源模型(如 LLaMA-3、Qwen2-Math)。
△UGMathBench 上的主要結果(所有數字均以 % 為單位)。模型根據其用途和來源分為三類。每列中的最佳結果以粗體顯示,類似參數大小組中開源 Chat LLM 的最佳結果以下劃線顯示。
3.1 推理的不穩定性
所有模型 Δ>10%,魯棒效率最高達 196.6%(DeepSeek-MOE-16B-Chat),當前模型對變量擾動敏感,在問題變體上的推理一致性不足。所有 LLM 在 UGMathBench 上都表現出極高的魯棒效率,值從 20.78% 到 196.6% 不等。在魯棒效率最低的 5 款車型中,其中 3 款來自 OpenAI (OpenAI-o1-mini:20.78%;GPT-4o:20.89%;Mistral-Large-Instruct:24.36%;Qwen2-Math-72B-Instruct:24.39%;GPT-4o-mini:27.87%)。這些結果指出了當前 LLM 的局限性,并敦促我們開發具有高有效準確率和 Δ=0 的 “大型推理模型”。
3.2 閉源與開源差距
在經研究團隊測試推出的榜單中,前 5 名有 4 個為閉源模型,OpenAI-o1-mini 在平均準確率 、i=1,2,3 和有效準確率中取得了最佳結果,有效準確率僅為56.3%,且 Δ 為 11.7%,表明其在約 1/5 的問題變體中出錯。
開源模型中, Qwen2-Math-72B-Instruct 表現最佳,有效準確率達到 45.85% ,接近 GPT-4o。然而,其仍與閉源模型存在顯著差距,與 OpenAI-o1-mini 相比,它的平均準確率降低了 10.97%,有效準確率降低了 10.45%。此外,超過一半的開源模型(19 個中的 10 個)的有效準確率小于 20%。
3.3 學科表現分化
算數、代數等基礎學科:LLM 在算術問題方面很有效,有效準確率達到 62.8%,模型表現相對較好。在代數上達到了58.3%。LLM 還擅長組合學和復分析(超過 30% 的平均 有效準確率)。
抽象代數、微分方程和金融數學:平均有效準確率不到 10%,抽象代數僅約 5%,凸顯高階概念推理的不足。這些領域需深度邏輯推導與領域知識整合,現有 LLMs 缺乏足夠訓練數據與結構化推理能力。
3.4 誤差類型分析
計算錯誤:(如數值積分誤差、矩陣運算錯誤)占比最高,反映模型在符號運算中的不穩定性。
推理不一致:同一問題的不同版本中,模型可能給出矛盾答案,其依賴表面特征而非深層邏輯。
UGMathBench 是一個多樣且動態的基準測試,它的發布旨在全面評估 LLMs 在本科生水平的數學推理能力,不僅提供了評估工具,還指明了研究方向。UGMathBench 僅支持文本問題,當前的 LLMs 在這一領域仍有很大的改進空間。
UGMathBench 未來預計開發多模態版本,支持多語言數學問題評估,以及更多學科的問題數量,以更貼近真實學術場景。開發“大型推理模型”,目標是實現高有效準確率(EAcc 接近 100%)和 Δ→0 的模型,探索模型自適應訓練以縮小推理差距,提升推理穩定性。優化評估代碼,結合更優的提示策略和模型架構改進,持續更新數據集以提升質量。
UGMathBench 基準既是一面鏡子,映照出當前 AI 的能力邊界,更如一把鑰匙,開啟通往更具魯棒性、可解釋性 AI 的大門。
UGMathBench 已開源評估代碼和數據集,期待學界利用這一工具,推動 LLMs 從“文字游戲”走向“真正的數學理解”!
GitHub:https://github.com/YangLabHKUST/UGMathBench
論文地址:https://arxiv.org/pdf/2501.13766
UGMathBench 評測集地址:https://agi-eval.cn/evaluation/detail?id=61
2025 全球產品經理大會
2025 年 8 月 15–16 日
北京·威斯汀酒店
2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.