99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

從「記憶解題」到「深度推理」:港科大推出首個本科數學動態評測基準 UGMathBench

0
分享至

數學推理能力作為衡量模型智能水平的關鍵指標,需對其進行全面公平的評估。然而,現有的 GSM8K、MATH 數學基準因覆蓋不足和易被數據污染飽受詬病,要么缺乏對本科水平數學問題的廣泛覆蓋,要么可能受到測試集的污染。

為了填補這些空白,來自香港科技大學的研究團隊近日發表在 ICLR 2025的最新研究 UGMathBench——首個針對本科數學的多元化動態評測體系,專為評估 LLM 在本科階段各類數學主題下的推理能力而設計。它提供了動態多樣的評估工具,首次將數學推理評測帶入「動態污染防控」時代,標志著 LLMs 數學推理評估從“淺層解題”邁向“深層理解”。


論文地址:https://arxiv.org/pdf/2501.13766

該基準測試已經與 AGI-Eval 大模型評測社區達成合作,可至社區查看 UGMathBench 的所有子集!



UGMathBench 與現有基準的區別

1.1 數據集深度

數學推理對于評估 LLM 的基本推理能力越來越重要,隨著現代 LLM 變得越來越強大,已有的基準測試對最新的 LLM 缺乏足夠的挑戰。在該領域現有數據集如 GSM8K(小學)、MATH(競賽),大多聚焦中小學或競賽數學,已逐漸被 LLM “攻克”,缺乏本科 level 的深度與廣度

UGMathBench 包含更廣泛的主題、答案類型和測試示例,還有幾個跨模態數學相關的數據集,以填補本科數學評估的空白。與常用數學基準相比,UGMathBench 被證明更具挑戰性。例如,OpenAI-o1-mini 在 MATH 上 達到了94.8%的準確率,相比之下在 UGMathBench 上只達到了 56.3%。大多數開源 LLM(包括大多數專業的數學模型),在 UGMathBench 中都難以達到 30% 的 EAcc。

1.2 測試集污染

由于預訓練數據通常從網上抓取大型語料庫,任何靜態基準都有數據污染的“記憶風險”—— 模型可能通過訓練數據接觸過測試題。數學推理的基準測試數據出現在新模型的訓練集中,通過人為夸大性能,嚴重挑戰公平的 LLM 評估。

為了緩解這種情況,最近的基準測試有兩種解決方案:

一是維護私有測試集,要求希望評估其模型的人在排行榜發布結果之前提交預測以供集中處理,但這個過程可能效率低下,并且缺乏錯誤分析的透明度。其二是發布定期更新的動態基準。 UGMathBench 就是一個動態基準測試,通過設置不同的隨機種子來為變量提供不同的采樣值。

總之,UGMathBench 與其他數學基準的核心區別在于現有基準如 GSM8K(小學)、MATH(競賽)層次較低,為靜態基準,有數據污染的風險;UGMathBench 專注于本科數學推理,用動態隨機化題目檢測模型真實推理能力,其創新指標 EAcc 和 Δ 可有效衡量模型對變量擾動的真實推理能力,避免測試集污染。


UGMathBench 的設計

UGMathBench 的構建是從在線作業評分系統中精心收集、整理和格式化本科水平的數學問題,核心優勢體現在其全面性與動態性。

2.1 核心亮點

  • 超全學科覆蓋:UGMathBench 涵蓋本科階段數學的 16 個核心學科領域,包括單變量微積分、多變量微積分、微分方程、概率等,從而有111 個細分主題及 583 個子主題,包含 5062 個問題。

  • 答案類型多元:分為 8 種原子答案類型和 2 種復合答案類型,答案類型范圍從原子類型(例如,數值、表達式)到復合類型(例如,有序或無序列表中的多個答案),使 UGMathBench 與許多其他主要關注具有原子類型的單個答案的數學相關基準區分開來。

  • 動態評估體系:每個問題包括 3 個隨機版本,未來計劃隨模型性能提升而增加版本數。通過變量擾動(如系數、邊界條件變化)創建多版本試題,確保模型依靠推理,進而真正理解階梯邏輯,而非依靠記憶生成答案。


2.2 關鍵指標

平均準確率(Acc):的準確率定義為模型在版本題集上的平均準確率,來評估該版本的平均性能。

魯棒效率(RE):Δ與EAcc的比值,表示為 RE=Δ/EAcc,反映推理差距的相對大小。

傳統準確率(Acc)難以揭示模型在問題變體中的穩定性。UGMathBench 引入兩項創新指標:

  • 平均準確率(AAcc):定義為所有 Acc 的平均值,

  • 有效準確率(EAcc):衡量模型在所有隨機化版本中均能正確解決問題的比例,量化真實推理。

公式:


若模型僅靠記憶特定數值,EAcc 會顯著低于單一版本準確率。

  • 推理差距(Δ):計算平均準確率與有效準確率的差值。


公式:Δ=AAcc?EAcc,衡量模型在面對問題變體時的推理魯棒性,用來評估推理的穩健性,Δ=0表示完美魯棒性。


UGMathBench 的評估

研究團隊對 OpenAI、Meta、Anthropic 等機構的23 個 LLMs進行了全面測試,結果揭示當前模型的短板。參測模型共23個,含 4 個閉源模型(如 OpenAI-o1-mini、GPT-4o)和 19 個開源模型(如 LLaMA-3、Qwen2-Math)。



△UGMathBench 上的主要結果(所有數字均以 % 為單位)。模型根據其用途和來源分為三類。每列中的最佳結果以粗體顯示,類似參數大小組中開源 Chat LLM 的最佳結果以下劃線顯示。

3.1 推理的不穩定性

所有模型 Δ>10%,魯棒效率最高達 196.6%(DeepSeek-MOE-16B-Chat),當前模型對變量擾動敏感,在問題變體上的推理一致性不足。所有 LLM 在 UGMathBench 上都表現出極高的魯棒效率,值從 20.78% 到 196.6% 不等。在魯棒效率最低的 5 款車型中,其中 3 款來自 OpenAI (OpenAI-o1-mini:20.78%;GPT-4o:20.89%;Mistral-Large-Instruct:24.36%;Qwen2-Math-72B-Instruct:24.39%;GPT-4o-mini:27.87%)。這些結果指出了當前 LLM 的局限性,并敦促我們開發具有高有效準確率和 Δ=0 的 “大型推理模型”。

3.2 閉源與開源差距

在經研究團隊測試推出的榜單中,前 5 名有 4 個為閉源模型,OpenAI-o1-mini 在平均準確率 、i=1,2,3 和有效準確率中取得了最佳結果,有效準確率僅為56.3%,且 Δ 為 11.7%,表明其在約 1/5 的問題變體中出錯。

開源模型中, Qwen2-Math-72B-Instruct 表現最佳,有效準確率達到 45.85% ,接近 GPT-4o。然而,其仍與閉源模型存在顯著差距,與 OpenAI-o1-mini 相比,它的平均準確率降低了 10.97%,有效準確率降低了 10.45%。此外,超過一半的開源模型(19 個中的 10 個)的有效準確率小于 20%。

3.3 學科表現分化

算數、代數等基礎學科:LLM 在算術問題方面很有效,有效準確率達到 62.8%,模型表現相對較好。在代數上達到了58.3%。LLM 還擅長組合學和復分析(超過 30% 的平均 有效準確率)。

抽象代數、微分方程和金融數學:平均有效準確率不到 10%,抽象代數僅約 5%,凸顯高階概念推理的不足。這些領域需深度邏輯推導與領域知識整合,現有 LLMs 缺乏足夠訓練數據與結構化推理能力。


3.4 誤差類型分析

  • 計算錯誤:(如數值積分誤差、矩陣運算錯誤)占比最高,反映模型在符號運算中的不穩定性。

  • 推理不一致:同一問題的不同版本中,模型可能給出矛盾答案,其依賴表面特征而非深層邏輯。

UGMathBench 是一個多樣且動態的基準測試,它的發布旨在全面評估 LLMs 在本科生水平的數學推理能力,不僅提供了評估工具,還指明了研究方向。UGMathBench 僅支持文本問題,當前的 LLMs 在這一領域仍有很大的改進空間。

UGMathBench 未來預計開發多模態版本,支持多語言數學問題評估,以及更多學科的問題數量,以更貼近真實學術場景。開發“大型推理模型”,目標是實現高有效準確率(EAcc 接近 100%)和 Δ→0 的模型,探索模型自適應訓練以縮小推理差距,提升推理穩定性。優化評估代碼,結合更優的提示策略和模型架構改進,持續更新數據集以提升質量。

UGMathBench 基準既是一面鏡子,映照出當前 AI 的能力邊界,更如一把鑰匙,開啟通往更具魯棒性、可解釋性 AI 的大門。

UGMathBench 已開源評估代碼和數據集,期待學界利用這一工具,推動 LLMs 從“文字游戲”走向“真正的數學理解”!

  • GitHub:https://github.com/YangLabHKUST/UGMathBench

  • 論文地址:https://arxiv.org/pdf/2501.13766

  • UGMathBench 評測集地址:https://agi-eval.cn/evaluation/detail?id=61

2025 全球產品經理大會

2025 年 8 月 15–16 日

北京·威斯汀酒店

2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。

更多詳情與報名,請掃碼下方二維碼。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
194比3,彈劾案高票通過

194比3,彈劾案高票通過

傲骨真新
2025-06-09 12:44:54
“禁酒令”下達到地方層層加碼是否太過于形式主義了

“禁酒令”下達到地方層層加碼是否太過于形式主義了

娛樂圈見解說
2025-06-10 03:14:30
新戶存5萬以上送LABUBU盲盒 平安銀行多地分支行跟進 工作人員:是行里統一的 進貨渠道不清楚

新戶存5萬以上送LABUBU盲盒 平安銀行多地分支行跟進 工作人員:是行里統一的 進貨渠道不清楚

閃電新聞
2025-06-09 22:35:20
兩難抉擇!東莞一電子廠在越南設廠,動員員工前往,日補50-150元

兩難抉擇!東莞一電子廠在越南設廠,動員員工前往,日補50-150元

火山詩話
2025-06-10 12:20:49
小縣城的留守婦女,與 “性蕭條” 無關

小縣城的留守婦女,與 “性蕭條” 無關

英軍眼
2025-06-10 15:05:00
多地考生收到作弊記0分短信,回應來了!

多地考生收到作弊記0分短信,回應來了!

中國新聞周刊
2025-06-09 15:48:22
新 iPhone 外觀再次確認,新形態太絕了!

新 iPhone 外觀再次確認,新形態太絕了!

全是技能
2025-06-10 09:10:52
跑步穿“肉色”瑜伽褲:是展現身材,還是"運動羞恥"?

跑步穿“肉色”瑜伽褲:是展現身材,還是"運動羞恥"?

馬拉松跑步健身
2025-06-07 21:51:17
男性最“耗陽”行為,煙酒未上榜,排第一的,多數人不重視!

男性最“耗陽”行為,煙酒未上榜,排第一的,多數人不重視!

深度知局
2025-05-20 17:47:03
圖赫爾:利物浦和阿森納不參加世俱杯,下賽季將擁有巨大的優勢

圖赫爾:利物浦和阿森納不參加世俱杯,下賽季將擁有巨大的優勢

雷速體育
2025-06-10 15:44:23
男生高考后帶鮮花直奔媽媽墓地

男生高考后帶鮮花直奔媽媽墓地

觀威海
2025-06-10 14:44:27
三亞文旅評論區淪陷!被毒蛇咬女游客真因曝光,游客們都慌了

三亞文旅評論區淪陷!被毒蛇咬女游客真因曝光,游客們都慌了

慢看世界
2025-06-10 09:58:36
剛剛,以色列確認已將愛國者防空系統移交烏克蘭

剛剛,以色列確認已將愛國者防空系統移交烏克蘭

山河路口
2025-06-09 23:31:27
丁克20年,老公宣布小三的兒子繼承千萬財產,我沒鬧,只打了1個電話

丁克20年,老公宣布小三的兒子繼承千萬財產,我沒鬧,只打了1個電話

紅豆講堂
2025-05-23 10:47:09
心理學家發現:對親人暴躁,對外人客氣的人,多半是以下4種人

心理學家發現:對親人暴躁,對外人客氣的人,多半是以下4種人

第一心理
2025-06-06 17:04:12
勇士預計為庫明加提供790萬美元的資質報價,后者成為受限制自由球員

勇士預計為庫明加提供790萬美元的資質報價,后者成為受限制自由球員

懂球帝
2025-06-10 13:49:10
中國人,打起百倍精神盯緊這個比非洲鬣狗還要殘忍百倍的國家

中國人,打起百倍精神盯緊這個比非洲鬣狗還要殘忍百倍的國家

阿器談史
2025-06-09 07:40:17
一夜之間,“黃楊鈿甜父親”成了敏感詞

一夜之間,“黃楊鈿甜父親”成了敏感詞

末名先生
2025-06-09 14:37:37
下令活捉加州州長!70人特種部隊已悄然進入,特朗普要干票大的?

下令活捉加州州長!70人特種部隊已悄然進入,特朗普要干票大的?

大歪歪
2025-06-10 11:06:07
雷軍發聲:將啟動法律程序,追究造謠者法律責任!

雷軍發聲:將啟動法律程序,追究造謠者法律責任!

新京報
2025-06-10 13:22:17
2025-06-10 17:59:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2520文章數 7599關注度
往期回顧 全部

教育要聞

每位高考生:拿到檔案袋不能拆?。?/h3>

頭條要聞

71歲崔國潮被開除黨籍:挪用巨額公款 大搞家族式腐敗

頭條要聞

71歲崔國潮被開除黨籍:挪用巨額公款 大搞家族式腐敗

體育要聞

17歲攀上最高的山!亞馬爾身價 2年從0飆至2億歐

娛樂要聞

唐嫣卷入熱巴換角風波 只能給熱巴加戲

財經要聞

連續4個月提"漲工資",背后有何深意?

科技要聞

"液態玻璃"新皮膚,能挽救"AI差生"蘋果嗎

汽車要聞

預計售價25萬左右 小鵬G7將開啟全球首秀

態度原創

藝術
本地
親子
手機
健康

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

親子要聞

記住這幾點輕松戒掉尿不濕

手機要聞

WWDC25:蘋果系統迎來大一統時代

減重專家破解減肥九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 雅安市| 高阳县| 郯城县| 寿宁县| 综艺| 梅河口市| 永年县| 盐亭县| 上高县| 且末县| 丹凤县| 天全县| 林甸县| 沧州市| 万载县| 清涧县| 钦州市| 仁怀市| 西充县| 贵南县| 通州区| 巴彦淖尔市| 延边| 安溪县| 茂名市| 庆安县| 阳春市| 汶川县| 宝坻区| 钦州市| 德昌县| 桃园市| 关岭| 元氏县| 唐海县| 道孚县| 延安市| 斗六市| 和平区| 青田县| 东明县|