99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

從「記憶解題」到「深度推理」:港科大推出首個本科數學動態評測基準 UGMathBench

0
分享至

數學推理能力作為衡量模型智能水平的關鍵指標,需對其進行全面公平的評估。然而,現有的 GSM8K、MATH 數學基準因覆蓋不足和易被數據污染飽受詬病,要么缺乏對本科水平數學問題的廣泛覆蓋,要么可能受到測試集的污染。

為了填補這些空白,來自香港科技大學的研究團隊近日發表在 ICLR 2025的最新研究 UGMathBench——首個針對本科數學的多元化動態評測體系,專為評估 LLM 在本科階段各類數學主題下的推理能力而設計。它提供了動態多樣的評估工具,首次將數學推理評測帶入「動態污染防控」時代,標志著 LLMs 數學推理評估從“淺層解題”邁向“深層理解”。


論文地址:https://arxiv.org/pdf/2501.13766

該基準測試已經與 AGI-Eval 大模型評測社區達成合作,可至社區查看 UGMathBench 的所有子集!



UGMathBench 與現有基準的區別

1.1 數據集深度

數學推理對于評估 LLM 的基本推理能力越來越重要,隨著現代 LLM 變得越來越強大,已有的基準測試對最新的 LLM 缺乏足夠的挑戰。在該領域現有數據集如 GSM8K(小學)、MATH(競賽),大多聚焦中小學或競賽數學,已逐漸被 LLM “攻克”,缺乏本科 level 的深度與廣度

UGMathBench 包含更廣泛的主題、答案類型和測試示例,還有幾個跨模態數學相關的數據集,以填補本科數學評估的空白。與常用數學基準相比,UGMathBench 被證明更具挑戰性。例如,OpenAI-o1-mini 在 MATH 上 達到了94.8%的準確率,相比之下在 UGMathBench 上只達到了 56.3%。大多數開源 LLM(包括大多數專業的數學模型),在 UGMathBench 中都難以達到 30% 的 EAcc。

1.2 測試集污染

由于預訓練數據通常從網上抓取大型語料庫,任何靜態基準都有數據污染的“記憶風險”—— 模型可能通過訓練數據接觸過測試題。數學推理的基準測試數據出現在新模型的訓練集中,通過人為夸大性能,嚴重挑戰公平的 LLM 評估。

為了緩解這種情況,最近的基準測試有兩種解決方案:

一是維護私有測試集,要求希望評估其模型的人在排行榜發布結果之前提交預測以供集中處理,但這個過程可能效率低下,并且缺乏錯誤分析的透明度。其二是發布定期更新的動態基準。 UGMathBench 就是一個動態基準測試,通過設置不同的隨機種子來為變量提供不同的采樣值。

總之,UGMathBench 與其他數學基準的核心區別在于現有基準如 GSM8K(小學)、MATH(競賽)層次較低,為靜態基準,有數據污染的風險;UGMathBench 專注于本科數學推理,用動態隨機化題目檢測模型真實推理能力,其創新指標 EAcc 和 Δ 可有效衡量模型對變量擾動的真實推理能力,避免測試集污染。


UGMathBench 的設計

UGMathBench 的構建是從在線作業評分系統中精心收集、整理和格式化本科水平的數學問題,核心優勢體現在其全面性與動態性。

2.1 核心亮點

  • 超全學科覆蓋:UGMathBench 涵蓋本科階段數學的 16 個核心學科領域,包括單變量微積分、多變量微積分、微分方程、概率等,從而有111 個細分主題及 583 個子主題,包含 5062 個問題。

  • 答案類型多元:分為 8 種原子答案類型和 2 種復合答案類型,答案類型范圍從原子類型(例如,數值、表達式)到復合類型(例如,有序或無序列表中的多個答案),使 UGMathBench 與許多其他主要關注具有原子類型的單個答案的數學相關基準區分開來。

  • 動態評估體系:每個問題包括 3 個隨機版本,未來計劃隨模型性能提升而增加版本數。通過變量擾動(如系數、邊界條件變化)創建多版本試題,確保模型依靠推理,進而真正理解階梯邏輯,而非依靠記憶生成答案。


2.2 關鍵指標

平均準確率(Acc):的準確率定義為模型在版本題集上的平均準確率,來評估該版本的平均性能。

魯棒效率(RE):Δ與EAcc的比值,表示為 RE=Δ/EAcc,反映推理差距的相對大小。

傳統準確率(Acc)難以揭示模型在問題變體中的穩定性。UGMathBench 引入兩項創新指標:

  • 平均準確率(AAcc):定義為所有 Acc 的平均值,

  • 有效準確率(EAcc):衡量模型在所有隨機化版本中均能正確解決問題的比例,量化真實推理。

公式:


若模型僅靠記憶特定數值,EAcc 會顯著低于單一版本準確率。

  • 推理差距(Δ):計算平均準確率與有效準確率的差值。


公式:Δ=AAcc?EAcc,衡量模型在面對問題變體時的推理魯棒性,用來評估推理的穩健性,Δ=0表示完美魯棒性。


UGMathBench 的評估

研究團隊對 OpenAI、Meta、Anthropic 等機構的23 個 LLMs進行了全面測試,結果揭示當前模型的短板。參測模型共23個,含 4 個閉源模型(如 OpenAI-o1-mini、GPT-4o)和 19 個開源模型(如 LLaMA-3、Qwen2-Math)。



△UGMathBench 上的主要結果(所有數字均以 % 為單位)。模型根據其用途和來源分為三類。每列中的最佳結果以粗體顯示,類似參數大小組中開源 Chat LLM 的最佳結果以下劃線顯示。

3.1 推理的不穩定性

所有模型 Δ>10%,魯棒效率最高達 196.6%(DeepSeek-MOE-16B-Chat),當前模型對變量擾動敏感,在問題變體上的推理一致性不足。所有 LLM 在 UGMathBench 上都表現出極高的魯棒效率,值從 20.78% 到 196.6% 不等。在魯棒效率最低的 5 款車型中,其中 3 款來自 OpenAI (OpenAI-o1-mini:20.78%;GPT-4o:20.89%;Mistral-Large-Instruct:24.36%;Qwen2-Math-72B-Instruct:24.39%;GPT-4o-mini:27.87%)。這些結果指出了當前 LLM 的局限性,并敦促我們開發具有高有效準確率和 Δ=0 的 “大型推理模型”。

3.2 閉源與開源差距

在經研究團隊測試推出的榜單中,前 5 名有 4 個為閉源模型,OpenAI-o1-mini 在平均準確率 、i=1,2,3 和有效準確率中取得了最佳結果,有效準確率僅為56.3%,且 Δ 為 11.7%,表明其在約 1/5 的問題變體中出錯。

開源模型中, Qwen2-Math-72B-Instruct 表現最佳,有效準確率達到 45.85% ,接近 GPT-4o。然而,其仍與閉源模型存在顯著差距,與 OpenAI-o1-mini 相比,它的平均準確率降低了 10.97%,有效準確率降低了 10.45%。此外,超過一半的開源模型(19 個中的 10 個)的有效準確率小于 20%。

3.3 學科表現分化

算數、代數等基礎學科:LLM 在算術問題方面很有效,有效準確率達到 62.8%,模型表現相對較好。在代數上達到了58.3%。LLM 還擅長組合學和復分析(超過 30% 的平均 有效準確率)。

抽象代數、微分方程和金融數學:平均有效準確率不到 10%,抽象代數僅約 5%,凸顯高階概念推理的不足。這些領域需深度邏輯推導與領域知識整合,現有 LLMs 缺乏足夠訓練數據與結構化推理能力。


3.4 誤差類型分析

  • 計算錯誤:(如數值積分誤差、矩陣運算錯誤)占比最高,反映模型在符號運算中的不穩定性。

  • 推理不一致:同一問題的不同版本中,模型可能給出矛盾答案,其依賴表面特征而非深層邏輯。

UGMathBench 是一個多樣且動態的基準測試,它的發布旨在全面評估 LLMs 在本科生水平的數學推理能力,不僅提供了評估工具,還指明了研究方向。UGMathBench 僅支持文本問題,當前的 LLMs 在這一領域仍有很大的改進空間。

UGMathBench 未來預計開發多模態版本,支持多語言數學問題評估,以及更多學科的問題數量,以更貼近真實學術場景。開發“大型推理模型”,目標是實現高有效準確率(EAcc 接近 100%)和 Δ→0 的模型,探索模型自適應訓練以縮小推理差距,提升推理穩定性。優化評估代碼,結合更優的提示策略和模型架構改進,持續更新數據集以提升質量。

UGMathBench 基準既是一面鏡子,映照出當前 AI 的能力邊界,更如一把鑰匙,開啟通往更具魯棒性、可解釋性 AI 的大門。

UGMathBench 已開源評估代碼和數據集,期待學界利用這一工具,推動 LLMs 從“文字游戲”走向“真正的數學理解”!

  • GitHub:https://github.com/YangLabHKUST/UGMathBench

  • 論文地址:https://arxiv.org/pdf/2501.13766

  • UGMathBench 評測集地址:https://agi-eval.cn/evaluation/detail?id=61

2025 全球產品經理大會

2025 年 8 月 15–16 日

北京·威斯汀酒店

2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。

更多詳情與報名,請掃碼下方二維碼。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
把觀眾當傻子?又丑又沒演技,這一次,沒有人會為她的作品買單

把觀眾當傻子?又丑又沒演技,這一次,沒有人會為她的作品買單

近史閣
2025-04-19 17:31:13
烏軍擊毀俄軍空降部隊駐地!大規模空襲庫爾斯克

烏軍擊毀俄軍空降部隊駐地!大規模空襲庫爾斯克

項鵬飛
2025-06-13 20:43:44
男大學生嫖娼時間太長,女子報警,律師:第21分鐘起算強奸

男大學生嫖娼時間太長,女子報警,律師:第21分鐘起算強奸

霹靂炮
2025-06-11 22:59:04
顛覆認知,一個真相終于揭曉,中國已經完全掌握制空權

顛覆認知,一個真相終于揭曉,中國已經完全掌握制空權

羅富強說
2025-06-13 18:10:14
你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

熱鬧的河馬
2025-01-02 17:35:17
36歲生日撒糖!杜海濤浪漫暴擊,999玫瑰全家陪伴,沈夢辰甜到齁

36歲生日撒糖!杜海濤浪漫暴擊,999玫瑰全家陪伴,沈夢辰甜到齁

一盅情懷
2025-06-14 13:09:02
伊朗的猛烈報復開始了,高超音速導彈痛打以色列,國防部大樓爆炸

伊朗的猛烈報復開始了,高超音速導彈痛打以色列,國防部大樓爆炸

大國紀錄
2025-06-14 14:12:56
德羅贊:我這輩子從未喝過酒 我想盡量延續我的籃球生涯

德羅贊:我這輩子從未喝過酒 我想盡量延續我的籃球生涯

直播吧
2025-06-14 07:45:12
澤連斯基擔心的事情發生了!俄羅斯給出先決條件

澤連斯基擔心的事情發生了!俄羅斯給出先決條件

王朝風云
2025-06-14 08:45:06
俄羅斯突遭晴天霹靂,“內鬼” 竟然就在身邊?普京徹底不忍了

俄羅斯突遭晴天霹靂,“內鬼” 竟然就在身邊?普京徹底不忍了

書房評天下
2025-06-13 18:00:02
反轉!14歲男孩被保安圍毆后續,真相曝光,不簡單,家長拒絕調解

反轉!14歲男孩被保安圍毆后續,真相曝光,不簡單,家長拒絕調解

史書無明
2025-06-14 08:56:28
有一說一,鄭欽文比王欣瑜更成功,主要有這兩方面原因!

有一說一,鄭欽文比王欣瑜更成功,主要有這兩方面原因!

田先生籃球
2025-06-03 21:30:01
孟子義李昀銳雙方發函鬧成這樣,還有二搭《尚公主》的機會嗎?

孟子義李昀銳雙方發函鬧成這樣,還有二搭《尚公主》的機會嗎?

陳意小可愛
2025-06-14 13:07:39
難以置信!某縣勞務派遣名單驚現985研究生,南開大學赫然上榜…

難以置信!某縣勞務派遣名單驚現985研究生,南開大學赫然上榜…

火山詩話
2025-06-12 19:10:44
重磅!各地高考分數線預測已出,分數線將會迎來“大滑坡”?

重磅!各地高考分數線預測已出,分數線將會迎來“大滑坡”?

米果說識
2025-06-13 20:55:03
足球報:沒必要讓安東尼奧兼任國足主帥,歷史上無一成功

足球報:沒必要讓安東尼奧兼任國足主帥,歷史上無一成功

直播吧
2025-06-14 11:28:07
導彈瞄準總統府,中國勸不住、美國攔不不住,中美同時發預警

導彈瞄準總統府,中國勸不住、美國攔不不住,中美同時發預警

不吃草de兔子
2025-06-09 19:27:15
伊朗正式退出與美國的核談判!特朗普:下一輪打擊更殘酷!以軍:伊朗革命衛隊空軍高層指揮系統已被擊垮

伊朗正式退出與美國的核談判!特朗普:下一輪打擊更殘酷!以軍:伊朗革命衛隊空軍高層指揮系統已被擊垮

每日經濟新聞
2025-06-13 21:40:28
大兒子布魯克林與貝克漢姆家人斷絕關系:“不想他們有任何聯系”

大兒子布魯克林與貝克漢姆家人斷絕關系:“不想他們有任何聯系”

陳意小可愛
2025-06-14 09:42:11
楊樂樂去表姐家做客,親自抱剛出生的寶寶,自稱46歲就當奶奶了

楊樂樂去表姐家做客,親自抱剛出生的寶寶,自稱46歲就當奶奶了

楊哥歷史
2025-06-14 13:13:33
2025-06-14 15:39:01
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2526文章數 7599關注度
往期回顧 全部

教育要聞

譚睿龍!向那山間的溫潤走去

頭條要聞

伊朗出手15分鐘內3次導彈齊射 被指計劃打擊美軍基地

頭條要聞

伊朗出手15分鐘內3次導彈齊射 被指計劃打擊美軍基地

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
教育
時尚
手機
本地

家居要聞

森林幾何 極簡灰調原木風

教育要聞

小學數學競賽題,班級上一半以上的同學不會做

時髦又清涼5組造型,夏天通勤穿剛好

手機要聞

6499元起!華為Pura 80 Pro/Pro+今日首銷:標配麒麟9020

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 资溪县| 余干县| 凤山市| 屯门区| 怀柔区| 从江县| 绥中县| 灵石县| 云梦县| 武冈市| 松原市| 义乌市| 科技| 新闻| 仙游县| 阜宁县| 天等县| 阿尔山市| 且末县| 襄垣县| 会理县| 珠海市| 阿克苏市| 察隅县| 新竹市| 鲁山县| 黄龙县| 宾阳县| 遂溪县| 定陶县| 垫江县| 渝中区| 裕民县| 清原| 蛟河市| 乐清市| 池州市| 台前县| 南康市| 长治县| 延吉市|