本文將介紹 DeepMath-103K 數據集。該工作由騰訊 AI Lab 與上海交通大學團隊共同完成。
本文的通訊作者為涂兆鵬,騰訊混元數字人專家研究員,研究方向為深度學習和大模型,在國際頂級期刊和會議上發表學術論文一百余篇,引用超過 10000 次,擔任 SCI 期刊 NeuroComputing 副主編,多次擔任 ACL、EMNLP、ICLR 等國際頂級會議領域主席。共同通訊作者王瑞,上海交通大學副教授,研究方向為計算語言學。第一作者為上海交通大學博士生何志威,騰訊 AI Lab 高級研究員梁添、徐嘉豪。
在 AGI 的浩瀚征途中,數學推理能力始終是衡量其智能水平的關鍵試金石。然而,當前大語言模型(LLM)在數學推理,特別是通過強化學習(RL)進行訓練時,正面臨著前所未有的數據瓶頸:現有數據集普遍缺乏挑戰性和新穎性、答案難以驗證,且常與評估基準存在 “污染” 問題。
為了解決以上問題,DeepMath-103K數據集橫空出世,它以其大規模、高難度、嚴格去污染和可驗證答案的特性,為 AI 數學推理領域帶來進一步突破。
- 論文題目:DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning
- 論文地址:https://arxiv.org/pdf/2504.11456
- 數據地址:https://hf.co/datasets/zwhe99/DeepMath-103K
- 模型地址:https://hf.co/collections/zwhe99/deepmath-6816e139b7f467f21a459a9a
- 代碼地址:https://github.com/zwhe99/DeepMath
痛點:現有數據集為何 “拖后腿” ?
想象一下,你正在訓練一個 AI 數學家,但它手里的 “習題集” 卻有諸多缺陷:
- 難度不夠:題目過于簡單,無法真正挑戰模型的推理極限。
- 答案難驗:缺乏標準化、可驗證的答案格式,讓強化學習的獎勵機制無從下手。
- 數據污染:訓練數據與測試基準存在重疊,無法真實反映能力。
- 缺乏新意:大多是對現有資源的簡單重組,新穎性和多樣性嚴重不足。
這些問題,就像給 AI 數學家戴上了 “鐐銬”,即使模型架構再先進,也難以施展拳腳,更別提實現真正的 “深度思考” 和泛化能力。
DeepMath-103K:AI 數學推理的 “硬核” 解決方案
為了打破這些桎梏,DeepMath-103K 應運而生。它是一個包含約103,022 個數學問題的全新大規模數據集,專為通過強化學習訓練高級推理模型而設計。
1. 規模與難度:專為 “極限挑戰” 而生
DeepMath-103K 的顯著特點是其高難度。其中 95K 個問題被精心構造為難度等級 5-10,另有 8K 個來自 SimpleRL 的問題(難度等級 3-5)以確保更廣泛的難度覆蓋。這種難度分布明顯偏向高難度,旨在推動當前模型的推理極限,與現有其它數據集形成鮮明對比。
2. 數據新穎性:告別 “千篇一律”
與許多現有開放數據集不同,DeepMath-103K 主要從Math StackExchange等更多樣化但結構性較差的來源獲取內容。這種方法將非正式討論轉化為結構化問答,帶來了顯著的新穎性和多樣性。
在涵蓋的主題上,DeepMath-103K 包含了從基礎概念(如初等代數、平面幾何)到高級主題(如抽象代數、微積分、數論、幾何、概率、離散數學等)的廣泛數學領域 。這種分層且全面的主題覆蓋,確保了模型能夠接觸到不同復雜度、不同類型的數學問題,從而促進在不同數學領域中通用推理能力的發展。
對數據集內容的深入分析表明,DeepMath-103K 在問題新穎性和獨特性方面表現出壓倒性優勢。在對數據集的問題進行嵌入化,降維,可視化后,我們驚人地發現大多數數據集的問題分布極其雷同(藍色點簇)。而 DeepMath-103K 的問題(紅色點簇)則在空間中形成了一個與眾不同的分布。
進一步地,在總計約 103K 個問題中,高達 82.81K 個問題是獨一無二的,這意味著它們在其它數據集中從未出現過。
這直觀地表明,DeepMath-103K 的問題集合在語義和結構上與現有數據集存在顯著差異,避免了 “炒冷飯” 的問題,為模型提供了真正新穎的訓練樣本。
3. 嚴格去污染:確保評估 “純凈”
DeepMath-103K 的構建過程堪稱 “匠心獨運”,通過一個細致的四階段構造流程:
1.來源分析與收集:分析現有數據來源,選擇難題比例高的數據源。
2.數據去污染:使用嵌入相似性搜索和 LLM-Judge 來識別并消除與 MATH、AIME、AMC、Minerva Math、OlympiadBench 等 17 個數學和 STEM 基準的重疊,確保評估的完整性并防止數據泄露。
3.難度過濾:使用 GPT-4o 對問題進行難度評估,保留難度等級 5 或更高的問題。
4.答案驗證:采用兩階段流程,確保所有解決方案路徑中的最終答案一致且可驗證。
這個過程的計算成本極其高昂:約 138,000 美元的費用和127,000 小時的 H20 GPU時間 。這足以證明其在數據質量和純凈度上的巨大投入。
4. 獨特結構:為 RL 訓練 “量身定制”
DeepMath-103K 中的每條數據都包含豐富的信息,支持多種數學推理研究和應用 :
- 問題:核心的數學問題陳述。
- 最終答案:可靠且可驗證的最終答案,這對于在可驗證獎勵強化學習(RLVR)中基于規則的獎勵函數至關重要,是自動化評估和反饋的基礎。
- 難度:數值難度標注,支持難度感知訓練。
- 主題:分層主題分類,涵蓋從初等代數到抽象代數、微積分的廣泛數學主題。
- R1 解決方案:由 DeepSeek-R1 模型生成的三種不同的推理路徑。這些多重解決方案對于監督微調和模型蒸餾等多種訓練范式都具有巨大價值。
DeepMath 系列模型在多個基準上達到 SOTA
- Zero RL(從 Base model 直接開始 RL): DeepMath-Zero-7B 和 DeepMath-Zero-Math-7B 從 Qwen-2.5-7B 和 Qwen-2.5-Math-7B 模型開始訓練,表現出顯著的性能提升,并在所有評估基準上取得了新的 SOTA 結果。
- RL(從 Instruct model 開始 RL):基于 R1-Distill-Qwen-1.5B 初始化的 DeepMath-1.5B 取得了優異的性能;從 OpenMath-Nemotron-1.5B 開始的 DeepMath-Omn-1.5B 在所有評估基準上都獲得了 1.5B 規模模型中新的 SOTA 結果,甚至超越了 o1-mini 和 o3-mini (low effort)。
可泛化的推理:從數學到科學的飛躍
DeepMath 系列模型展示了將其推理能力從純數學領域泛化到更廣泛的科學領域的顯著能力。與基線模型相比,它們在涵蓋生物學、物理學和化學的GPQA-Diamond 基準上取得了卓越的性能。這支持了強大的數學推理并非孤立技能,而是一種基礎性認知能力,支撐著更廣泛的科學和邏輯理解的假設。
結語
DeepMath-103K 的發布,無疑為人工智能數學推理領域形成了新的突破。它不僅解決了數據瓶頸問題,更通過其獨特的設計和卓越的性能,證明了精心構造的高質量訓練數據在推動 AI 前沿方面的深遠價值。我們期待,在 DeepMath-103K 的推動下,AI 能夠真正學會 “深度思考”,從數學的邏輯殿堂走向更廣闊的科學探索,最終邁向更強大、更具通用性、認知上更復雜的智能系統!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.