99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

103K「硬核」題,讓大模型突破數學推理瓶頸

0
分享至



本文將介紹 DeepMath-103K 數據集。該工作由騰訊 AI Lab 與上海交通大學團隊共同完成。

本文的通訊作者為涂兆鵬,騰訊混元數字人專家研究員,研究方向為深度學習和大模型,在國際頂級期刊和會議上發表學術論文一百余篇,引用超過 10000 次,擔任 SCI 期刊 NeuroComputing 副主編,多次擔任 ACL、EMNLP、ICLR 等國際頂級會議領域主席。共同通訊作者王瑞,上海交通大學副教授,研究方向為計算語言學。第一作者為上海交通大學博士生何志威,騰訊 AI Lab 高級研究員梁添、徐嘉豪。

在 AGI 的浩瀚征途中,數學推理能力始終是衡量其智能水平的關鍵試金石。然而,當前大語言模型(LLM)在數學推理,特別是通過強化學習(RL)進行訓練時,正面臨著前所未有的數據瓶頸:現有數據集普遍缺乏挑戰性和新穎性、答案難以驗證,且常與評估基準存在 “污染” 問題。

為了解決以上問題,DeepMath-103K數據集橫空出世,它以其大規模、高難度、嚴格去污染和可驗證答案的特性,為 AI 數學推理領域帶來進一步突破。



  • 論文題目:DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning
  • 論文地址:https://arxiv.org/pdf/2504.11456
  • 數據地址:https://hf.co/datasets/zwhe99/DeepMath-103K
  • 模型地址:https://hf.co/collections/zwhe99/deepmath-6816e139b7f467f21a459a9a
  • 代碼地址:https://github.com/zwhe99/DeepMath

痛點:現有數據集為何 “拖后腿” ?

想象一下,你正在訓練一個 AI 數學家,但它手里的 “習題集” 卻有諸多缺陷:

  • 難度不夠:題目過于簡單,無法真正挑戰模型的推理極限。
  • 答案難驗:缺乏標準化、可驗證的答案格式,讓強化學習的獎勵機制無從下手。
  • 數據污染:訓練數據與測試基準存在重疊,無法真實反映能力。
  • 缺乏新意:大多是對現有資源的簡單重組,新穎性和多樣性嚴重不足。

這些問題,就像給 AI 數學家戴上了 “鐐銬”,即使模型架構再先進,也難以施展拳腳,更別提實現真正的 “深度思考” 和泛化能力。

DeepMath-103K:AI 數學推理的 “硬核” 解決方案

為了打破這些桎梏,DeepMath-103K 應運而生。它是一個包含約103,022 個數學問題的全新大規模數據集,專為通過強化學習訓練高級推理模型而設計。

1. 規模與難度:專為 “極限挑戰” 而生

DeepMath-103K 的顯著特點是其高難度。其中 95K 個問題被精心構造為難度等級 5-10,另有 8K 個來自 SimpleRL 的問題(難度等級 3-5)以確保更廣泛的難度覆蓋。這種難度分布明顯偏向高難度,旨在推動當前模型的推理極限,與現有其它數據集形成鮮明對比。



2. 數據新穎性:告別 “千篇一律”

與許多現有開放數據集不同,DeepMath-103K 主要從Math StackExchange等更多樣化但結構性較差的來源獲取內容。這種方法將非正式討論轉化為結構化問答,帶來了顯著的新穎性和多樣性。

在涵蓋的主題上,DeepMath-103K 包含了從基礎概念(如初等代數、平面幾何)到高級主題(如抽象代數、微積分、數論、幾何、概率、離散數學等)的廣泛數學領域 。這種分層且全面的主題覆蓋,確保了模型能夠接觸到不同復雜度、不同類型的數學問題,從而促進在不同數學領域中通用推理能力的發展。



對數據集內容的深入分析表明,DeepMath-103K 在問題新穎性和獨特性方面表現出壓倒性優勢。在對數據集的問題進行嵌入化,降維,可視化后,我們驚人地發現大多數數據集的問題分布極其雷同(藍色點簇)。而 DeepMath-103K 的問題(紅色點簇)則在空間中形成了一個與眾不同的分布。



進一步地,在總計約 103K 個問題中,高達 82.81K 個問題是獨一無二的,這意味著它們在其它數據集中從未出現過。



這直觀地表明,DeepMath-103K 的問題集合在語義和結構上與現有數據集存在顯著差異,避免了 “炒冷飯” 的問題,為模型提供了真正新穎的訓練樣本。

3. 嚴格去污染:確保評估 “純凈”

DeepMath-103K 的構建過程堪稱 “匠心獨運”,通過一個細致的四階段構造流程:



1.來源分析與收集:分析現有數據來源,選擇難題比例高的數據源。

2.數據去污染:使用嵌入相似性搜索和 LLM-Judge 來識別并消除與 MATH、AIME、AMC、Minerva Math、OlympiadBench 等 17 個數學和 STEM 基準的重疊,確保評估的完整性并防止數據泄露。



3.難度過濾:使用 GPT-4o 對問題進行難度評估,保留難度等級 5 或更高的問題。

4.答案驗證:采用兩階段流程,確保所有解決方案路徑中的最終答案一致且可驗證。

這個過程的計算成本極其高昂:約 138,000 美元的費用和127,000 小時的 H20 GPU時間 。這足以證明其在數據質量和純凈度上的巨大投入。

4. 獨特結構:為 RL 訓練 “量身定制”

DeepMath-103K 中的每條數據都包含豐富的信息,支持多種數學推理研究和應用 :

  • 問題:核心的數學問題陳述。
  • 最終答案:可靠且可驗證的最終答案,這對于在可驗證獎勵強化學習(RLVR)中基于規則的獎勵函數至關重要,是自動化評估和反饋的基礎。
  • 難度:數值難度標注,支持難度感知訓練。
  • 主題:分層主題分類,涵蓋從初等代數到抽象代數、微積分的廣泛數學主題。
  • R1 解決方案:由 DeepSeek-R1 模型生成的三種不同的推理路徑。這些多重解決方案對于監督微調和模型蒸餾等多種訓練范式都具有巨大價值。



DeepMath 系列模型在多個基準上達到 SOTA

  • Zero RL(從 Base model 直接開始 RL): DeepMath-Zero-7B 和 DeepMath-Zero-Math-7B 從 Qwen-2.5-7B 和 Qwen-2.5-Math-7B 模型開始訓練,表現出顯著的性能提升,并在所有評估基準上取得了新的 SOTA 結果。
  • RL(從 Instruct model 開始 RL):基于 R1-Distill-Qwen-1.5B 初始化的 DeepMath-1.5B 取得了優異的性能;從 OpenMath-Nemotron-1.5B 開始的 DeepMath-Omn-1.5B 在所有評估基準上都獲得了 1.5B 規模模型中新的 SOTA 結果,甚至超越了 o1-mini 和 o3-mini (low effort)。



可泛化的推理:從數學到科學的飛躍

DeepMath 系列模型展示了將其推理能力從純數學領域泛化到更廣泛的科學領域的顯著能力。與基線模型相比,它們在涵蓋生物學、物理學和化學的GPQA-Diamond 基準上取得了卓越的性能。這支持了強大的數學推理并非孤立技能,而是一種基礎性認知能力,支撐著更廣泛的科學和邏輯理解的假設。



結語

DeepMath-103K 的發布,無疑為人工智能數學推理領域形成了新的突破。它不僅解決了數據瓶頸問題,更通過其獨特的設計和卓越的性能,證明了精心構造的高質量訓練數據在推動 AI 前沿方面的深遠價值。我們期待,在 DeepMath-103K 的推動下,AI 能夠真正學會 “深度思考”,從數學的邏輯殿堂走向更廣闊的科學探索,最終邁向更強大、更具通用性、認知上更復雜的智能系統!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
趙一鳴零食店被搶后續:縣政府介入,店主曝光全過程,官方回應

趙一鳴零食店被搶后續:縣政府介入,店主曝光全過程,官方回應

鋭娛之樂
2025-06-20 20:32:56
被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

界史
2025-06-21 11:45:00
一位中產爸爸的怒吼:我寧愿我的孩子,回到傳統的應試教育時代

一位中產爸爸的怒吼:我寧愿我的孩子,回到傳統的應試教育時代

詩詞中國
2025-01-18 13:12:38
87年老婆考研上岸跟我離婚,我晉升為師長,轉業時在單位相遇

87年老婆考研上岸跟我離婚,我晉升為師長,轉業時在單位相遇

蕭竹輕語
2025-06-18 18:31:19
破冰失敗,中國拒絕給立陶宛好臉色,前總理炮轟現政府“瞎操作”

破冰失敗,中國拒絕給立陶宛好臉色,前總理炮轟現政府“瞎操作”

素年文史
2025-06-21 12:40:03
花1000元買一塊2TB硬盤:結果收到一整箱!總價值9000+

花1000元買一塊2TB硬盤:結果收到一整箱!總價值9000+

快科技
2025-06-20 11:23:13
闊太李念的Labubu,一個能換一套房?網友:送我都嫌占地方

闊太李念的Labubu,一個能換一套房?網友:送我都嫌占地方

聯友說娛
2025-06-21 14:21:52
評論“違規吃喝”,新華社更勝一籌

評論“違規吃喝”,新華社更勝一籌

海濤評論
2025-06-20 22:22:44
足協杯!2-1,49歲李霄鵬率隊晉級八強,羅森文、金永浩驚艷破門

足協杯!2-1,49歲李霄鵬率隊晉級八強,羅森文、金永浩驚艷破門

側身凌空斬
2025-06-21 21:30:33
馬英九再提“兩岸統一”,郭正亮妄批馬英九訪陸,蕭美琴再次變臉

馬英九再提“兩岸統一”,郭正亮妄批馬英九訪陸,蕭美琴再次變臉

阿紿聊社會
2025-06-21 11:33:39
伊朗丟制空權,以軍戰機狂炸,讓中國明白:解放軍武器布局走對路

伊朗丟制空權,以軍戰機狂炸,讓中國明白:解放軍武器布局走對路

胖福的小木屋
2025-06-20 23:48:20
特斯拉重大宣布:計劃再投資超500億元!大行警告......

特斯拉重大宣布:計劃再投資超500億元!大行警告......

每日經濟新聞
2025-06-21 14:29:07
汪峰評論區淪陷,被質疑用老套路追求寧靜,本人解釋牽手原因!

汪峰評論區淪陷,被質疑用老套路追求寧靜,本人解釋牽手原因!

古希臘掌管月桂的神
2025-06-20 13:36:25
達萬壓哨絕平!足協杯兩連殺,兩次破門兩次爭議,張玉寧錯失進球

達萬壓哨絕平!足協杯兩連殺,兩次破門兩次爭議,張玉寧錯失進球

奧拜爾
2025-06-21 21:05:05
以伊沖突,帶火中國軍備,而且是全套,全球軍火將是中美對決

以伊沖突,帶火中國軍備,而且是全套,全球軍火將是中美對決

柏銘銳談
2025-06-20 16:01:48
2024年A股上市公司高管薪酬排行榜:醫藥生物行業備受矚目

2024年A股上市公司高管薪酬排行榜:醫藥生物行業備受矚目

時代投研
2025-06-20 21:17:03
小伙子車內死亡,被曝內臟蒸熟,姐姐發出視頻,原來是幫鄰居出事

小伙子車內死亡,被曝內臟蒸熟,姐姐發出視頻,原來是幫鄰居出事

奇思妙想草葉君
2025-06-21 01:19:08
知名汽車巨頭崩盤!8年巨虧1099億,銷量暴跌90%,金主將撤資退場

知名汽車巨頭崩盤!8年巨虧1099億,銷量暴跌90%,金主將撤資退場

星光看娛樂
2025-06-20 10:35:27
周家斌,妄議黨中央大政方針、結交政治騙子、搞權色交易

周家斌,妄議黨中央大政方針、結交政治騙子、搞權色交易

政知新媒體
2025-06-20 19:25:24
“任何侵犯中國領空的外國飛機,直接擊落!”中方通報全球

“任何侵犯中國領空的外國飛機,直接擊落!”中方通報全球

科技處長
2025-06-20 22:14:57
2025-06-21 23:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

數碼
藝術
時尚
健康
軍事航空

數碼要聞

電視“鴻蒙”時刻?疑似搭載旗艦手機芯片,革新百年電視產業!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

天啊,凱特王妃都在準備葬禮了?

呼吸科專家破解呼吸道九大謠言!

軍事要聞

伊朗展示破壞力最強導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 海阳市| 武定县| 泾源县| 吉林市| 双辽市| 山西省| 凤翔县| 高州市| 年辖:市辖区| 红原县| 辉南县| 南城县| 内黄县| 大悟县| 广水市| 太白县| 莱芜市| 武宁县| 绍兴市| 穆棱市| 阳谷县| 凤台县| 慈溪市| 漳州市| 江源县| 剑川县| 繁昌县| 班戈县| 岑溪市| 梅河口市| 鄱阳县| 泽普县| 监利县| 富阳市| 保定市| 莎车县| 上栗县| 横山县| 新兴县| 库伦旗| 长顺县|