網易首頁 > 網易號 > 正文申請入駐

「DeepSeek二代」來襲！數學暴擊o3，英偉達開源LLM登頂

2025-07-20 18:21:04　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導讀】基于Qwen2.5架構，采用DeepSeek-R1-0528生成數據，英偉達推出的OpenReasoning-Nemotron模型，以超強推理能力突破數學、科學、代碼任務，在多個基準測試中創下新紀錄！數學上，更是超越了o3!

開源模型王座再次易主？

昨天，英偉達開源了OpenReasoning-Nemotron：

在多個基準測試中，同規模模型無敵，取得了SOTA得分
專為數學、科學、代碼定制
提供四種參數規模：1.5B、7B、14B和32B，可在本地100%運行。

不過，這些模型還是「國產血統」：

架構基于Qwen2.5 ，SFT訓練使用的是DeepSeek-R1-0528生成的數據。

OpenReasoning-Nemotron是目前最強的蒸餾的推理模型。

以后，推理模型也有了強基線模型。

一張圖總結要點：

數學基準，超越o3

這次在參數高達671B的滿血DeepSeek-R1-0528蒸餾，在5M的數學、代碼和科學推理軌跡上訓練。

這次的模型不僅僅進行token預測，還實現了真正的推理能力。

核心貢獻者、英偉達研究科學家Igor Gitman介紹了這次的亮點。

與之前OpenMath/Code/Science發布時的提示集相同，這次只是更新了用于生成答案的R1模型，但改進幅度巨大！

而作為「教師」模型，新的R1模型表現出色！

而且這次沒有進行任何在線強化學習，只進行了有監督微調（SFT）。

未來應該可以通過進一步優化這些模型或使用更少的 token 獲得相似性能。

這些模型支持「重型」推理模式，可以「結合多個智能體的工作」。

為此，他們這次使用了。

使用GenSelect@64，在多個數學基準測試中超越了OpenAI o3（高算力版）。

還有另一個令人驚訝的結果：這些模型只是針對數學問題訓練了GenSelect算法，但它竟然也泛化到了代碼任務上！

32B模型的LCB得分從70.2（pass@1）提升到75.3（GenSelect@16）。

需要注意的是，這里沒有使用強化學習（RL），但仍然觀察到從數學到代碼的強大泛化能力！

意外的現象

首先澄清一點，這是一次「研究性質」模型發布，主要目標是驗證生成的新數據的價值，并探索僅通過監督微調（SFT）能將性能推到何種程度。

這次僅針對數學、代碼和科學推理任務訓練了模型，沒有進行指令微調或強化學習人類反饋（RLHF）。

雖然這些模型在解決推理任務時表現優異，但未經進一步訓練，它們可能無法勝任多輪對話或作為通用助手。

在一系列具有挑戰性的推理基準測試中，模型表現出色。

7B、14B和32B模型在各自規模類別下的創下了多項最先進紀錄。

現在，在開發這些模型時,還發現了兩點有趣的事情。

（1）參數規模影響巨大。

1.5B模型，實際上并沒有特別出色。例如，OpenMath-Nemotron-1.5B（我們之前的數學模型發布）在 AIME25 上得分為 49.5，而這個新模型得分為 45.6。

但是，7B（或更大的模型）進步就非常顯著。OpenMath-7B 模型的得分為 61.2，而 OpenReasoning-7B 的得分則達到了 78.2！

因此，1.5B 模型的表現稍微下滑了，但 7B 模型在使用相同數據進行訓練后提高了近 20%。

研究人員猜測可能是因為在處理較長上下文生成時，1.5B模型可能不太一致。

之前的數據集僅包含16K輸出token，但這次擴展到了32K，而1.5B模型無法保持推理的一致性。

（2）模型學會了兩種不同的行為。

在之前的 OpenMath 發布中，英偉達研究團隊也使用了TIR數據來幫助模型學習使用Python。

由于沒有時間用新的R1重新生成這些數據，他們決定將一些舊的 TIR 數據混入當前的訓練集中，看看會發生什么。

他們原本期望：在訓練過程中，模型仍然能夠學習如何使用 Python，同時保留來自新 CoT 樣本的更好推理。

然而，事實并非如此——如果你使用TIR模式來評估OpenReasoning模型，你會發現它們與OpenMath模型基本相同，這比帶有CoT的新模型要差得多。

從某種角度來看，模型學會了兩種不同的行為：一種是使用工具，但推理較差；另一種是不使用工具，但推理很強，兩者之間沒有有效的過渡。非常有趣的是，是否可以通過在TIR模式下應用在線強化學習（RL）來解決這個問題？

本地筆記可跑

如果筆記本電腦上運行，詳細信息如下：

模型鏈接：https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B

體驗鏈接：https://huggingface.co/spaces/Tonic/Nvidia-OpenReasoning

可以使用LM Studio免費運行它們：

下載適用于macOS、Windows或Linux的LM Studio
在搜索標簽頁，輸入「openreasoning」
安裝你想要的版本

如果使用ARM處理器，建議使用Bartowski的7B版本。

只要驍龍 X Elite + 32GB RAM，就可以加載量化后的14B模型，并在CPU上運行。

參考資料：

https://x.com/NVIDIAAIDev/status/1946281437935567011

https://huggingface.co/blog/nvidia/openreasoning-nemotron

https://x.com/josephpollack/status/1946486918696313257

https://x.com/igtmn/status/1946585046552658358

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

告別遙控器！鏈博會上英偉達展臺無人控制“獅子狗”罕見現身

每日經濟新聞 2025-07-20 18:19:06
0 跟貼 0
7B模型“情商”比肩GPT-4o，騰訊突破開放域RL難題，得分直翻5倍

量子位 2025-07-18 16:40:53
1 跟貼 1

AI教父Hinton暴論：AI永生之日，全人類變烤面包倒計時！

新智元 2025-07-18 19:54:53
36 跟貼 36

OpenAI 會殺死 Manus 們嗎？

鈦媒體APP 2025-07-20 10:08:06
2 跟貼 2
天工不止造物,也能修bug:Skywork-SWE給代碼智能體補上軟件工程課

機器之心Pro 2025-06-20 10:50:40
0 跟貼 0

RISC-V 芯片全球出貨量突破百億顆 AI大模型推理帶來新機遇

財聯社 2025-07-19 21:05:06
18 跟貼 18

AI打假AI，拿下SOTA丨廈大&騰訊優圖

量子位 2025-07-20 15:00:58
0 跟貼 0
宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
199 跟貼 199

Manus“撤退”，智能體“退潮”了？

鈦媒體APP 2025-07-20 09:34:18
2 跟貼 2
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
13 跟貼 13
物流業deepseek時刻，中國無人車火爆全球

華商韜略 2025-06-17 10:58:23
0 跟貼 0
AI的母語是什么？人類進化花了200萬年，AI只需一個晚上

量子位 2025-05-23 19:24:56
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
AI的母語是什么？不是英語，不是漢語

量子位 2025-05-23 17:58:54
0 跟貼 0
4o生圖前端效果騙了太多人，網友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0
中美澳15位科學家定義AI新時代學科，揭示大模型存在根本性不對稱

DeepTech深科技 2025-07-19 20:56:22
6 跟貼 6
2025.7.16日報第一集（共七集，注意查看主頁）

獨夫之心 2025-07-18 06:37:06
23 跟貼 23
沈逸棒喝：美解禁H20芯片，是對我國產AI芯片的圍獵與剿殺！

藍色齒輪 2025-07-19 07:53:05
19 跟貼 19
英偉達CEO黃仁勛：我是中國人，后來成為美籍華人

盧菁老師 2025-07-18 17:39:03
0 跟貼 0
我很想買一輛小米汽車，認識雷軍第一天就知道他會成功

藍鯨新聞 2025-07-17 10:54:36
0 跟貼 0
黃仁勛GTC演講：量子計算的未來已來

機器之心Pro 2025-06-12 19:24:01
7 跟貼 7
英偉達拿下7個基準SOTA，鼠標點哪就講哪，真能描述一切！

機器之心Pro 2025-04-28 19:09:27
0 跟貼 0
英偉達開源「描述一切」模型

機器之心Pro 2025-04-25 18:59:37
0 跟貼 0
理工科孩子，選擇以下四個方向，畢業后拿高薪的概率非常大

玉辭心 2025-07-18 07:28:27
0 跟貼 0
中國AI的生死抉擇：H20是裹著糖衣的砒霜絕不可“飲鴆止渴”

火星方陣 2025-07-20 11:42:44
0 跟貼 0
任務級獎勵提升AppAgent思考力，淘天提出Mobile-R1，3B模型超32B

量子位 2025-07-20 14:45:31
0 跟貼 0
提速63%！中科院生成式渲染器突破效率瓶頸，一致性提升20%

量子位 2025-07-20 14:53:21
0 跟貼 0
英偉達4萬億市值背后，藏著創業投資的未來密碼

余豐慧 2025-07-20 14:06:24
0 跟貼 0
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
5 跟貼 5
曾獲全國中學生數學奧林匹克競賽一等獎，鄞州中學忻錦浩被北大英才班錄取，高考673分數學141分有遺憾

趣聞小探 2025-07-20 14:34:17
0 跟貼 0
15歲男孩中考703分全校第一，數學化學英語滿分

民生大參考 2025-07-19 18:08:56
0 跟貼 0
H20芯片來晚了？中國車企不買賬，被華為超越只是時間問題

路咖汽車 2025-07-18 16:11:16
51 跟貼 51

手機 / 數碼

房產 / 家居

「DeepSeek二代」來襲！數學暴擊o3，英偉達開源LLM登頂

Manus"跑路新加坡"后，創始人首次復盤

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

中國女籃輸日本，天賦完敗給努力和戰術

肖戰改名官宣！徹底不裝了，要自由

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

獵魂世界：二隊玩法正式來襲！但暫時不練二隊也可順利通關？

聯想預熱多款新品，包含AR眼鏡、AI平板等

熱聞|清明假期將至，熱門目的地有哪些?

2025年高考普通本科批錄取開始了！已有學生查到錄取結果

輔助駕駛五維測評蔚來世界模型:大智小糙