99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

「DeepSeek二代」來襲!數學暴擊o3,英偉達開源LLM登頂

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】基于Qwen2.5架構,采用DeepSeek-R1-0528生成數據,英偉達推出的OpenReasoning-Nemotron模型,以超強推理能力突破數學、科學、代碼任務,在多個基準測試中創下新紀錄!數學上,更是超越了o3!

開源模型王座再次易主?

昨天,英偉達開源了OpenReasoning-Nemotron:

  • 在多個基準測試中,同規模模型無敵,取得了SOTA得分

  • 專為數學、科學、代碼定制

  • 提供四種參數規模:1.5B、7B、14B和32B,可在本地100%運行。

不過,這些模型還是「國產血統」:

架構基于Qwen2.5 ,SFT訓練使用的是DeepSeek-R1-0528生成的數據。


OpenReasoning-Nemotron是目前最強的蒸餾的推理模型。


以后,推理模型也有了強基線模型。

一張圖總結要點:


數學基準,超越o3

這次在參數高達671B的滿血DeepSeek-R1-0528蒸餾,在5M的數學、代碼和科學推理軌跡上訓練。

這次的模型不僅僅進行token預測,還實現了真正的推理能力。


核心貢獻者、英偉達研究科學家Igor Gitman介紹了這次的亮點。


與之前OpenMath/Code/Science發布時的提示集相同,這次只是更新了用于生成答案的R1模型,但改進幅度巨大!

而作為「教師」模型,新的R1模型表現出色!

而且這次沒有進行任何在線強化學習,只進行了有監督微調(SFT)。

未來應該可以通過進一步優化這些模型或使用更少的 token 獲得相似性能。

這些模型支持「重型」推理模式,可以「結合多個智能體的工作」。

為此,他們這次使用了。


使用GenSelect@64,在多個數學基準測試中超越了OpenAI o3(高算力版)。


還有另一個令人驚訝的結果:這些模型只是針對數學問題訓練了GenSelect算法,但它竟然也泛化到了代碼任務上!

32B模型的LCB得分從70.2(pass@1)提升到75.3(GenSelect@16)。

需要注意的是,這里沒有使用強化學習(RL),但仍然觀察到從數學到代碼的強大泛化能力!

意外的現象

首先澄清一點,這是一次「研究性質」模型發布,主要目標是驗證生成的新數據的價值,并探索僅通過監督微調(SFT)能將性能推到何種程度。

這次僅針對數學、代碼和科學推理任務訓練了模型,沒有進行指令微調或強化學習人類反饋(RLHF)。

雖然這些模型在解決推理任務時表現優異,但未經進一步訓練,它們可能無法勝任多輪對話或作為通用助手。

在一系列具有挑戰性的推理基準測試中,模型表現出色。

7B、14B和32B模型在各自規模類別下的創下了多項最先進紀錄。


現在,在開發這些模型時,還發現了兩點有趣的事情。

(1)參數規模影響巨大。

1.5B模型,實際上并沒有特別出色。例如,OpenMath-Nemotron-1.5B(我們之前的數學模型發布)在 AIME25 上得分為 49.5,而這個新模型得分為 45.6。

但是,7B(或更大的模型)進步就非常顯著。OpenMath-7B 模型的得分為 61.2,而 OpenReasoning-7B 的得分則達到了 78.2!

因此,1.5B 模型的表現稍微下滑了,但 7B 模型在使用相同數據進行訓練后提高了近 20%。

研究人員猜測可能是因為在處理較長上下文生成時,1.5B模型可能不太一致。

之前的數據集僅包含16K輸出token,但這次擴展到了32K,而1.5B模型無法保持推理的一致性。

(2)模型學會了兩種不同的行為。

在之前的 OpenMath 發布中,英偉達研究團隊也使用了TIR數據來幫助模型學習使用Python。

由于沒有時間用新的R1重新生成這些數據,他們決定將一些舊的 TIR 數據混入當前的訓練集中,看看會發生什么。

他們原本期望:在訓練過程中,模型仍然能夠學習如何使用 Python,同時保留來自新 CoT 樣本的更好推理。

然而,事實并非如此——如果你使用TIR模式來評估OpenReasoning模型,你會發現它們與OpenMath模型基本相同,這比帶有CoT的新模型要差得多。

從某種角度來看,模型學會了兩種不同的行為:一種是使用工具,但推理較差;另一種是不使用工具,但推理很強,兩者之間沒有有效的過渡。非常有趣的是,是否可以通過在TIR模式下應用在線強化學習(RL)來解決這個問題?

本地筆記可跑

如果筆記本電腦上運行,詳細信息如下:


模型鏈接:https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B

體驗鏈接:https://huggingface.co/spaces/Tonic/Nvidia-OpenReasoning

可以使用LM Studio免費運行它們:

  1. 下載適用于macOS、Windows或Linux的LM Studio

  2. 在搜索標簽頁,輸入「openreasoning」

  3. 安裝你想要的版本


如果使用ARM處理器,建議使用Bartowski的7B版本。

只要驍龍 X Elite + 32GB RAM,就可以加載量化后的14B模型,并在CPU上運行。

參考資料:

https://x.com/NVIDIAAIDev/status/1946281437935567011

https://huggingface.co/blog/nvidia/openreasoning-nemotron

https://x.com/josephpollack/status/1946486918696313257

https://x.com/igtmn/status/1946585046552658358


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全紅嬋正式退出,中國跳水隊無奈批準,陳芋汐送上祝福

全紅嬋正式退出,中國跳水隊無奈批準,陳芋汐送上祝福

小椰的奶奶
2025-07-20 03:06:26
林彪和九大開國元帥關系如何?

林彪和九大開國元帥關系如何?

河山歷史
2025-07-19 11:52:52
以我們今天的眼光來看,誰是抗美援朝掛帥的最佳人選?

以我們今天的眼光來看,誰是抗美援朝掛帥的最佳人選?

老范談史
2025-05-21 18:31:32
39歲“寶石老舅”發布新專輯《通俗說唱》,稱“去說唱化”:是獻給所有人的音樂

39歲“寶石老舅”發布新專輯《通俗說唱》,稱“去說唱化”:是獻給所有人的音樂

阿廢冷眼觀察所
2025-07-21 00:57:20
超三萬人施工,僅12天建成的雷神山醫院,停用5年后荒廢了嗎?

超三萬人施工,僅12天建成的雷神山醫院,停用5年后荒廢了嗎?

小舟談歷史
2025-06-20 15:29:20
六十多萬買電車,開四天趴窩!

六十多萬買電車,開四天趴窩!

電動知家
2025-07-19 11:30:00
iPhone可能得漲價,因為京東方在正面硬剛三星。。。

iPhone可能得漲價,因為京東方在正面硬剛三星。。。

差評XPIN
2025-07-19 00:10:12
【紫牛頭條】“98年男生跨省在南京擺攤賣菜”火了!未來想做個家庭農場

【紫牛頭條】“98年男生跨省在南京擺攤賣菜”火了!未來想做個家庭農場

揚子晚報
2025-07-20 21:03:05
斯瑪特加盟湖人,物是人非,一細節顯示詹姆斯非常尷尬

斯瑪特加盟湖人,物是人非,一細節顯示詹姆斯非常尷尬

姜大叔侃球
2025-07-20 22:11:05
許曦文海邊照曝光!網友驚呆:這不是伊能靜兒子?

許曦文海邊照曝光!網友驚呆:這不是伊能靜兒子?

暖光逐夢人
2025-07-20 20:41:09
吃相太難看!陳佩斯砸上億拍電影,結果上映前3天被一腳踹下臺

吃相太難看!陳佩斯砸上億拍電影,結果上映前3天被一腳踹下臺

坊聞本尊
2025-07-18 18:21:08
天雷滾滾!A股白天3500點狂歡,晚上40顆雷炸穿底褲,誰在裸泳?

天雷滾滾!A股白天3500點狂歡,晚上40顆雷炸穿底褲,誰在裸泳?

倪衛濤頻道
2025-07-20 00:44:15
揭秘國內著名風水斗法事件!貧窮不僅僅限制了你的想象力!

揭秘國內著名風水斗法事件!貧窮不僅僅限制了你的想象力!

談史論天地
2025-06-20 07:50:03
巴西簽了,埃及也簽了,美國要慌了!原本還在觀望的國家!

巴西簽了,埃及也簽了,美國要慌了!原本還在觀望的國家!

小企鵝侃世界
2025-07-20 16:48:10
國家出手6位首富被抓!有些已入外籍原因曝光,早該迎來這一天

國家出手6位首富被抓!有些已入外籍原因曝光,早該迎來這一天

不寫散文詩
2025-07-20 23:43:40
毛主席曾兩次提出收回外蒙古,為何最終會失敗?獨立的后果是什么

毛主席曾兩次提出收回外蒙古,為何最終會失敗?獨立的后果是什么

丁丁鯉史紀
2025-07-20 16:58:27
天啊小玥兒無論五官還是氣質都像極了媽媽大S,連神態都一模一樣!

天啊小玥兒無論五官還是氣質都像極了媽媽大S,連神態都一模一樣!

愛侃娛的丁丁
2025-07-19 15:36:41
《閨蜜離婚?那我也離!》早早程婧/秦墨北抱住懷中撲騰著要

《閨蜜離婚?那我也離!》早早程婧/秦墨北抱住懷中撲騰著要

航航
2025-07-20 20:13:16
王勵勤深思遠慮,陳熠連退三站!將在瑞典大滿貫與蒯曼正面競爭

王勵勤深思遠慮,陳熠連退三站!將在瑞典大滿貫與蒯曼正面競爭

十點街球體育
2025-07-19 21:50:55
25歲成都芭蕾女老師確診艾滋病,流淚坦言:早有異常,當時沒重視

25歲成都芭蕾女老師確診艾滋病,流淚坦言:早有異常,當時沒重視

嘆為觀止易
2025-07-04 17:12:46
2025-07-21 02:35:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13103文章數 66100關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

頭條要聞

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

游戲
數碼
旅游
教育
公開課

獵魂世界:二隊玩法正式來襲!但暫時不練二隊也可順利通關?

數碼要聞

聯想預熱多款新品,包含AR眼鏡、AI平板等

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

2025年高考普通本科批錄取開始了!已有學生查到錄取結果

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大厂| 阿克陶县| 卢氏县| 林西县| 桦川县| 大埔区| 郑州市| 长子县| 蓬安县| 黔江区| 龙川县| 楚雄市| 金沙县| 曲靖市| 永靖县| 牟定县| 漯河市| 上饶市| 漳浦县| 天台县| 长子县| 从江县| 陆丰市| 赤壁市| 进贤县| 舒兰市| 阿克| 张掖市| 绵阳市| 莱芜市| 宝山区| 高邑县| 策勒县| 渝北区| 松江区| 贺兰县| 天峨县| 杨浦区| 麻江县| 吴桥县| 桂平市|