新智元報道
編輯:KingHZ
【新智元導讀】基于Qwen2.5架構,采用DeepSeek-R1-0528生成數據,英偉達推出的OpenReasoning-Nemotron模型,以超強推理能力突破數學、科學、代碼任務,在多個基準測試中創下新紀錄!數學上,更是超越了o3!
開源模型王座再次易主?
昨天,英偉達開源了OpenReasoning-Nemotron:
在多個基準測試中,同規模模型無敵,取得了SOTA得分
專為數學、科學、代碼定制
提供四種參數規模:1.5B、7B、14B和32B,可在本地100%運行。
不過,這些模型還是「國產血統」:
架構基于Qwen2.5 ,SFT訓練使用的是DeepSeek-R1-0528生成的數據。
OpenReasoning-Nemotron是目前最強的蒸餾的推理模型。
以后,推理模型也有了強基線模型。
一張圖總結要點:
數學基準,超越o3
這次在參數高達671B的滿血DeepSeek-R1-0528蒸餾,在5M的數學、代碼和科學推理軌跡上訓練。
這次的模型不僅僅進行token預測,還實現了真正的推理能力。
核心貢獻者、英偉達研究科學家Igor Gitman介紹了這次的亮點。
與之前OpenMath/Code/Science發布時的提示集相同,這次只是更新了用于生成答案的R1模型,但改進幅度巨大!
而作為「教師」模型,新的R1模型表現出色!
而且這次沒有進行任何在線強化學習,只進行了有監督微調(SFT)。
未來應該可以通過進一步優化這些模型或使用更少的 token 獲得相似性能。
這些模型支持「重型」推理模式,可以「結合多個智能體的工作」。
為此,他們這次使用了。
使用GenSelect@64,在多個數學基準測試中超越了OpenAI o3(高算力版)。
還有另一個令人驚訝的結果:這些模型只是針對數學問題訓練了GenSelect算法,但它竟然也泛化到了代碼任務上!
32B模型的LCB得分從70.2(pass@1)提升到75.3(GenSelect@16)。
需要注意的是,這里沒有使用強化學習(RL),但仍然觀察到從數學到代碼的強大泛化能力!
意外的現象
首先澄清一點,這是一次「研究性質」模型發布,主要目標是驗證生成的新數據的價值,并探索僅通過監督微調(SFT)能將性能推到何種程度。
這次僅針對數學、代碼和科學推理任務訓練了模型,沒有進行指令微調或強化學習人類反饋(RLHF)。
雖然這些模型在解決推理任務時表現優異,但未經進一步訓練,它們可能無法勝任多輪對話或作為通用助手。
在一系列具有挑戰性的推理基準測試中,模型表現出色。
7B、14B和32B模型在各自規模類別下的創下了多項最先進紀錄。
現在,在開發這些模型時,還發現了兩點有趣的事情。
(1)參數規模影響巨大。
1.5B模型,實際上并沒有特別出色。例如,OpenMath-Nemotron-1.5B(我們之前的數學模型發布)在 AIME25 上得分為 49.5,而這個新模型得分為 45.6。
但是,7B(或更大的模型)進步就非常顯著。OpenMath-7B 模型的得分為 61.2,而 OpenReasoning-7B 的得分則達到了 78.2!
因此,1.5B 模型的表現稍微下滑了,但 7B 模型在使用相同數據進行訓練后提高了近 20%。
研究人員猜測可能是因為在處理較長上下文生成時,1.5B模型可能不太一致。
之前的數據集僅包含16K輸出token,但這次擴展到了32K,而1.5B模型無法保持推理的一致性。
(2)模型學會了兩種不同的行為。
在之前的 OpenMath 發布中,英偉達研究團隊也使用了TIR數據來幫助模型學習使用Python。
由于沒有時間用新的R1重新生成這些數據,他們決定將一些舊的 TIR 數據混入當前的訓練集中,看看會發生什么。
他們原本期望:在訓練過程中,模型仍然能夠學習如何使用 Python,同時保留來自新 CoT 樣本的更好推理。
然而,事實并非如此——如果你使用TIR模式來評估OpenReasoning模型,你會發現它們與OpenMath模型基本相同,這比帶有CoT的新模型要差得多。
從某種角度來看,模型學會了兩種不同的行為:一種是使用工具,但推理較差;另一種是不使用工具,但推理很強,兩者之間沒有有效的過渡。非常有趣的是,是否可以通過在TIR模式下應用在線強化學習(RL)來解決這個問題?
本地筆記可跑
如果筆記本電腦上運行,詳細信息如下:
模型鏈接:https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B
體驗鏈接:https://huggingface.co/spaces/Tonic/Nvidia-OpenReasoning
可以使用LM Studio免費運行它們:
下載適用于macOS、Windows或Linux的LM Studio
在搜索標簽頁,輸入「openreasoning」
安裝你想要的版本
如果使用ARM處理器,建議使用Bartowski的7B版本。
只要驍龍 X Elite + 32GB RAM,就可以加載量化后的14B模型,并在CPU上運行。
參考資料:
https://x.com/NVIDIAAIDev/status/1946281437935567011
https://huggingface.co/blog/nvidia/openreasoning-nemotron
https://x.com/josephpollack/status/1946486918696313257
https://x.com/igtmn/status/1946585046552658358
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.