網易首頁 > 網易號 > 正文申請入駐

昆侖萬維開源7B和32B最強數學代碼推理模型，對齊DeepSeek-R1

2025-04-15 16:35:11　來源: 甲子光年

北京舉報

分享至

繼2025年2月發布首款中文邏輯推理大模型Skywork-o1之后，昆侖萬維天工團隊在此基礎上持續迭代優化，4月13日，重磅推出全新升級的Skywork-OR1(Open Reasoner 1)系列模型

該系列在同等參數規模下實現了業界領先的推理性能，進一步突破了大模型在邏輯理解與復雜任務求解方面的能力瓶頸。同時，Skywork-OR1全面開放、免費使用，以完全開源的形式回饋開發者社區，堅定踐行天工團隊在推動AI技術發展上的開源路線。

此次開源涵蓋三款高性能模型，包括：

Skywork-OR1-Math-7B：聚焦數學領域的專項模型，同時也具有較強的代碼能力。
Skywork-OR1-7B-Preview：融合數學與代碼能力、兼具通用性與專業性的通用模型。
Skywork-OR1-32B-Preview：面向更高復雜度任務、具備更強推理能力的旗艦版本。

此次發布的Skywork-OR1系列采用業界最高透明度的開源策略：不同于其他前沿開源推理模型僅開放模型權重，我們全面開源了模型權重、訓練數據集和完整訓練代碼，所有資源均已上傳至GitHub和Huggingface平臺。

配套的技術博客已發布于Notion平臺，詳細闡述了數據處理流程、訓練方法和關鍵技術發現，為社區提供了完全可復現的實踐參考。

目前Skywork-OR1-7B和Skywork-OR1-32B的能力還在持續提升，在兩周內我們還會發布兩個模型的正式版本，同時也會推出更為系統詳盡的技術報告，進一步分享我們在推理模型訓練中的經驗與洞察。我們相信，這種全方位的開源策略將有助于推動整個AI社區在推理能力研究上的共同進步。

Skywork-OR1系列開源地址：

https://github.com/SkyworkAI/Skywork-OR1

昆侖萬維天工團隊更多開源項目：

https://huggingface.co/Skywork

在評測方面，Skywork-OR1系列模型引入了avg@k作為核心評估指標，用于衡量模型在進行k次嘗試時成功解決問題的平均表現。相較于傳統的pass@k指標僅關注是否“至少一次成功”，avg@k能更細致地捕捉模型在多輪生成過程中的穩定性與整體推理能力，從而更全面反映其真實性能水平與實用價值。

在數學推理任務中：

通用模型Skywork-OR1-7B-PreviewSkywork-OR1-32B-Preview在AIME24與AIME25數據集上均實現了同參數規模下的最優表現，展現出強大的數學推理能力。
針對數學場景深度優化的專項模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分別取得69.852.3的高分，遠超當前主流7B級別模型，充分驗證了其在高階數學推理任務中的專業優勢。
Skywork-OR1-32B-Preview在所有benchmark上均實現了對QwQ-32B的超越，并在更難的AIME25上基本與R1持平。

在競賽編程任務中：

通用模型Skywork-OR1-7B-PreviewSkywork-OR1-32B-PreviewLiveCodeBench數據集上均取得了同等參數規模下的最優性能。
Skywork-OR1-32B-Preview表現尤為突出，其代碼生成與問題求解能力已接近DeepSeek-R1（參數規模高達671B），在大幅壓縮模型體量的同時實現了卓越的性價比，充分展現出天工團隊訓練策略的先進性。

其中Skywork-OR1-Math-7B表現尤為亮眼，作為一個專注于數學推理能力的7B參數模型，通過多階段GRPO訓練在復雜數學問題上實現了卓越表現，同時在代碼任務上也有較強的泛化能力。下圖是該模型在AIME24上的訓練準確率曲線，清晰呈現了多階段訓練過程中性能的穩定提升軌跡。

Skywork-OR1-Math-7B最終模型在AIME24和AIME24上分別達到69.8%和52.3%，超越了OpenAI-o3-mini (low)，達到了當前尺寸SOTA性能。值得注意的是，盡管該模型訓練過程中未專門針對代碼能力進行優化，但在代碼評測基準上Livecodebench從37.6%提升到43.6%，相比基線模型的顯著提升，這也表明我們的訓練方法具有較好的領域泛化性。

自2023年以來，昆侖萬維堅定地開源大模型回饋開發者和行業。2025年開源的Skywork-R1V多模態視覺推理模型、SkyReels-V1面向AI短劇創作的視頻生成模型、Skywork-o1推理模型以及2024年開源的Skywork-Reward獎勵模型，不僅在Hugging Face上下載數據表現亮點，開發者討論度和模型熱度依然居高不下。

當前，全球人工智能領域的競爭日趨激烈，競賽的焦點正逐步從基礎模型能力擴展到推理能力的比拼。AI大模型能否有效模仿人類的思維過程、具備邏輯推理和復雜任務的求解能力，已成為衡量技術先進性與通用智能潛力的關鍵指標。

在此背景下，為打破科技巨頭對核心AI大模型技術的壟斷壁壘，推動技術自主可控發展，中國多家企業紛紛投身于開源大模型生態的建設。未來，昆侖萬維仍繼續秉持“All in AGI 與 AIGC”戰略、“實現通用人工智能，讓每個人更好地塑造和表達自我”的使命，持續加大在通用大模型、開源框架和推理能力提升等方向的研究投入，力求在全球AI技術浪潮中搶占先機、塑造競爭優勢。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.