繼2025年2月發布首款中文邏輯推理大模型Skywork-o1之后,昆侖萬維天工團隊在此基礎上持續迭代優化,4月13日,重磅推出全新升級的Skywork-OR1(Open Reasoner 1)系列模型
該系列在同等參數規模下實現了業界領先的推理性能,進一步突破了大模型在邏輯理解與復雜任務求解方面的能力瓶頸。同時,Skywork-OR1全面開放、免費使用,以完全開源的形式回饋開發者社區,堅定踐行天工團隊在推動AI技術發展上的開源路線。
此次開源涵蓋三款高性能模型,包括:
- Skywork-OR1-Math-7B:聚焦數學領域的專項模型,同時也具有較強的代碼能力。
- Skywork-OR1-7B-Preview:融合數學與代碼能力、兼具通用性與專業性的通用模型。
- Skywork-OR1-32B-Preview:面向更高復雜度任務、具備更強推理能力的旗艦版本。
此次發布的Skywork-OR1系列采用業界最高透明度的開源策略:不同于其他前沿開源推理模型僅開放模型權重,我們全面開源了模型權重、訓練數據集和完整訓練代碼,所有資源均已上傳至GitHub和Huggingface平臺。
配套的技術博客已發布于Notion平臺,詳細闡述了數據處理流程、訓練方法和關鍵技術發現,為社區提供了完全可復現的實踐參考。
目前Skywork-OR1-7B和Skywork-OR1-32B的能力還在持續提升,在兩周內我們還會發布兩個模型的正式版本,同時也會推出更為系統詳盡的技術報告,進一步分享我們在推理模型訓練中的經驗與洞察。我們相信,這種全方位的開源策略將有助于推動整個AI社區在推理能力研究上的共同進步。
Skywork-OR1系列開源地址:
https://github.com/SkyworkAI/Skywork-OR1
昆侖萬維天工團隊更多開源項目:
https://huggingface.co/Skywork
在評測方面,Skywork-OR1系列模型引入了avg@k作為核心評估指標,用于衡量模型在進行k次嘗試時成功解決問題的平均表現。相較于傳統的pass@k指標僅關注是否“至少一次成功”,avg@k能更細致地捕捉模型在多輪生成過程中的穩定性與整體推理能力,從而更全面反映其真實性能水平與實用價值。
在數學推理任務中:
- 通用模型Skywork-OR1-7B-PreviewSkywork-OR1-32B-Preview在AIME24與AIME25數據集上均實現了同參數規模下的最優表現,展現出強大的數學推理能力。
- 針對數學場景深度優化的專項模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分別取得69.852.3的高分,遠超當前主流7B級別模型,充分驗證了其在高階數學推理任務中的專業優勢。
- Skywork-OR1-32B-Preview在所有benchmark上均實現了對QwQ-32B的超越,并在更難的AIME25上基本與R1持平。
在競賽編程任務中:
- 通用模型Skywork-OR1-7B-PreviewSkywork-OR1-32B-PreviewLiveCodeBench數據集上均取得了同等參數規模下的最優性能。
- Skywork-OR1-32B-Preview表現尤為突出,其代碼生成與問題求解能力已接近DeepSeek-R1(參數規模高達671B),在大幅壓縮模型體量的同時實現了卓越的性價比,充分展現出天工團隊訓練策略的先進性。
其中Skywork-OR1-Math-7B表現尤為亮眼,作為一個專注于數學推理能力的7B參數模型,通過多階段GRPO訓練在復雜數學問題上實現了卓越表現,同時在代碼任務上也有較強的泛化能力。下圖是該模型在AIME24上的訓練準確率曲線,清晰呈現了多階段訓練過程中性能的穩定提升軌跡。
Skywork-OR1-Math-7B最終模型在AIME24和AIME24上分別達到69.8%和52.3%,超越了OpenAI-o3-mini (low),達到了當前尺寸SOTA性能。值得注意的是,盡管該模型訓練過程中未專門針對代碼能力進行優化,但在代碼評測基準上Livecodebench從37.6%提升到43.6%,相比基線模型的顯著提升,這也表明我們的訓練方法具有較好的領域泛化性。
自2023年以來,昆侖萬維堅定地開源大模型回饋開發者和行業。2025年開源的Skywork-R1V多模態視覺推理模型、SkyReels-V1面向AI短劇創作的視頻生成模型、Skywork-o1推理模型以及2024年開源的Skywork-Reward獎勵模型,不僅在Hugging Face上下載數據表現亮點,開發者討論度和模型熱度依然居高不下。
當前,全球人工智能領域的競爭日趨激烈,競賽的焦點正逐步從基礎模型能力擴展到推理能力的比拼。AI大模型能否有效模仿人類的思維過程、具備邏輯推理和復雜任務的求解能力,已成為衡量技術先進性與通用智能潛力的關鍵指標。
在此背景下,為打破科技巨頭對核心AI大模型技術的壟斷壁壘,推動技術自主可控發展,中國多家企業紛紛投身于開源大模型生態的建設。未來,昆侖萬維仍繼續秉持“All in AGI 與 AIGC”戰略、“實現通用人工智能,讓每個人更好地塑造和表達自我”的使命,持續加大在通用大模型、開源框架和推理能力提升等方向的研究投入,力求在全球AI技術浪潮中搶占先機、塑造競爭優勢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.