網易首頁 > 網易號 > 正文申請入駐

昆侖萬維開源7B和32B最強數學代碼推理模型，性能超越阿里QwQ-32B

2025-04-14 10:49:11　來源: 產業家

北京舉報

分享至

繼2025年2月發布首款中文邏輯推理大模型Skywork-o1之后，昆侖萬維天工團隊在此基礎上持續迭代優化，4月13日，重磅推出全新升級的Skywork-OR1(OpenReasoner1)系列模型。

該系列在同等參數規模下實現了業界領先的推理性能，進一步突破了大模型在邏輯理解與復雜任務求解方面的能力瓶頸。同時，Skywork-OR1全面開放、免費使用，以完全開源的形式回饋開發者社區，堅定踐行天工團隊在推動AI技術發展上的開源路線。

此次開源涵蓋三款高性能模型，包括：Skywork-OR1-Math-7B：聚焦數學領域的專項模型，同時也具有較強的代碼能力。

Skywork-OR1-7B-Preview：融合數學與代碼能力、兼具通用性與專業性的通用模型。
Skywork-OR1-32B-Preview：面向更高復雜度任務、具備更強推理能力的旗艦版本。

此次發布的Skywork-OR1系列采用業界最高透明度的開源策略：不同于其他前沿開源推理模型僅開放模型權重，我們全面開源了模型權重、訓練數據集和完整訓練代碼，所有資源均已上傳至GitHub和Huggingface平臺。

配套的技術博客已發布于Notion平臺，詳細闡述了數據處理流程、訓練方法和關鍵技術發現，為社區提供了完全可復現的實踐參考。

目前Skywork-OR1-7B和Skywork-OR1-32B的能力還在持續提升，在兩周內我們還會發布兩個模型的正式版本，同時也會推出更為系統詳盡的技術報告，進一步分享我們在推理模型訓練中的經驗與洞察。我們相信，這種全方位的開源策略將有助于推動整個AI社區在推理能力研究上的共同進步。

Skywork-OR1系列開源地址：

https://github.com/SkyworkAI/Skywork-OR1

昆侖萬維天工團隊更多開源項目：

https://huggingface.co/Skywork

01模型開源與評測

在評測方面，Skywork-OR1系列模型引入了avg@k作為核心評估指標，用于衡量模型在進行k次嘗試時成功解決問題的平均表現。相較于傳統的pass@k指標僅關注是否“至少一次成功”，avg@k能更細致地捕捉模型在多輪生成過程中的穩定性與整體推理能力，從而更全面反映其真實性能水平與實用價值。

在數學推理任務中：通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24與AIME25數據集上均實現了同參數規模下的最優表現，展現出強大的數學推理能力。

針對數學場景深度優化的專項模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分別取得69.8與52.3的高分，遠超當前主流7B級別模型，充分驗證了其在高階數學推理任務中的專業優勢。
Skywork-OR1-32B-Preview在所有benchmark上均實現了對QwQ-32B的超越，并在更難的AIME25上基本與R1持平。

在競賽編程任務中：通用模型Skywork-OR1-7B-Preview與Skywork-OR1-32B-Preview在LiveCodeBench數據集上均取得了同等參數規模下的最優性能。

Skywork-OR1-32B-Preview表現尤為突出，其代碼生成與問題求解能力已接近DeepSeek-R1（參數規模高達671B），在大幅壓縮模型體量的同時實現了卓越的性價比，充分展現出天工團隊訓練策略的先進性。

其中Skywork-OR1-Math-7B表現尤為亮眼，作為一個專注于數學推理能力的7B參數模型，通過多階段GRPO訓練在復雜數學問題上實現了卓越表現，同時在代碼任務上也有較強的泛化能力。下圖是該模型在AIME24上的訓練準確率曲線，清晰呈現了多階段訓練過程中性能的穩定提升軌跡。

Skywork-OR1-Math-7B最終模型在AIME24和AIME24上分別達到69.8%和52.3%，超越了OpenAI-o3-mini(low)，達到了當前尺寸SOTA性能。值得注意的是，盡管該模型訓練過程中未專門針對代碼能力進行優化，但在代碼評測基準上Livecodebench從37.6%提升到43.6%，相比基線模型的顯著提升，這也表明我們的訓練方法具有較好的領域泛化性。

02技術亮點

Skywork-OR1系列模型在數學推理與代碼生成任務上實現的顯著性能突破，離不開天工團隊在模型后訓練階段的長期自研積累與技術深耕。更多實驗設置可參考我們的技術博客，以下為Skywork-OR1的核心技術要點：

首先在數據選擇和預處理方面，Skywork-OR1構建了一個高質量數學和代碼數據集，用于強化學習以提升模型在數學和代碼領域的推理能力。我們采用嚴格篩選和評估機制，構建高質量強化學習訓練集。

團隊主要根據三個標準進行初步數據篩選：可驗證性（Verifiable）、正確性（Correct）與挑戰性（Challenging），剔除無法自動驗證的證明類題目、有誤題目、和缺少unittest的代碼問題。

數學領域主要依賴NuminaMath-1.5（含約89.6萬題），選用如AIME和Olympiads等較難子集，并補充了如DeepScaleR、Omni-MATH、AIME1983-2023難題來源，總計約11萬道數學題目。在代碼領域，我們以LeetCode和TACO數據為主，保留了單元測試完整、驗證通過的問題，并進行向量級語義去重，最終獲得13.7K條高質量代碼問題。

其次在數據過濾方面，為避免“全對”或“全錯”現象對策略學習無效，每道題進行了多輪采樣并驗證答案，并基于模型表現過濾難度極端的題目。在數據收集和整理過程中，我們還發現很多數學題存在不完整或格式不正確的問題。

為了進一步提升數學數據質量，我們還通過人類評審結合LLM自動判題機制，對語義不清、信息不全、格式錯誤或含有無關內容的題目進行清理。使用LLM-as-a-Judge的方式，對每題進行32次打分，設定投票門檻，剔除掉約1-2K道質量不達標的數學題。整體流程體現了我們在數據質量、模型難度匹配與效率間的深度平衡。

此外，Skywork-OR1采用了GroupRelativePolicyOptimization(GRPO)進行模型訓練，并引入了以下優化：

1.訓練時數據優化

Offline&OnlineFiltering：我們對采集的數據實施了雙重過濾機制，以優化訓練效果。在訓練前（離線過濾）階段，我們利用待訓練模型對數據進行正確性評估，精確剔除了正確率為0（完全錯誤）和1（完全正確）的樣本，確保初始訓練集具有學習價值。

在訓練過程中（在線過濾），我們實現了動態數據篩選策略——每個epoch開始時，自動將上一個epoch模型已完全掌握（全部答對）的數據從訓練集中移除。這種漸進式過濾機制確保了模型始終面對具有學習挑戰的數據，最大化了有效梯度的比例，從而提高訓練效率和模型性能。

RejectionSampling：在GRPO訓練實施過程中，我們引入了精細化的樣本篩選機制，動態剔除當前訓練步驟中采樣正確率為0或1的樣本。這些邊界樣本的policyloss為零，在包含entropyloss或KLloss的訓練設置下，會導致非policyloss的比重不當增加，從而引發訓練不穩定性。

例如，在啟用entropyloss的情況下，這種失衡可能導致entropy值異常攀升。通過實時rejectionsampling，我們有效維持了各損失函數間的原始比重，確保訓練過程的穩定性和收斂質量。

2.訓練Pipeline優化

MultiStageTraining：整體訓練流程上，我們采用迭代增加上下文窗口長度(seq_len)的策略，將訓練過程分為多個階段。這種方法首先在較小窗口下訓練，促使模型學會在有限token內高效完成任務，顯著提高token效率；隨后逐步擴展窗口大小，迭代增加生成長度，使模型逐漸掌握更復雜的長鏈思維能力。

實驗證明，多階段訓練能大規模縮短訓練時間，同時完全保持了模型的長度擴展能力。這種漸進式訓練方法既確保了計算效率，又不犧牲模型在復雜問題上的推理深度。

TruncatedAdvantageMask：在多階段訓練初期，由于上下文窗口限制，復雜問題的回答可能被截斷。關于是否使用這些樣本進行訓練，我們研究了兩種處理策略：Adv-MaskBefore（計算優勢前排除截斷樣本）和Adv-MaskAfter（計算后將截斷樣本優勢置零）。

實驗表明，這些策略能緩解響應長度衰減，但在我們的訓練框架下，即使不屏蔽截斷樣本，模型也能有效適應長度限制并在進入下一階段時迅速提升性能。雖然屏蔽有助于保持更好的test-timescaling能力，但在最大長度評估下并未有端到端性能提升，這也證明我們的多階段訓練方法具有較強魯棒性。

3.訓練時模型探索

在強化學習訓練中，保持模型的探索能力是提升性能的關鍵因素。我們將模型輸出的熵（Entropy）作為模型輸出多樣性和探索能力的一個近似指標，通過它來觀測模型的探索能力。我們的探索控制方法主要分為兩大類：一類是通過增強內在訓練多樣性，使模型不易優化到單一輸出方向，減緩熵衰減的速度；另一類是通過外在引導機制直接增加模型輸出多樣性，如強化學習中常見的熵損失。基于這一分類，我們實施了多層次的探索控制策略。

HigherTemperature：在強化學習采樣時，我們采用了較高的采樣溫度τ=1.0（相比常見的0.6），以增強模型的探索能力。在GRPO框架下，我們觀察到低溫度采樣會導致模型迅速進入低熵狀態，策略更新過度集中于特定token。相比之下，τ=1.0維持了更高的群組內多樣性，既保證了足夠的正確樣本提供學習信號，又允許模型探索更廣泛的解決路徑，在我們的對比實驗中展現出更優的性能表現。

EnhancingInternalTrainingDiversity：除了temperature之外，我們還發現通過精細的數據過濾、增加批量大小和減少數據重復使用等方法，可以通過增加數據多樣性方法間接增加訓練內在多樣性，從源頭上防止模型優化到單一輸出方向。這些措施使模型能在更長時間內維持較高的熵值，實現了在保持較高探索性的同時達到同等準確率的優勢效果，有效避免了過早陷入局部最優。

AdaptiveEntropyControl：除了上述方法外，我們還提出了自適應熵控制（AdaptiveEntropyControl）方法作為額外的探索引導機制。盡管初期實驗中發現傳統的固定系數熵損失在參數較好的情況下能取得較好的提升，但其對訓練數據和超參數極為敏感——此前調整好的參數在后續切換數據或修改其他超參數的實驗中可能導致訓練崩潰。結合前述的多樣性控制策略，我們采取了更為謹慎的熵控制方法：只有當熵值下降到預設閾值以下時才提供熵增加的鼓勵。通過設定目標熵值并動態調整熵損失系數，我們專注于防止熵值降至特定下界，同時最小化對正常訓練軌跡的干擾。

整體而言，我們認為應當更側重在內在層面增加訓練多樣性，減少人為對訓練進程的干擾，從而保證訓練的可擴展性。

4.訓練Loss優化

為提升強化學習訓練的穩定性，我們對GRPO的損失函數進行了改進與優化。

NoKLloss:近期不少從base模型開始訓練的推理模型，由于base模型輸出模式較差，自然地放棄了KL損失項。然而，對于基于精細構造的coldstartSFT模型進行訓練的情況，是否采用KL損失的研究相對較少。在我們的實驗中，我們發現即使是從高質量SFT模型出發，KL損失項仍會限制模型性能的進一步提升，強制將actor模型約束在原始分布附近。因此，除特定階段外，我們在所有公開發布的Skywork-OR1系列模型中均未使用KL損失項，這使模型能夠更充分地探索和優化推理能力。

Token-levelpolicyloss:為消除原始GRPO中對生成長度的隱性偏好，我們移除了策略損失中的長度歸一化項，并將損失在訓練批次內的所有token上進行平均，以提升優化過程的一致性與穩定性。

更多技術細節和實驗對比可以參照我們的技術博客:

https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reaonser-Series-1d0bc9ae823a80459b46c149e4f51680，或繼續關注后續發布的技術報告。

03堅定開源

自2023年以來，昆侖萬維堅定地開源大模型回饋開發者和行業。截至目前在HuggingFace上已上傳22個模型、6個數據集，收獲了開發者社區的好評。

2025年開源的Skywork-R1V多模態視覺推理模型、SkyReels-V1面向AI短劇創作的視頻生成模型、Skywork-o1推理模型以及2024年開源的Skywork-Reward獎勵模型，不僅在HuggingFace上下載數據表現亮點，開發者討論度和模型熱度依然居高不下。

來源：https://huggingface.co/Skywork

當前，全球人工智能領域的競爭日趨激烈，競賽的焦點正逐步從基礎模型能力擴展到推理能力的比拼。AI大模型能否有效模仿人類的思維過程、具備邏輯推理和復雜任務的求解能力，已成為衡量技術先進性與通用智能潛力的關鍵指標。

在此背景下，為打破科技巨頭對核心AI大模型技術的壟斷壁壘，推動技術自主可控發展，中國多家企業紛紛投身于開源大模型生態的建設。未來，昆侖萬維仍繼續秉持“AllinAGI與AIGC”戰略、“實現通用人工智能，讓每個人更好地塑造和表達自我”的使命，持續加大在通用大模型、開源框架和推理能力提升等方向的研究投入，力求在全球AI技術浪潮中搶占先機、塑造競爭優勢。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.