99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

昆侖萬維開源7B和32B最強數學代碼推理模型,性能超越阿里QwQ-32B

0
分享至

繼2025年2月發布首款中文邏輯推理大模型Skywork-o1之后,昆侖萬維天工團隊在此基礎上持續迭代優化,4月13日,重磅推出全新升級的Skywork-OR1(OpenReasoner1)系列模型。

該系列在同等參數規模下實現了業界領先的推理性能,進一步突破了大模型在邏輯理解與復雜任務求解方面的能力瓶頸。同時,Skywork-OR1全面開放、免費使用,以完全開源的形式回饋開發者社區,堅定踐行天工團隊在推動AI技術發展上的開源路線。

此次開源涵蓋三款高性能模型,包括:Skywork-OR1-Math-7B:聚焦數學領域的專項模型,同時也具有較強的代碼能力。

  1. Skywork-OR1-7B-Preview:融合數學與代碼能力、兼具通用性與專業性的通用模型。
  2. Skywork-OR1-32B-Preview:面向更高復雜度任務、具備更強推理能力的旗艦版本。

此次發布的Skywork-OR1系列采用業界最高透明度的開源策略:不同于其他前沿開源推理模型僅開放模型權重,我們全面開源了模型權重、訓練數據集和完整訓練代碼,所有資源均已上傳至GitHub和Huggingface平臺。

配套的技術博客已發布于Notion平臺,詳細闡述了數據處理流程、訓練方法和關鍵技術發現,為社區提供了完全可復現的實踐參考。

目前Skywork-OR1-7B和Skywork-OR1-32B的能力還在持續提升,在兩周內我們還會發布兩個模型的正式版本,同時也會推出更為系統詳盡的技術報告,進一步分享我們在推理模型訓練中的經驗與洞察。我們相信,這種全方位的開源策略將有助于推動整個AI社區在推理能力研究上的共同進步。

Skywork-OR1系列開源地址:

https://github.com/SkyworkAI/Skywork-OR1

昆侖萬維天工團隊更多開源項目:

https://huggingface.co/Skywork

01模型開源與評測

在評測方面,Skywork-OR1系列模型引入了avg@k作為核心評估指標,用于衡量模型在進行k次嘗試時成功解決問題的平均表現。相較于傳統的pass@k指標僅關注是否“至少一次成功”,avg@k能更細致地捕捉模型在多輪生成過程中的穩定性與整體推理能力,從而更全面反映其真實性能水平與實用價值。



在數學推理任務中:通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24與AIME25數據集上均實現了同參數規模下的最優表現,展現出強大的數學推理能力。

  1. 針對數學場景深度優化的專項模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分別取得69.8與52.3的高分,遠超當前主流7B級別模型,充分驗證了其在高階數學推理任務中的專業優勢。
  2. Skywork-OR1-32B-Preview在所有benchmark上均實現了對QwQ-32B的超越,并在更難的AIME25上基本與R1持平。

在競賽編程任務中:通用模型Skywork-OR1-7B-Preview與Skywork-OR1-32B-Preview在LiveCodeBench數據集上均取得了同等參數規模下的最優性能。

  1. Skywork-OR1-32B-Preview表現尤為突出,其代碼生成與問題求解能力已接近DeepSeek-R1(參數規模高達671B),在大幅壓縮模型體量的同時實現了卓越的性價比,充分展現出天工團隊訓練策略的先進性。

其中Skywork-OR1-Math-7B表現尤為亮眼,作為一個專注于數學推理能力的7B參數模型,通過多階段GRPO訓練在復雜數學問題上實現了卓越表現,同時在代碼任務上也有較強的泛化能力。下圖是該模型在AIME24上的訓練準確率曲線,清晰呈現了多階段訓練過程中性能的穩定提升軌跡。

Skywork-OR1-Math-7B最終模型在AIME24和AIME24上分別達到69.8%和52.3%,超越了OpenAI-o3-mini(low),達到了當前尺寸SOTA性能。值得注意的是,盡管該模型訓練過程中未專門針對代碼能力進行優化,但在代碼評測基準上Livecodebench從37.6%提升到43.6%,相比基線模型的顯著提升,這也表明我們的訓練方法具有較好的領域泛化性。



02技術亮點

Skywork-OR1系列模型在數學推理與代碼生成任務上實現的顯著性能突破,離不開天工團隊在模型后訓練階段的長期自研積累與技術深耕。更多實驗設置可參考我們的技術博客,以下為Skywork-OR1的核心技術要點:

首先在數據選擇和預處理方面,Skywork-OR1構建了一個高質量數學和代碼數據集,用于強化學習以提升模型在數學和代碼領域的推理能力。我們采用嚴格篩選和評估機制,構建高質量強化學習訓練集。

團隊主要根據三個標準進行初步數據篩選:可驗證性(Verifiable)、正確性(Correct)與挑戰性(Challenging),剔除無法自動驗證的證明類題目、有誤題目、和缺少unittest的代碼問題。

數學領域主要依賴NuminaMath-1.5(含約89.6萬題),選用如AIME和Olympiads等較難子集,并補充了如DeepScaleR、Omni-MATH、AIME1983-2023難題來源,總計約11萬道數學題目。在代碼領域,我們以LeetCode和TACO數據為主,保留了單元測試完整、驗證通過的問題,并進行向量級語義去重,最終獲得13.7K條高質量代碼問題。

其次在數據過濾方面,為避免“全對”或“全錯”現象對策略學習無效,每道題進行了多輪采樣并驗證答案,并基于模型表現過濾難度極端的題目。在數據收集和整理過程中,我們還發現很多數學題存在不完整或格式不正確的問題。

為了進一步提升數學數據質量,我們還通過人類評審結合LLM自動判題機制,對語義不清、信息不全、格式錯誤或含有無關內容的題目進行清理。使用LLM-as-a-Judge的方式,對每題進行32次打分,設定投票門檻,剔除掉約1-2K道質量不達標的數學題。整體流程體現了我們在數據質量、模型難度匹配與效率間的深度平衡。

此外,Skywork-OR1采用了GroupRelativePolicyOptimization(GRPO)進行模型訓練,并引入了以下優化:

1.訓練時數據優化

Offline&OnlineFiltering:我們對采集的數據實施了雙重過濾機制,以優化訓練效果。在訓練前(離線過濾)階段,我們利用待訓練模型對數據進行正確性評估,精確剔除了正確率為0(完全錯誤)和1(完全正確)的樣本,確保初始訓練集具有學習價值。

在訓練過程中(在線過濾),我們實現了動態數據篩選策略——每個epoch開始時,自動將上一個epoch模型已完全掌握(全部答對)的數據從訓練集中移除。這種漸進式過濾機制確保了模型始終面對具有學習挑戰的數據,最大化了有效梯度的比例,從而提高訓練效率和模型性能。

RejectionSampling:在GRPO訓練實施過程中,我們引入了精細化的樣本篩選機制,動態剔除當前訓練步驟中采樣正確率為0或1的樣本。這些邊界樣本的policyloss為零,在包含entropyloss或KLloss的訓練設置下,會導致非policyloss的比重不當增加,從而引發訓練不穩定性。

例如,在啟用entropyloss的情況下,這種失衡可能導致entropy值異常攀升。通過實時rejectionsampling,我們有效維持了各損失函數間的原始比重,確保訓練過程的穩定性和收斂質量。

2.訓練Pipeline優化

MultiStageTraining:整體訓練流程上,我們采用迭代增加上下文窗口長度(seq_len)的策略,將訓練過程分為多個階段。這種方法首先在較小窗口下訓練,促使模型學會在有限token內高效完成任務,顯著提高token效率;隨后逐步擴展窗口大小,迭代增加生成長度,使模型逐漸掌握更復雜的長鏈思維能力。

實驗證明,多階段訓練能大規模縮短訓練時間,同時完全保持了模型的長度擴展能力。這種漸進式訓練方法既確保了計算效率,又不犧牲模型在復雜問題上的推理深度。

TruncatedAdvantageMask:在多階段訓練初期,由于上下文窗口限制,復雜問題的回答可能被截斷。關于是否使用這些樣本進行訓練,我們研究了兩種處理策略:Adv-MaskBefore(計算優勢前排除截斷樣本)和Adv-MaskAfter(計算后將截斷樣本優勢置零)。

實驗表明,這些策略能緩解響應長度衰減,但在我們的訓練框架下,即使不屏蔽截斷樣本,模型也能有效適應長度限制并在進入下一階段時迅速提升性能。雖然屏蔽有助于保持更好的test-timescaling能力,但在最大長度評估下并未有端到端性能提升,這也證明我們的多階段訓練方法具有較強魯棒性。

3.訓練時模型探索

在強化學習訓練中,保持模型的探索能力是提升性能的關鍵因素。我們將模型輸出的熵(Entropy)作為模型輸出多樣性和探索能力的一個近似指標,通過它來觀測模型的探索能力。我們的探索控制方法主要分為兩大類:一類是通過增強內在訓練多樣性,使模型不易優化到單一輸出方向,減緩熵衰減的速度;另一類是通過外在引導機制直接增加模型輸出多樣性,如強化學習中常見的熵損失。基于這一分類,我們實施了多層次的探索控制策略。

HigherTemperature:在強化學習采樣時,我們采用了較高的采樣溫度τ=1.0(相比常見的0.6),以增強模型的探索能力。在GRPO框架下,我們觀察到低溫度采樣會導致模型迅速進入低熵狀態,策略更新過度集中于特定token。相比之下,τ=1.0維持了更高的群組內多樣性,既保證了足夠的正確樣本提供學習信號,又允許模型探索更廣泛的解決路徑,在我們的對比實驗中展現出更優的性能表現。

EnhancingInternalTrainingDiversity:除了temperature之外,我們還發現通過精細的數據過濾、增加批量大小和減少數據重復使用等方法,可以通過增加數據多樣性方法間接增加訓練內在多樣性,從源頭上防止模型優化到單一輸出方向。這些措施使模型能在更長時間內維持較高的熵值,實現了在保持較高探索性的同時達到同等準確率的優勢效果,有效避免了過早陷入局部最優。

AdaptiveEntropyControl:除了上述方法外,我們還提出了自適應熵控制(AdaptiveEntropyControl)方法作為額外的探索引導機制。盡管初期實驗中發現傳統的固定系數熵損失在參數較好的情況下能取得較好的提升,但其對訓練數據和超參數極為敏感——此前調整好的參數在后續切換數據或修改其他超參數的實驗中可能導致訓練崩潰。結合前述的多樣性控制策略,我們采取了更為謹慎的熵控制方法:只有當熵值下降到預設閾值以下時才提供熵增加的鼓勵。通過設定目標熵值并動態調整熵損失系數,我們專注于防止熵值降至特定下界,同時最小化對正常訓練軌跡的干擾。

整體而言,我們認為應當更側重在內在層面增加訓練多樣性,減少人為對訓練進程的干擾,從而保證訓練的可擴展性。

4.訓練Loss優化

為提升強化學習訓練的穩定性,我們對GRPO的損失函數進行了改進與優化。

NoKLloss:近期不少從base模型開始訓練的推理模型,由于base模型輸出模式較差,自然地放棄了KL損失項。然而,對于基于精細構造的coldstartSFT模型進行訓練的情況,是否采用KL損失的研究相對較少。在我們的實驗中,我們發現即使是從高質量SFT模型出發,KL損失項仍會限制模型性能的進一步提升,強制將actor模型約束在原始分布附近。因此,除特定階段外,我們在所有公開發布的Skywork-OR1系列模型中均未使用KL損失項,這使模型能夠更充分地探索和優化推理能力。

Token-levelpolicyloss:為消除原始GRPO中對生成長度的隱性偏好,我們移除了策略損失中的長度歸一化項,并將損失在訓練批次內的所有token上進行平均,以提升優化過程的一致性與穩定性。

更多技術細節和實驗對比可以參照我們的技術博客:

https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reaonser-Series-1d0bc9ae823a80459b46c149e4f51680,或繼續關注后續發布的技術報告。

03堅定開源

自2023年以來,昆侖萬維堅定地開源大模型回饋開發者和行業。截至目前在HuggingFace上已上傳22個模型、6個數據集,收獲了開發者社區的好評。

2025年開源的Skywork-R1V多模態視覺推理模型、SkyReels-V1面向AI短劇創作的視頻生成模型、Skywork-o1推理模型以及2024年開源的Skywork-Reward獎勵模型,不僅在HuggingFace上下載數據表現亮點,開發者討論度和模型熱度依然居高不下。



來源:https://huggingface.co/Skywork

當前,全球人工智能領域的競爭日趨激烈,競賽的焦點正逐步從基礎模型能力擴展到推理能力的比拼。AI大模型能否有效模仿人類的思維過程、具備邏輯推理和復雜任務的求解能力,已成為衡量技術先進性與通用智能潛力的關鍵指標。

在此背景下,為打破科技巨頭對核心AI大模型技術的壟斷壁壘,推動技術自主可控發展,中國多家企業紛紛投身于開源大模型生態的建設。未來,昆侖萬維仍繼續秉持“AllinAGI與AIGC”戰略、“實現通用人工智能,讓每個人更好地塑造和表達自我”的使命,持續加大在通用大模型、開源框架和推理能力提升等方向的研究投入,力求在全球AI技術浪潮中搶占先機、塑造競爭優勢。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
胡喬木撰寫回憶錄,為何他提出,延安文藝講話個別觀點有局限性?

胡喬木撰寫回憶錄,為何他提出,延安文藝講話個別觀點有局限性?

小葛說史
2025-06-03 13:58:21
銀行問你取錢干嘛?記住3句“萬能話術”,讓柜員閉嘴乖乖辦業務

銀行問你取錢干嘛?記住3句“萬能話術”,讓柜員閉嘴乖乖辦業務

詩詞中國
2025-05-28 12:59:14
相貌平平,卻總演央視大劇,還能搭檔李幼斌,馬藜到底什么來頭?

相貌平平,卻總演央視大劇,還能搭檔李幼斌,馬藜到底什么來頭?

塞外書語
2025-06-05 11:31:30
烏克蘭安全局官方數據41架!這些俄羅斯轟炸機發射了近3000枚導彈

烏克蘭安全局官方數據41架!這些俄羅斯轟炸機發射了近3000枚導彈

鷹眼Defence
2025-06-04 16:10:31
美國展出唐伯虎10米真跡,估值超過100億,不愧是“頂級才子”!

美國展出唐伯虎10米真跡,估值超過100億,不愧是“頂級才子”!

書法網
2025-05-29 18:14:37
57歲的江珊做夢也想不到,她那平平無奇的老公,55歲還能火一把

57歲的江珊做夢也想不到,她那平平無奇的老公,55歲還能火一把

春序娛樂
2025-06-05 08:31:58
平民夫妻潛伏6年俄國空軍!117架“玩具飛機”炸碎30億美金裝備

平民夫妻潛伏6年俄國空軍!117架“玩具飛機”炸碎30億美金裝備

甘甘來了
2025-06-05 10:17:23
涉嫌嚴重違紀違法,四川一縣財政局局長主動投案!

涉嫌嚴重違紀違法,四川一縣財政局局長主動投案!

瀟湘晨報
2025-06-04 09:12:19
韓國民主黨表示:沒有職員交接,連辦公工具都沒有!必須追究責任

韓國民主黨表示:沒有職員交接,連辦公工具都沒有!必須追究責任

AI商業論
2025-06-05 10:18:07
從小被允許吃冷飲和不允許吃的孩子,長大后真的不一樣,要注意!

從小被允許吃冷飲和不允許吃的孩子,長大后真的不一樣,要注意!

特約前排觀眾
2025-06-02 00:10:05
你以后就會知道,上一輪下崗的,和未來下崗的,會是同一類人

你以后就會知道,上一輪下崗的,和未來下崗的,會是同一類人

記憶承載
2025-06-05 11:30:36
王鶴棣曬與哈利伯頓同框照:總決賽G1就在明天,來給哈利加個油

王鶴棣曬與哈利伯頓同框照:總決賽G1就在明天,來給哈利加個油

雷速體育
2025-06-05 13:29:35
業內最著名的雙馨女演員之一——Alexa Grace

業內最著名的雙馨女演員之一——Alexa Grace

吃瓜黨二號頭目
2025-06-05 09:56:36
以色列定居者在約旦河西岸發動大規模襲擊

以色列定居者在約旦河西岸發動大規模襲擊

財聯社
2025-06-05 03:43:16
我國將迎來前所未有的人口死亡高峰!復旦專家:三個因素導致

我國將迎來前所未有的人口死亡高峰!復旦專家:三個因素導致

第一心理
2025-06-04 17:10:12
美國不要的,中國也不要!蔣雨融事件越鬧越大,網友:賣國求榮

美國不要的,中國也不要!蔣雨融事件越鬧越大,網友:賣國求榮

聞識
2025-06-03 14:15:46
變本加厲,特朗普亮出B計劃,催促中方上談判桌,日內瓦協議生變

變本加厲,特朗普亮出B計劃,催促中方上談判桌,日內瓦協議生變

要塞陣地官方
2025-06-05 09:45:44
李在明剛宣誓就職,白宮的電話就打來了,有4件事特朗普憋了很久

李在明剛宣誓就職,白宮的電話就打來了,有4件事特朗普憋了很久

掌青說歷史
2025-06-04 12:56:22
探店網紅翻車,在外當“母狗”出軌不同男人,丈夫曝光圖片、視頻

探店網紅翻車,在外當“母狗”出軌不同男人,丈夫曝光圖片、視頻

社會醬
2025-06-04 17:02:39
老謀深算!小因扎吉簽約沙超原因曝光:國米3億窟窿+2600萬歐年薪

老謀深算!小因扎吉簽約沙超原因曝光:國米3億窟窿+2600萬歐年薪

萬花筒體育球球
2025-06-04 21:21:46
2025-06-05 14:31:00
產業家
產業家
產業互聯網第一媒體
882文章數 1326關注度
往期回顧 全部

科技要聞

人形機器人千億投入 年產量不如勞力士一周

頭條要聞

男子將叛逆兒子送"訓練營" 第53天他拿著一張名單報警

頭條要聞

男子將叛逆兒子送"訓練營" 第53天他拿著一張名單報警

體育要聞

從次輪末到樂透邊緣 楊瀚森的試訓有什么玄機?

娛樂要聞

陳學冬消失2年首曬照 車禍后遺癥嚴重?

財經要聞

多半袋方便面"多半"是商標 白象致歉

汽車要聞

長安汽車升級為獨立央企 東風長安重組按下暫停鍵

態度原創

游戲
藝術
手機
公開課
軍事航空

索尼6月State of Play匯總:《仁王3》等大量第三方游戲公開

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

消息稱iOS將改用年份后兩位命名方式 多款系統應用迎來全新功能

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京明確:沒有人會與“恐怖分子”談判

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 许昌市| 麻江县| 巴东县| 长沙市| 托里县| 黄梅县| 个旧市| 唐山市| 青冈县| 石狮市| 株洲县| 平度市| 兴山县| 海阳市| 高唐县| 高密市| 博兴县| 广德县| 孟州市| 安平县| 安新县| 平凉市| 昌平区| 和平区| 富平县| 新野县| 泰宁县| 察哈| 陇川县| 武穴市| 镇平县| 中宁县| 柳林县| 宣城市| 呼伦贝尔市| 夏邑县| 稷山县| 桐庐县| 石嘴山市| 衡南县| 报价|