99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

昆侖萬維開源7B和32B最強數學代碼推理模型,對齊DeepSeek-R1

0
分享至

繼2025年2月發布首款中文邏輯推理大模型Skywork-o1之后,昆侖萬維天工團隊在此基礎上持續迭代優化,4月13日,重磅推出全新升級的Skywork-OR1(Open Reasoner 1)系列模型

該系列在同等參數規模下實現了業界領先的推理性能,進一步突破了大模型在邏輯理解與復雜任務求解方面的能力瓶頸。同時,Skywork-OR1全面開放、免費使用,以完全開源的形式回饋開發者社區,堅定踐行天工團隊在推動AI技術發展上的開源路線。

此次開源涵蓋三款高性能模型,包括:

  1. Skywork-OR1-Math-7B:聚焦數學領域的專項模型,同時也具有較強的代碼能力。
  2. Skywork-OR1-7B-Preview:融合數學與代碼能力、兼具通用性與專業性的通用模型。
  3. Skywork-OR1-32B-Preview:面向更高復雜度任務、具備更強推理能力的旗艦版本。

此次發布的Skywork-OR1系列采用業界最高透明度的開源策略:不同于其他前沿開源推理模型僅開放模型權重,我們全面開源了模型權重訓練數據集完整訓練代碼,所有資源均已上傳至GitHub和Huggingface平臺。

配套的技術博客已發布于Notion平臺,詳細闡述了數據處理流程、訓練方法和關鍵技術發現,為社區提供了完全可復現的實踐參考。

目前Skywork-OR1-7B和Skywork-OR1-32B的能力還在持續提升,在兩周內我們還會發布兩個模型的正式版本,同時也會推出更為系統詳盡的技術報告,進一步分享我們在推理模型訓練中的經驗與洞察。我們相信,這種全方位的開源策略將有助于推動整個AI社區在推理能力研究上的共同進步。

Skywork-OR1系列開源地址:

https://github.com/SkyworkAI/Skywork-OR1

昆侖萬維天工團隊更多開源項目:

https://huggingface.co/Skywork

在評測方面,Skywork-OR1系列模型引入了avg@k作為核心評估指標,用于衡量模型在進行k次嘗試時成功解決問題的平均表現。相較于傳統的pass@k指標僅關注是否“至少一次成功”,avg@k能更細致地捕捉模型在多輪生成過程中的穩定性與整體推理能力,從而更全面反映其真實性能水平與實用價值。





在數學推理任務中:

  1. 通用模型Skywork-OR1-7B-PreviewSkywork-OR1-32B-Preview在AIME24與AIME25數據集上均實現了同參數規模下的最優表現,展現出強大的數學推理能力。
  2. 針對數學場景深度優化的專項模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分別取得69.852.3的高分,遠超當前主流7B級別模型,充分驗證了其在高階數學推理任務中的專業優勢。
  3. Skywork-OR1-32B-Preview在所有benchmark上均實現了對QwQ-32B的超越,并在更難的AIME25上基本與R1持平。

在競賽編程任務中:

  1. 通用模型Skywork-OR1-7B-PreviewSkywork-OR1-32B-PreviewLiveCodeBench數據集上均取得了同等參數規模下的最優性能。
  2. Skywork-OR1-32B-Preview表現尤為突出,其代碼生成與問題求解能力已接近DeepSeek-R1(參數規模高達671B),在大幅壓縮模型體量的同時實現了卓越的性價比,充分展現出天工團隊訓練策略的先進性。

其中Skywork-OR1-Math-7B表現尤為亮眼,作為一個專注于數學推理能力的7B參數模型,通過多階段GRPO訓練在復雜數學問題上實現了卓越表現,同時在代碼任務上也有較強的泛化能力。下圖是該模型在AIME24上的訓練準確率曲線,清晰呈現了多階段訓練過程中性能的穩定提升軌跡。



Skywork-OR1-Math-7B最終模型在AIME24和AIME24上分別達到69.8%52.3%,超越了OpenAI-o3-mini (low),達到了當前尺寸SOTA性能。值得注意的是,盡管該模型訓練過程中未專門針對代碼能力進行優化,但在代碼評測基準上Livecodebench從37.6%提升到43.6%,相比基線模型的顯著提升,這也表明我們的訓練方法具有較好的領域泛化性。



自2023年以來,昆侖萬維堅定地開源大模型回饋開發者和行業。2025年開源的Skywork-R1V多模態視覺推理模型、SkyReels-V1面向AI短劇創作的視頻生成模型、Skywork-o1推理模型以及2024年開源的Skywork-Reward獎勵模型,不僅在Hugging Face上下載數據表現亮點,開發者討論度和模型熱度依然居高不下。

當前,全球人工智能領域的競爭日趨激烈,競賽的焦點正逐步從基礎模型能力擴展到推理能力的比拼。AI大模型能否有效模仿人類的思維過程、具備邏輯推理和復雜任務的求解能力,已成為衡量技術先進性與通用智能潛力的關鍵指標。

在此背景下,為打破科技巨頭對核心AI大模型技術的壟斷壁壘,推動技術自主可控發展,中國多家企業紛紛投身于開源大模型生態的建設。未來,昆侖萬維仍繼續秉持“All in AGI 與 AIGC”戰略、“實現通用人工智能,讓每個人更好地塑造和表達自我”的使命,持續加大在通用大模型、開源框架和推理能力提升等方向的研究投入,力求在全球AI技術浪潮中搶占先機、塑造競爭優勢。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
局勢失控了!41個部落拒絕朱拉尼號令對以開戰,阿薩德舊部要起義

局勢失控了!41個部落拒絕朱拉尼號令對以開戰,阿薩德舊部要起義

欽點歷史
2025-07-19 15:39:41
男子當兵11年默默無聞,退伍證剛到手,部隊電話響個不停

男子當兵11年默默無聞,退伍證剛到手,部隊電話響個不停

今天說故事
2025-07-14 18:15:20
暴走團群主回應阻礙消防救護車通行:為隊員安全著想

暴走團群主回應阻礙消防救護車通行:為隊員安全著想

大象新聞
2025-07-18 19:25:26
周薪超32.5萬!DO:巴薩承擔拉什福德100%薪水,交易中包含該條款

周薪超32.5萬!DO:巴薩承擔拉什福德100%薪水,交易中包含該條款

直播吧
2025-07-19 23:19:04
隨著山東泰山客場0:2不敵大連英博,一戰揭露三個不爭的事實!

隨著山東泰山客場0:2不敵大連英博,一戰揭露三個不爭的事實!

田先生籃球
2025-07-19 21:55:53
2016年,易建聯花1000萬在洛杉磯買下豪宅,如今的出售值多少錢?

2016年,易建聯花1000萬在洛杉磯買下豪宅,如今的出售值多少錢?

塞外書娛
2025-07-19 11:35:12
3次叫醫生,糾纏10個局點爭議球結束,石宇奇2-0小波波夫進決賽

3次叫醫生,糾纏10個局點爭議球結束,石宇奇2-0小波波夫進決賽

真理是我親戚
2025-07-19 18:56:56
娃哈哈老員工爆料:宗馥莉與杜建英都不算太厲害,真正厲害的是她

娃哈哈老員工爆料:宗馥莉與杜建英都不算太厲害,真正厲害的是她

史行途
2025-07-16 15:17:48
他長得帥,演技好,出道23年演了100多部劇沒火卻深得觀眾喜歡

他長得帥,演技好,出道23年演了100多部劇沒火卻深得觀眾喜歡

娛人細品
2025-07-13 22:35:41
中央紀委國家監委通報:楊青錄被查

中央紀委國家監委通報:楊青錄被查

新京報
2025-07-19 16:27:09
73年歷史的星級酒店擺攤賣鹵味 記者實探:1小時賣斷貨,大廚刀功切出花

73年歷史的星級酒店擺攤賣鹵味 記者實探:1小時賣斷貨,大廚刀功切出花

封面新聞
2025-07-18 19:40:09
三伏天不要太節儉,建議:中老年多吃3種高蛋白食物,精神過苦夏

三伏天不要太節儉,建議:中老年多吃3種高蛋白食物,精神過苦夏

Lily美食談
2025-07-18 19:44:12
中央第五巡視組巡視江蘇省工作動員會召開

中央第五巡視組巡視江蘇省工作動員會召開

極目新聞
2025-07-19 19:16:30
印度空難機長離家前詭異告別成遺言:請照顧好爸爸,我很快就回來

印度空難機長離家前詭異告別成遺言:請照顧好爸爸,我很快就回來

奇聞不要看
2025-07-19 21:24:07
果然不簡單!宗老母親也是第一順位繼承人,網友:難怪親叔會背刺

果然不簡單!宗老母親也是第一順位繼承人,網友:難怪親叔會背刺

探源歷史
2025-07-19 16:38:01
郭臺銘做夢也沒想到,第二個富士康誕生!凈利潤百億,員工24萬

郭臺銘做夢也沒想到,第二個富士康誕生!凈利潤百億,員工24萬

芳芳歷史燴
2025-07-19 10:31:22
同父不同命!同是德云社少爺,看郭汾陽現狀,才知郭德綱有多偏心

同父不同命!同是德云社少爺,看郭汾陽現狀,才知郭德綱有多偏心

跳跳歷史
2025-07-19 15:50:51
媒體人熱議京滬大戰:申花成奪冠超級大熱,兩大名帥搞不定于漢超

媒體人熱議京滬大戰:申花成奪冠超級大熱,兩大名帥搞不定于漢超

奧拜爾
2025-07-19 22:03:10
擊敗中國女籃!日本主教練賽后發言殺人誅心,宮魯鳴豪言被打臉!

擊敗中國女籃!日本主教練賽后發言殺人誅心,宮魯鳴豪言被打臉!

老臉科普君
2025-07-20 02:35:48
杭州余杭部分小區自來水發臭后第四天:有人“跨區”洗澡,有飲用水販賣柜賣斷貨

杭州余杭部分小區自來水發臭后第四天:有人“跨區”洗澡,有飲用水販賣柜賣斷貨

紅星新聞
2025-07-19 16:05:17
2025-07-20 06:00:49
甲子光年
甲子光年
中國科技產業化前沿智庫
3107文章數 9244關注度
往期回顧 全部

科技要聞

工信部等約談17家車企巨頭,競爭劃新紅線

頭條要聞

緬甸園區老板送回19歲高考生:你前途光明 不該留在這

頭條要聞

緬甸園區老板送回19歲高考生:你前途光明 不該留在這

體育要聞

女籃無緣亞洲杯決賽 韓旭淚灑發布會

娛樂要聞

肖戰微博改名:去掉X玖少年團頭銜

財經要聞

娃哈哈爭產大戰:杜建英的進擊

汽車要聞

中汽中心新能源檢驗中心煥新發布"汽車行車控制安全技術驗證VCTA"

態度原創

教育
時尚
旅游
藝術
公開課

教育要聞

TTS新傳論文帶讀:新聞網紅?這又是什么職業嗎?

隨手拍也能美上熱搜,這個穿搭真的自帶美女氛圍

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 达尔| 洛扎县| 惠东县| 武隆县| 瑞昌市| 岚皋县| 彩票| 闽清县| 漳州市| 深泽县| 海门市| 象山县| 太和县| 闽清县| 明溪县| 郓城县| 孝感市| 阳谷县| 横峰县| 肇东市| 鞍山市| 喀喇沁旗| 淳安县| 西乌珠穆沁旗| 红河县| 柳州市| 南召县| 泰兴市| 卢湾区| 剑川县| 虹口区| 华坪县| 鄂州市| 湾仔区| 海盐县| 巧家县| 江源县| 乃东县| 富裕县| 双柏县| 喀喇沁旗|