99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

基于昇騰MindSpeed RL復現R1-Zero優秀實踐

0
分享至


DeepSeek開啟全新的后訓練范式,帶來AI模型技術平權時代,行業紛紛構建自己的高質量高性能的行業RL模型。然而,訓練高性能的大尺寸模型通常需要龐大的計算資源和海量數據,這對研究社區的可復現性和進一步探索提出了挑戰。為了降低研究門檻并促進開源生態的發展,昇騰MindSpeed RL強化學習開源套件支持大尺寸模型的強化學習高效訓練,提供用戶方便易用的復現指導,目前已完成在Qwen25-7B/32B基座模型為例復現R1-Zero的實踐,模型數學能力大大提升。


R1-Zero復現面臨的挑戰

目前,針對大規模集群強化學習RL復現R1-Zero,在效率、易用性和訓練效果上存在諸多挑戰。業界開源RL框架在大尺寸模型RL訓練中有權重更新時延高、硬件利用率低、并行策略轉換OOM等問題,業界開源RL倉的readme太簡單無法支撐用戶快速上手,同時,RL訓練過程依賴人工經驗,較好的規則獎勵定義、訓練超參調整尤為重要。

基于MindSpeed RL套件

復現R1-Zero

數學能力大幅提升

MindSpeed RL提供了從環境安裝、程序運行、訓練效果的詳細指導,并提供典型配置文件和腳本供用戶一鍵啟動,同時采用訓推共卡、異步流水、分布式打分器等核心技術進行訓練加速。

基于以上能力,分別使用Qwen25-7B和Qwen25-32B作為base模型為例,使用昇騰MindSpeed RL套件復現DeepSeek-R1-Zero范式在Math領域的工作效果,在數學等邏輯推理評測集上,MATH500的分數提升幅度15分左右,達到70.6和83.2,32B模型下的AIME24的提升幅度高達26分。

01

MindSpeed RL以Qwen2.5-7B為基座模型為例復現R1-Zero的效果

訓練輸入:使用Qwen2.5-7B base模型在orz數據集上訓練,使用標準的格式獎勵和準確性獎勵,訓練超參如下

訓練過程監控:訓練過程用Tensorboard可視化工具監控,可以看到模型的回復長度Response length呈現典型的先下降后上升趨勢,準確性獎勵Accuracy持續上升并逐漸穩定在0.4~0.5之間。


模型效果評估:使用開源榜單評測系統OpenCompass進行模型評估,分數如下:

對于MATH500,Qwen-2.5-7B原模型的得分是54.4,開源社區Open-R1獲得69分,而Qwen-2.5-7B+MindSpeed RL得分高達70.6,超越了開源社區;對于AIME24和GPQA,Qwen-2.5-7B+MindSpeed RL的效果也提升了近10分,分別達到16.2和37.3分。


MindSpeed RL以Qwen25-7B為例

復現R1-Zero的模型在數學能力效果超越開源社區

02

MindSpeed RL以Qwen2.5-32B為基座模型為例復現R1-Zero的效果

訓練輸入:使用Qwen2.5-32B模型在deepscaler數據集上使用標準的格式獎勵和準確性獎勵訓練,訓練超參如下:


訓練過程監控:訓練過程用Tensorboard可視化工具監控,可以看到模型的回復長度Response length呈現典型的先下降后上升的趨勢,準確性獎勵Accuracy保持持續上升;格式獎勵Format很快上升到較高的水平。


模型效果評估:使用開源榜單評測系統OpenCompass進行模型評估,分數如下:

對于MATH500,Qwen-2.5-7B原模型的得分是68.6,開源社區SimpleRL-Zoo復現R1-Zero效果獲得82.4分,而MindSpeed RL復現R1-Zero得分83.2,超越開源社區;對于AIME24,開源社區SimpleRL-Zoo復現R1-Zero效果獲得27.2分,MindSpeed RL復現R1得分30.4,超越開源社區;而對于GPQA,MindSpeed RL復現R1得分41.1,相比基座模型也有9分提升。


MindSpeed RL以Qwen25-32B為例

復現R1-Zero的模型在數學能力效果超越開源社區

03

訓練后模型出現Aha-moment的自我反思現象

訓練前,通過prompt可以引導模型部分遵從 的格式,但回答的思考過程較短沒有自我反思,樣例如下:


訓練后,我們觀察到經過幾十個iterations后模型就有一定概率出現Aha-Moment,從“But wait”上看模型在進行自我反思,出現了R1范式中的模型產生CoT思維鏈現象,樣例如下:


R1-Zero

(以Qwen2.5-32B為例)

復現指南

環境配置

配置MindSpeed RL基礎環境以及準備代碼,參考安裝指南

https://gitee.com/ascend/MindSpeed-RL/blob/master/docs/install_guide.md

模型選擇

Qwen2.5-32B下載:

https://gitee.com/link?target=https%3A%2F%2Fhuggingface.co%2FQwen%2FQwen2.5-32B%2Ftree%2Fmain

權重轉換

在進行RL訓練之前,模型需要從HuggingFace權重轉換為megatron權重,可參考權重轉換部分:https://gitee.com/ascend/MindSpeed-RL/blob/master/docs/algorithms/grpo.md

source /usr/local/Ascend/ascend-toolkit/set_env.sh

# 設置需要的權重轉換參數

# actor使用TP8PP2,將腳本里改成TP8PP2配置

# reference使用TP8PP1,將腳本里改成TP8PP2配置

bash examples/ckpt/ckpt_convert_qwen25_hf2mcore.sh

# 訓練完后如需要轉回HF格式

bash examples/ckpt/ckpt_convert_qwen25_mcore2hf.sh

模板構造

R1-Zero復現需要在數據處理時加上prompt模板激發 ... ...$\boxed{}

<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within and tags, respectively, i.e., reasoning process here answer here Put your final answer within \\boxed{}.\n{你真正的問題}<|im_end|>\n<|im_start|>assistant\n{模型真正的回答}

數據集

對于32B模型應使用更高難度的數據集,所以我們使用DeepScale 40K來訓練。

數據集地址:https://gitee.com/link?target=https%3A%2F%2Fhuggingface.co%2Fdatasets%2Fagentica-org%2FDeepScaleR-Preview-Dataset%2Ftree%2Fmain

數據預處理

需要先配置數據處理的yaml文件(examples\datasets\r1_zero_qwen25_32b.yaml) 自定義數據集需要設置--map-keys映射,或重寫自定義handler;具體參考數據集處理部分

Qwen2.5-32B

處理的時候默認使用qwen_r1的模板

# 啟動轉換

bash examples/data/preprocess_data.sh r1_zero_qwen25_32b

訓練配置準備

模型結構的配置文件位于configs/model下,訓練配置文件位于configs/目錄下,我們以qwen2.5-32b為例[r1_zero_qwen25_32b.yaml],該配置用到了32卡,為了進一步加速可以不斷增加推理DP的數量。以下為參數配置:

defaults:

- model:

- qwen25-32b <-- 網絡結構需要定義在model目錄的yaml文件下

megatron_training:

global_batch_size: 128 <-- 每個迭代的總樣本數

dataset_additional_keys: ['labels',] <-- 使用打分器時需要的額外字段

actor_config:

model: qwen25-32b

micro_batch_size: 1 <-- 訓練的mbs

lr: 1e-6

lr_decay_style: constant <-- 學習率衰減方式

weight_decay: 0.0 <-- 正則化強度系數

lr_warmup_fraction: 0.0 <-- 控制學習率預熱

no_load_optim: false <-- 續訓加載優化器狀態

no_load_rng: false <-- 續訓加載數據隨機數生成器

no_save_optim: false <-- 保存權重時同時保存優化器狀態

no_save_rng: false <-- 保存權重時同時保存數據隨機數生成器

ref_config:

model: qwen25-32b

rl_config:

blocking: false <-- 開啟異步流水

adv_estimator: group_norm <-- 優勢計算方法

mini_batch_size: 2048 <-- 訓練更新梯度的bs, 一般為gbs*n_samples_per_prompt

max_prompt_length: 1024 <-- 最大的prompt長度

clip_ratio: 0.2 <-- 策略裁剪比例

shuffle_minibatch: false <-- minibatch里的數據是否打亂

n_samples_per_prompt: 16 <-- GRPO中一個group內生成的response條數

colocate_actor_ref: false

colocate_all_models: false

rule_reward: true <-- 開啟規則獎勵

verifier_function: ["acc", "strict_format"] <-- 規則獎勵模型方法

verifier_weight: [1.0, 1.0] <-- 規則獎勵模型權重

use_tensorboard: true <-- 開啟tensorboard日志功能

actor_resource: <-- actor worker資源分配

num_npus: 16

reference_resource: <-- ref worker資源分配

num_npus: 16

generate_config:

trust_remote_code: true <-- tokenizer相關配置

infer_tensor_parallel_size: 4 <-- 推理時的并行配置

infer_pipeline_parallel_size: 1

infer_expert_parallel_size: 1

max_num_seqs: 128 <-- vllm 推理并發最大樣本限制

max_num_batched_tokens: 128000 <-- vllm 推理并發最大token限制

max_model_len: 4096

dtype: "bfloat16"

gpu_memory_utilization: 0.9

offload_train_optimizer: true <-- 卸載訓練節點優化器

offload_train_grad: true <-- 卸載訓練節點梯度

offload_train_param: true <-- 卸載模型權重

sampling_config: <-- vllm 采樣配置

max_tokens: 3072 <-- 單條response最大生成token數量

logprobs: 1 <-- 是否生成logprobs

max_tokens: 3072

top_p: 0.9

top_k: 50

min_p: 0.01

temperature: 0.9

detokenize: false

手動啟動訓練

與基于ray的其他強化訓練一樣,我們多機需要先在主節點初始化ray:

# 創建一個集群,端口6344,dashboard端口8260

ray start --head --port 6344 --dashboard-host=0.0.0.0 --dashboard-port=8260

隨后,在其他節點加入主節點的集群:

# IP_ADDRESS 處填寫主節點 IP 地址

ray start --address="IP_ADDRESS:6344"

最后,在主節點上啟動訓練:

export HCCL_CONNECT_TIMEOUT=1800

export CUDA_DEVICE_MAX_CONNECTIONS=1

python cli/train_grpo.py --config-name r1_zero_qwen25_32b | tee logs/r1_zero_qwen25_32b_full.log

腳本啟動訓練

注意:所有節點的代碼、權重、數據等路徑的層級要保持一致,且啟動ray的時候都位于MindSpeed RL目錄下

更多詳細復現指導見MindSpeed RL開源readme文件


Qwen25-7B R1-Zero復現

https://gitee.com/ascend/MindSpeed-RL/blob/master/docs/solutions/r1_zero_qwen25_7b.md

Qwen25-32B R1-Zero復現

https://gitee.com/ascend/MindSpeed-RL/blob/master/docs/solutions/r1_zero_qwen25_32b.md

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俄羅斯“勝利日停火”生效 克宮:這將考驗烏克蘭和平意愿!

俄羅斯“勝利日停火”生效 克宮:這將考驗烏克蘭和平意愿!

財聯社
2025-05-08 08:10:09
美媒列舉本·西蒙斯下家排行榜:綠軍紐約騎士分列前三,廣東和利雅得勝利上榜

美媒列舉本·西蒙斯下家排行榜:綠軍紐約騎士分列前三,廣東和利雅得勝利上榜

雷速體育
2025-05-07 17:08:35
著名醫學專家華益慰患胃癌去世,臨終告誡:癌癥,千萬別過度治療

著名醫學專家華益慰患胃癌去世,臨終告誡:癌癥,千萬別過度治療

艾米手工作品
2025-05-05 03:58:09
姆巴佩哭暈?他走后1年大巴黎便進歐冠決賽!昔日跟班或奪金球獎

姆巴佩哭暈?他走后1年大巴黎便進歐冠決賽!昔日跟班或奪金球獎

我愛英超
2025-05-08 05:27:05
沒想到,開700萬豪車戴百萬名表的趙心童,是家里最不起眼的那個

沒想到,開700萬豪車戴百萬名表的趙心童,是家里最不起眼的那個

說說史事
2025-05-07 14:13:12
為什么朝鮮導游不愿意帶中國游客團?我也是剛剛知道的

為什么朝鮮導游不愿意帶中國游客團?我也是剛剛知道的

侃侃兒談
2025-05-07 10:06:18
軍隊離退休干部及其配偶全部去世后,干休所軍休所仍然會繼續存在

軍隊離退休干部及其配偶全部去世后,干休所軍休所仍然會繼續存在

從軍行
2025-05-07 09:41:05
不撤銷就再加稅,特朗普只給中方36小時考慮,中方的答案是“不”

不撤銷就再加稅,特朗普只給中方36小時考慮,中方的答案是“不”

天行艦
2025-05-07 11:32:42
山東小伙上班6天遭核輻射感染,老板不賠償拉黑跑路,已截肢出院

山東小伙上班6天遭核輻射感染,老板不賠償拉黑跑路,已截肢出院

奇思妙想草葉君
2025-05-06 23:45:14
艷壓全場!張柏芝閃鉆長裙亮相澳門,網友:衣服再閃也不如她的臉

艷壓全場!張柏芝閃鉆長裙亮相澳門,網友:衣服再閃也不如她的臉

春序娛樂
2025-05-08 08:31:57
河北:整體搬遷通知!

河北:整體搬遷通知!

掌中邯鄲
2025-05-08 07:01:21
饒穎:趙忠祥與我發生關系多年,他有特殊癖好,令我身心受到傷害

饒穎:趙忠祥與我發生關系多年,他有特殊癖好,令我身心受到傷害

史紀文譚
2025-05-06 22:10:58
中國向全球發出最高預警:堅決警惕并挫敗美國的破壞行徑

中國向全球發出最高預警:堅決警惕并挫敗美國的破壞行徑

寅虎侃世界
2025-05-07 15:43:51
小米YU7陸續到店,距離發布越來越近

小米YU7陸續到店,距離發布越來越近

泡泡網
2025-05-07 15:42:11
70歲呂良偉去普陀山,穿居士服祈福,楊小娟狀態差,看起來好顯老

70歲呂良偉去普陀山,穿居士服祈福,楊小娟狀態差,看起來好顯老

尋墨閣
2025-05-05 23:02:06
周受資夫婦亮相MetGala:周太太銀色裙裝設計優雅大氣

周受資夫婦亮相MetGala:周太太銀色裙裝設計優雅大氣

述家娛記
2025-05-07 08:45:29
庫里將立即開始腿筋傷勢康復治療,G2鐵定無法出場

庫里將立即開始腿筋傷勢康復治療,G2鐵定無法出場

仰臥撐FTUer
2025-05-08 07:50:07
湯洛雯與馬國明撐臺腳慶祝38歲生日,婚后養尊處優大曬巨鉆Hermès

湯洛雯與馬國明撐臺腳慶祝38歲生日,婚后養尊處優大曬巨鉆Hermès

粵睇先生
2025-05-08 06:06:15
以色列計劃接管整個加沙地帶:恐怖襲擊的代價就是永久失去領土

以色列計劃接管整個加沙地帶:恐怖襲擊的代價就是永久失去領土

一種觀點
2025-05-05 22:21:50
亞冠資格危!沙特聯積分榜:勝利掉至第4,吉達聯合6分領跑

亞冠資格危!沙特聯積分榜:勝利掉至第4,吉達聯合6分領跑

直播吧
2025-05-08 04:14:11
2025-05-08 09:23:00
開源中國 incentive-icons
開源中國
每天為開發者推送最新技術資訊
7023文章數 34404關注度
往期回顧 全部

科技要聞

蘋果宣布重大計劃 谷歌市值蒸發1500億美元

頭條要聞

牛彈琴:印巴之戰讓人大吃一驚 中國裝備經受實戰檢驗

頭條要聞

牛彈琴:印巴之戰讓人大吃一驚 中國裝備經受實戰檢驗

體育要聞

未來是你們這些年輕人的,但現在還不行!

娛樂要聞

出道15年零緋聞,被劉濤贊揚演技的他

財經要聞

特朗普修改AI芯片出口管制?美商務部回應

汽車要聞

《臺州宣言》再進一步 吉利汽車將全資控股極氪

態度原創

藝術
本地
手機
家居
數碼

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

為什么太行山上長滿了韓國人?

手機要聞

向折痕宣戰:微軟專利創新鉸鏈設計,治愈折疊手機屏幕“頑疾”

家居要聞

平和心境 蘇式園林格調

數碼要聞

三星 One UI Watch 8 首發 Gemini AI 功能:跨應用操作等

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 前郭尔| 航空| 广安市| 中卫市| 临夏市| 丽水市| 陵川县| 启东市| 大田县| 阳江市| 松原市| 上蔡县| 教育| 阿克苏市| 合作市| 荔波县| 汉中市| 阿勒泰市| 原平市| 兴安盟| 武邑县| 马边| 裕民县| 尖扎县| 南华县| 天峨县| 福州市| 手游| 长武县| 扶沟县| 长海县| 宜兰市| 濮阳县| 双城市| 兰州市| 广安市| 密山市| 嘉鱼县| 孝感市| 忻州市| 镇平县|