99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

強(qiáng)化學(xué)習(xí)細(xì)節(jié)為王!

0
分享至

作者:haotian(阿里巴巴 高級(jí)算法工程師)

近期,seed&清華發(fā)表的DAPO [2],將32b-base做到了aime50分的效果,是一個(gè)值得參考的技術(shù)報(bào)告。這個(gè)報(bào)告里面提到了很多方法/tricks:

好的流程遠(yuǎn)勝不靠譜的算法trick

llm的sft和rl,筆者認(rèn)為,二者差別不大,sft是rl的一個(gè)特例(有一些文章做了類似的討論),而rl則更好的利用了負(fù)樣本。在dapo中,一個(gè)核心是dynamic-sampling,簡(jiǎn)單來(lái)說(shuō),根據(jù)當(dāng)前模型在prompt的bon,動(dòng)態(tài)決定采樣budget,難prompt采樣更多的sample,簡(jiǎn)單prompt則采樣更少的prompt,以及過(guò)濾模型解決不了的hard-prompt或者easy-prompt。

在sft階段,通常也會(huì)使用類似的策略做code/math等等的拒絕采樣、篩選多樣性response(embedding+聚類、長(zhǎng)度)。從DAPO中可以看出,一個(gè)良好的pipline(online-dynamic-sampling)遠(yuǎn)勝于不靠譜的算法trick。

當(dāng)做好sft后,從數(shù)據(jù)/task、response合成/采樣、response挑選/打分方法等等,都有一個(gè)相對(duì)固定且運(yùn)行良好的流程。把這個(gè)流程做到online,在replay-buffer 的數(shù)據(jù)構(gòu)造中即可應(yīng)用,配合對(duì)應(yīng)的挑選/打分/篩選策略,便可將sft階段積累的優(yōu)秀流程直接遷移到online-rl。同時(shí)也需要replay-buffer和主代碼解耦,做靈活的控制。

總之,能做好sft且pipline能夠在線化運(yùn)行的團(tuán)隊(duì),做好online-rl只是算力和時(shí)間的問(wèn)題(生產(chǎn)要素)。反之,則陷入一個(gè)窘境(生產(chǎn)關(guān)系):

1. 做sft的一直offline調(diào)數(shù)據(jù)、蒸餾、挑選,但pipline較難在線化運(yùn)行,且需要人力不斷重復(fù),但實(shí)際上都是well-defined流程和配比實(shí)驗(yàn),不太需要過(guò)多的人工參與;(出現(xiàn)能力/任務(wù)沖突后,人工介入處理)

2. 做rl的不斷重復(fù)sft的數(shù)據(jù)流程:找數(shù)據(jù)、找replay-buffer的數(shù)據(jù)構(gòu)建策略,踩過(guò)一坨坑后,發(fā)現(xiàn),這些策略其實(shí)和sft并無(wú)不同,造成了極大的資源浪費(fèi)和時(shí)間浪費(fèi)。

3. 做agent-rl的時(shí)候,agent-rl只需要寫一個(gè)推理引擎的多次采樣即可,而環(huán)境的穩(wěn)定性則更為重要。如果sft沒(méi)怎么做過(guò)agent-based的sft數(shù)據(jù),則環(huán)境積累基本為0,當(dāng)應(yīng)用agent-rl的時(shí)候,環(huán)境穩(wěn)定性會(huì)成為rl訓(xùn)練的阿喀琉斯之踵。尤其是agent環(huán)境,延時(shí)、返回結(jié)果的不確定性等等會(huì)加劇這個(gè)問(wèn)題。

token-level-loss分析

DAPO中提到了token-level-loss,這個(gè)議題在24年末在社區(qū)也引起了一些討論,尤其當(dāng)梯度累加較大的時(shí)候,會(huì)導(dǎo)致梯度累加訓(xùn)練和大batch訓(xùn)練loss有較大的差異,具體可參考[1]: 這里,第一行是 大batch的loss計(jì)算,第二行是ga=2的loss計(jì)算,顯然,主流框架實(shí)現(xiàn)的為第二行的loss計(jì)算,天然會(huì)比大batch計(jì)算的loss更大,對(duì)于長(zhǎng)文本訓(xùn)練會(huì)產(chǎn)生不利的影響。

在openrlhf/verl中,micro-batch-loss為token-level-loss計(jì)算,但有梯度累加的時(shí)候,也會(huì)存在類似的問(wèn)題。對(duì)于訓(xùn)練會(huì)有一定的影響。前期loss過(guò)大,優(yōu)化過(guò)于激進(jìn)。

實(shí)現(xiàn)梯度累加內(nèi)的token-level-loss也比較直觀,計(jì)算loss的時(shí)候,直接按照各個(gè)維度求和再除以當(dāng)前ga內(nèi)的總token數(shù):

if len(prefetch) == 0 or len(prefetch) % self.strategy.accumulated_gradient != 0:
   prefetch.append(experience)
if len(prefetch) % self.strategy.accumulated_gradient == 0:
   torch.distributed.barrier()
   length_status = {
     'response_length': prefetch[0].info['response_length'].sum()
   }
   for exp in prefetch[1:]:
      length_status['response_length'] += exp.info['response_length'].sum()
   length_status = self.strategy.all_reduce(length_status, op='sum')

grpo:無(wú)token-level-loss

grpo:有g(shù)a-token-level-loss

參考o(jì)rz的repeatness統(tǒng)計(jì),ga-token-level-loss會(huì)讓grpo優(yōu)化更穩(wěn)定一些,至少不會(huì)產(chǎn)生特別多的重復(fù),而none-token-level-loss訓(xùn)練到后期,repeatness、format崩潰會(huì)顯著上升(不加任何dataloader-filter、kl、entropy正則的情況下)。

對(duì)比reinforce_baseline 和grpo的異同點(diǎn)

(token-level-loss,不考慮kl、entropy等等)

reinforce_baseline的advantage計(jì)算:r-group_mean+全局歸一化

grpo的advantage計(jì)算:(r-group_mean)/group_std(group歸一化)

[3]中對(duì)grpo進(jìn)行了細(xì)致的分析和推導(dǎo):當(dāng)reward=0/1時(shí)(為一個(gè)隨機(jī)變量服從伯努利分布),我們有如下均值/方差的估計(jì)

對(duì)于reinforce_baseline來(lái)說(shuō),

全局std:由于進(jìn)行了局部均值歸一化,global-mean的期望=0,global-std為group的方差求和開根號(hào),global-std要大于group-std,當(dāng)采樣樣本無(wú)窮多時(shí),

如果不對(duì)group樣本做調(diào)整,當(dāng)group-std的標(biāo)準(zhǔn)差小到一定程度,會(huì)讓當(dāng)前的loss急劇增加,產(chǎn)生更為激進(jìn)的優(yōu)化。道理上,reinfroce_baseline和grpo有著類似的training-dynamics,而grpo的收斂速度要好于reinfroce_baseline,但穩(wěn)定性來(lái)說(shuō),不如reinforce_baseline。當(dāng)全局樣本都處于方差較小的狀態(tài),reinforce_baseline也會(huì)崩,只是要比grpo來(lái)的晚一些。

最后總結(jié)一下:

1. sft流程搬到online-replay-buffer采樣流程中,基本上就能做好online-rl(穩(wěn)定的online環(huán)境+魯棒的rl方法);

2. token-level-loss在ga層面實(shí)現(xiàn)也重要,畢竟,在rl訓(xùn)練時(shí),梯度累加都開的比較大,一種規(guī)避方式是一次采樣多次參數(shù)更新即更offpolicy一些;

3. reinforce_baseline和grpo有著類似的training-dynamics,二者的advantage只差一個(gè)系數(shù),道理上,reinforce_baseline會(huì)更穩(wěn)定,而grpo可能前期優(yōu)化會(huì)比較猛。

參考文獻(xiàn)

[1] Bug Fixes in LLM Training - Gradient Accumulation

[2] https://dapo-sia.github.io/static/pdf/dapo_paper.pdf

[3] REINFORCEMENT LEARNING WITH VERIFIABLE REWARDS: GRPO’S EFFECTIVE LOSS, DYNAMICS, AND SUCCESS AMPLIFICATION

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
熊孩子點(diǎn)個(gè)煙花如何帶走694條生命?回顧1977年伊犁2.18火災(zāi)事故

熊孩子點(diǎn)個(gè)煙花如何帶走694條生命?回顧1977年伊犁2.18火災(zāi)事故

顧氏造船廠廠長(zhǎng)
2025-06-20 08:00:15
一個(gè)吞吞吐吐,一個(gè)臉部僵硬,兩人連累24集大劇,魏哲鳴也救不了

一個(gè)吞吞吐吐,一個(gè)臉部僵硬,兩人連累24集大劇,魏哲鳴也救不了

一娛三分地
2025-07-01 23:32:55
六年無(wú)成果被解聘,講師訴高校敗訴;十年前一篇文章引 3900 萬(wàn)美元投資 | 學(xué)霸快報(bào)

六年無(wú)成果被解聘,講師訴高校敗訴;十年前一篇文章引 3900 萬(wàn)美元投資 | 學(xué)霸快報(bào)

生物學(xué)霸
2025-07-02 04:07:16
別再不舍得開空調(diào)!Nature和子刊:溫度調(diào)低,不僅能抑制多種癌癥生長(zhǎng),還能燃脂減肥,改善代謝和心血管健康

別再不舍得開空調(diào)!Nature和子刊:溫度調(diào)低,不僅能抑制多種癌癥生長(zhǎng),還能燃脂減肥,改善代謝和心血管健康

梅斯醫(yī)學(xué)
2025-07-02 08:49:47
徐曉當(dāng)選全國(guó)青聯(lián)主席,李文鐸當(dāng)選全國(guó)學(xué)聯(lián)主席

徐曉當(dāng)選全國(guó)青聯(lián)主席,李文鐸當(dāng)選全國(guó)學(xué)聯(lián)主席

澎湃新聞
2025-07-04 08:21:02
南航1死4傷后續(xù):妻子是空姐太漂亮,發(fā)長(zhǎng)文曝內(nèi)情,網(wǎng)友炸鍋!

南航1死4傷后續(xù):妻子是空姐太漂亮,發(fā)長(zhǎng)文曝內(nèi)情,網(wǎng)友炸鍋!

古希臘掌管松餅的神
2025-07-03 09:01:11
楊瀚森訓(xùn)練后收拾發(fā)型!夏聯(lián)迎新挑戰(zhàn) 最佳新秀賠率排名已升第15

楊瀚森訓(xùn)練后收拾發(fā)型!夏聯(lián)迎新挑戰(zhàn) 最佳新秀賠率排名已升第15

羅說(shuō)NBA
2025-07-04 09:41:45
【江湖】煙臺(tái):某大學(xué)女生被粗俗男子“三點(diǎn)定位”,找上了校門

【江湖】煙臺(tái):某大學(xué)女生被粗俗男子“三點(diǎn)定位”,找上了校門

年之父
2025-07-02 06:10:02
48小時(shí)決戰(zhàn)開始,馬斯克向2.5億粉絲發(fā)狠話,誓讓特朗普付出代價(jià)

48小時(shí)決戰(zhàn)開始,馬斯克向2.5億粉絲發(fā)狠話,誓讓特朗普付出代價(jià)

靚仔情感
2025-07-03 00:00:02
“月供4萬(wàn)”業(yè)主崩潰:這房我該不該扔?

“月供4萬(wàn)”業(yè)主崩潰:這房我該不該扔?

北京房姐
2025-07-03 08:24:26
布萊德彼特「肌肉觸感海報(bào)」印制出包!影城緊急公告…網(wǎng):更不想換了

布萊德彼特「肌肉觸感海報(bào)」印制出包!影城緊急公告…網(wǎng):更不想換了

ETtoday星光云
2025-07-03 16:28:07
由于NBA收入低于預(yù)期,24-25賽季每位球員僅能拿到合同總額的90.9%

由于NBA收入低于預(yù)期,24-25賽季每位球員僅能拿到合同總額的90.9%

雷速體育
2025-07-03 20:06:12
不到20萬(wàn),L3級(jí)算力小鵬G7開賣,何小鵬和雷軍組團(tuán)圍剿Model Y

不到20萬(wàn),L3級(jí)算力小鵬G7開賣,何小鵬和雷軍組團(tuán)圍剿Model Y

超電實(shí)驗(yàn)室
2025-07-03 23:29:45
記者:太陽(yáng)正式和比爾討論買斷事宜,后者需放棄部分薪資

記者:太陽(yáng)正式和比爾討論買斷事宜,后者需放棄部分薪資

懂球帝
2025-07-04 08:43:06
 Netflix新出的懸疑劇!封神之作!

Netflix新出的懸疑劇!封神之作!

仙味少女心
2025-07-04 11:08:54
醫(yī)生叮囑:馬上停止飲用這類茶葉,傷肝是煙酒的10倍,趕緊停下

醫(yī)生叮囑:馬上停止飲用這類茶葉,傷肝是煙酒的10倍,趕緊停下

繁華若花
2025-07-02 14:43:30
87年女友考上清華跟我分手,我當(dāng)兵立功升職,在慶功宴上再次相遇

87年女友考上清華跟我分手,我當(dāng)兵立功升職,在慶功宴上再次相遇

凱裕說(shuō)故事
2025-07-01 17:12:18
這是溥儀最知名的畫,哈哈哈

這是溥儀最知名的畫,哈哈哈

中國(guó)藝術(shù)家
2025-07-03 05:24:42
好善良!汪小菲留用S媽大女兒的朋友當(dāng)保姆,其實(shí)已給S家留了余地

好善良!汪小菲留用S媽大女兒的朋友當(dāng)保姆,其實(shí)已給S家留了余地

娛圈小愚
2025-07-04 08:05:09
5年前我國(guó)鐵路負(fù)債高達(dá)5.76萬(wàn)億,再看如今數(shù)據(jù),真的令人意外

5年前我國(guó)鐵路負(fù)債高達(dá)5.76萬(wàn)億,再看如今數(shù)據(jù),真的令人意外

快看張同學(xué)
2025-07-03 16:16:48
2025-07-04 13:19:00
人工智能研究 incentive-icons
人工智能研究
分享深度學(xué)習(xí)、CV、NLP
275文章數(shù) 130關(guān)注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰(zhàn)報(bào)

頭條要聞

67歲丈夫出軌50歲閨蜜 妻子告上法庭不料查出更多真相

頭條要聞

67歲丈夫出軌50歲閨蜜 妻子告上法庭不料查出更多真相

體育要聞

33歲,她的野心也該火一把了

娛樂(lè)要聞

王嘉爾年收四成借朋友 竟遭人間蒸發(fā)

財(cái)經(jīng)要聞

闖禍電芯商部分產(chǎn)線停產(chǎn)!羅馬仕通知停工

汽車要聞

純電續(xù)航180km/或30萬(wàn)級(jí) 方程豹鈦7四季度上市

態(tài)度原創(chuàng)

家居
數(shù)碼
本地
手機(jī)
軍事航空

家居要聞

合理布局 三口之家的溫馨空間

數(shù)碼要聞

4 年等待,谷歌入門耳機(jī) Pixel Buds A 有望今年迎來(lái)繼任者

本地新聞

云游中國(guó) | 穿越三國(guó)!赤壁古戰(zhàn)場(chǎng)藏了多少英雄傳奇?

手機(jī)要聞

業(yè)界唯一!榮耀Magic V5免費(fèi)送內(nèi)屏寶

軍事要聞

俄美元首通話約1小時(shí) 討論中東局勢(shì)、俄烏談判等

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 舞钢市| 兴化市| 兰州市| 潜江市| 商丘市| 台湾省| 柳州市| 浙江省| 五台县| 平原县| 中西区| 古田县| 三门峡市| 宽城| 辽阳县| 卢湾区| 娄底市| 玛沁县| 浑源县| 新晃| 彩票| 大名县| 上虞市| 磐石市| 贵州省| 江油市| 伊川县| 海兴县| 留坝县| 南宁市| 曲阜市| 南雄市| 扎赉特旗| 城步| 汉寿县| 沙河市| 湛江市| 伊通| 济源市| 桓仁| 济南市|