99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

聊聊DeepSeek-R1的技術(shù)路徑

0
分享至

作者:小貍愚@知乎

Arxiv論文地址:https://arxiv.org/abs/2501.12948
ModelScope論文地址:https://modelscope.cn/papers/109508
github論文地址:https://github.com/deepseek-ai/DeepSeek-R1/tree/main

DeepSeek-R1本質(zhì)上給出了模型訓(xùn)練中的長(zhǎng)鏈推理,或復(fù)雜推理問題的一種可行路徑。可貴的是,在論文中DeepSeek給出了一個(gè)非常完整的技術(shù)實(shí)現(xiàn)路徑,還包括了一些失敗的嘗試。這給其他模型廠商提供了完整的復(fù)現(xiàn)方式。我們先看最后的評(píng)測(cè)結(jié)果:


可以看到R1的結(jié)果幾乎都與OpenAI-o1-1217持平,部分評(píng)測(cè)集甚至超越了后者,如AIME和MATH。

DeepSeek-R1的訓(xùn)練路徑是非常簡(jiǎn)潔的,這和DeepSeek-V2和V3模型積累的訓(xùn)練經(jīng)驗(yàn)積累存在非常大的關(guān)系。

首先我們先明確R1模型的訓(xùn)練目標(biāo),這個(gè)非常重要:

Our goal is to explore the potential of LLMs to develop reasoning capabilities without any supervised data, focusing on their self-evolution through a pure RL process.

劃重點(diǎn):探索幾乎沒有任何監(jiān)督數(shù)據(jù)的條件下,模型通過RL訓(xùn)練,自我更新并涌現(xiàn)復(fù)雜推理能力的可能性

論文中用一句話概括了整體訓(xùn)練過程,我們先放一下原文:

we introduce DeepSeek-R1, which incorporates a small amount of cold-start data and a multi-stage training pipeline. Specifically, we begin by collecting thousands of cold-start data to fine-tune the DeepSeek-V3-Base model. Following this, we perform reasoning-oriented RL like DeepSeek-R1- Zero. Upon nearing convergence in the RL process, we create new SFT data through rejection sampling on the RL checkpoint, combined with supervised data from DeepSeek-V3 in domains such as writing, factual QA, and self-cognition, and then retrain the DeepSeek-V3-Base model. After fine-tuning with the new data, the checkpoint undergoes an additional RL process, taking into account prompts from all scenarios. After these steps, we obtained a checkpoint referred to as DeepSeek-R1, which achieves performance on par with OpenAI-o1-1217.

訓(xùn)練路徑:

1.先收集了一部分高質(zhì)量冷啟動(dòng)數(shù)據(jù)(約幾千條),使用該數(shù)據(jù)fine-tune DeepSeek-V3-Base模型,記為模型A

2.使用A模型用GRPO訓(xùn)練,使其涌現(xiàn)推理能力,收斂的模型記為B

3.使用B模型產(chǎn)生高質(zhì)量SFT數(shù)據(jù),并混合DeepSeek-V3產(chǎn)生的其他領(lǐng)域的高質(zhì)量數(shù)據(jù),形成一個(gè)高質(zhì)量數(shù)據(jù)集

4.使用該數(shù)據(jù)集訓(xùn)練原始DeepSeek-V3-Base模型,記為模型C

5.使用C模型重新進(jìn)行步驟2,但是數(shù)據(jù)集變?yōu)樗蓄I(lǐng)域,收斂后的模型記為D,這個(gè)模型就是DeepSeek-R1

6.訓(xùn)練C模型的數(shù)據(jù)對(duì)小模型做蒸餾,效果也非常好

當(dāng)然,最開始DeepSeek并沒有使用冷啟動(dòng),而是直接對(duì)DeepSeek-V3-Base進(jìn)行了GRPO訓(xùn)練,發(fā)現(xiàn)雖然CoT能力提升比較大,但是回復(fù)的內(nèi)容魚龍混雜,甚至有多個(gè)語言同時(shí)出現(xiàn)的情況,所以才產(chǎn)生了上面比較標(biāo)準(zhǔn)的訓(xùn)練路徑。

DeepSeek-R1的實(shí)驗(yàn)有很多貢獻(xiàn),我們列出文章中列出來的:

1.跳過SFT直接使用GRPO做RL,效果一樣很好(或者說,只進(jìn)行冷啟動(dòng)階段的幾千條數(shù)據(jù)的SFT)。這一發(fā)現(xiàn)證明強(qiáng)化學(xué)習(xí)在LLM訓(xùn)練中的作用比之前預(yù)想要大很多,甚至可以取代SFT

個(gè)人認(rèn)為,這一點(diǎn)我們要分開來看,GRPO在少量顯卡上的輕量訓(xùn)練比較難涌現(xiàn)比較好的效果,因此如果對(duì)Instruct或者Base模型進(jìn)行垂類訓(xùn)練,SFT仍然是不二之選。

2. RL-采樣SFT-RL-蒸餾SFT的pipeline對(duì)其他模型訓(xùn)練具有啟示作用

  1. 3. 較大模型蒸餾的數(shù)據(jù)用于訓(xùn)練小模型效果比直接從零RL小模型要好。這一點(diǎn)的發(fā)現(xiàn)基本說明數(shù)據(jù)集本身的好壞對(duì)模型訓(xùn)練起決定性作用,或者說人給不了模型需要的數(shù)據(jù),模型才給得了模型需要的數(shù)據(jù)。換句話說,模型的next-token-prediction具有獨(dú)特的生成和自我進(jìn)化方式,該方式和人類給出的提示數(shù)據(jù)有所不同,而在不同模型間可能是通用的。這一點(diǎn)也基本決定了未來模型的訓(xùn)練中使用優(yōu)質(zhì)模型蒸餾的數(shù)據(jù)集,或模型self-improvement會(huì)成為重要的訓(xùn)練路徑。

具體實(shí)現(xiàn)

GRPO的reward并沒有采用PRM,而是使用了基于正則的ORM,其中包括了兩個(gè)點(diǎn):

1.評(píng)估最終答案是否正確。包含最終結(jié)果比對(duì)、代碼運(yùn)行結(jié)果等

2.格式獎(jiǎng)勵(lì):模型需要將CoT過程放在 之間

疑問:具體的獎(jiǎng)勵(lì)值是怎么定義的?不連續(xù)且稀疏的獎(jiǎng)勵(lì)可能導(dǎo)致policy不收斂

上面我們提過,最開始的GRPO是沒有冷啟動(dòng)SFT的,產(chǎn)生的模型叫DeepSeek-R1-Zero,其訓(xùn)練結(jié)果如下:


AIME結(jié)果從15.6%一躍到了71%,而且這個(gè)訓(xùn)練過程是不需要任何監(jiān)督數(shù)據(jù)的,只需要準(zhǔn)確評(píng)估最終結(jié)果。這也是以PPO、GRPO為主包含Rollout過程的強(qiáng)化學(xué)習(xí)路徑的優(yōu)勢(shì)所在。而且,隨著Generate-RL的on policy訓(xùn)練過程,模型涌現(xiàn)了解決復(fù)雜任務(wù)的能力,甚至出現(xiàn)了反思,以及對(duì)復(fù)雜的問題產(chǎn)生更多的token和推理過程。

Aha Moment of DeepSeek-R1-Zero A particularly intriguing phenomenon observed during the training of DeepSeek-R1-Zero is the occurrence of an “aha moment”. This moment, as illustrated in Table 3, occurs in an intermediate version of the model. During this phase, DeepSeek-R1-Zero learns to allocate more thinking time to a problem by reevaluating its initial approach. This behavior is not only a testament to the model’s growing reasoning abilities but also a captivating example of how reinforcement learning can lead to unexpected and sophisticated outcomes.

說句題外話,這是否可以印證模型的能力提升,只需要預(yù)訓(xùn)練后來自于真實(shí)世界的正負(fù)反饋和模型本身的游走呢?那么現(xiàn)在的模型訓(xùn)練系統(tǒng)的最大問題就是模型和真實(shí)世界的交互反饋能力的不足了。


由于Zero模型的游走隨機(jī)性比較強(qiáng),不少問題的推理有可讀性差的問題,因此DeepSeek額外訓(xùn)練了DeepSeek-R1模型。

1.冷啟動(dòng),使用少量示例提示,其中包含長(zhǎng)推理鏈,或者直接提示模型生成帶有反思和驗(yàn)證的詳細(xì)答案,或者收集DeepSeek-R1-Zero 的輸出并以可讀格式呈現(xiàn),并通過人工注釋進(jìn)行后期處理以細(xì)化結(jié)果。從這些數(shù)據(jù)微調(diào)DeepSeek-V3-Base

2.在SFT后的模型上執(zhí)行和Zero上相同的RL,但是為了規(guī)避語言混雜的問題,在ORM中添加了語言一致性獎(jiǎng)勵(lì),CoT過程中符合要求的語言比例越高則獎(jiǎng)勵(lì)越高

3.通過拒絕采樣來進(jìn)行微調(diào)。具體來說,首先通過拒絕采樣生成推理軌跡,對(duì)部分?jǐn)?shù)據(jù)(問題、真實(shí)值、采樣值)輸入DeepSeek-V3來判斷軌跡質(zhì)量,以及過濾掉可讀性差、語言混雜的部分,對(duì)每個(gè)query保留了多個(gè)正確軌跡,收集好的數(shù)據(jù)集約60w條。對(duì)于CoT無關(guān)的數(shù)據(jù),使用了和DeepSeek-V3相同的數(shù)據(jù)集并進(jìn)行采樣,生成了約20w條,總數(shù)據(jù)集共80w條,使用這個(gè)數(shù)據(jù)集對(duì)DeepSeek-V3進(jìn)行了2 epoch的訓(xùn)練

4.對(duì)上述微調(diào)的模型繼續(xù)進(jìn)行GRPO。本次GRPO除了使用上述的ORM判斷外,還增加了對(duì)非CoT數(shù)據(jù)的獎(jiǎng)勵(lì),方法是使用了額外的reward model,以符合人類要求的回復(fù)習(xí)慣以及提高模型的幫助性和無害性

5.使用80w條數(shù)據(jù)(論文中的意思應(yīng)該就是上面描述的數(shù)據(jù)集)對(duì)小模型做蒸餾,效果也比較好。DeepSeek沒有做針對(duì)小模型的后續(xù)RL,雖然效果應(yīng)該也是不錯(cuò)的



在對(duì)比實(shí)驗(yàn)中,DeepSeek做了針對(duì)小模型的RL&蒸餾的實(shí)驗(yàn)對(duì)比:

在實(shí)驗(yàn)中,使用小模型做RL的效果,不如使用大模型蒸餾得到的數(shù)據(jù)SFT得到的小模型的效果。因此,可以得出兩個(gè)結(jié)論:首先,將更強(qiáng)大的模型蒸餾為較小的模型會(huì)產(chǎn)生出色的結(jié)果,而較小的模型依賴本文提到的大規(guī)模 RL需要巨大的計(jì)算能力,并且可能甚至無法達(dá)到蒸餾的效果。其次,盡管蒸餾策略既經(jīng)濟(jì)又有效,超越智能的邊界可能仍然需要更強(qiáng)大的基礎(chǔ)模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)。

最后,我們注意下不成功的嘗試:

1.PRM。過程獎(jiǎng)勵(lì)模型在RL中作用不大,甚至是反作用。我感覺這個(gè)和當(dāng)初把知識(shí)圖譜+預(yù)訓(xùn)練結(jié)合起來的問題是一樣的,即在大規(guī)模transformer結(jié)構(gòu)訓(xùn)練中使用另外的不可導(dǎo)工具的輔助可能導(dǎo)致不穩(wěn)定。PRM模型面臨著獎(jiǎng)勵(lì)欺騙、不可導(dǎo)、效果有限等問題,如果訓(xùn)練新的PRM模型需要額外的資源和時(shí)間
2.蒙特卡洛樹搜索。DeepSeek最初探索了使用蒙特卡羅樹搜索(MCTS)來增強(qiáng)測(cè)試時(shí)的計(jì)算可擴(kuò)展性。將答案分解為更小的部分,以允許模型系統(tǒng)地探索解決方案空間。提示模型生成多個(gè)標(biāo)簽,這些標(biāo)簽對(duì)應(yīng)于搜索所需的具體推理步驟。在訓(xùn)練過程中,首先使用收集到的提示通過由預(yù)訓(xùn)練值模型指導(dǎo)的蒙特卡羅樹搜索找到答案。隨后,使用生成的問題-答案對(duì)來同時(shí)訓(xùn)練行為模型和值模型,迭代地改進(jìn)該過程。這種方法的失敗在于next-token的維度爆炸問題非常嚴(yán)重,在優(yōu)先探索時(shí)間下只能采樣一部分路徑,這些路徑可能是不良的,或者是局部最優(yōu)的,而相關(guān)的細(xì)粒度價(jià)值模型也很難訓(xùn)練,最終導(dǎo)致policy模型難以迭代改進(jìn)。雖然Alpha-Go/Zero中使用該算法達(dá)到了最優(yōu),但由于next-token的維度非常高,因此該算法難以擴(kuò)展到NLP領(lǐng)域

關(guān)于第二點(diǎn)需要額外注意,并非蒙特卡洛方法在NLP領(lǐng)域完全不可用(事實(shí)上目前不少工作是基于MCTS采樣達(dá)到的SOTA效果),而是從base模型從0開始采樣訓(xùn)練的時(shí)候是不可用的。蒙特卡洛方法的前提要求是要么探索空間的維度可控,要么policy模型的generate過程是可控且多樣的。如果使用instruct(或者說已經(jīng)具備了一定CoT能力的)模型進(jìn)行蒙特卡洛采樣效果應(yīng)該會(huì)有不錯(cuò)的提升。

立春好時(shí)節(jié)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
南航機(jī)長(zhǎng)李煜眾跳樓后續(xù)!友人曝聊天記錄,喜歡玩cos,妻子發(fā)聲

南航機(jī)長(zhǎng)李煜眾跳樓后續(xù)!友人曝聊天記錄,喜歡玩cos,妻子發(fā)聲

裕豐娛間說
2025-07-03 11:59:57
“韋神”履歷升級(jí)!網(wǎng)傳成為北大長(zhǎng)聘副教授?校方回應(yīng)來了

“韋神”履歷升級(jí)!網(wǎng)傳成為北大長(zhǎng)聘副教授?校方回應(yīng)來了

大嘴愛嗶嗶
2025-07-03 16:41:57
大S在日本舊宅罕曝光,裝修豪華還有水景,和臺(tái)北豪宅有共通之處

大S在日本舊宅罕曝光,裝修豪華還有水景,和臺(tái)北豪宅有共通之處

鄭丁嘉話
2025-07-04 09:21:00
曝崔康熙渴望逃離泰山!已與高層攤牌:給我1000萬 立馬拿錢走人

曝崔康熙渴望逃離泰山!已與高層攤牌:給我1000萬 立馬拿錢走人

風(fēng)過鄉(xiāng)
2025-07-04 06:36:23
1955年一將軍嫌軍銜太低,大鬧總政處,揚(yáng)言:粟裕都得叫我老排長(zhǎng)

1955年一將軍嫌軍銜太低,大鬧總政處,揚(yáng)言:粟裕都得叫我老排長(zhǎng)

阿器談史
2025-05-30 08:38:12
以法之名:秦峰非保護(hù)傘!李人駿聯(lián)手洪亮,才懂謝鴻飛扳倒蘭景茗

以法之名:秦峰非保護(hù)傘!李人駿聯(lián)手洪亮,才懂謝鴻飛扳倒蘭景茗

林子說事
2025-07-03 08:47:01
《紐約時(shí)報(bào)》丨托馬斯·弗里德曼:特朗普“大美麗法案”將如何讓中國(guó)再次偉大

《紐約時(shí)報(bào)》丨托馬斯·弗里德曼:特朗普“大美麗法案”將如何讓中國(guó)再次偉大

邸報(bào)
2025-07-04 09:14:28
28歲河南女生在澳洲工地勾縫:早7晚4每天8小時(shí),一天收入1368元

28歲河南女生在澳洲工地勾縫:早7晚4每天8小時(shí),一天收入1368元

涵豆說娛
2025-05-12 17:21:22
“富士康要求中國(guó)員工從印度撤離”

“富士康要求中國(guó)員工從印度撤離”

觀察者網(wǎng)
2025-07-03 09:09:12
如果杭州失去了空調(diào)

如果杭州失去了空調(diào)

長(zhǎng)三角momo
2025-07-03 20:47:34
洪森贏了現(xiàn)在,輸了將來,在東南亞,他的名聲算是徹底搞臭了

洪森贏了現(xiàn)在,輸了將來,在東南亞,他的名聲算是徹底搞臭了

大道無形我有型
2025-07-03 18:25:11
張學(xué)良兒子張閭琳辭世:9歲赴美,娶陳濟(jì)棠侄女,所生兩子皆成才

張學(xué)良兒子張閭琳辭世:9歲赴美,娶陳濟(jì)棠侄女,所生兩子皆成才

柳絮憶史
2025-06-17 08:35:03
世體:巴薩希望尼科沒注冊(cè)保證也能簽約 尼科方面正討論是否加盟

世體:巴薩希望尼科沒注冊(cè)保證也能簽約 尼科方面正討論是否加盟

直播吧
2025-07-04 08:43:07
美國(guó)是世界上農(nóng)業(yè)最發(fā)達(dá)國(guó)家,為何美國(guó)人會(huì)羨慕中國(guó)的水果蔬菜?

美國(guó)是世界上農(nóng)業(yè)最發(fā)達(dá)國(guó)家,為何美國(guó)人會(huì)羨慕中國(guó)的水果蔬菜?

醉井觀商
2025-07-03 15:13:45
1年790萬,庫明頂薪夢(mèng)破碎?國(guó)王提供侮辱性報(bào)價(jià),勇士運(yùn)作被拖垮

1年790萬,庫明頂薪夢(mèng)破碎?國(guó)王提供侮辱性報(bào)價(jià),勇士運(yùn)作被拖垮

你的籃球頻道
2025-07-03 14:50:15
原來早已不是中國(guó)籍?被老外“玩膩就丟掉”的鄭緒嵐,卻回國(guó)撈金

原來早已不是中國(guó)籍?被老外“玩膩就丟掉”的鄭緒嵐,卻回國(guó)撈金

情感大頭說說
2025-07-04 08:13:16
媽呀!張翰怎么舍得剃光頭了?網(wǎng)友說像剛從里面出來一樣!

媽呀!張翰怎么舍得剃光頭了?網(wǎng)友說像剛從里面出來一樣!

可樂談情感
2025-07-04 02:22:27
中方專家警告:若中美開戰(zhàn),只需1天,全球就會(huì)懂得美國(guó)真實(shí)水平

中方專家警告:若中美開戰(zhàn),只需1天,全球就會(huì)懂得美國(guó)真實(shí)水平

阿器談史
2025-07-01 21:48:02
印度深夜突然開閘泄洪,3小時(shí)水漲7米,中國(guó)早為巴鐵備好這張王牌

印度深夜突然開閘泄洪,3小時(shí)水漲7米,中國(guó)早為巴鐵備好這張王牌

流年拾光
2025-07-02 19:22:20
山東大老板猝死后續(xù)!毫無征兆沒有基礎(chǔ)病,員工發(fā)聲,父母被罵慘

山東大老板猝死后續(xù)!毫無征兆沒有基礎(chǔ)病,員工發(fā)聲,父母被罵慘

悠閑歷史
2025-07-04 08:56:50
2025-07-04 10:15:00
人工智能研究 incentive-icons
人工智能研究
分享深度學(xué)習(xí)、CV、NLP
275文章數(shù) 130關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)再創(chuàng)新高,市值已逼近4萬億美元

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰(zhàn)報(bào)泄露天機(jī)

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰(zhàn)報(bào)泄露天機(jī)

體育要聞

你永不獨(dú)行!球迷前往安菲爾德悼念若塔

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財(cái)經(jīng)要聞

闖禍電芯商部分產(chǎn)線停產(chǎn)!羅馬仕通知停工

汽車要聞

6.5秒破百 長(zhǎng)安第三代UNI-V有更強(qiáng)2.0T

態(tài)度原創(chuàng)

本地
手機(jī)
藝術(shù)
公開課
軍事航空

本地新聞

云游中國(guó) | 穿越三國(guó)!赤壁古戰(zhàn)場(chǎng)藏了多少英雄傳奇?

手機(jī)要聞

蘋果 iPhone 16 的降價(jià)推廣為中國(guó)市場(chǎng)帶來了罕見的增長(zhǎng)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄海軍副司令在庫爾斯克州遇襲身亡

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 成都市| 长宁区| 田阳县| 闻喜县| 泗水县| 东兰县| 玉溪市| 澳门| 天津市| 岢岚县| 铁岭县| 梁平县| 斗六市| 正蓝旗| 文成县| 芜湖市| 孝感市| 台前县| 兰考县| 鄢陵县| 榆树市| 晋城| 五寨县| 兰坪| 鄯善县| 陵水| 芮城县| 会理县| 桂阳县| 云霄县| 游戏| 武胜县| 苍溪县| 章丘市| 平乡县| 美姑县| 固镇县| 南川市| 海门市| 长岛县| 巴中市|