99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

如何評價DeepSeek-R1與DeepSeek-R1-Zero模型?

0
分享至

作者:胡一鳴@知乎

相當(dāng)令人震撼的工作,特別是 Deepseek-r1-zero 。

沒有任何監(jiān)督訓(xùn)練,純強化學(xué)習(xí)

首先,駁斥了“感謝OpenAI 開源”、“蒸餾OpenAI-o1”的說法,Deepseek-r1-zero 模型在預(yù)訓(xùn)練之后,是完全沒有經(jīng)過任何監(jiān)督學(xué)習(xí)的,也就是說沒有使用任何其他思維鏈模型(以及人類)的輸出。從 Deepseek-v3 基座,直接進行強化學(xué)習(xí),即可解鎖 o1 級別的思維鏈能力。

只看答案,不搞花里胡哨

Deepseek-r1-zero 在強化學(xué)習(xí)中,只有兩種獎勵:

第一種:(如果我沒理解錯的話)只看最終答案對不對。對于數(shù)學(xué)題,只看它最終的結(jié)果 \box{Answer} 并給予正確或錯誤的反饋;對于編程題,只看測試用例的結(jié)果。既沒有過程獎勵,也沒有MCTS 。

第二種:格式獎勵,也就是要求模型將思考內(nèi)容寫在“草稿紙”上( CoT 標(biāo)簽內(nèi)),不要混雜思考內(nèi)容和給用戶呈現(xiàn)的內(nèi)容。

為什么沒有過程獎勵?作者認(rèn)為,過程獎勵很容易被偷分(reward hacking),就像人類學(xué)生在考試時,瞎寫公式試圖騙分一樣。而且,能給過程進行打分的模型很難實現(xiàn)。除了人類,還有誰能來當(dāng)這個批改作業(yè)的老師呢?第一代模型只能硬闖出來自己的路。

為什么沒有MCTS?因為推理到每一步時,下一步的選項都太多太多了,比圍棋要多得多,而且這是指數(shù)級別的增速。如果限制搜索空間,又會很容易陷入局部最優(yōu)。其次,和過程獎勵的問題一樣,給思路打分的模型(value model )同樣很難實現(xiàn)。

思維鏈能力的自我進化

隨著強化學(xué)習(xí)的持續(xù)進行,模型為了提升做題的正確率,越來越習(xí)慣進行很長的連續(xù)思考。

<span leaf="">&lt;span leaf=&quot;&quot;&gt;&amp;lt;span leaf=&amp;quot;&amp;quot;&amp;gt;&amp;amp;lt;span leaf=&amp;amp;quot;&amp;amp;quot;&amp;amp;gt;&amp;amp;amp;lt;span leaf=&amp;amp;amp;quot;&amp;amp;amp;quot;&amp;amp;amp;gt;&amp;amp;amp;lt;img data-imgfileid=&amp;amp;amp;quot;100005299&amp;amp;amp;quot; src=&amp;amp;amp;quot;https://mmbiz.qpic.cn/mmbiz_jpg/NeU1Ga24gUlyRRHAz9IuxLbrZGbIVQmSJ5kMesPMFVwXTIicR9dnsRibbPSKF5DecfDZeGFCHhKfdic1BPpfibuVIw/640?wx_fmt=jpeg&amp;amp;amp;amp;amp;from=appmsg&amp;amp;amp;quot; data-type=&amp;amp;amp;quot;jpeg&amp;amp;amp;quot; width=&amp;amp;amp;quot;1160&amp;amp;amp;quot;/&amp;amp;amp;gt;&amp;amp;amp;lt;/span&amp;amp;amp;gt;&amp;amp;lt;/span&amp;amp;gt;&amp;lt;/span&amp;gt;&lt;/span&gt;</span>


隨著強化學(xué)習(xí)的進行,deepseek-r1-zero 的平均回復(fù)越來越長

注意,這一點是在沒有獎勵思維鏈長度的情況下實現(xiàn)的。模型僅僅只是為了做對題目,就自發(fā)地進行越來越長的思考。并且,它從長思考中得到了良好的效果,也就是更高的正確率。

這似乎暗示我們,只要強化學(xué)習(xí)環(huán)境設(shè)置得當(dāng),為了完成一個任務(wù),模型就有可能越來越習(xí)慣于進行超長的連續(xù)思考、連續(xù)動作。這為強化學(xué)習(xí)實現(xiàn) Agent 鋪平了道路。

反思能力的涌現(xiàn)

作者在文中分享了一個很有趣的案例。一開始,模型(Deepseek v3 基礎(chǔ)模型)只是按部就班地一步步撰寫思維鏈,就像其他一般的、沒有思維鏈能力的模型那樣。你甚至不知道它是真的在思考,還是僅僅只是背下來了解題過程?亦或是先有了一個答案,然后再對著答案湊過程?

然而,隨著強化學(xué)習(xí)的持續(xù)進行。在某一步中,模型突然有了這樣的輸出:


一直在接受強化訓(xùn)練的模型,在訓(xùn)練到一定程度的時候,仿佛“靈光一閃”一般,在思維鏈中輸出了一些情不自禁的感嘆詞。然后,第一次開始從頭重新思考整個問題,也就是涌現(xiàn)出了反思的能力。

作者們認(rèn)為:這不僅僅是模型的靈光一閃,更是觀察它的研究人員的靈光一閃。這充分體現(xiàn)了強化學(xué)習(xí)的威力和魅力:我們并不顯式地教模型要怎樣去求解問題,我們只是要求模型去做對題目,模型自己就能涌現(xiàn)出復(fù)雜的思維模式(反思)。這個現(xiàn)象提示我們,強化學(xué)習(xí)真的具有很強的潛力,能為模型解鎖下一個等級的智能,為實現(xiàn) Agent 鋪平了道路。

實用的 CoT 模型——R1 的實現(xiàn)

deepseek-r1-zero 的訓(xùn)練過程及最終的能力讓人印象深刻。當(dāng)然,放出來給大家用的模型還是要做一些工程上的優(yōu)化的,不要那么激進。所以,第一步,deepseek-r1 模型還是先用 SFT 來啟動,讓模型先跟著樣本學(xué)習(xí)一下思維鏈長啥樣。然后,第二步,再進行和 deepseek-r1-zero 一樣的強化學(xué)習(xí)。

強化學(xué)習(xí)完成后(這只訓(xùn)練了那些明確能判定結(jié)果正確與否的問題與解答),進入第三步。此時擴充一些其他方面的問題,并且讓(經(jīng)過微調(diào)的) Deepseek-v3 來生成合適的數(shù)據(jù)及獎勵(這里我沒太看懂)。此外,對于一些簡單的、記憶類的問題,用了和 deepseek-v3 同樣的后訓(xùn)練方法及數(shù)據(jù)。

最后第四步,在所有場景中進行第二輪強化學(xué)習(xí)。對于那些能明確判定結(jié)果正確與否的問題,用和 deepseek-r1-zero 一樣的方法;其他種類的問題則用 RLHF,用類似于 deepseek-v3 后訓(xùn)練的流程及數(shù)據(jù)集。

站在巨人肩膀上的小模型

此前已經(jīng)有很多人聲稱自己用小模型實現(xiàn)了o1/o1-preview/o1-mini的性能,方法是通過對展現(xiàn)了良好思維過程的樣本進行監(jiān)督學(xué)習(xí)。也就是說,蒸餾o1,或者收集一堆人類寫的CoT文本然后監(jiān)督學(xué)習(xí)。

那么這里 Deepseek 團隊也做了這件事情,發(fā)現(xiàn)這條路確實行得通,而且效果好得難以置信。

例如,Qwen 1.5b 這么小的模型,蒸餾了一下 Deepseek-r1,就能在數(shù)學(xué)題上超越 GPT-4o 和 Claude-3.5-sonnet 這種頂級基座模型了! 對于 Llama 70b 這種大模型,蒸餾了一下,做題能力立刻就超越 o1-mini,直逼 o1 了。

然后,既然 deepseek-r1-zero 純用強化學(xué)習(xí)就這么猛了,那小模型呢?于是嘗試了一下對 Qwen-32b 基礎(chǔ)模型,用 deepseek-r1-zero 的強化學(xué)習(xí)方法,看看效果如何。

結(jié)果,效果一般,和 Qwen 團隊給出的 QwQ-32b 幾乎一樣。純強化學(xué)習(xí)的表現(xiàn),遠(yuǎn)遠(yuǎn)不如直接蒸餾 Deepseek-r1

或許,對于大模型而言,學(xué)而不思則罔;對于小模型而言,思而不學(xué)則殆。

大模型不習(xí)慣于思考,就很難做對數(shù)學(xué)題。但是,大模型本身非常聰明,只要要求它做對題目,它自己就能涌現(xiàn)出復(fù)雜的思考模式,通過無數(shù)天才般的靈光一閃,踏出一條智識的道路。

小模型即使十分努力地嘗試做對題目,但仍存在一定的瓶頸。然而,資質(zhì)平平的小模型,卻可以通過學(xué)習(xí)大模型的思維方式,站在巨人的肩膀上,快速學(xué)習(xí)到很強的思維本領(lǐng)和做題能力,從而成為合格甚至優(yōu)秀的做題家。

總結(jié)與展望

deepseek 團隊為我們展示了強化學(xué)習(xí)的強大威力,并且開源了 o1 級別的 deepseek-r1 模型為人們所用。MIT協(xié)議!支持商用!鼓勵蒸餾!源神啟動!

由于 deepseek-r1 主要是通過訓(xùn)練思維鏈以強化做題能力,所以仍有改進空間:

1、在通用任務(wù)上可能比不過 deepseek-v3,包括調(diào)用函數(shù)、多輪復(fù)雜的角色扮演、輸出 json 文本等;

2、輸出有時候會混合不同的語言,和用戶期望不一致;

3、對提示詞敏感。few-shot 的提示詞可能會降低其能力,所以推薦使用 zero-shot 提示詞。(這里指的是,我們最好不要提供示例,而只是描述我們想要的結(jié)果?如果我理解錯了請在評論區(qū)里告訴我)

4、軟件工程能力,和 deepseek-v3 相比沒有很明顯的進步。

我考慮寫一些沒有明確寫在論文里的觀察,但現(xiàn)在太晚了,先占個坑。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
博納影業(yè)集團:吳俊嶺突發(fā)疾病去世,享年48歲

博納影業(yè)集團:吳俊嶺突發(fā)疾病去世,享年48歲

瀟湘晨報
2025-07-03 20:23:28
河北青年放棄鐵飯碗,花13年學(xué)會一項手藝,全世界沒有第二個人會

河北青年放棄鐵飯碗,花13年學(xué)會一項手藝,全世界沒有第二個人會

淼犇小牛
2025-07-02 16:37:32
網(wǎng)紅擊劍名將秦雪曬泳裝照,傲人身材火辣無比

網(wǎng)紅擊劍名將秦雪曬泳裝照,傲人身材火辣無比

懂球帝
2025-07-02 08:10:10
《長安的荔枝》大結(jié)局:盡舉國之力運來的鮮荔枝,只有袖兒和錦娘吃到了,皇帝和貴妃咋這么窩囊?

《長安的荔枝》大結(jié)局:盡舉國之力運來的鮮荔枝,只有袖兒和錦娘吃到了,皇帝和貴妃咋這么窩囊?

快樂的小青瓦
2025-06-24 09:46:05
師徒再聚首?利雅得新月2000萬歐年薪報價恰爾汗奧盧 因扎吉力薦

師徒再聚首?利雅得新月2000萬歐年薪報價恰爾汗奧盧 因扎吉力薦

智道足球
2025-07-04 08:32:17
又打起來了,高超音速導(dǎo)彈登場,以色列被炸,內(nèi)塔尼亞胡準(zhǔn)備出國

又打起來了,高超音速導(dǎo)彈登場,以色列被炸,內(nèi)塔尼亞胡準(zhǔn)備出國

博覽歷史
2025-07-03 09:57:22
太諷刺!網(wǎng)友成功入圍杭州拱墅輔警,月薪僅4000肩章還是保安!

太諷刺!網(wǎng)友成功入圍杭州拱墅輔警,月薪僅4000肩章還是保安!

古希臘掌管松餅的神
2025-07-02 13:27:18
西媒爆若塔事故現(xiàn)場視頻:蘭博基尼嚴(yán)重?zé)龤?,跑道外散落車輛殘骸

西媒爆若塔事故現(xiàn)場視頻:蘭博基尼嚴(yán)重?zé)龤?,跑道外散落車輛殘骸

雷速體育
2025-07-03 18:08:14
羅馬諾:鄧弗里斯2500萬歐元的解約金必須一次性支付

羅馬諾:鄧弗里斯2500萬歐元的解約金必須一次性支付

懂球帝
2025-07-03 15:30:09
全村移民加拿大,70多年沒回來,廣東一無人村,村民斥巨資蓋別墅

全村移民加拿大,70多年沒回來,廣東一無人村,村民斥巨資蓋別墅

明月聊史
2025-05-15 15:49:31
72歲“唐僧”開始賣房!和陳麗華33年感情成笑話,百億財產(chǎn)成空?

72歲“唐僧”開始賣房!和陳麗華33年感情成笑話,百億財產(chǎn)成空?

小故事娛樂
2025-06-27 14:34:16
拳王鄒市明首次承認(rèn)2億不止,創(chuàng)業(yè)失敗原因曝光,不過他還可以換

拳王鄒市明首次承認(rèn)2億不止,創(chuàng)業(yè)失敗原因曝光,不過他還可以換

科學(xué)發(fā)掘
2025-07-03 11:46:52
從太空看“十四五”丨這片“綠”,正在生長

從太空看“十四五”丨這片“綠”,正在生長

新華社
2025-07-02 10:20:07
又見成都太古里“垮掉的一代”:遍地流氓時尚,飽了眼福長了見識

又見成都太古里“垮掉的一代”:遍地流氓時尚,飽了眼福長了見識

葡萄說娛
2025-06-27 15:39:18
瑞典一位將軍問耿飚:你當(dāng)將軍時帶多少兵,耿飚說:大概十幾萬吧

瑞典一位將軍問耿飚:你當(dāng)將軍時帶多少兵,耿飚說:大概十幾萬吧

霞姐專欄
2025-07-01 21:42:46
中方密邀各國領(lǐng)導(dǎo),李在明若出席北京閱兵,會和金正恩坐一桌么?

中方密邀各國領(lǐng)導(dǎo),李在明若出席北京閱兵,會和金正恩坐一桌么?

呂喆有話說
2025-07-03 15:17:27
為什么說中醫(yī)不科學(xué)?因為有一個巨大的邏輯漏洞,你解釋不清楚

為什么說中醫(yī)不科學(xué)?因為有一個巨大的邏輯漏洞,你解釋不清楚

肯定式教養(yǎng)
2025-06-10 06:56:12
140-67狂勝73分!創(chuàng)7大紀(jì)錄!男籃淘汰賽打歐洲豪強,賽程出爐

140-67狂勝73分!創(chuàng)7大紀(jì)錄!男籃淘汰賽打歐洲豪強,賽程出爐

老吳說體育
2025-07-03 14:03:58
佩通坦就不下臺,一架泰專機直飛中國

佩通坦就不下臺,一架泰專機直飛中國

軍武亮劍
2025-06-30 15:40:07
看手機撞死三人后續(xù):司機已刑拘,女兒被連累,高三女生或被截肢

看手機撞死三人后續(xù):司機已刑拘,女兒被連累,高三女生或被截肢

紀(jì)中百大事
2025-07-04 08:27:19
2025-07-04 10:03:00
人工智能研究 incentive-icons
人工智能研究
分享深度學(xué)習(xí)、CV、NLP
275文章數(shù) 130關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)再創(chuàng)新高,市值已逼近4萬億美元

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰(zhàn)報泄露天機

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰(zhàn)報泄露天機

體育要聞

你永不獨行!球迷前往安菲爾德悼念若塔

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財經(jīng)要聞

闖禍電芯商部分產(chǎn)線停產(chǎn)!羅馬仕通知停工

汽車要聞

6.5秒破百 長安第三代UNI-V有更強2.0T

態(tài)度原創(chuàng)

本地
房產(chǎn)
親子
手機
數(shù)碼

本地新聞

云游中國 | 穿越三國!赤壁古戰(zhàn)場藏了多少英雄傳奇?

房產(chǎn)要聞

“全運”為何獨寵凱粵灣?揭秘官方蓋章的“人居生活樣本”底層邏輯

親子要聞

這個怎么搖晃也不撒落的玩具太懂媽媽了

手機要聞

蘋果 iPhone 16 的降價推廣為中國市場帶來了罕見的增長

數(shù)碼要聞

董明珠領(lǐng)導(dǎo)行業(yè)枝繁葉茂!格力:若不是我們撐住市場 空調(diào)行業(yè)早卷廢了

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 沁阳市| 内乡县| 青浦区| 聂拉木县| 八宿县| 三都| 遂宁市| 鲁甸县| 瓮安县| 怀安县| 招远市| 桐柏县| 上蔡县| 松滋市| 遂平县| 顺平县| 偏关县| 隆林| 定结县| 延安市| 织金县| 西林县| 伊川县| 太仓市| 大同市| 昌都县| 信阳市| 辛集市| 定西市| 永福县| 建宁县| 邯郸县| 彝良县| 姜堰市| 碌曲县| 津市市| 北安市| 易门县| 石楼县| 永德县| 交口县|