DeepSeek模型憑借其“深度思考”“高性價比”“開源”的能力爆火中國AI圈,不少公司都在關(guān)注DeepSeek的最新的技術(shù)進展,旨在推動AI場景更快更好的落地。今天將會從技術(shù)視角分享DeepSeek三個關(guān)鍵版本的能力與優(yōu)勢,包括以下三部分:
1、技術(shù)視角如何看待DeepSeek出圈的原因;
2、DeepSeek不同版本模型的核心技術(shù)優(yōu)勢;
3、DeepSeek對AI圈的影響與未來發(fā)展趨勢;
分享嘉賓|楊成彪 南京柯基數(shù)據(jù) CTO
內(nèi)容已做精簡,如需獲取專家完整版視頻實錄和課件,請掃碼領(lǐng)取。
01
技術(shù)視角如何看待DeepSeek出圈的原因
DeepSeek出圈主要開始于春節(jié)期間,不僅AI從業(yè)者在關(guān)注,生活中的朋友家人也都知道了DeepSeek,現(xiàn)在已經(jīng)可以用是否了解DeepSeek來對地球人進行分類。那么發(fā)展到全民熱度的DeepSeek事件是怎么產(chǎn)生的呢?
我們先捋一下DeepSeek不同版本產(chǎn)品的時間線。
2023年11月Deepseek發(fā)布的V1版本,當(dāng)時知道人非常少。
2024年5月發(fā)布了DeepSeek V2,這個版本比較重要,因為引發(fā)了第一場Token的價格戰(zhàn)。
2024年11月份DeepSeek上線了推理模型R1 Lite,我們是在12月初開始試用這個模型,當(dāng)時它已經(jīng)具備一定的數(shù)學(xué)編程思考的能力。
2024年12月DeepSeek發(fā)布了V3,這是非常重磅的發(fā)布,在效率、性能方面有非常突出的工作能力。此時還沒有引起AI界特別多的關(guān)注。
2025年1月,DeepSeek發(fā)布R1,引起了全民關(guān)注的出圈。
這里還要提一個重要事件,Open AI o1預(yù)覽版本在2024年9月發(fā)布,這是第一個推理模型,o1的驚艷效果對大模型行業(yè)影響非常大,大家普遍認(rèn)為類似o1的后訓(xùn)練方式是未來的方向,但是大家始終都猜不透Open AI是怎么做的這件事,也沒有公布足夠的技術(shù)細(xì)節(jié)。在后來很長一段時間內(nèi),沒有哪家公司能夠復(fù)現(xiàn)和o1同等效果的模型。因此,AI界苦苦等待了4個月,當(dāng)DeepSeek R1出現(xiàn)并開源時,在全球范圍內(nèi)引起了巨大的轟動。
為什么DeepSeek R1會引起這么大的轟動呢?我認(rèn)為原因有2點:
第一是當(dāng)時的大模型技術(shù)架構(gòu)逐漸趨同,每家AI企業(yè)在大模型上投入的沉沒成本很高,會導(dǎo)致試錯成本很高,很難再用一些特別革命性或者創(chuàng)新性的東西調(diào)整自己的研究方向。
第二是大家探索了很久,模型界也沒有出現(xiàn)任何一個能夠和OpenAI o1相匹配的產(chǎn)品,都還處于一個混沌的狀態(tài),都在猜測o1是如何實現(xiàn)的。
所以當(dāng)DeepSeek R1出現(xiàn)后,在技術(shù)圈、企業(yè)圈里引起了全球范圍的討論,并逐步發(fā)酵出一些連帶影響。
從個人視角來看,首先DeepSeek R1出圈的根本原因是效果好。一方面是在榜單對比上的效果很好,另一方面,在業(yè)務(wù)實際使用的效果上也非常好。其次是具備極致性價比,相比是大模型界的小米。在保持效果優(yōu)秀的同時,價格更便宜。同時是開源的推理大模型,這對整個大模型生態(tài)有著非常大的影響,各家公司都可以按照同樣的方式開發(fā)自己的推理大模型或者行業(yè)大模型。最后就是芯片卡脖子問題,DeepSeek提出的新架構(gòu),有可能讓這一問題得到解決。
正是基于這些原因,也讓DeepSeek成功取代了Meta,成為了開源世界新的領(lǐng)頭羊。
02
DeepSeek三大關(guān)鍵版本的核心技術(shù)分享
1、DeepSeek V2模型
先了解下DeepSeek V2的模型信息,總參數(shù)量是236B,單個token推理激活的參數(shù)量是21B。看到下圖右側(cè)的坐標(biāo)圖,橫坐標(biāo)是單個token推理的激活參數(shù)量,縱坐標(biāo)是效果。
從整體結(jié)果來說DeepSeek遠(yuǎn)超大部分模型。與LLaMA 3 70B 對比來看,在每個token推理激活的參數(shù)量不到LLaMA 3 70B一半的同時,效果做到了基本相同。和通義千問 1.5 72B相比,參數(shù)量也是大幅減小的狀態(tài)。這也是 DeepSeek 打出的第一波價格戰(zhàn),把模型token的價格降到一個極低的水平的底氣。
再從DeepSeek V2發(fā)布的技術(shù)報告中,發(fā)現(xiàn)有兩大核心技術(shù)點創(chuàng)新,一個是DeepSeek MoE,第二個是MLA,這兩大技術(shù)都延續(xù)到了V3。
第一個創(chuàng)新點是MoE,MoE是混合專家系統(tǒng)的縮寫,它由多個專家組成,通過門控網(wǎng)絡(luò)來決定每個數(shù)據(jù)應(yīng)該被哪個專家去訓(xùn)練,從而減輕不同類型樣本之間的干擾。當(dāng)模型做單次推理的時候,可以選擇是否把每一個專家都激活,如果需要激活每一個專家,那就是稠密的MoE,如果只從所有專家中挑選幾個就是稀疏的MoE。當(dāng)前大部分MoE模型都是稀疏的方式。
那么DeepSeek MoE有什么特點?DeepSeek MoE和Mistral MoE 有哪些區(qū)別?
首先DeepSeek的專家分為兩類專家,一類是共享專家,共享專家是上圖中綠色的部分,每次推理都會固定激活。另一類是路由專家,是上圖藍(lán)色的部分,每次推理會從路由專家中去挑選幾個激活。最終的推理會通過共享專家加上路由專家一起完成。
因為路由專家每次都需要挑選,如果專家數(shù)比較少會相對容易控制,但是專家數(shù)多了就會出現(xiàn)負(fù)載均衡的問題。例如 Mistral 8x22B是有8個專家,每次推理從中挑選兩個,而DeepSeek的路由專家數(shù)非常多,在 V3 的時候大概有256個路由專家,每次是從中選8個專家。如果沒有很好的控制,可能會讓某一部分專家的激活概率非常不均衡,這樣會導(dǎo)致部分的專家信息過載,而部分的專家卻沒有得到足夠的訓(xùn)練,最終導(dǎo)致專家路由崩塌。所以負(fù)載均衡是MoE大模型要解決的核心問題。
因此 Deepseek MoE 提出了一個相對創(chuàng)新的辦法,采用無需輔助損失函數(shù)的負(fù)載均衡。借助這種方式,DeepSeek在V1階段時,有2個共享專家,64個路由專家,每次激活6個路由專家,整體激活率是9.4%。到V2的時候,增加到160個路由專家,每次激活6個路由專家的激活率是3.7%。再到V3的時候,只有1個共享專家,有256個路由專家,每次激活8個專家,激活率在3.1%。可以看到這個比例一直在下降,模型效率也是在逐步提升。相比Mistral 8x22B從8個專家中激活2個的激活率是25%,所以對比之下,Mistral的MoE是比較稠密的,推理的效率沒有DeepSeek高。
第二個技術(shù)創(chuàng)新點是MLA,是多頭潛在注意力機制,可以提高Transformer模型在處理長序列時的效率和性能,由DeepSeek原創(chuàng)。DeepSeek通過MLA的方式,將KV-cache緩存減少了93.3%,是非常有效的舉措。
2、DeepSeek V3模型
再來看看DeepSeek V3 ,除了包含 V2 的創(chuàng)新能力,還有三個創(chuàng)新點:第一個是工程架構(gòu)、系統(tǒng)架構(gòu)層面,有很多軟硬結(jié)合,或者是純硬件的創(chuàng)新;第二個是FP8的模型;第三個是MTP的多Token預(yù)測。
關(guān)于 FP8 可以先看下圖左上角部分,能比較直觀的理解到FP8可以通過降低精度極致的提升模型計算性能。
最深的色表示位數(shù),F(xiàn)P32是32位,F(xiàn)P16是16位,F(xiàn)P8是8位,INT8是8位。
FP8的8位分為符號位、指數(shù)位和尾數(shù)位。一般 FB8有E4M3和E5M2兩種方式,DeepSeek V3使用的是E4M3,即四位的指數(shù)位和三位的尾數(shù)位。
精度最高的一定是 FP32,因為小數(shù)位數(shù)多,可以把數(shù)字表達得更精確,在計算過程中的誤差就小,但它占的空間大。如果用 FP8的話,它的空間只占8位,是FB32的1/ 4,所需空間顯著減少,但也因為它位數(shù)少了,所以精度一定會有影響。
為了平衡精度跟誤差的問題,DeepSeek在使用 FP8 模型時,對非常多的中間結(jié)果是用 FP32 和 FP16 表示的,這其中涉及到很多的升維和降維的轉(zhuǎn)換工作,詳細(xì)的部分可以去看一下DeepSeek發(fā)布的技術(shù)報告。
關(guān)于MTP,就是多 token 預(yù)測,可以看下圖左下角。
以前token預(yù)測,是當(dāng)用戶輸入一句話之后,只預(yù)測下一個token。現(xiàn)在MTP 是一次預(yù)測多個token,當(dāng)預(yù)測了第一個 token 之后,會結(jié)合第一個 token 再去預(yù)測第二個token。
比如一次預(yù)測了三個token,當(dāng)預(yù)測之后就去做驗證,這就是第二階段的驗證,逐個判斷每token是否正確,直到遇到錯誤,就把前面連續(xù)對的部分輸出來,比如說這個例子里面它連續(xù)預(yù)測了3個token,那主干網(wǎng)絡(luò)認(rèn)為前兩個是對的,就會直接把前兩個一起輸出。
3、DeepSeek R1模型
接下來講一下DeepSeek R1,也是業(yè)界關(guān)注最多的模型。
從上圖右側(cè)眾多的測評集里面,DeepSeek R1的效果基本上跟OpenAI o1是持平的,有些場景甚至比o1更好。
關(guān)于DeepSeek訓(xùn)練部分,可以看上圖的左側(cè), R1分為兩個版本,一個是R1 Zero,一個是R1。
R1 Zero是純強化學(xué)習(xí)來訓(xùn)練,R1是有強化學(xué)習(xí)結(jié)合SFT。R1 Zero的訓(xùn)練過程中沒有采用人類反饋的強化學(xué)習(xí)(RLHF),加入人類反饋后過程會比較慢,成本會非常高,而是直接使用多輪的強化學(xué)習(xí)迭代,直接訓(xùn)練推理模型。
但同時R1 Zero中也有一些問題,例如語言表達的人類難以理解,另外語種使用也比較混亂,所以DeepSeek就在 R1 Zero的基礎(chǔ)上做了一些優(yōu)化。為了讓這個強化學(xué)習(xí)的效果更好,先做了一輪SFT,基于SFT得到的模型我們稱為第一階段模型。基于第一階段模型再進行Zero的純強化學(xué)習(xí)訓(xùn)練,同時為了讓它的語言一致性更好,加入了語言一致性的獎勵,這樣就得到了第二階段模型。在第二階段模型基礎(chǔ)上再做一次SFT,這次的SFT數(shù)據(jù)一部分是由 R1 Zero生成的60 萬 COT的數(shù)據(jù),另外一部分是一些非COT數(shù)據(jù),這兩部分?jǐn)?shù)據(jù)共有80萬,得到了第三階段的模型。再基于第三階段模型做全場景的、自動的強化學(xué)習(xí),最終就得到 Deepseek R1。未來各個大模型公司會基于這個范式,對推理模型有更多新的探索。
關(guān)于沒有人類參與的強化學(xué)習(xí)是如何設(shè)置獎勵模式呢?
重點考慮兩個點,第一個是準(zhǔn)確性,直接看answer部分,因為奧數(shù)和算法編程都是有標(biāo)準(zhǔn)答案,可以自動對比大模型輸出和標(biāo)準(zhǔn)答案判斷是否正確,并不需要人工標(biāo)注。
第二個是輸出格式,因為需要能穩(wěn)定輸出think加answer的結(jié)構(gòu),這樣才能輸出一個穩(wěn)定的推理結(jié)果,所以對格式也做了一部分獎勵。
上圖是關(guān)于獎勵部分是比較清晰的公式計算,最終就能算出對每個結(jié)果的獎勵是正向獎勵還是負(fù)向獎勵。因為DeepSeek公開了這部分信息,所以可以看到這個模式是非常清晰的,未來在這個范式下,在行業(yè)落地層面有很多參考價值。
那什么是“蒸餾模型”呢?
其實就是直接用前面提到的80萬的訓(xùn)練數(shù)據(jù),在其他開源模型上去做SFT,之后所得到的模型就是R1的蒸餾模型。
如果純粹的把一個小模型分別強化學(xué)習(xí)和做蒸餾,它們的效果到底有多大區(qū)別?
例如同樣是對千問32B,分別用R1 Zero的方式,做純粹的強化學(xué)習(xí)來訓(xùn)練和直接用蒸餾的方式來訓(xùn)練,它的效果其實差別非常大。下圖我們可以看到通過蒸餾方式的效果是遠(yuǎn)好于強化學(xué)習(xí)的。
所以未來大家在訓(xùn)練一些行業(yè)的推理模型時,到底是選擇蒸餾還是強化學(xué)習(xí),可能需要綜合來看。最快的方式目前看是蒸餾,但是如果R1也不能得到準(zhǔn)確的回答,那一定也蒸餾不出好的小模型,就需要使用R1類似的訓(xùn)練方式。如果是私有化部署R1蒸餾模型,非常推薦DeepSeek-R1-Distill-Qwen-32B的,綜合性價比非常高。
部署成本也是大家比較關(guān)注的一個問題,除了大家在網(wǎng)上能查到的信息,我也有一些自己的建議分享給大家,根據(jù)不同的模型部署信息整理了一張圖。
如果企業(yè)內(nèi)部要進行私有化部署的版本,一定是按需去做,因為目前單次投入的硬件成本還是非常高的,現(xiàn)在滿血版部署性價比最高的是8張H20(141GB版本)。
03
DeepSeek后續(xù)的影響
DeepSeek的出現(xiàn)無疑是讓AI技術(shù)又向前進了一大步,關(guān)于AI落地部分要分別從應(yīng)用端、模型端、生態(tài)端分別去考慮。
第一個應(yīng)用端要考慮的是當(dāng)token變得廉價。token成本顯著降低使得以前不掙錢的生意,現(xiàn)在就變得掙錢了。商業(yè)模式會發(fā)生非常大的改變,或者說商業(yè)模式的估值發(fā)生了非常大的改變。典型的就是以消耗大量token為代價的商業(yè)模式,例如做情感陪伴聊天的企業(yè)是利好的。
第二個模型端要考慮行業(yè)大模型應(yīng)該怎么去訓(xùn)練。2024年等行業(yè)大模型主要還是做基模,用行業(yè)數(shù)據(jù)做預(yù)訓(xùn)練和微調(diào),但是沒有行業(yè)的推理大模型。現(xiàn)在有了DeepSeek的樣板,會推動行業(yè)推理大模型的蓬勃發(fā)展,這應(yīng)該也有非常大的機會。
第三個生態(tài)端要考慮國產(chǎn)替換的問題。現(xiàn)在已經(jīng)有很多國產(chǎn)芯片都已經(jīng)支持了DeepSeek,可以看到國產(chǎn)生態(tài)正在飛快的發(fā)展和完善。
以上就是我今天分享的內(nèi)容。
東南大學(xué)博士,主要研究方向是知識圖譜和自然語言處理。發(fā)表高水平論文十余篇,同時獲得知識圖譜和大模型相關(guān)發(fā)明專利十余項。曾擔(dān)任網(wǎng)易杭研NLP負(fù)責(zé)人、攝星智能技術(shù)總監(jiān),成功研發(fā)多款現(xiàn)象級AI產(chǎn)品,榮獲了“江蘇省優(yōu)秀人工智能產(chǎn)品金獎”、“十佳優(yōu)秀人工智能軟件產(chǎn)品”等獎項。研發(fā)的知識圖譜增強大模型產(chǎn)品目前成功落地二十余家世界500強企業(yè)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.