10分鐘速覽DeepSeek三大關(guān)鍵版本的核心技術(shù)點

2025-03-04 21:03:20　來源: 北京愛分析科技有限公司

北京舉報

分享至

DeepSeek模型憑借其“深度思考”“高性價比”“開源”的能力爆火中國AI圈，不少公司都在關(guān)注DeepSeek的最新的技術(shù)進展，旨在推動AI場景更快更好的落地。今天將會從技術(shù)視角分享DeepSeek三個關(guān)鍵版本的能力與優(yōu)勢，包括以下三部分：

1、技術(shù)視角如何看待DeepSeek出圈的原因；

2、DeepSeek不同版本模型的核心技術(shù)優(yōu)勢；

3、DeepSeek對AI圈的影響與未來發(fā)展趨勢；

分享嘉賓｜楊成彪南京柯基數(shù)據(jù) CTO

內(nèi)容已做精簡，如需獲取專家完整版視頻實錄和課件，請掃碼領(lǐng)取。

技術(shù)視角如何看待DeepSeek出圈的原因

DeepSeek出圈主要開始于春節(jié)期間，不僅AI從業(yè)者在關(guān)注，生活中的朋友家人也都知道了DeepSeek，現(xiàn)在已經(jīng)可以用是否了解DeepSeek來對地球人進行分類。那么發(fā)展到全民熱度的DeepSeek事件是怎么產(chǎn)生的呢？

我們先捋一下DeepSeek不同版本產(chǎn)品的時間線。

2023年11月Deepseek發(fā)布的V1版本，當(dāng)時知道人非常少。

2024年5月發(fā)布了DeepSeek V2，這個版本比較重要，因為引發(fā)了第一場Token的價格戰(zhàn)。

2024年11月份DeepSeek上線了推理模型R1 Lite，我們是在12月初開始試用這個模型，當(dāng)時它已經(jīng)具備一定的數(shù)學(xué)編程思考的能力。

2024年12月DeepSeek發(fā)布了V3，這是非常重磅的發(fā)布，在效率、性能方面有非常突出的工作能力。此時還沒有引起AI界特別多的關(guān)注。

2025年1月，DeepSeek發(fā)布R1，引起了全民關(guān)注的出圈。

這里還要提一個重要事件，Open AI o1預(yù)覽版本在2024年9月發(fā)布，這是第一個推理模型，o1的驚艷效果對大模型行業(yè)影響非常大，大家普遍認(rèn)為類似o1的后訓(xùn)練方式是未來的方向，但是大家始終都猜不透Open AI是怎么做的這件事，也沒有公布足夠的技術(shù)細(xì)節(jié)。在后來很長一段時間內(nèi)，沒有哪家公司能夠復(fù)現(xiàn)和o1同等效果的模型。因此，AI界苦苦等待了4個月，當(dāng)DeepSeek R1出現(xiàn)并開源時，在全球范圍內(nèi)引起了巨大的轟動。

為什么DeepSeek R1會引起這么大的轟動呢？我認(rèn)為原因有2點：

第一是當(dāng)時的大模型技術(shù)架構(gòu)逐漸趨同，每家AI企業(yè)在大模型上投入的沉沒成本很高，會導(dǎo)致試錯成本很高，很難再用一些特別革命性或者創(chuàng)新性的東西調(diào)整自己的研究方向。

第二是大家探索了很久，模型界也沒有出現(xiàn)任何一個能夠和OpenAI o1相匹配的產(chǎn)品，都還處于一個混沌的狀態(tài)，都在猜測o1是如何實現(xiàn)的。

所以當(dāng)DeepSeek R1出現(xiàn)后，在技術(shù)圈、企業(yè)圈里引起了全球范圍的討論，并逐步發(fā)酵出一些連帶影響。

從個人視角來看，首先DeepSeek R1出圈的根本原因是效果好。一方面是在榜單對比上的效果很好，另一方面，在業(yè)務(wù)實際使用的效果上也非常好。其次是具備極致性價比，相比是大模型界的小米。在保持效果優(yōu)秀的同時，價格更便宜。同時是開源的推理大模型，這對整個大模型生態(tài)有著非常大的影響，各家公司都可以按照同樣的方式開發(fā)自己的推理大模型或者行業(yè)大模型。最后就是芯片卡脖子問題，DeepSeek提出的新架構(gòu)，有可能讓這一問題得到解決。

正是基于這些原因，也讓DeepSeek成功取代了Meta，成為了開源世界新的領(lǐng)頭羊。

DeepSeek三大關(guān)鍵版本的核心技術(shù)分享

1、DeepSeek V2模型

先了解下DeepSeek V2的模型信息，總參數(shù)量是236B，單個token推理激活的參數(shù)量是21B。看到下圖右側(cè)的坐標(biāo)圖，橫坐標(biāo)是單個token推理的激活參數(shù)量，縱坐標(biāo)是效果。

從整體結(jié)果來說DeepSeek遠(yuǎn)超大部分模型。與LLaMA 3 70B 對比來看，在每個token推理激活的參數(shù)量不到LLaMA 3 70B一半的同時，效果做到了基本相同。和通義千問 1.5 72B相比，參數(shù)量也是大幅減小的狀態(tài)。這也是 DeepSeek 打出的第一波價格戰(zhàn)，把模型token的價格降到一個極低的水平的底氣。

再從DeepSeek V2發(fā)布的技術(shù)報告中，發(fā)現(xiàn)有兩大核心技術(shù)點創(chuàng)新，一個是DeepSeek MoE，第二個是MLA，這兩大技術(shù)都延續(xù)到了V3。

第一個創(chuàng)新點是MoE，MoE是混合專家系統(tǒng)的縮寫，它由多個專家組成，通過門控網(wǎng)絡(luò)來決定每個數(shù)據(jù)應(yīng)該被哪個專家去訓(xùn)練，從而減輕不同類型樣本之間的干擾。當(dāng)模型做單次推理的時候，可以選擇是否把每一個專家都激活，如果需要激活每一個專家，那就是稠密的MoE，如果只從所有專家中挑選幾個就是稀疏的MoE。當(dāng)前大部分MoE模型都是稀疏的方式。

那么DeepSeek MoE有什么特點？DeepSeek MoE和Mistral MoE 有哪些區(qū)別？

首先DeepSeek的專家分為兩類專家，一類是共享專家，共享專家是上圖中綠色的部分，每次推理都會固定激活。另一類是路由專家，是上圖藍(lán)色的部分，每次推理會從路由專家中去挑選幾個激活。最終的推理會通過共享專家加上路由專家一起完成。

因為路由專家每次都需要挑選，如果專家數(shù)比較少會相對容易控制，但是專家數(shù)多了就會出現(xiàn)負(fù)載均衡的問題。例如 Mistral 8x22B是有8個專家，每次推理從中挑選兩個，而DeepSeek的路由專家數(shù)非常多，在 V3 的時候大概有256個路由專家，每次是從中選8個專家。如果沒有很好的控制，可能會讓某一部分專家的激活概率非常不均衡，這樣會導(dǎo)致部分的專家信息過載，而部分的專家卻沒有得到足夠的訓(xùn)練，最終導(dǎo)致專家路由崩塌。所以負(fù)載均衡是MoE大模型要解決的核心問題。

因此 Deepseek MoE 提出了一個相對創(chuàng)新的辦法，采用無需輔助損失函數(shù)的負(fù)載均衡。借助這種方式，DeepSeek在V1階段時，有2個共享專家，64個路由專家，每次激活6個路由專家，整體激活率是9.4%。到V2的時候，增加到160個路由專家，每次激活6個路由專家的激活率是3.7%。再到V3的時候，只有1個共享專家，有256個路由專家，每次激活8個專家，激活率在3.1%。可以看到這個比例一直在下降，模型效率也是在逐步提升。相比Mistral 8x22B從8個專家中激活2個的激活率是25%，所以對比之下，Mistral的MoE是比較稠密的，推理的效率沒有DeepSeek高。

第二個技術(shù)創(chuàng)新點是MLA，是多頭潛在注意力機制，可以提高Transformer模型在處理長序列時的效率和性能，由DeepSeek原創(chuàng)。DeepSeek通過MLA的方式，將KV-cache緩存減少了93.3%，是非常有效的舉措。

2、DeepSeek V3模型

再來看看DeepSeek V3 ，除了包含 V2 的創(chuàng)新能力，還有三個創(chuàng)新點：第一個是工程架構(gòu)、系統(tǒng)架構(gòu)層面，有很多軟硬結(jié)合，或者是純硬件的創(chuàng)新；第二個是FP8的模型；第三個是MTP的多Token預(yù)測。

關(guān)于 FP8 可以先看下圖左上角部分，能比較直觀的理解到FP8可以通過降低精度極致的提升模型計算性能。

最深的色表示位數(shù)，F(xiàn)P32是32位，F(xiàn)P16是16位，F(xiàn)P8是8位，INT8是8位。

FP8的8位分為符號位、指數(shù)位和尾數(shù)位。一般 FB8有E4M3和E5M2兩種方式，DeepSeek V3使用的是E4M3，即四位的指數(shù)位和三位的尾數(shù)位。

精度最高的一定是 FP32，因為小數(shù)位數(shù)多，可以把數(shù)字表達得更精確，在計算過程中的誤差就小，但它占的空間大。如果用 FP8的話，它的空間只占8位，是FB32的1/ 4，所需空間顯著減少，但也因為它位數(shù)少了，所以精度一定會有影響。

為了平衡精度跟誤差的問題，DeepSeek在使用 FP8 模型時，對非常多的中間結(jié)果是用 FP32 和 FP16 表示的，這其中涉及到很多的升維和降維的轉(zhuǎn)換工作，詳細(xì)的部分可以去看一下DeepSeek發(fā)布的技術(shù)報告。

關(guān)于MTP，就是多 token 預(yù)測，可以看下圖左下角。

以前token預(yù)測，是當(dāng)用戶輸入一句話之后，只預(yù)測下一個token。現(xiàn)在MTP 是一次預(yù)測多個token，當(dāng)預(yù)測了第一個 token 之后，會結(jié)合第一個 token 再去預(yù)測第二個token。

比如一次預(yù)測了三個token，當(dāng)預(yù)測之后就去做驗證，這就是第二階段的驗證，逐個判斷每token是否正確，直到遇到錯誤，就把前面連續(xù)對的部分輸出來，比如說這個例子里面它連續(xù)預(yù)測了3個token，那主干網(wǎng)絡(luò)認(rèn)為前兩個是對的，就會直接把前兩個一起輸出。

3、DeepSeek R1模型

接下來講一下DeepSeek R1，也是業(yè)界關(guān)注最多的模型。

從上圖右側(cè)眾多的測評集里面，DeepSeek R1的效果基本上跟OpenAI o1是持平的，有些場景甚至比o1更好。

關(guān)于DeepSeek訓(xùn)練部分，可以看上圖的左側(cè)， R1分為兩個版本，一個是R1 Zero，一個是R1。

R1 Zero是純強化學(xué)習(xí)來訓(xùn)練，R1是有強化學(xué)習(xí)結(jié)合SFT。R1 Zero的訓(xùn)練過程中沒有采用人類反饋的強化學(xué)習(xí)（RLHF），加入人類反饋后過程會比較慢，成本會非常高，而是直接使用多輪的強化學(xué)習(xí)迭代，直接訓(xùn)練推理模型。

但同時R1 Zero中也有一些問題，例如語言表達的人類難以理解，另外語種使用也比較混亂，所以DeepSeek就在 R1 Zero的基礎(chǔ)上做了一些優(yōu)化。為了讓這個強化學(xué)習(xí)的效果更好，先做了一輪SFT，基于SFT得到的模型我們稱為第一階段模型。基于第一階段模型再進行Zero的純強化學(xué)習(xí)訓(xùn)練，同時為了讓它的語言一致性更好，加入了語言一致性的獎勵，這樣就得到了第二階段模型。在第二階段模型基礎(chǔ)上再做一次SFT，這次的SFT數(shù)據(jù)一部分是由 R1 Zero生成的60 萬 COT的數(shù)據(jù)，另外一部分是一些非COT數(shù)據(jù)，這兩部分?jǐn)?shù)據(jù)共有80萬，得到了第三階段的模型。再基于第三階段模型做全場景的、自動的強化學(xué)習(xí)，最終就得到 Deepseek R1。未來各個大模型公司會基于這個范式，對推理模型有更多新的探索。

關(guān)于沒有人類參與的強化學(xué)習(xí)是如何設(shè)置獎勵模式呢？

重點考慮兩個點，第一個是準(zhǔn)確性，直接看answer部分，因為奧數(shù)和算法編程都是有標(biāo)準(zhǔn)答案，可以自動對比大模型輸出和標(biāo)準(zhǔn)答案判斷是否正確，并不需要人工標(biāo)注。

第二個是輸出格式，因為需要能穩(wěn)定輸出think加answer的結(jié)構(gòu)，這樣才能輸出一個穩(wěn)定的推理結(jié)果，所以對格式也做了一部分獎勵。

上圖是關(guān)于獎勵部分是比較清晰的公式計算，最終就能算出對每個結(jié)果的獎勵是正向獎勵還是負(fù)向獎勵。因為DeepSeek公開了這部分信息，所以可以看到這個模式是非常清晰的，未來在這個范式下，在行業(yè)落地層面有很多參考價值。

那什么是“蒸餾模型”呢？

其實就是直接用前面提到的80萬的訓(xùn)練數(shù)據(jù)，在其他開源模型上去做SFT，之后所得到的模型就是R1的蒸餾模型。

如果純粹的把一個小模型分別強化學(xué)習(xí)和做蒸餾，它們的效果到底有多大區(qū)別？

例如同樣是對千問32B，分別用R1 Zero的方式，做純粹的強化學(xué)習(xí)來訓(xùn)練和直接用蒸餾的方式來訓(xùn)練，它的效果其實差別非常大。下圖我們可以看到通過蒸餾方式的效果是遠(yuǎn)好于強化學(xué)習(xí)的。

所以未來大家在訓(xùn)練一些行業(yè)的推理模型時，到底是選擇蒸餾還是強化學(xué)習(xí)，可能需要綜合來看。最快的方式目前看是蒸餾，但是如果R1也不能得到準(zhǔn)確的回答，那一定也蒸餾不出好的小模型，就需要使用R1類似的訓(xùn)練方式。如果是私有化部署R1蒸餾模型，非常推薦DeepSeek-R1-Distill-Qwen-32B的，綜合性價比非常高。

部署成本也是大家比較關(guān)注的一個問題，除了大家在網(wǎng)上能查到的信息，我也有一些自己的建議分享給大家，根據(jù)不同的模型部署信息整理了一張圖。

如果企業(yè)內(nèi)部要進行私有化部署的版本，一定是按需去做，因為目前單次投入的硬件成本還是非常高的，現(xiàn)在滿血版部署性價比最高的是8張H20（141GB版本）。

DeepSeek后續(xù)的影響

DeepSeek的出現(xiàn)無疑是讓AI技術(shù)又向前進了一大步，關(guān)于AI落地部分要分別從應(yīng)用端、模型端、生態(tài)端分別去考慮。

第一個應(yīng)用端要考慮的是當(dāng)token變得廉價。token成本顯著降低使得以前不掙錢的生意，現(xiàn)在就變得掙錢了。商業(yè)模式會發(fā)生非常大的改變，或者說商業(yè)模式的估值發(fā)生了非常大的改變。典型的就是以消耗大量token為代價的商業(yè)模式，例如做情感陪伴聊天的企業(yè)是利好的。

第二個模型端要考慮行業(yè)大模型應(yīng)該怎么去訓(xùn)練。2024年等行業(yè)大模型主要還是做基模，用行業(yè)數(shù)據(jù)做預(yù)訓(xùn)練和微調(diào)，但是沒有行業(yè)的推理大模型。現(xiàn)在有了DeepSeek的樣板，會推動行業(yè)推理大模型的蓬勃發(fā)展，這應(yīng)該也有非常大的機會。

第三個生態(tài)端要考慮國產(chǎn)替換的問題。現(xiàn)在已經(jīng)有很多國產(chǎn)芯片都已經(jīng)支持了DeepSeek，可以看到國產(chǎn)生態(tài)正在飛快的發(fā)展和完善。

以上就是我今天分享的內(nèi)容。

東南大學(xué)博士，主要研究方向是知識圖譜和自然語言處理。發(fā)表高水平論文十余篇，同時獲得知識圖譜和大模型相關(guān)發(fā)明專利十余項。曾擔(dān)任網(wǎng)易杭研NLP負(fù)責(zé)人、攝星智能技術(shù)總監(jiān)，成功研發(fā)多款現(xiàn)象級AI產(chǎn)品，榮獲了“江蘇省優(yōu)秀人工智能產(chǎn)品金獎”、“十佳優(yōu)秀人工智能軟件產(chǎn)品”等獎項。研發(fā)的知識圖譜增強大模型產(chǎn)品目前成功落地二十余家世界500強企業(yè)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.