99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

10分鐘速覽DeepSeek三大關(guān)鍵版本的核心技術(shù)點

0
分享至

DeepSeek模型憑借其“深度思考”“高性價比”“開源”的能力爆火中國AI圈,不少公司都在關(guān)注DeepSeek的最新的技術(shù)進展,旨在推動AI場景更快更好的落地。今天將會從技術(shù)視角分享DeepSeek三個關(guān)鍵版本的能力與優(yōu)勢,包括以下三部分:

1、技術(shù)視角如何看待DeepSeek出圈的原因;

2、DeepSeek不同版本模型的核心技術(shù)優(yōu)勢;

3、DeepSeek對AI圈的影響與未來發(fā)展趨勢;

分享嘉賓|楊成彪 南京柯基數(shù)據(jù) CTO

內(nèi)容已做精簡,如需獲取專家完整版視頻實錄和課件,請掃碼領(lǐng)取。

01

技術(shù)視角如何看待DeepSeek出圈的原因

DeepSeek出圈主要開始于春節(jié)期間,不僅AI從業(yè)者在關(guān)注,生活中的朋友家人也都知道了DeepSeek,現(xiàn)在已經(jīng)可以用是否了解DeepSeek來對地球人進行分類。那么發(fā)展到全民熱度的DeepSeek事件是怎么產(chǎn)生的呢?


我們先捋一下DeepSeek不同版本產(chǎn)品的時間線。

2023年11月Deepseek發(fā)布的V1版本,當(dāng)時知道人非常少。

2024年5月發(fā)布了DeepSeek V2,這個版本比較重要,因為引發(fā)了第一場Token的價格戰(zhàn)。

2024年11月份DeepSeek上線了推理模型R1 Lite,我們是在12月初開始試用這個模型,當(dāng)時它已經(jīng)具備一定的數(shù)學(xué)編程思考的能力。

2024年12月DeepSeek發(fā)布了V3,這是非常重磅的發(fā)布,在效率、性能方面有非常突出的工作能力。此時還沒有引起AI界特別多的關(guān)注。

2025年1月,DeepSeek發(fā)布R1,引起了全民關(guān)注的出圈。

這里還要提一個重要事件,Open AI o1預(yù)覽版本在2024年9月發(fā)布,這是第一個推理模型,o1的驚艷效果對大模型行業(yè)影響非常大,大家普遍認(rèn)為類似o1的后訓(xùn)練方式是未來的方向,但是大家始終都猜不透Open AI是怎么做的這件事,也沒有公布足夠的技術(shù)細(xì)節(jié)。在后來很長一段時間內(nèi),沒有哪家公司能夠復(fù)現(xiàn)和o1同等效果的模型。因此,AI界苦苦等待了4個月,當(dāng)DeepSeek R1出現(xiàn)并開源時,在全球范圍內(nèi)引起了巨大的轟動。

為什么DeepSeek R1會引起這么大的轟動呢?我認(rèn)為原因有2點:

第一是當(dāng)時的大模型技術(shù)架構(gòu)逐漸趨同,每家AI企業(yè)在大模型上投入的沉沒成本很高,會導(dǎo)致試錯成本很高,很難再用一些特別革命性或者創(chuàng)新性的東西調(diào)整自己的研究方向。

第二是大家探索了很久,模型界也沒有出現(xiàn)任何一個能夠和OpenAI o1相匹配的產(chǎn)品,都還處于一個混沌的狀態(tài),都在猜測o1是如何實現(xiàn)的。

所以當(dāng)DeepSeek R1出現(xiàn)后,在技術(shù)圈、企業(yè)圈里引起了全球范圍的討論,并逐步發(fā)酵出一些連帶影響。

從個人視角來看,首先DeepSeek R1出圈的根本原因是效果好。一方面是在榜單對比上的效果很好,另一方面,在業(yè)務(wù)實際使用的效果上也非常好。其次是具備極致性價比,相比是大模型界的小米。在保持效果優(yōu)秀的同時,價格更便宜。同時是開源的推理大模型,這對整個大模型生態(tài)有著非常大的影響,各家公司都可以按照同樣的方式開發(fā)自己的推理大模型或者行業(yè)大模型。最后就是芯片卡脖子問題,DeepSeek提出的新架構(gòu),有可能讓這一問題得到解決。

正是基于這些原因,也讓DeepSeek成功取代了Meta,成為了開源世界新的領(lǐng)頭羊。

02

DeepSeek三大關(guān)鍵版本的核心技術(shù)分享

1、DeepSeek V2模型

先了解下DeepSeek V2的模型信息,總參數(shù)量是236B,單個token推理激活的參數(shù)量是21B。看到下圖右側(cè)的坐標(biāo)圖,橫坐標(biāo)是單個token推理的激活參數(shù)量,縱坐標(biāo)是效果。

從整體結(jié)果來說DeepSeek遠(yuǎn)超大部分模型。與LLaMA 3 70B 對比來看,在每個token推理激活的參數(shù)量不到LLaMA 3 70B一半的同時,效果做到了基本相同。和通義千問 1.5 72B相比,參數(shù)量也是大幅減小的狀態(tài)。這也是 DeepSeek 打出的第一波價格戰(zhàn),把模型token的價格降到一個極低的水平的底氣。


再從DeepSeek V2發(fā)布的技術(shù)報告中,發(fā)現(xiàn)有兩大核心技術(shù)點創(chuàng)新,一個是DeepSeek MoE,第二個是MLA,這兩大技術(shù)都延續(xù)到了V3。

第一個創(chuàng)新點是MoE,MoE是混合專家系統(tǒng)的縮寫,它由多個專家組成,通過門控網(wǎng)絡(luò)來決定每個數(shù)據(jù)應(yīng)該被哪個專家去訓(xùn)練,從而減輕不同類型樣本之間的干擾。當(dāng)模型做單次推理的時候,可以選擇是否把每一個專家都激活,如果需要激活每一個專家,那就是稠密的MoE,如果只從所有專家中挑選幾個就是稀疏的MoE。當(dāng)前大部分MoE模型都是稀疏的方式。

那么DeepSeek MoE有什么特點?DeepSeek MoE和Mistral MoE 有哪些區(qū)別?


首先DeepSeek的專家分為兩類專家,一類是共享專家,共享專家是上圖中綠色的部分,每次推理都會固定激活。另一類是路由專家,是上圖藍(lán)色的部分,每次推理會從路由專家中去挑選幾個激活。最終的推理會通過共享專家加上路由專家一起完成。

因為路由專家每次都需要挑選,如果專家數(shù)比較少會相對容易控制,但是專家數(shù)多了就會出現(xiàn)負(fù)載均衡的問題。例如 Mistral 8x22B是有8個專家,每次推理從中挑選兩個,而DeepSeek的路由專家數(shù)非常多,在 V3 的時候大概有256個路由專家,每次是從中選8個專家。如果沒有很好的控制,可能會讓某一部分專家的激活概率非常不均衡,這樣會導(dǎo)致部分的專家信息過載,而部分的專家卻沒有得到足夠的訓(xùn)練,最終導(dǎo)致專家路由崩塌。所以負(fù)載均衡是MoE大模型要解決的核心問題。

因此 Deepseek MoE 提出了一個相對創(chuàng)新的辦法,采用無需輔助損失函數(shù)的負(fù)載均衡。借助這種方式,DeepSeek在V1階段時,有2個共享專家,64個路由專家,每次激活6個路由專家,整體激活率是9.4%。到V2的時候,增加到160個路由專家,每次激活6個路由專家的激活率是3.7%。再到V3的時候,只有1個共享專家,有256個路由專家,每次激活8個專家,激活率在3.1%。可以看到這個比例一直在下降,模型效率也是在逐步提升。相比Mistral 8x22B從8個專家中激活2個的激活率是25%,所以對比之下,Mistral的MoE是比較稠密的,推理的效率沒有DeepSeek高。

第二個技術(shù)創(chuàng)新點是MLA,是多頭潛在注意力機制,可以提高Transformer模型在處理長序列時的效率和性能,由DeepSeek原創(chuàng)。DeepSeek通過MLA的方式,將KV-cache緩存減少了93.3%,是非常有效的舉措。


2、DeepSeek V3模型

再來看看DeepSeek V3 ,除了包含 V2 的創(chuàng)新能力,還有三個創(chuàng)新點:第一個是工程架構(gòu)、系統(tǒng)架構(gòu)層面,有很多軟硬結(jié)合,或者是純硬件的創(chuàng)新;第二個是FP8的模型;第三個是MTP的多Token預(yù)測。

關(guān)于 FP8 可以先看下圖左上角部分,能比較直觀的理解到FP8可以通過降低精度極致的提升模型計算性能。


最深的色表示位數(shù),F(xiàn)P32是32位,F(xiàn)P16是16位,F(xiàn)P8是8位,INT8是8位。

FP8的8位分為符號位、指數(shù)位和尾數(shù)位。一般 FB8有E4M3和E5M2兩種方式,DeepSeek V3使用的是E4M3,即四位的指數(shù)位和三位的尾數(shù)位。

精度最高的一定是 FP32,因為小數(shù)位數(shù)多,可以把數(shù)字表達得更精確,在計算過程中的誤差就小,但它占的空間大。如果用 FP8的話,它的空間只占8位,是FB32的1/ 4,所需空間顯著減少,但也因為它位數(shù)少了,所以精度一定會有影響。

為了平衡精度跟誤差的問題,DeepSeek在使用 FP8 模型時,對非常多的中間結(jié)果是用 FP32 和 FP16 表示的,這其中涉及到很多的升維和降維的轉(zhuǎn)換工作,詳細(xì)的部分可以去看一下DeepSeek發(fā)布的技術(shù)報告。

關(guān)于MTP,就是多 token 預(yù)測,可以看下圖左下角。


以前token預(yù)測,是當(dāng)用戶輸入一句話之后,只預(yù)測下一個token。現(xiàn)在MTP 是一次預(yù)測多個token,當(dāng)預(yù)測了第一個 token 之后,會結(jié)合第一個 token 再去預(yù)測第二個token。

比如一次預(yù)測了三個token,當(dāng)預(yù)測之后就去做驗證,這就是第二階段的驗證,逐個判斷每token是否正確,直到遇到錯誤,就把前面連續(xù)對的部分輸出來,比如說這個例子里面它連續(xù)預(yù)測了3個token,那主干網(wǎng)絡(luò)認(rèn)為前兩個是對的,就會直接把前兩個一起輸出。

3、DeepSeek R1模型

接下來講一下DeepSeek R1,也是業(yè)界關(guān)注最多的模型。


從上圖右側(cè)眾多的測評集里面,DeepSeek R1的效果基本上跟OpenAI o1是持平的,有些場景甚至比o1更好。

關(guān)于DeepSeek訓(xùn)練部分,可以看上圖的左側(cè), R1分為兩個版本,一個是R1 Zero,一個是R1。

R1 Zero是純強化學(xué)習(xí)來訓(xùn)練,R1是有強化學(xué)習(xí)結(jié)合SFT。R1 Zero的訓(xùn)練過程中沒有采用人類反饋的強化學(xué)習(xí)(RLHF),加入人類反饋后過程會比較慢,成本會非常高,而是直接使用多輪的強化學(xué)習(xí)迭代,直接訓(xùn)練推理模型。

但同時R1 Zero中也有一些問題,例如語言表達的人類難以理解,另外語種使用也比較混亂,所以DeepSeek就在 R1 Zero的基礎(chǔ)上做了一些優(yōu)化。為了讓這個強化學(xué)習(xí)的效果更好,先做了一輪SFT,基于SFT得到的模型我們稱為第一階段模型。基于第一階段模型再進行Zero的純強化學(xué)習(xí)訓(xùn)練,同時為了讓它的語言一致性更好,加入了語言一致性的獎勵,這樣就得到了第二階段模型。在第二階段模型基礎(chǔ)上再做一次SFT,這次的SFT數(shù)據(jù)一部分是由 R1 Zero生成的60 萬 COT的數(shù)據(jù),另外一部分是一些非COT數(shù)據(jù),這兩部分?jǐn)?shù)據(jù)共有80萬,得到了第三階段的模型。再基于第三階段模型做全場景的、自動的強化學(xué)習(xí),最終就得到 Deepseek R1。未來各個大模型公司會基于這個范式,對推理模型有更多新的探索。

關(guān)于沒有人類參與的強化學(xué)習(xí)是如何設(shè)置獎勵模式呢?

重點考慮兩個點,第一個是準(zhǔn)確性,直接看answer部分,因為奧數(shù)和算法編程都是有標(biāo)準(zhǔn)答案,可以自動對比大模型輸出和標(biāo)準(zhǔn)答案判斷是否正確,并不需要人工標(biāo)注。

第二個是輸出格式,因為需要能穩(wěn)定輸出think加answer的結(jié)構(gòu),這樣才能輸出一個穩(wěn)定的推理結(jié)果,所以對格式也做了一部分獎勵。


上圖是關(guān)于獎勵部分是比較清晰的公式計算,最終就能算出對每個結(jié)果的獎勵是正向獎勵還是負(fù)向獎勵。因為DeepSeek公開了這部分信息,所以可以看到這個模式是非常清晰的,未來在這個范式下,在行業(yè)落地層面有很多參考價值。

那什么是“蒸餾模型”呢?

其實就是直接用前面提到的80萬的訓(xùn)練數(shù)據(jù),在其他開源模型上去做SFT,之后所得到的模型就是R1的蒸餾模型。

如果純粹的把一個小模型分別強化學(xué)習(xí)和做蒸餾,它們的效果到底有多大區(qū)別?

例如同樣是對千問32B,分別用R1 Zero的方式,做純粹的強化學(xué)習(xí)來訓(xùn)練和直接用蒸餾的方式來訓(xùn)練,它的效果其實差別非常大。下圖我們可以看到通過蒸餾方式的效果是遠(yuǎn)好于強化學(xué)習(xí)的。


所以未來大家在訓(xùn)練一些行業(yè)的推理模型時,到底是選擇蒸餾還是強化學(xué)習(xí),可能需要綜合來看。最快的方式目前看是蒸餾,但是如果R1也不能得到準(zhǔn)確的回答,那一定也蒸餾不出好的小模型,就需要使用R1類似的訓(xùn)練方式。如果是私有化部署R1蒸餾模型,非常推薦DeepSeek-R1-Distill-Qwen-32B的,綜合性價比非常高。

部署成本也是大家比較關(guān)注的一個問題,除了大家在網(wǎng)上能查到的信息,我也有一些自己的建議分享給大家,根據(jù)不同的模型部署信息整理了一張圖。


如果企業(yè)內(nèi)部要進行私有化部署的版本,一定是按需去做,因為目前單次投入的硬件成本還是非常高的,現(xiàn)在滿血版部署性價比最高的是8張H20(141GB版本)。

03

DeepSeek后續(xù)的影響

DeepSeek的出現(xiàn)無疑是讓AI技術(shù)又向前進了一大步,關(guān)于AI落地部分要分別從應(yīng)用端、模型端、生態(tài)端分別去考慮。

第一個應(yīng)用端要考慮的是當(dāng)token變得廉價。token成本顯著降低使得以前不掙錢的生意,現(xiàn)在就變得掙錢了。商業(yè)模式會發(fā)生非常大的改變,或者說商業(yè)模式的估值發(fā)生了非常大的改變。典型的就是以消耗大量token為代價的商業(yè)模式,例如做情感陪伴聊天的企業(yè)是利好的。

第二個模型端要考慮行業(yè)大模型應(yīng)該怎么去訓(xùn)練。2024年等行業(yè)大模型主要還是做基模,用行業(yè)數(shù)據(jù)做預(yù)訓(xùn)練和微調(diào),但是沒有行業(yè)的推理大模型。現(xiàn)在有了DeepSeek的樣板,會推動行業(yè)推理大模型的蓬勃發(fā)展,這應(yīng)該也有非常大的機會。

第三個生態(tài)端要考慮國產(chǎn)替換的問題。現(xiàn)在已經(jīng)有很多國產(chǎn)芯片都已經(jīng)支持了DeepSeek,可以看到國產(chǎn)生態(tài)正在飛快的發(fā)展和完善。

以上就是我今天分享的內(nèi)容。


東南大學(xué)博士,主要研究方向是知識圖譜和自然語言處理。發(fā)表高水平論文十余篇,同時獲得知識圖譜和大模型相關(guān)發(fā)明專利十余項。曾擔(dān)任網(wǎng)易杭研NLP負(fù)責(zé)人、攝星智能技術(shù)總監(jiān),成功研發(fā)多款現(xiàn)象級AI產(chǎn)品,榮獲了“江蘇省優(yōu)秀人工智能產(chǎn)品金獎”、“十佳優(yōu)秀人工智能軟件產(chǎn)品”等獎項。研發(fā)的知識圖譜增強大模型產(chǎn)品目前成功落地二十余家世界500強企業(yè)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
翻了天,美航母打頭菲艦墊后,強闖黃巖島,中方直接“上硬菜”

翻了天,美航母打頭菲艦墊后,強闖黃巖島,中方直接“上硬菜”

影史侃談
2025-07-07 08:23:16
捅大婁子后,馬英九預(yù)告將再訪大陸,暴露我們這邊最大問題

捅大婁子后,馬英九預(yù)告將再訪大陸,暴露我們這邊最大問題

牛鍋巴小釩
2025-07-09 07:10:18
被外界嚴(yán)重低估的泰王:花心蒼老都是偽裝,毫不費力讓余瓦達團滅

被外界嚴(yán)重低估的泰王:花心蒼老都是偽裝,毫不費力讓余瓦達團滅

生活新鮮市
2025-07-04 11:57:55
原知名演員高虎被曝送外賣!已經(jīng)息影9年,曾坦言不會復(fù)出

原知名演員高虎被曝送外賣!已經(jīng)息影9年,曾坦言不會復(fù)出

史紀(jì)文譚
2025-04-09 17:27:20
夫妻把89歲父親拋棄荒山,12年后再登山卻聽山谷里:兒子是你來了

夫妻把89歲父親拋棄荒山,12年后再登山卻聽山谷里:兒子是你來了

朝暮書屋
2025-07-04 18:55:12
張靚穎發(fā)文怒懟,“十幾年前我就這樣,我做錯了什么,罵得真臟”

張靚穎發(fā)文怒懟,“十幾年前我就這樣,我做錯了什么,罵得真臟”

新娛港
2025-07-09 11:44:20
“江門自來水發(fā)黃”最新進展:供水部門迅速調(diào)整制水工藝,連夜排空管網(wǎng)存水

“江門自來水發(fā)黃”最新進展:供水部門迅速調(diào)整制水工藝,連夜排空管網(wǎng)存水

極目新聞
2025-07-09 13:14:51
今晚19點!CCTV5直播中國女足PK韓國隊,爭開門紅,為男足復(fù)仇

今晚19點!CCTV5直播中國女足PK韓國隊,爭開門紅,為男足復(fù)仇

大秦壁虎白話體育
2025-07-09 05:59:48
后天起山東高溫暴雨輪著來!種地人這三步千萬得趕早

后天起山東高溫暴雨輪著來!種地人這三步千萬得趕早

白蘭di
2025-07-09 08:20:23
英國恥辱時刻!7萬噸航母都到中國門口了,就是不敢進南海

英國恥辱時刻!7萬噸航母都到中國門口了,就是不敢進南海

鐵錘簡科
2025-07-08 16:45:23
錢塘江杭州段大面積見底,市民感覺像海灘,管理局:上游來水少致灘地裸露

錢塘江杭州段大面積見底,市民感覺像海灘,管理局:上游來水少致灘地裸露

極目新聞
2025-07-08 19:07:44
市委書記的女兒開車擦了鎮(zhèn)長的車,鎮(zhèn)長說必須賠錢,誰來都不行

市委書記的女兒開車擦了鎮(zhèn)長的車,鎮(zhèn)長說必須賠錢,誰來都不行

喬生桂
2024-03-10 11:23:52
鎮(zhèn)反運動:辛亥元老和國軍投誠將領(lǐng)一年后皆遭鎮(zhèn)反

鎮(zhèn)反運動:辛亥元老和國軍投誠將領(lǐng)一年后皆遭鎮(zhèn)反

小院之觀
2025-06-29 05:30:04
伊朗用血的教訓(xùn),打醒了中國,未來解放臺灣,這幾個教訓(xùn)必牢記

伊朗用血的教訓(xùn),打醒了中國,未來解放臺灣,這幾個教訓(xùn)必牢記

扶蘇史記
2025-07-08 17:26:24
開始 “清算” 李嘉誠家族了?

開始 “清算” 李嘉誠家族了?

墜入二次元的海洋
2025-07-09 03:44:57
丈夫毆打妻子25年,如今高位截癱,大小便沒人管,妻子:報應(yīng)

丈夫毆打妻子25年,如今高位截癱,大小便沒人管,妻子:報應(yīng)

紅夢史說
2025-06-17 07:25:03
追憶楊少華:曾主演《楊光的快樂生活》,不久前出鏡身形消瘦

追憶楊少華:曾主演《楊光的快樂生活》,不久前出鏡身形消瘦

南方都市報
2025-07-09 19:25:06
姚晨為血鉛事件發(fā)聲!疑似真正毒源被扒,19年類似悲劇真相曝光!

姚晨為血鉛事件發(fā)聲!疑似真正毒源被扒,19年類似悲劇真相曝光!

古希臘掌管松餅的神
2025-07-07 16:35:51
苗阜的青曲社入不敷出,瀕臨倒閉,令人唏噓不已

苗阜的青曲社入不敷出,瀕臨倒閉,令人唏噓不已

鄉(xiāng)野小珥
2025-07-09 07:59:46
西安?延安1小時!陜北革命老區(qū)首條高鐵貫通

西安?延安1小時!陜北革命老區(qū)首條高鐵貫通

環(huán)球網(wǎng)資訊
2025-07-08 20:24:06
2025-07-09 20:51:00
北京愛分析科技有限公司
北京愛分析科技有限公司
愛分析致力于成為中國領(lǐng)先的數(shù)字化市場專業(yè)服務(wù)平臺,為企業(yè)用戶提供數(shù)字化規(guī)劃與落地全流程服務(wù)。
1065文章數(shù) 138關(guān)注度
往期回顧 全部

科技要聞

下一任蘋果CEO,可能是這位iPhone的掌舵人

頭條要聞

2天內(nèi)2名"老虎"被判死緩 1人從縣委書記貪腐到副部

頭條要聞

2天內(nèi)2名"老虎"被判死緩 1人從縣委書記貪腐到副部

體育要聞

開了16年F1,他終于第一次站上領(lǐng)獎臺

娛樂要聞

周杰倫開抖音號瘋漲三百萬粉絲

財經(jīng)要聞

金店業(yè)績分化 為何"一口價"賣得更好了?

汽車要聞

比亞迪為智能泊車安全兜底 天神之眼全面OTA升級

態(tài)度原創(chuàng)

時尚
教育
房產(chǎn)
手機
家居

在迪士尼私聯(lián)“內(nèi)膽”,圖啥啊?

教育要聞

高一數(shù)學(xué)求最值高招:對勾函數(shù)+均值定理求最值難題,高中必刷題

房產(chǎn)要聞

成交活躍!改善項目霸屏領(lǐng)跑!2025上半年廣州熱盤榜出爐!

手機要聞

榮耀X70 Max被曝光:驍龍7s Gen4與6.9英寸大屏,或稍后發(fā)布!

家居要聞

以光為境 國寶花園別墅

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 平凉市| 沾化县| 镇沅| 博白县| 黔西| 沂水县| 新巴尔虎右旗| 临沭县| 奉新县| 革吉县| 潜山县| 高州市| 澄城县| 枣庄市| 新乡市| 仁化县| 织金县| 昭通市| 克拉玛依市| 故城县| 江口县| 岳普湖县| 姚安县| 新邵县| 本溪| 杂多县| 金堂县| 凭祥市| 金溪县| 金秀| 两当县| 册亨县| 云和县| 罗山县| 胶南市| 肇州县| 乐东| 抚州市| 普安县| 德惠市| 金塔县|