散英魂寄千萬雄鷹翱翔神州,
盡智魄載十億慧芯呼喚華夏。
——《國(guó)務(wù)院給予江上舟同志挽聯(lián)》
01
前沿導(dǎo)讀
根據(jù)媒體 SemiAnalysis 的數(shù)據(jù)報(bào)告顯示,中國(guó)ai企業(yè)DeepSeek 只從中國(guó)境內(nèi)招聘,而不是從臺(tái)灣或美國(guó)挖角。其招聘的目的是專注于技能和解決問題的能力,而不是正式的證書。
招聘工作以北京大學(xué)和浙江大學(xué)等提供極具競(jìng)爭(zhēng)力的薪酬機(jī)構(gòu)為目標(biāo)。根據(jù)這項(xiàng)研究,DeepSeek 的一些 AI 研究人員的收入超過 130 萬美元,超過了 Moonshot 等其他領(lǐng)先的中國(guó) AI 公司的薪酬。
02
DeepSeek的投入
DeepSeek 在大模型訓(xùn)練上投入的成本僅為 600 萬美元以及 2048 個(gè) GPU,但該模型被認(rèn)為是可以與 Open AI 的 o1 相媲美的存在。
DeepSeek一共推出了兩款大模型,V3和R1。
V3采用混合專家(MoE)架構(gòu),擁有6710億參數(shù),但每次推理僅激活370億參數(shù),這種設(shè)計(jì)顯著降低了計(jì)算成本。它使用了14.8萬億條標(biāo)記進(jìn)行訓(xùn)練,通過強(qiáng)化學(xué)習(xí)后訓(xùn)練,增強(qiáng)了推理能力,能夠?qū)崿F(xiàn)類似人類的“思路鏈”問題解決。
V3的訓(xùn)練成本僅為557萬美元,遠(yuǎn)低于GPT-4o的1億美元。其訓(xùn)練效率也非常高,僅用了278.8萬GPU小時(shí),在2048塊Nvidia H800 GPU上用55天完成訓(xùn)練。
在多項(xiàng)基準(zhǔn)測(cè)試中,DeepSeek-V3的表現(xiàn)接近甚至超越了Claude Sonnet和GPT-4o等國(guó)際頂尖模型。例如,在數(shù)學(xué)競(jìng)賽(如AIME 2024和MATH-500)和代碼生成任務(wù)(如Codeforces)中,V3的表現(xiàn)尤為突出。
而R1大模型同樣采用MoE架構(gòu),擁有6710億參數(shù),其中370億參數(shù)處于活動(dòng)狀態(tài)以處理特定任務(wù)。它通過純強(qiáng)化學(xué)習(xí)達(dá)到OpenAI o1的水平,成本卻低95%。
其訓(xùn)練成本為550萬美元,不到ChatGPT費(fèi)用的十分之一。其訓(xùn)練過程與V3相差無幾,都是278.8萬GPU小時(shí)和2048塊H800 GPU。
雖然DeepSeek將訓(xùn)練成本和訓(xùn)練所使用的芯片公布出來,但是國(guó)際行業(yè)分析公司 SemiAnalysis 發(fā)布了報(bào)告稱,DeepSeek 背后的公司承擔(dān)了 16 億美元的硬件成本,并擁有 50000 個(gè) Nvidia Hopper GPU 的隊(duì)列,這一發(fā)現(xiàn)將會(huì)削弱 DeepSeek 以比 AI 行業(yè)領(lǐng)導(dǎo)者低得多的投資重塑 AI 訓(xùn)練和推理的想法。
DeepSeek 起源于中國(guó)對(duì)沖基金 High-Flyer,該企業(yè)很早就意識(shí)到 AI 在金融以外的領(lǐng)域有著深度的潛力和可以擴(kuò)展的關(guān)鍵洞察力。因此,他們一直在不斷采購英偉達(dá)的 GPU 產(chǎn)品。
在對(duì)具有數(shù)千個(gè) GPU 集群的模型進(jìn)行試驗(yàn)后,High Flyer 在 2021 年一共采購了 10000 個(gè) A100 GPU,由于當(dāng)時(shí)還沒有任何對(duì)于ai芯片的出口限制,所以這些GPU芯片可以輕松的買到。
隨著 High-Flyer 的改進(jìn),他們?cè)?2023 年 5 月拆分出“DeepSeek”作為獨(dú)立的ai公司運(yùn)作,目標(biāo)是更專注于追求更多的 AI 功能。
DeepSeek團(tuán)隊(duì)以前期5.78億美元的研發(fā)投入為基礎(chǔ),將單個(gè)模型訓(xùn)練邊際成本降至557萬美元,僅為同類模型的30%。這種成本分?jǐn)偛呗越档土藛蝹€(gè)模型的訓(xùn)練成本,使得大規(guī)模模型訓(xùn)練更加經(jīng)濟(jì)。
在訓(xùn)練R1大模型時(shí),DeepSeek在2048塊H800 GPU集群上實(shí)現(xiàn)了98.7%的持續(xù)利用率,相較傳統(tǒng)訓(xùn)練方案提升了20個(gè)百分點(diǎn)。這種負(fù)載均衡策略確保了硬件資源的充分利用,避免了資源閑置,最大化了生產(chǎn)效率。
盡管美國(guó)對(duì)向中國(guó)出口先進(jìn)GPU的限制不斷升級(jí),但DeepSeek仍然通過合規(guī)渠道采購了大量英偉達(dá)芯片。
例如,DeepSeek訓(xùn)練其V3模型所使用的H800芯片,這些芯片是英偉達(dá)專為中國(guó)市場(chǎng)定制的版本,雖然性能相較于H100有所削弱,但仍能滿足DeepSeek的訓(xùn)練需求。
H100是英偉達(dá)目前最強(qiáng)大的完全體AI芯片之一,基于Hopper架構(gòu),采用臺(tái)積電N3制程技術(shù)。它集成了八個(gè)HBM3顯存,提供高達(dá)900GB/s的內(nèi)存帶寬。
這些芯片主要用于高性能計(jì)算和AI訓(xùn)練任務(wù),特別是在需要高內(nèi)存帶寬和高計(jì)算性能的場(chǎng)景中。例如,Meta在訓(xùn)練其Llama 3模型時(shí)使用了16384塊H100 GPU。
而DeepSeek所采購的H800芯片,也是基于Hopper架構(gòu)技術(shù),但性能相較于H100有所削弱。H800的顯存帶寬縮減至約400GB/s。H800主要用于AI推理和訓(xùn)練任務(wù),特別是在需要較高性能但又受限于出口管制的場(chǎng)景中。
03
擴(kuò)張國(guó)產(chǎn)技術(shù)
DeepSeek采取“一年14薪”的模式,即每個(gè)自然年度發(fā)放14個(gè)月的薪水,這意味著員工每年可以額外獲得兩個(gè)月的工資。從薪資待遇上面來看,DeepSeek的基礎(chǔ)保障要強(qiáng)于一般的企業(yè)。
而且DeepSeek主要在中國(guó)大陸招聘員工,其初創(chuàng)團(tuán)隊(duì)和投入資本均脫胎于幻方量化,這家公司在中國(guó)有著深厚的根基,在北京、杭州兩地設(shè)有辦公地點(diǎn)。
DeepSeek 定期在北京大學(xué)和浙江大學(xué)等頂尖大學(xué)舉辦招聘活動(dòng),許多員工都畢業(yè)于浙江大學(xué)。據(jù)權(quán)威媒體所稱,DeepSeek將為有前途的候選人提供超過 130 萬美元的薪水,這個(gè)收入遠(yuǎn)高于競(jìng)爭(zhēng)激烈的中國(guó)大型科技公司以及像 Moonshot 這樣的人工智能實(shí)驗(yàn)室。
人工智能是當(dāng)下最具有紅利期的領(lǐng)域,曾經(jīng)布局多年的英偉達(dá),憑借著CUDA技術(shù)生態(tài),在人工智能時(shí)代站上頂峰。其公司的許多員工,都已經(jīng)實(shí)現(xiàn)了身價(jià)超百萬的收入水平。
根據(jù)Payscale和Blind的數(shù)據(jù)顯示,2025年英偉達(dá)員工的平均薪資為142,087美元。中位數(shù)總薪酬為231,268美元,其中25th百分位的員工年薪為173,371美元,90th百分位的員工年薪為389,992美元。
2024年10月7日,英偉達(dá)創(chuàng)始人黃仁勛的個(gè)人凈資產(chǎn)已達(dá)到1090億美元。
2024年10月7日,英特爾的市值約為960億美元。
黃仁勛一個(gè)人的資產(chǎn),已經(jīng)超過了世界500強(qiáng)企業(yè)英特爾的公司市值。這都是建立在人工智能大爆發(fā)下,所出現(xiàn)的戲劇性一幕。
DeepSeek現(xiàn)在專注于招募中國(guó)本土人才,不過分看重候選人的過往履歷,而是更注重其實(shí)際能力和求知欲望。公司經(jīng)常在北京大學(xué)、浙江大學(xué)等國(guó)內(nèi)的頂尖高校舉辦招聘活動(dòng),許多公司的員工均畢業(yè)于這些院校。
對(duì)于較為重要的核心崗位,DeepSeek尤其看重應(yīng)聘者的“學(xué)術(shù)”和“研究能力”,例如“深度學(xué)習(xí)研究員”崗位,對(duì)于在國(guó)際頂會(huì)或期刊發(fā)表相關(guān)論文的應(yīng)聘者會(huì)優(yōu)先招聘。
而且DeepSeek對(duì)校招和應(yīng)屆生非常友好,有很多崗位都在向?qū)W生群體開放,甚至有些崗位面向“在校生”。
公司認(rèn)為年輕人更具創(chuàng)新能力和學(xué)習(xí)能力,能夠?yàn)楣編硇碌囊暯呛突盍Α2⑶褼eepSeek認(rèn)為,如果追求短期目標(biāo),找現(xiàn)成有經(jīng)驗(yàn)的人是對(duì)的,但如果看長(zhǎng)遠(yuǎn),經(jīng)驗(yàn)就沒那么重要。
往期經(jīng)典回顧:20萬+閱讀量
往期經(jīng)典回顧:40萬+閱讀量
往期經(jīng)典回顧:100萬+閱讀量
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.