DeepSeek 開源周第三天,今天推出了 DeepGEMM,這是一個專為 FP8 通用矩陣乘法(General Matrix Multiply,GEMM)設(shè)計的高性能計算庫。作為一家致力于開發(fā)高效、低成本大語言模型(LLM)的公司,DeepSeek 通過這一創(chuàng)新技術(shù)進(jìn)一步推動了人工智能在資源受限環(huán)境下的計算能力。
“DeepGEMM”是與矩陣運算相關(guān)的高效算法或工具,專門用于加速深度學(xué)習(xí)模型的訓(xùn)練或推理過程。矩陣乘法是深度學(xué)習(xí)中的核心操作,尤其是在 Transformer 模型(像 DeepSeek 的 V3 或 R1 這樣的 LLM)中占據(jù)了大量的計算開銷。
技術(shù)特點與創(chuàng)新
DeepGEMM 的核心優(yōu)勢在于其實現(xiàn)了 DeepSeek-V3 中提出的細(xì)粒度縮放功能。該庫不僅支持常規(guī)矩陣乘法,還特別優(yōu)化了混合專家系統(tǒng)(Mixture-of-Experts,MoE)架構(gòu)中的分組矩陣乘法,這正是 DeepSeek-V3 和 DeepSeek-R1 等先進(jìn)模型的關(guān)鍵計算需求。
雖然 DeepGEMM 是用 CUDA 編寫的,但它采用了創(chuàng)新的安裝方式:
- 無需復(fù)雜的預(yù)編譯過程
- 通過輕量級即時編譯(JIT)模塊在運行時編譯所有內(nèi)核
- 簡化了部署和使用流程
精度與性能平衡
當(dāng)前版本的 DeepGEMM 專為 NVIDIA Hopper 張量核心優(yōu)化。為了解決 FP8 張量核心在累加計算時可能面臨的精度問題,該庫采用了 CUDA 核心的兩級累加(精度提升)技術(shù),確保計算結(jié)果既快速又準(zhǔn)確。
值得注意的是,雖然 DeepGEMM 借鑒了 CUTLASS 和 CuTe 的一些概念,但它避免過度依賴這些庫的模板或代數(shù)系統(tǒng),而是追求簡潔設(shè)計。整個庫的核心內(nèi)核函數(shù)僅由約300行代碼組成,這使它成為學(xué)習(xí) Hopper FP8 矩陣乘法和相關(guān)優(yōu)化技術(shù)的清晰、易于理解的資源。
性能表現(xiàn)
盡管設(shè)計輕量,DeepGEMM 在各種矩陣形狀下的性能表現(xiàn)令人印象深刻。根據(jù)在 H800 GPU 上使用 NVCC 12.8 的測試結(jié)果,該庫在 DeepSeek-V3/R1 推理過程中可能用到的大多數(shù)矩陣形狀(包括預(yù)填充和解碼階段,不包含張量并行)上,性能能夠媲美甚至超越那些由專家精心調(diào)優(yōu)的庫。
意義
DeepGEMM 的推出對 DeepSeek 和整個 AI 社區(qū)具有多重意義:
1.提升計算效率:通過優(yōu)化底層矩陣運算,DeepGEMM 顯著減少了訓(xùn)練和推理時的計算資源需求,特別適合在硬件受限的情況下使用。
2.降低運行成本:支持 DeepSeek 以低成本構(gòu)建高性能模型的戰(zhàn)略,有助于減少對高端硬件的依賴。
3.MoE 架構(gòu)優(yōu)化:針對 MoE 模型需要動態(tài)選擇激活專家子網(wǎng)絡(luò)的特點,DeepGEMM 進(jìn)行了專門優(yōu)化,提升了推理速度和能效。
4.開源賦能:作為 DeepSeek 開放策略的一部分,DeepGEMM 為開發(fā)者社區(qū)提供了一個強(qiáng)大工具,有助于更多人構(gòu)建高效 AI 模型。
相關(guān)內(nèi)容
? AI范兒
要進(jìn)“交流群”,請關(guān)注公眾號獲取進(jìn)群方式
投稿、需求合作或報道請?zhí)砑庸娞柅@取聯(lián)系方式
點這里關(guān)注我,記得標(biāo)星哦~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.