不能再肝了,但我又覺得DeepSeek值得。。。
這兩天,DeepSeek的高強度開源波,一山更比一山高。
先是給GPU安超頻加速外掛的 ,又是叫英偉達知道“原來GPU沒有商業護城河”的 。
我也都第一時間給大家帶來了報道。
在追求效率、把硬件資源干下來的路上,DeepSeek快成AI性能效率上的Godfather了。。。
這回,他們開源的是一個叫做DeepGEMM的玩意兒,專門給當時爆cei全網的DeepSeek-V3做的。
Github星星沒半小時,就幾百個了。點的越多,意味著開源友友們越喜愛和越關注這個代碼倉庫,水分那是相當的少。一般幾千的星星就已經算是爆款了,半小時就幾百,這個含金量你懂的。
開源鏈接在此:https://github.com/deepseek-ai/DeepGEMM?tab=readme-ov-file
這東西,倒也沒那么難懂。
舉個例子,假如我結婚了。場面特別特別大,記得是假如。。。
幾百萬人組成的迎親隊伍、點鞭炮得點幾億種、接親隊伍也叫個幾百萬人來,甚至我再搞點大的出來,比如弄個幾萬盞燈光秀。
所有的一切的一切都需要計算好時間點,相互之間得互相搭配。而DeepGEMM這東西,能把以上所有東西塞進一個矩陣里。
所有迎親隊伍的實時行走軌跡、啥時候點鞭炮的精細時間規劃、接親隊伍得到哪里等、等多久,幾萬盞燈光秀和幾千萬首音樂秀,幾分幾秒,該怎么配合,效果最好,等等。
全都能放進矩陣里計算,這都快成在天上俯瞰人間的God了。。。
用技術語言說,就是:
DeepGEMM 是一個為 DeepSeek-V3 專門設計的,用于 FP8 的,通用矩陣乘法(GEMM)庫。還支持普通的和專家混合(Mix-of-Experts,MoE)分組 GEMM。
安裝時,你都無需編譯,只通過一個輕量級的即時編譯(JIT)模塊,在運行時就可以編譯所有內核了。牛逼,一點多余東西都不舍得讓你多干活。
而且,只用了300行代碼,實在是牛逼。。。
目前,DeepGEMM跟前兩天一樣,還是只支持H卡。它為了讓FP8這種速度快但精度偏低的計算方式變得更準確,利用了CUDA核心做了兩次累加。
簡單說就是先用FP8完成快速計算,然后再用CUDA核心對結果進行更精細的再加工,這樣既能保持速度快,還能把精度提上去。
DeepGEMM也借鑒了英偉達CUTLASS和CuTe的一些概念。
CUTLASS 是基于英偉達明星當家CUDA架構。簡單說,它是一個寫給 NVIDIA顯卡的工具包,專門用來加速“矩陣計算”的。
英偉達的CUTLASS實在是過于高效,以至于被用來構建內核時,幾乎能幫顯卡把矩陣計算的性能榨到極限,跑到顯卡的理論峰值。
但是如果你手里的硬件沒那么強大,就像很多現在的AI公司們還停在上一代的卡上時,CUTLASS這種大而全的加速套件,就有點用不上了。
CUTLASS雖然時哥通用、功能強大的矩陣加速庫,但是DeepGEMM這種激進的優化方式更專注、更輕量。
深刻的展現了DeepSeek那種“摳”到極致的理念。
把性能也摳到了極限。
性能只要卡的不死,DeepSeek就能拿效率調優這條至簡大路沖出來,無形中連美國算力封鎖都給捅破了。。。
它完全沒有一點對英偉達項目的模版or代數的過分的依賴度,全憑自主。
而且不止是輕量化,性能也是直接起飛。
按他們的話說,
團隊說,能夠匹配甚至超越英偉達、ADM等等專家專門調優的庫。。。
比英偉達自己的CUTLASS 3.6,速度還提升了2.7倍。
他們在H800上,測試了 DeepSeek-V3 和 R1 推理中可能用到的所有矩陣情況,性能水平,我都整理在這了。
先是密集模型檔,估計老黃那個項目的人,也很難想明白,幾百行代碼怎么調優調成這樣的。。。
之前不是都說,硬件是有護城河的嘛。。。現在看起來,DeepSeek比英偉達都懂GPU。
然后就是現在被稱為AI未來方向之一的專家混合模型MoE了。它在處理復雜任務上獨樹一幟。整體的性能,實在是太硬核了。數據如下:
但DeepSeek的人也確實說了。
DeepGEMM雖然非常牛逼,但是在某些情況上的表現確實不太好,歡迎所有人一起改進。
具體的部署上,依舊和之前每次DeepSeek開源時的動作一樣,把飯喂到你嘴邊,順便走的時候,再給你擦擦嘴。
因為無需編譯,部署速度會更快、更順暢。這讓我想起來了當年的貼吧大神們,只留下寶典教程里最核心的部分,揮揮衣袖,就跑了。。。
隨著下一代基座模型,比如DeepSeek V4、GPT-4.5等等的參數和復雜度繼續增長時,深入到底層進行優化的DeepGEMM這種庫,真的會越來越重要。
AI圈子內曾經充斥著,閉源才是通向AGI的論調。
這平等地傷害了,每一個踏進AI大門的普通人們。
閉源的AI世界,就像是黑暗森林。
每個人都是拿著槍追著篝火的獵人。
但DeepSeek這一舉。
讓我突然想起來《教父》里那句名言。
永遠不要動怒。
絕不要威脅。
要講道理。
開源就是DeepSeek這群家伙們的道理。
共勉。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、芝蘭山
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.