99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek“開源周”匯總:懷疑DeepSeek訓練成本“撒謊”的可以閉嘴了

0
分享至

作者|沐風

來源|AI先鋒官

就在一周以前,DeepSeek官方在 X 平臺上表示從本周開始,將陸續公布5個開源項目。

從周一(2月24日)到今天(2月28日),DeepSeek“開源周”也迎來了尾聲。

相比OpenAI的12天直播秀,DeepSeek的5天發布,沒有直播沒有表演,只有充滿技術術語的晦澀文檔。

小編替各位把這些文檔啃完后,總體感覺就是,這是一系列對如何極限壓榨英偉達GPU及最大化提升AI訓練效率的“說明書”,也側面解釋了,為什么DeepSeek 能把大模型做的那么有“性價比”。

我們先來看看,DeepSeek都開源了些什么項目:

-Day1-

FlashMLA:讓AI模型更高效使用GPU,尤其針對英偉達H系列芯片


第一天DeepSeek就扔出了一個重磅炸彈,開源了FlashMLA。

MLA(多頭潛在注意力機制)是DeepSeek已經發布的V2、V3兩款模型中,最為核心的技術之一。

而FlashMLA是專門針對于英偉達Hopper GPU開發的高效MLA解碼內核,專為處理可變長度序列而設計。

換而言之,FlashMLA專門針對英偉達H系列GPU產品,如H100、H800和H20等多款芯片。

據DeepSeek方面介紹,在基準測試性能表現上,FlashMLA可以使得H800達到3000GB/s內存,實現580TFLOPS(每秒浮點運算次數)計算性能。

這意味著,使用FlashMLA優化后,H800的內存帶寬利用率有望進一步提高甚至突破其理論上限,在內存訪問上達到極致,能讓開發群體充分“壓榨”英偉達H系列芯片能力,以更少的芯片實現更強的模型性能,最大化GPU價值。

GitHub地址:

https://github.com/deepseek-ai/FlashMLA

-Day2-

DeepEP:讓AI訓練實現多線程協作,“壓榨”GPU等待時間


據DeepSeek介紹,DeepEP是一個用于MoE模型訓練和推理的EP通信庫,它主打低延遲內核,其支持 FP8 的特性特別適合資源受限或實時性要求高的場景。

特別是在處理MoE分派和組合的通信模式上,DeepEP針對高吞吐量和低延遲的GPU內核,專門優化了MoE模型中數據路由和輸出的整合過程。

MoE架構是由多個專注于垂直技能的專家模型分工協作來實現最終輸出結果,訓練成本和推理成本更低。

MoE(混合專家架構)和MLA均被認為是DeepSeek以低成本實現杰出表現的核心原因。

但MoE架構的缺點之一是會增加通信成本,而DeepEP通信庫就是針對通信環節的優化,其特點包括:

·高效、優化的全員溝通;

·節點內和節點間均支持NVLink和RDMA;

·用于訓練和推理預填充的高吞吐量內核;

·用于推理解碼的低延遲內核(優化數據傳輸路徑,類似給快遞包裹規劃最短路線);

·原生FP8調度支持;

·靈活的GPU資源控制,實現計算-通信重疊。

優化之后的MoE模型的通信性能,支持低精度操作(如 FP8)——用更少的內存存儲數據(類似把高清電影壓縮成小體積文件),讓普通顯卡也能跑復雜模型,并提供了針對非對稱域帶寬轉發的內核。

這使得在分布式GPU環境中,MoE 模型的訓練和推理更加高效和可擴展,尤其是在多節點集群中,能夠顯著降低通信開銷并提高整體性能。

在資源分配上,DeepEP能根據任務量動態調節GPU的計算資源(SM 數量控制)。

在數據傳輸上,DeepEP優化了非對稱域帶寬轉發(如 NVLink 到 RDMA),這使得它特別適合現代高性能計算(HPC)環境中的多節點分布式訓練。

如果說傳統的AI訓練中,GPU跑了10個小時,4個小時在等數據、等同步,實際工作時間只有6小時。那么DeepEP,能夠把等待時間壓縮到1小時,GPU干活9小時,相當于多了3小時算力,真正“榨干”每一塊GPU。

GitHub地址:

https://github.com/deepseek-ai/DeepEP

-Day3-

DeepGEMM:將H800計算性能提升2.7倍


DeepGEMM是一個支持密集型和MoE 模型的FP8 GEMM庫,可為V3/R1模型的訓練和推理提供強大支持。

GEMM,即通用矩陣乘法,是線性代數中的基本運算,是科學計算、機器學習、深度學習等領域中最常見的計算操作,也是許多高性能計算任務的核心。

但由于它的計算量往往都比較大,所以GEMM的性能優化是至關重要的一點。

此次DeepSeek開源的DeepGEMM,依舊是保持了“高性能+低成本”的特性, 亮點如下:

·同時支持密集布局和兩種MoE(混合專家模型)布局;

·使用CUDA(統一計算架構)編寫,無需編譯即可安裝;

·完全即時編譯,即用即跑;

·專為NVIDIA Hopper張量核心設計;

·使用CUDA核心兩級累加解決FP8張量核心累加不精確的問題。

DeepGEMM最大的特點就是簡潔高效,僅有300行核心代碼。

DeepSeek表示,雖然DeepGEMM借鑒了CUTLASS和CuTe里的一些理念,但并沒有過度依賴它們的模板或代數運算。

在深度學習中,FP8(8位浮點數)可以減少存儲和計算的開銷,但是缺點是精度比較低,而由于精度低,就可能產生量化誤差,影響模型訓練的穩定性。

據DeepSeek介紹,為了解決FP8張量核心積累的精度問題,它采用了CUDA核心的兩級積累(提升)方法。”

也就是利用了CUDA核心做了兩次累加,先用FP8做大批量乘法,然后再做高精度匯總,以此防止誤差累積。既大幅減少空間,同時又保有精度,效率也就由此提升。

性能方面,從測試結果來看,DeepGEMM計算性能最高可達1358 TFLOPS,內存寬帶最高可達2668 GB/s,與英偉達基于CUTLASS 3.6的優化實現相比,速度最高提升了2.7倍。

也可以說是將GPU的性能潛力發揮到極致。

GitHub地址:

https://github.com/deepseek-ai/DeepGEMM

-Day4-

優化的并行策略:給AI訓練配上“高速雙車道”和“交通調度員


此次DeepSeek開源的內容是優化的并行策略,其中包括DualPipe,一種用于V3/R1訓練中計算與通信重疊的雙向管道并行算法;以及EPLB,一種針對V3/R1的專家并行負載均衡器。

此外,DeepSeek還公開分享了其訓練和推理框架的性能分析數據,從而幫助開源社區更好地了解通信與計算重疊策略和底層實現細節。

DualPipe是一種創新性的雙向流水線并行算法,?專為DeepSeek-V3/R1訓練體系設計,相當于給AI訓練裝上了“雙車道高速路”。它實現了前向和后向計算-通信階段的完全重疊,顯著減少了流水線中的空閑時間("流水線氣泡")。

通過對稱的微批次調度,DualPipe優化了并行計算效率,在反向傳播階段并發執行前向計算,將硬件利用率提高了約30%。這種設計尤其適用于擁有數百億到數萬億參數的模型訓練,能夠大幅提高計算效率。

GitHub地址:

https://github.com/deepseek-ai/DualPipe

EPLB(Expert Parallelism Load Balancer)是DeepSeek推出的專家并行負載均衡器,為解決MoE模型在分布式訓練和推理中的負載不平衡問題,這有點類似“交通調度員”,避免某些GPU忙死、某些GPU閑死?。

EPLB通過復制高負載專家并智能地分配到不同GPU上,實現負載均衡。它包含兩種負載均衡策略:層次化負載均衡和全局負載均衡。這種設計使得萬卡GPU集群的利用率超過92%,有效避免了資源浪費。

GitHub地址:

https://github.com/deepseek-ai/EPLB

DeepSeek還分享了來自訓練和推理框架的性能分析數據,以幫助社區更好地了解通信計算重疊策略和低級實現細節,這相當于“健身教練的體測報告”,告訴開發者哪里可以優化。

這些數據通過PyTorch Profiler捕獲,下載后可以直接在Chrome或Edge瀏覽器中打開,進行可視化分析,DeepSeek還模擬了絕對平衡的MoE 路由策略用于性能分析。

GitHub地址:

https://github.com/deepseek-ai/profile-data

-Day5-

Fire-Flyer文件系統 (3FS):提升AI訓練中海量數據處理效率?


Fire-Flyer文件系統 (3FS)是一種利用現代SSD和RDMA網絡的全部帶寬的并行文件系統。

3FS 是一款高性能的分布式文件系統,旨在解決AI訓練和推理工作負載帶來的挑戰,利用現代SSD和RDMA網絡提供共享存儲層,簡化分布式應用程序的開發。

其核心優勢在于高性能、強一致性和易用性,能夠有效支持各種 AI 工作負載,包括數據準備、數據加載、檢查點設置和推理緩存。

其特點有:

·180節點集群中的聚合讀取吞吐量為6.6TiB/s;

·25節點集群中GraySort基準測試的吞吐量為3.66TiB/分鐘;

·每個客戶端節點的 KVCache 查找峰值吞吐量超過40GiB/s;

3FS 在 DeepSeek 的 V3 / R1 版本中得到廣泛應用,涵蓋了訓練數據預處理、數據集加載、檢查點保存 / 重新加載、嵌入向量搜索以及推理過程中的 KVCache 查找等關鍵環節。

做個類比的話,傳統AI訓練的文件系統?貨物堆放混亂,叉車來回碰撞,每天只能處理1000單;?3FS系統下?,則是智能機器人自動分揀,多條傳送帶并行發貨,每天處理10萬單且零錯誤。

GitHub地址:

https://github.com/deepseek-ai/3FS

此外,DeepSeek還開源了基于3FS的數據處理框架Smallpond,其是一款構建于DuckDB和3FS之上的輕量級數據處理框架。它擁有高性能數據處理能力,可擴展至PB級數據集,并且操作簡便,無需長期運行的服務。

GitHub地址:

https://github.com/deepseek-ai/smallpond

此次“開源周”讓懷疑DeepSeek在訓練成本上“撒謊”的人噤聲了。因為每個開源項目,都在向世界展示了DeepSeek極致壓榨英偉達芯片的功力。

只能說,在壓榨英偉達芯片、AI性能效率提高這方面,DeepSeek已經出神入化。

從GitHub上獲得的星標來看,這些項目頗受歡迎,一般來說,在GitHub上獲得幾千星星就已經算很成功了。

截至發稿,FlashMLA已在GitHub獲得超過1萬星標;DeepEP的星標已有6000;DeepGEMM目前超過4100;DualPipe星標超過1900。

在Github的交流區,不少人想起了OpenAI,將DeepSeek稱為“真正的OpenAI”。

OpenAI已經走上閉源之路好幾年,甚至被戲稱為“CloseAI”,直到DeepSeek出現,OpenAI CEO山姆·奧特曼表示,在開源/閉源的問題上,自己或許站在了歷史錯誤的一邊。

此前,他還曾經在X上發起投票,詢問網友希望OpenAI的下一個開源項目是什么類型的。

不過到目前為止,這一切都還只是在空口的承諾中。

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

往期文章回顧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
以色列懸著的心終于死了,伊朗連續五輪導彈雨洗地,美軍被拉下水

以色列懸著的心終于死了,伊朗連續五輪導彈雨洗地,美軍被拉下水

文雅筆墨
2025-06-14 12:31:21
江西一女刑犯在獄中懷孕,獄警調查3天后,卻在女人堆里找出奸夫

江西一女刑犯在獄中懷孕,獄警調查3天后,卻在女人堆里找出奸夫

懸案解密檔案
2025-06-13 10:26:24
繼盧比奧之后,濃眉大眼的凱洛格也叛變了!

繼盧比奧之后,濃眉大眼的凱洛格也叛變了!

聽風聽你
2025-06-13 20:01:10
北京老太癡呆30年,突然想起在地窖囤有茅臺,專家鑒定后倒吸涼氣

北京老太癡呆30年,突然想起在地窖囤有茅臺,專家鑒定后倒吸涼氣

秋風專欄
2025-05-21 15:18:45
62歲何賽飛現狀:住杭州別墅區,學騎電車接地氣,與老公感情穩定

62歲何賽飛現狀:住杭州別墅區,學騎電車接地氣,與老公感情穩定

墨印齋
2025-06-14 19:15:56
國家自然科學基金委員會:嚴正聲明!

國家自然科學基金委員會:嚴正聲明!

高分子材料科學
2025-06-13 20:32:04
伊朗系全面反擊?胡塞武裝終于參戰了!伊朗放狠話:要打美軍基地

伊朗系全面反擊?胡塞武裝終于參戰了!伊朗放狠話:要打美軍基地

梁訊
2025-06-14 19:54:14
雞蛋再次成為關注對象!醫生發現:吃雞蛋時,務必多留意這幾點

雞蛋再次成為關注對象!醫生發現:吃雞蛋時,務必多留意這幾點

DrX說
2025-05-21 12:47:30
002384,重大收購!存儲器巨頭官宣大動作,投資擴大至1500億美元

002384,重大收購!存儲器巨頭官宣大動作,投資擴大至1500億美元

數據寶
2025-06-14 13:03:16
震驚!大量外籍演員演中國劇,觀眾怒吼:我們的演員哪去了?

震驚!大量外籍演員演中國劇,觀眾怒吼:我們的演員哪去了?

深析古今
2025-06-11 22:45:22
車曉43歲生日,在家請朋友吃麻醬拌面和剩菜,沒洗手抓菜被吐槽

車曉43歲生日,在家請朋友吃麻醬拌面和剩菜,沒洗手抓菜被吐槽

鄭丁嘉話
2025-06-14 10:37:29
爆冷!鄭欽文2-0橫掃,升至世界第4,將在溫網避開薩巴倫卡

爆冷!鄭欽文2-0橫掃,升至世界第4,將在溫網避開薩巴倫卡

體育就你秀
2025-06-14 07:16:43
小楊阿姨帶玥兒霖霖吃壽司自助!姥姥給馬筱梅發短信照看孩子!

小楊阿姨帶玥兒霖霖吃壽司自助!姥姥給馬筱梅發短信照看孩子!

鄭丁嘉話
2025-06-14 09:17:23
好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

荷蘭豆愛健康
2025-06-12 18:47:39
以色列政府專機飛抵希臘,為躲避伊朗報復行動,去年伊朗襲擊期間該機也曾從空軍基地起飛

以色列政府專機飛抵希臘,為躲避伊朗報復行動,去年伊朗襲擊期間該機也曾從空軍基地起飛

魯中晨報
2025-06-14 09:38:03
七年前,那個走4.5公里山路上學,滿頭冰花的男孩,后來怎樣了?

七年前,那個走4.5公里山路上學,滿頭冰花的男孩,后來怎樣了?

青眼財經
2025-06-14 14:10:45
上騙中央,下騙百姓,三回入獄,從首富到首騙,把他吹的太神了!

上騙中央,下騙百姓,三回入獄,從首富到首騙,把他吹的太神了!

妙知
2025-06-14 17:27:35
公司稱正核實“多所高校禁用羅馬仕兩萬毫安充電寶” 專家:預防手機沒電選中等體積產品即可

公司稱正核實“多所高校禁用羅馬仕兩萬毫安充電寶” 專家:預防手機沒電選中等體積產品即可

紅星新聞
2025-06-14 15:13:11
0.04秒絕殺!中國隊終于奪冠,12年,等了整整12年,十大官媒盛贊

0.04秒絕殺!中國隊終于奪冠,12年,等了整整12年,十大官媒盛贊

墨印齋
2025-05-29 14:46:17
俄刀終于捅進了烏克蘭心臟

俄刀終于捅進了烏克蘭心臟

那山星火
2025-06-11 06:22:47
2025-06-14 21:35:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
295文章數 18關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

特朗普79歲生日當天 全美50州預計將舉行2000場抗議

頭條要聞

特朗普79歲生日當天 全美50州預計將舉行2000場抗議

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

陳小春演唱會賣力唱跳 57歲仍活力滿滿

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
親子
藝術
健康
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

親子要聞

孩子愛過敏或哮喘?快讓他去玩土!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 襄樊市| 郧西县| 肇东市| 永州市| 庆阳市| 五大连池市| 南皮县| 河南省| 仪陇县| 侯马市| 翼城县| 富蕴县| 云林县| 舒兰市| 曲沃县| 五峰| 探索| 韩城市| 鄯善县| 通海县| 攀枝花市| 阿坝县| 从江县| 新乡市| 延津县| 黑山县| 南涧| 祥云县| 洞口县| 永嘉县| 巴彦县| 银川市| 南部县| 昔阳县| 吐鲁番市| 永州市| 唐海县| 定结县| 兖州市| 调兵山市| 石渠县|