99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<rt id="fvcci"></rt>

<em id="fvcci"></em><pre id="fvcci"></pre>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

創(chuàng)始人梁文鋒親創(chuàng)！DeepSeek 開源第四彈：全面公開優(yōu)化并行策略

2025-02-27 12:00:41　來源: AI前線

北京舉報

0

分享至

剛剛，DeepSeek 帶來了開源周的第四彈。這次，他們一口氣發(fā)布了三種在 V3/R1 模型訓練中使用的優(yōu)化并行策略。

首先是在 DeepSeek-V3 技術報告中介紹過的一種創(chuàng)新的雙向管道并行算法 DualPipe ，用于 V3/R1 訓練中的計算通信重疊，要求是 PyTorch 2.0 及更高版本。它實現了前向和后向計算通信階段的完全重疊，也減少了管道氣泡。據介紹，DualPipe 由包括 DeepSeek 創(chuàng)始人梁文鋒在內的三位工程師創(chuàng)建和開發(fā)。

項目地址：https://github.com/deepseek-ai/DualPipe

接著是 EPLB，一種適用于 V3/R1 的專家并行負載均衡器。正如 DeepSeek-V3 論文中所描述的，其在使用專家并行（EP）時采用冗余專家策略，將重載專家重復分配，然后啟發(fā)式地將重復的專家打包到 GPU 上，以確保不同 GPU 之間的負載平衡。此外，得益于 V3 中使用的組限制專家路由，他們還嘗試將同組的專家放置到同一節(jié)點，以盡可能減少節(jié)點間的數據流量。為便于復制和部署，他們在.NET 平臺上開源了已部署的 EP 負載均衡算法。

項目地址：https://github.com/deepseek-ai/eplb

最后，其公開分享了來自訓練和推理框架的分析數據，以幫助社區(qū)更好地了解通信計算重疊策略和底層實現細節(jié)。在訓練配置文件數據中，他們演示了在 DualPipe 中對一對單獨的前向和后向塊的重疊策略。每個塊包含 4 個 MoE 層。并行配置與 V3 預訓練設置一致：EP64、TP1 具有 4K 序列長度。

推理方面，對于預填充，配置文件采用了 EP32 和 TP1（與 V3/R1 的實際在線部署一致）。在預填充階段，他們利用兩個微批次來重疊計算和多對多通信，同時確保注意力計算負載在兩個微批次之間平衡。

解碼上，該配置文件采用了 EP128、TP1 。與預填充類似，解碼也利用兩個微批處理進行重疊計算和多對通信。但是，與預填充不同的是，解碼過程中的 all-to-all 通信不會占用 GPU SM。

項目地址：https://github.com/deepseek-ai/profile-data

有外國網友不禁感嘆，“DeepSeek 是徹底地開源嗎？”“感謝你們在實現我們自己的理想方面比我們做得更好。”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

策略學習助力LLM推理效率：MIT與谷歌團隊提出異步并行生成新范式

機器之心Pro 2025-05-21 15:28:55
0 跟貼 0
何愷明團隊又發(fā)新作： MeanFlow單步圖像生成SOTA，提升達50%

機器之心Pro 2025-05-21 15:23:58
0 跟貼 0

粉筆APP登陸鴻蒙PC生態(tài)，打造跨設備多屏學習新體驗

芥末堆看教育 2025-05-21 16:05:57
2 跟貼 2

華為：讓DeepSeek的“專家們”動起來，推理延遲降10%！

量子位 2025-05-20 13:34:52
10 跟貼 10
印度撿到霹靂-15E殘骸，相關技術信息會因此泄漏嗎？

陳虎點兵 2025-05-18 13:49:34
1 跟貼 1

豪擲萬億，用技術換市場，特朗普為何在中東整活？

盧克文工作室 2025-05-20 09:46:34
10 跟貼 10

王樹國發(fā)問：若梁文鋒讀博，還會有DeepSeek嗎？教育體系如何破局

主持人芳姐 2025-05-19 21:28:26
4 跟貼 4
機密文件曝光，印巴沖突導火索可能是印度為嫁禍巴鐵而自導自演的

也許明天死亡 2025-05-20 19:57:01
0 跟貼 0

安徽鳳陽：“鼓樓瓦面脫落”事件設計、施工、監(jiān)理單位正接受調查

澎湃新聞 2025-05-21 12:51:51
11526 跟貼 11526
打造你的數字分身：精準醫(yī)療背后的秘密武器

DeepTech深科技 2024-12-30 18:50:39
0 跟貼 0
高層文件定調舊改，樓市供求將會改變

王波說房 2025-05-20 09:09:45
0 跟貼 0
中印攜手共進：雙贏合作讓西方離間策略失效

歲暮的歸南山 2025-05-21 02:38:17
0 跟貼 0
奧特曼逼梁文鋒出大招

直面派 2025-05-19 14:43:28
2 跟貼 2
無數DeepSeek集中爆發(fā)，為什么中國高科技突然井噴？

葉檀財經 2025-05-21 19:28:58
0 跟貼 0
殲-10C“委屈了”，中國軍工即將迎來“DeepSeek”時刻

白鴿前哨兵 2025-05-20 21:07:40
0 跟貼 0
辛瓦爾滿門被滅，密道里一份絕密文件上寫著：沙特將出賣巴勒斯坦

權權前哨前沿 2025-05-20 15:28:16
0 跟貼 0
泄密文件流出，計劃周密，印巴沖突導火索驚現“陰謀”？

鳳凰衛(wèi)視 2025-05-19 15:16:25
0 跟貼 0
圖像分詞器造反了！華為 Selftok：自回歸內核完美統(tǒng)一擴散模型

機器之心Pro 2025-05-22 10:38:46
0 跟貼 0
特朗普未獲東大邀請后提議加征關稅，報復還是策略？

世界多元 2025-05-21 08:55:16
0 跟貼 0
中美會談后，特朗普稱中國等國家是特例，對其他國家會換一種策略

瑩瑩觀點 2025-05-19 12:04:05
0 跟貼 0
林詩棟/蒯曼不敵日本組合無緣晉級世乒賽混雙四強

澎湃新聞 2025-05-21 16:46:27
1825 跟貼 1825
揭秘樹蟒的獨特絞殺技巧與樹棲生存策略

煮酒論逗 2025-05-20 13:42:35
0 跟貼 0
印巴沖突驚現“泄密文件”！是莫迪自導自演的嗎？為增加支持率？

究竟誰主沉浮 2025-05-20 11:42:51
0 跟貼 0
小哥想復印文件，卻發(fā)現復印機被貓占了，于是干脆印了一張貓！

逍遙探索記 2025-05-18 07:21:51
0 跟貼 0
康鵬科技：公司暫未有DeepSeek部署

每日經濟新聞 2025-05-22 00:31:18
0 跟貼 0
日美關稅談判迎"決定勝負的時刻" 石破茂對美強硬表態(tài)

上觀新聞 2025-05-21 18:47:12
665 跟貼 665
算法推薦亂象凸顯中央網信辦督導抖音、小紅書等平臺優(yōu)化調整

經濟觀察報 2025-05-22 10:40:28
0 跟貼 0
王忠林在仙桃潛江天門調研

湖北發(fā)布 2025-05-22 09:31:28
12 跟貼 12
西班牙斷網了？網絡升級釀系統(tǒng)癱瘓，112失聯(lián)震動全國

陸棄 2025-05-21 11:02:19
2 跟貼 2
男子在路邊撿到一塊模版，拿回家切出1∶1大小，網友：核心技術被你掌握了

新知速報 2025-05-19 21:04:04
0 跟貼 0
某新勢力車企被逼急了，端到端算法人才被挖太狠，起訴多名前員工

瑪麗姬絲 2025-05-22 10:34:01
2 跟貼 2
吊橋是如何建設的，中國的頂尖橋梁建設技術

全球見聞筆記 2025-05-18 10:19:19
3 跟貼 3
2名男子吃面后沒結賬走出門近半小時后折回來付錢

星視頻 2025-05-21 16:37:39
3928 跟貼 3928
劉雨桃肺癌診療：規(guī)范化與個體化平衡的關鍵策略

CHTV百姓健康 2025-05-21 10:03:19
0 跟貼 0
第17屆蘭卡威海空展開幕：殲-10CE模型亮相備受關注

時拾影像 2025-05-21 10:23:53
1 跟貼 1
大模型連發(fā)，安卓XR升級！谷歌I/O大會太勁爆了

雷科技 2025-05-21 21:18:46
5 跟貼 5
這就是絕大多數中國人眼中牛逼的技術

董路 2025-05-21 09:39:21
681 跟貼 681
兩塊五的劣質奶粉一采購就是幾萬桶，他們準備賣給誰

柴狗夫斯基 2025-05-21 12:12:57
1 跟貼 1
第17屆蘭卡威海空展開幕，殲-10CE模型亮相吸引大量人群圍觀，有了實戰(zhàn)戰(zhàn)果就是不一樣

城市大眼睛 2025-05-21 12:45:58
0 跟貼 0
申花主場球市火爆背后，一個“藍色經濟圈”正在城市生長

上觀新聞 2025-05-22 07:00:30
73 跟貼 73

男觀眾摸脫口秀演員腿被拘留十日，演員發(fā)文：觀眾冒犯觀眾才勁爆

男觀眾摸脫口秀演員腿被拘留十日，演員發(fā)文：觀眾冒犯觀眾才勁爆

映射生活的身影

2025-05-21 16:49:17

油價變天！5月22日92號汽油價格，新一輪國內油價調整將大幅上調

油價變天！5月22日92號汽油價格，新一輪國內油價調整將大幅上調

有料財經

2025-05-22 00:05:04

選人眼光獨樹一幟黃蜂在選秀夜兩次交易走未來的MVP球員

選人眼光獨樹一幟黃蜂在選秀夜兩次交易走未來的MVP球員

直播吧

2025-05-22 09:26:12

國足大名單：楊明洋首入選，武磊回歸，王鈺棟在列，無李源一

國足大名單：楊明洋首入選，武磊回歸，王鈺棟在列，無李源一

懂球帝

2025-05-22 09:47:14

瑩瑩經紀人發(fā)聲：多次強調男性不能摸腿，穿裙子正常，猥褻零容忍

瑩瑩經紀人發(fā)聲：多次強調男性不能摸腿，穿裙子正常，猥褻零容忍

奇思妙想草葉君

2025-05-21 23:27:08

因挨打小孩姐生氣把“媽媽”剪掉臨時加上“爸爸” 網友：最古老的拉黑方式

因挨打小孩姐生氣把“媽媽”剪掉臨時加上“爸爸” 網友：最古老的拉黑方式

閃電新聞

2025-05-22 06:54:10

扎心了！中年人最全破產7件套，你最好一個都別碰！

扎心了！中年人最全破產7件套，你最好一個都別碰！

青眼財經

2025-05-22 00:06:13

多人稱“618”搶到低價掃地機器人遭強制退單！客服稱價格標錯，被消費者質疑引流

多人稱“618”搶到低價掃地機器人遭強制退單！客服稱價格標錯，被消費者質疑引流

揚子晚報

2025-05-20 23:11:21

G1尼克斯135-138步行者球員評價：2人良好，4人及格，2人低迷

G1尼克斯135-138步行者球員評價：2人良好，4人及格，2人低迷

籃球資訊達人

2025-05-22 11:29:18

真相越來越近，爬山失聯(lián)的孩子竟如此相似

真相越來越近，爬山失聯(lián)的孩子竟如此相似

野山歷史

2025-05-21 08:45:25

旅行賣淫：白天陪玩晚上陪睡！警方：嚴厲打擊！

旅行賣淫：白天陪玩晚上陪睡！警方：嚴厲打擊！

警界君

2025-05-21 14:54:05

北京美女執(zhí)意嫁給黑人老公，身體不適去檢查，醫(yī)生：情況太復雜了

北京美女執(zhí)意嫁給黑人老公，身體不適去檢查，醫(yī)生：情況太復雜了

溫情郵局

2025-05-21 15:49:25

被嘲“過氣”5年后，她靠高智商的“馭夫術”翻紅！

被嘲“過氣”5年后，她靠高智商的“馭夫術”翻紅！

媽咪OK

2025-05-21 09:55:12

世乒賽！世界冠軍1:4出局，日本女乒11-0不讓分，孫穎莎對手出爐

世乒賽！世界冠軍1:4出局，日本女乒11-0不讓分，孫穎莎對手出爐

知軒體育

2025-05-22 00:05:56

香港小學也禁止學生在校內說粵語？校長稱家長都同意和支持！

香港小學也禁止學生在校內說粵語？校長稱家長都同意和支持！

大道無形我有型

2025-05-21 22:10:19

400億超級工程開建！江蘇這座跨江巨龍將改寫長三角格局

400億超級工程開建！江蘇這座跨江巨龍將改寫長三角格局

童童聊娛樂啊

2025-05-22 09:33:40

取消校服，取消食堂，減少腐敗

今綸財經

2025-05-21 20:19:32

江西繼子被后媽冷待10年，考上清華辦升學宴，他拿出鑒定后媽呆住

江西繼子被后媽冷待10年，考上清華辦升學宴，他拿出鑒定后媽呆住

張道陵秘話

2025-05-15 19:50:15

共和黨眾議員：拜登可能只能活 12 到 18 個月

共和黨眾議員：拜登可能只能活 12 到 18 個月

仗劍看世界

2025-05-22 00:51:03

巴鐵這次揚眉吐氣，中式重炮打得印軍抬不起頭，參謀長晉升元帥！

巴鐵這次揚眉吐氣，中式重炮打得印軍抬不起頭，參謀長晉升元帥！

頭條爆料007

2025-05-21 20:33:03

面向AI愛好者、開發(fā)者和科學家，提供AI領域技術資訊。

856文章數 80關注度

往期回顧全部

科技要聞

蘋果設計靈魂投奔OpenAI 十年淘汰iPhone？

頭條要聞

牛彈琴：南非總統(tǒng)穿西裝參加鴻門宴他比澤連斯基老練

頭條要聞

牛彈琴：南非總統(tǒng)穿西裝參加鴻門宴他比澤連斯基老練

體育要聞

威少被交易時，雷霆下一個MVP已在陣中

娛樂要聞

朱媛媛喪事一切從簡，親戚剛知她去世

財經要聞

中國，拋售美債！

汽車要聞

或超700馬力保時捷911 GT2 RS最新消息曝光

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

房產

藝術

游戲

親子

數碼要聞

PNY 推出 microSD Express 存儲卡：128GB、256GB 兩種容量可選

房產要聞

海口住建官宣：限價商品房上市交易細則要來了！

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

肉鴿卡牌《怪物火車2》IGN 9分：驚艷升級！同類翹楚

親子要聞

馬賽原始部落

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：陕西省| 九江市| 赣榆县| 长阳| 改则县| 南开区| 菏泽市| 通海县| 荔波县| 中宁县| 固始县| 宁国市| 东丰县| 高邑县| 仁怀市| 镇巴县| 宁陕县| 宝丰县| 高青县| 公主岭市| 沭阳县| 阿尔山市| 苗栗县| 旺苍县| 寻乌县| 三河市| 麻栗坡县| 衡东县| 鞍山市| 木里| 嘉鱼县| 安丘市| 铜山县| 凌云县| 乐亭县| 南陵县| 河源市| 昭苏县| 满洲里市| 米泉市| 长宁区|

<samp id="sibcp"><b id="sibcp"></b></samp>

<thead id="sibcp"><b id="sibcp"><small id="sibcp"></small></b></thead>

<ul id="sibcp"></ul>