網易首頁 > 網易號 > 正文申請入駐

英偉達發布Dynamo，向DeepSeek等中國開源生態致敬

2025-03-19 20:08:00　來源: 未盡研究

上海舉報

分享至

DeepSeek挑起的模型價格戰，沖擊了市場對英偉達的信仰。黃仁勛的公開回擊是，一邊向DeepSeek、月之暗面與字節跳動等中國企業致敬，一邊將其開源的優化思路，封裝在自己的Dynamo中，促進創新的民主化。

黃仁勛將Dynamo稱為AI工廠的操作系統。，這兩年已經被黃仁勛說了無數遍，它是生產token的地方；DeepSeek出現后，黃仁勛要回答的是，自己如何比其他AI工廠，更有性價比地生產token。

黃仁勛試圖證明杰文斯悖論成立，給出了一組簡單粗暴的數據：推理模型的“思維鏈”消耗的token，是之前對話的10倍；但是人們不會愿意等這10倍的處理時間。所以，推理時代的AI算力需求提升了100倍。人們既要快速得到結果，又要結果準確。

他在臺上反復說明，“既要又要”的最佳性價比，就藏在單位時間token吞吐能耗（下圖，縱軸）和單用戶推理速度（橫軸）的最優函數中，也就是英偉達最新的Dynamo驅動的NVL72。他用一張五彩斑斕的黑的PPT，以及一段金光閃閃的曲線，標注了它的位置。

（來源：GTC25）

在正式介紹Dynamo前，黃仁勛直接致敬了DeepSeek。他讓Llama-3.3-70B與DeepSeek-R1-671B比上一比，看誰能更合乎禮節地回答婚禮餐桌座位安排問題。前者花了439個token，但是錯了；后者花了8559個token，正確。

黃仁勛引申說，有人以為R1小，它可不小，有6710億參數規模呢，以后，這類模型可能達到萬億參數級別。要把如此龐大的模型和工作負載，合理分配到GPU上，中間涉及到流水線并行、張量并行和專家并行，可都不容易。有時候需要優化延遲，有時候需要優化吞吐量，有時候又需要對批處理方式進行優化。這都得靠一個叫做Dynamo的操作系統來協調。

這是對DeepSeek的第二次致敬。雖然黃仁勛在演講中沒有直接提到這一點，但是我們要說，任何關注，都會非常熟悉Dynamo的技術。

目前業內還沒有對Dynamo實際性能的完整測評。據Github上的產品文檔介紹，它的架構與特性，包括：

1，將預填充和解碼推理分開處理，以最大化GPU吞吐量，同時平衡吞吐量和延遲。 2，動態調度GPU，根據需求變化優化性能。 3，智能路由大模型請求，避免重復計算KV緩存。 4，加快數據傳輸，通過NIXL縮短推理等待時間。 5，將KV緩存分擔出去，利用多層內存提升系統吞吐量。

半導體及AI研究機構Semianalysis分析稱：智能路由，實現了預填充階段與解碼階段的負載平衡；動態調度GPU，實現了預填充和解碼階段的MoE模型不同專家間的負載平衡；要從預填充節點傳輸到解碼節點，需要低延遲高帶寬通信傳輸庫，NCCL與NIXL就是負責這個的；KV緩存卸載管理，可以釋放預填充節點的容量來處理更多傳入數據量，或者可以減少所需的預填充部署規模。這些聽起來是不是有些耳熟能詳。

再來回顧一下，DeepSeek年初開源周都介紹了什么：

1，FlashMLA，針對可變長度序列和分頁KV緩存進行優化的GPU解碼內核。 2，DeepEP，面向MoE模型，優化了通信速度和效率。 3，DeepGEMM，兼顧數據精度的同時，提升矩陣乘法性能，間接支持推理效率。 4，DualPipe，雙向數據流設計減少流水線空閑，提升GPU利用率。 5，EPLB，智能流量調度，確保混合專家負載均勻分布，降低通信開銷。 6，Profile-data，分析計算與通信重疊狀態，幫助優化效率。 7，3FS，高效數據訪問和KV緩存管理的并行文件系統。

簡言之，兩者在優化GPU利用率、通信效率和數據處理的目標一致，思路相近。事實上，在英偉達Dynamo的產品文檔上，確實點名提到了DeepSeek對KV緩存問題的貢獻。

KV緩存是對之前發生過的問題和響應等中間結果的緩存。以往，大模型推理對KV緩存的管理不夠精細，導致了頻繁重復計算。這是對資源的浪費。，并在R1中進一步改進，極限壓榨算力。在開源周中提到的FlashMLA與3FS，也都涉及KV緩存優化相關內容。

目前，DeepSeek對輸入時緩存未命中的API定價（標準時間內，R1模型百萬token為$0.55），要比命中時高出3倍左右（標準時間內，R1模型百萬token為$0.14）。

在DeepSeek額外的第6天的開源日中，研究人員披露了更多運營數據。市場的注意力都被吸引去了，選擇性地忽略了DeepSeeK公布的KV緩存命中率高達56.3%。

可以說，優化KV緩存等技術創新，是DeepSeek開啟大模型商品化的關鍵。更低的推理成本，既可以轉化為AI應用的利潤率，也可以通過AI應用廠商的讓利，轉化為AI應用的用戶規模。

Semianalysis感嘆道，英偉達推出Dynamo，本質上是DeepSeek技術創新的民主化。當英偉達發布更多Dynamo官方技術文檔的時候，人們將更快更多地了解，這些技術創新究竟意味著什么。

不妨再往前推一步。DeepSeek是中國大模型時代開源的領先者，但不是唯一。阿里巴巴的Qwen系列模型已經成為HuggingFace上最受歡迎的。在DeepSeek的推動下，更多中國大模型企業正在加入到開源生態之中。

（來源：dynamo/docs/architecture.md at main · ai-dynamo/dynamo · GitHub）

在英偉達Dynamo的官方文檔里，還有不少小彩蛋。Dynamo參考了另一家中國大模型初創企業在內存瓶頸方面的思考，以及字節跳動的開源項目。

其中，Mooncake，是月之暗面的底層推理服務平臺，技術框架于去年12月開源。AIBrix，原本是字節跳動為企業內部多個業務用例打造的一款可擴展、經濟高效的推理優化的云原生解決方案，于今年2月正式開源。

英偉達的芯片正在失去中國市場。中國開源生態與技術創新正在通過英偉達擴散至全球。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.