DeepSeek挑起的模型價格戰,沖擊了市場對英偉達的信仰。黃仁勛的公開回擊是,一邊向DeepSeek、月之暗面與字節跳動等中國企業致敬,一邊將其開源的優化思路,封裝在自己的Dynamo中,促進創新的民主化。
黃仁勛將Dynamo稱為AI工廠的操作系統。 ,這兩年已經被黃仁勛說了無數遍,它是生產token的地方;DeepSeek出現后,黃仁勛要回答的是,自己如何比其他AI工廠,更有性價比地生產token。
黃仁勛試圖證明杰文斯悖論成立,給出了一組簡單粗暴的數據:推理模型的“思維鏈”消耗的token,是之前對話的10倍;但是人們不會愿意等這10倍的處理時間。所以,推理時代的AI算力需求提升了100倍。人們既要快速得到結果,又要結果準確。
他在臺上反復說明,“既要又要”的最佳性價比,就藏在單位時間token吞吐能耗(下圖,縱軸)和單用戶推理速度(橫軸)的最優函數中,也就是英偉達最新的Dynamo驅動的NVL72。他用一張五彩斑斕的黑的PPT,以及一段金光閃閃的曲線,標注了它的位置。
(來源:GTC25)
在正式介紹Dynamo前,黃仁勛直接致敬了DeepSeek。他讓Llama-3.3-70B與DeepSeek-R1-671B比上一比,看誰能更合乎禮節地回答婚禮餐桌座位安排問題。前者花了439個token,但是錯了;后者花了8559個token,正確。
黃仁勛引申說,有人以為R1小,它可不小,有6710億參數規模呢,以后,這類模型可能達到萬億參數級別。要把如此龐大的模型和工作負載,合理分配到GPU上,中間涉及到流水線并行、張量并行和專家并行,可都不容易。有時候需要優化延遲,有時候需要優化吞吐量,有時候又需要對批處理方式進行優化。這都得靠一個叫做Dynamo的操作系統來協調。
這是對DeepSeek的第二次致敬。雖然黃仁勛在演講中沒有直接提到這一點,但是我們要說,任何關注 ,都會非常熟悉Dynamo的技術。
目前業內還沒有對Dynamo實際性能的完整測評。據Github上的產品文檔介紹,它的架構與特性,包括:
1,將預填充和解碼推理分開處理,以最大化GPU吞吐量,同時平衡吞吐量和延遲。 2,動態調度GPU,根據需求變化優化性能。 3,智能路由大模型請求,避免重復計算KV緩存。 4,加快數據傳輸,通過NIXL縮短推理等待時間。 5,將KV緩存分擔出去,利用多層內存提升系統吞吐量。
半導體及AI研究機構Semianalysis分析稱:智能路由,實現了預填充階段與解碼階段的負載平衡;動態調度GPU,實現了預填充和解碼階段的MoE模型不同專家間的負載平衡;要從預填充節點傳輸到解碼節點,需要低延遲高帶寬通信傳輸庫,NCCL與NIXL就是負責這個的;KV緩存卸載管理,可以釋放預填充節點的容量來處理更多傳入數據量,或者可以減少所需的預填充部署規模。這些聽起來是不是有些耳熟能詳。
再來回顧一下,DeepSeek年初開源周都介紹了什么:
1,FlashMLA,針對可變長度序列和分頁KV緩存進行優化的GPU解碼內核。 2,DeepEP,面向MoE模型,優化了通信速度和效率。 3,DeepGEMM,兼顧數據精度的同時,提升矩陣乘法性能,間接支持推理效率。 4,DualPipe,雙向數據流設計減少流水線空閑,提升GPU利用率。 5,EPLB,智能流量調度,確保混合專家負載均勻分布,降低通信開銷。 6,Profile-data,分析計算與通信重疊狀態,幫助優化效率。 7,3FS,高效數據訪問和KV緩存管理的并行文件系統。
簡言之,兩者在優化GPU利用率、通信效率和數據處理的目標一致,思路相近。事實上,在英偉達Dynamo的產品文檔上,確實點名提到了DeepSeek對KV緩存問題的貢獻。
KV緩存是對之前發生過的問題和響應等中間結果的緩存。以往,大模型推理對KV緩存的管理不夠精細,導致了頻繁重復計算。這是對資源的浪費。 ,并在R1中進一步改進,極限壓榨算力。在開源周中提到的FlashMLA與3FS,也都涉及KV緩存優化相關內容。
目前,DeepSeek對輸入時緩存未命中的API定價(標準時間內,R1模型百萬token為$0.55),要比命中時高出3倍左右(標準時間內,R1模型百萬token為$0.14)。
在DeepSeek額外的第6天的開源日中,研究人員披露了更多運營數據。市場的注意力都被 吸引去了,選擇性地忽略了DeepSeeK公布的KV緩存命中率高達56.3%。
可以說,優化KV緩存等技術創新,是DeepSeek開啟大模型商品化的關鍵。更低的推理成本,既可以轉化為AI應用的利潤率,也可以通過AI應用廠商的讓利,轉化為AI應用的用戶規模。
Semianalysis感嘆道,英偉達推出Dynamo,本質上是DeepSeek技術創新的民主化。當英偉達發布更多Dynamo官方技術文檔的時候,人們將更快更多地了解,這些技術創新究竟意味著什么。
不妨再往前推一步。DeepSeek是中國大模型時代開源的領先者,但不是唯一。阿里巴巴的Qwen系列模型已經成為HuggingFace上最受歡迎的。在DeepSeek的推動下,更多中國大模型企業正在加入到開源生態之中。
(來源:dynamo/docs/architecture.md at main · ai-dynamo/dynamo · GitHub)
在英偉達Dynamo的官方文檔里,還有不少小彩蛋。Dynamo參考了另一家中國大模型初創企業在內存瓶頸方面的思考,以及字節跳動的開源項目。
其中,Mooncake,是月之暗面的底層推理服務平臺,技術框架于去年12月開源。AIBrix,原本是字節跳動為企業內部多個業務用例打造的一款可擴展、經濟高效的推理優化的云原生解決方案,于今年2月正式開源。
英偉達的芯片正在失去中國市場。中國開源生態與技術創新正在通過英偉達擴散至全球。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.