華為昇騰大EP方案，摘掉中國AI發(fā)展“緊箍咒”

2025-03-17 13:38:29　來源: DT Value

北京舉報

分享至

過去的這個月，AI新秀DeepSeek不僅席卷全網(wǎng)，也激活了整個人工智能產(chǎn)業(yè)鏈，為各行業(yè)注入新的活力，開啟了一場“AI驅(qū)動的生產(chǎn)力革命”

截至目前，已經(jīng)有上千個大模型覆蓋了醫(yī)療、金融、教育、交通等20多個行業(yè)，落地超萬家企事業(yè)單位。科技巨頭BTAH（百度、騰訊、阿里、華為）、AI獨角獸（科大訊飛、商湯、零一萬物等）都悉數(shù)到場。

但狂歡背后，這場看似繁華絢爛的科技盛宴背后，仍有諸多隱憂。

近年來，美國對我國人工智能發(fā)展的制裁手段可謂層層加碼、環(huán)環(huán)相扣。從最初對單芯片算力的限制，到對算力密度的嚴格管控，再到實施HBM出口禁令，這一系列舉措猶如一道道枷鎖，緊緊束縛著中國人工智能產(chǎn)業(yè)在模型研發(fā)與芯片制造領域的前行腳步。

在這一制裁體系下，英偉達的“閹割版”H20芯片進入中國市場，這款產(chǎn)品被宣傳為“專為中國市場打造”，但實際上，它就像一個套在中國AI頭上的“緊箍咒”，中國AI的發(fā)展總攥在念咒的美國人手里，這對中國人工智能技術的自主發(fā)展而言，無疑是一種潛在的威脅。

唯有秉持自主創(chuàng)新的堅定信念，不斷加大研發(fā)投入，積極探索新技術、新架構，才能完成從底層硬件到上層應用全鏈條的自主可控，讓我國的AI大模型的發(fā)展不至于受制于人。

因此，中國AI大模型能否開辟出一條屬于自己的康莊大道，摘掉“H20”這個緊箍咒，至關重要。

擊破AI壁壘，DeepSeek為AI廠商發(fā)展提供新思路

從AI誕生以來，就被人們認為將為千行百業(yè)帶來革命性的改變。但為何只有DeepSeek這次掀起這么大的狂歡。

理解這個問題，我們有必要回看AI的發(fā)展歷史。

以往，大家普遍認為算力是AI的核心，發(fā)展AI就是要不斷的堆算力、堆GPU。于是我們看到，OpenAI興起的時候，不僅英偉達（NVIDIA）因此受益，只要沾邊AI的東西都“飛起”。美國更是通過禁售英偉達GPU來遏制中國AI發(fā)展。

DeepSeek之所以能夠迅速掀起了一場全球AI大模型風暴，是因為它直接改變了以前大家普遍認知，就在大家燒錢堆算力的時候，DeepSeek選擇燒腦改算法。

DeepSeek的出現(xiàn)打破了這些限制，帶來了行業(yè)變革：

新的訓練創(chuàng)新：DeepSeek開辟了新的訓練模式，通過其基礎模型生成高質(zhì)量的合成數(shù)據(jù)，并結合少量行業(yè)數(shù)據(jù)，即可訓練出如R1這樣的模型。這種方式不再依賴大量的行業(yè)數(shù)據(jù)積累，為數(shù)據(jù)不足的企業(yè)提供了新的思路，即利用基礎模型生成的合成數(shù)據(jù)進行二次訓練和微調(diào)，從而構建行業(yè)大模型。

降低算力門檻：DeepSeek降低了單個模型對算力的需求，使得企業(yè)可以在百卡到千卡的范圍內(nèi)構建推理資源池，進行微調(diào)和二次訓練，從而降低了算力門檻。

開源模型：DeepSeek開源了自己的模型，使得更多企業(yè)能夠直接使用這些模型，大大降低了技術門檻。

可以說，DeepSeek給大家趟出一條新路，哪怕算力受限，哪怕單卡算力沒有那么先進的情況下，依然能夠做出很強大的模型來。

DeepSeek的開源模式和優(yōu)化技術為業(yè)界提供了寶貴的參考，激發(fā)了千行百業(yè)對大模型的應用創(chuàng)新。

目前，業(yè)界在推理方面已經(jīng)開始走向大規(guī)模的專家并行方式，通過大規(guī)模專家并行來實現(xiàn)更高的吞吐量和更低的延遲。

然而，任何事物都有兩面性，專家并行規(guī)模并非越大越好，而是存在一個最優(yōu)值，通常被稱為“甜點”。當規(guī)模擴大到一定程度后，性能提升會逐漸減緩，甚至可能出現(xiàn)下降，此時繼續(xù)擴大規(guī)模就沒有意義了。

因此，專家并行規(guī)模的優(yōu)化是一個不斷權衡的過程，需要在負載均衡和通信開銷之間找到最佳平衡點。

華為昇騰正是看到了這一趨勢，積極投入研發(fā)，通過技術創(chuàng)新和工程優(yōu)化，為企業(yè)和開發(fā)者提供高性能、低門檻的人工智能解決方案。

擊破性能壁壘，昇騰大EP方案構筑中國AI之基

昇騰大EP方案的推出，正是對DeepSeek啟示的深度實踐。昇騰通過其強大的硬件和軟件協(xié)同能力，為大模型的推理和訓練提供了高效、靈活的解決方案。

為了提升并行處理能力，昇騰大EP方案通過將模型中的專家分布到更多的計算節(jié)點上，每個節(jié)點上的權重信息大幅減少，從而降低了顯存占用和計算資源消耗。這種設計不僅提升了系統(tǒng)的并發(fā)能力，還顯著降低了時延，提升了用戶體驗。

這種分工方式類似于酒店門口、電梯和會議室分別安排不同的服務員，每個服務員只負責一個特定的任務。通過這種方式，每張卡的負載減輕，資源利用率提高，從而能夠處理更多的并發(fā)請求。

為了提升負載均衡方面的能力，昇騰采用了自動尋優(yōu)、自動預測、自動配比和自動降解等技術。這些技術能夠動態(tài)調(diào)整專家的負載，避免因負載不均導致的性能瓶頸。例如，通過自動尋優(yōu)技術，系統(tǒng)可以實時選擇最優(yōu)的專家節(jié)點來處理請求，從而實現(xiàn)資源的高效利用。

在通信優(yōu)化方面，昇騰引入了RoCE總線技術和MLAPO融合算子。通過優(yōu)化All to All通信和混合并行數(shù)據(jù)流，昇騰大幅降低了通信延遲，提升了系統(tǒng)的整體吞吐量。這些技術的結合使得昇騰能夠在大規(guī)模集群環(huán)境中實現(xiàn)高效的并行計算。

不僅如此，如今昇騰大EP方案適用于多種行業(yè)和場景。無論是金融、制造、教育還是醫(yī)療等領域，昇騰大EP方案都能提供強大的支持。通過與昇騰硬件的深度協(xié)同，昇騰大EP方案能夠充分發(fā)揮硬件的性能優(yōu)勢，滿足不同行業(yè)對大模型的多樣化需求。比如在金融領域，昇騰大EP方案能夠快速處理海量交易數(shù)據(jù)，實現(xiàn)風險預測和智能客服。

同時，為了提升生態(tài)支持的能力，昇騰提供了從預訓練到微調(diào)、推理的全流程覆蓋方案，并兼容業(yè)界主流框架，如PyTorch和昇思。這種全流程覆蓋的解決方案，使得企業(yè)和開發(fā)者能夠無縫對接昇騰的技術生態(tài)，快速實現(xiàn)大模型的部署和應用。

另外，昇騰還通過開源和開放策略，吸引了眾多合作伙伴共同構建強大的人工智能生態(tài)系統(tǒng)。昇騰的MindIE引擎不僅支持昇騰自身的技術框架，還兼容業(yè)界主流的推理引擎，如vLLM，使得用戶能夠高效地進行自主訓練和創(chuàng)新。這種開放的生態(tài)策略，不僅推動了昇騰技術的廣泛應用，也為整個行業(yè)的發(fā)展提供了強大的動力。

值得注意的是，昇騰大EP方案不僅在技術上具有創(chuàng)新性，還在實際應用中展現(xiàn)了強大的靈活性和適應性。對于中小企業(yè)，昇騰提供了一體機方案，幫助用戶快速部署和應用大模型。而對于大規(guī)模企業(yè)級應用，昇騰的大EP推理資源池能夠滿足高并發(fā)、低時延的需求。

昇騰大EP方案的推出，不僅是對DeepSeek技術的借鑒與創(chuàng)新，更是昇騰在人工智能領域長期積累的結果。昇騰從2018年開始布局人工智能，逐步形成了“硬件開放、軟件開源、使能伙伴、發(fā)展人才”的十六字戰(zhàn)略方針。通過昇思開源、各地人工智能計算中心的建設，以及CANN能力的深度開放，昇騰逐步構建了強大的技術生態(tài)。

如今，昇騰大EP方案的發(fā)布，標志著昇騰在大模型領域的技術實力達到了新的高度。

面向未來的展望

隨著人工智能技術的不斷發(fā)展，昇騰大EP方案將繼續(xù)引領技術創(chuàng)新和工程優(yōu)化。昇騰將繼續(xù)探索新的技術路徑，如大規(guī)模集群部署和低延遲推理優(yōu)化，以滿足未來不斷增長的算力需求。同時，昇騰還將通過持續(xù)的開源和開放策略，推動整個行業(yè)的發(fā)展，助力千行百業(yè)實現(xiàn)智能化轉型。

昇騰大EP方案不僅是對當前技術趨勢的回應，更是對未來發(fā)展的積極探索。在人工智能的新時代，昇騰正以其強大的技術實力和創(chuàng)新精神，幫助更多的中國AI企業(yè)摘掉H20這個“緊箍咒”，助力中國人工智能行業(yè)的變革與發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.