網易首頁 > 網易號 > 正文申請入駐

AI推理時代全面到來，大EP推理讓行業智能化走深向實

2025-03-18 09:32:05　來源: dobigdata

北京舉報

分享至

技術的突破僅僅是序章，大規模應用而引發的連鎖反應才是真正的變革。

今年初，DeepSeek掀起的AI浪潮席卷全球，一周之內即實現億級用戶的爆發式增長和數百家企業踴躍接入，標志著中國AI企業開始掌握將技術突破轉化為AI普惠應用的底層邏輯。

回望最近十年AI發展歷史，算力始終是橫亙在理想與現實之間的一道鴻溝。尤其是在我國，算力的稀缺，猶如懸掛在整個AI產業上的達摩克利斯之劍。而DeepSeek的技術突圍，恰恰始于對這場"算力封鎖"的顛覆，并激發起整個AI產業的全面創新。

DeepSeek的火爆，讓大規模跨節點專家并行（Expert Parallelism ，簡稱： EP）成為當下AI最重要的趨勢之一，同時使得大EP推理解決方案迅速映入用戶們的眼簾。隨著DeepSeek開始全面進入各行各業的頭部用戶之中，大EP推理解決方案也成為行業智能化走深向實的那枚楔子，無比低調卻又至關重要。

大EP推理為何成大勢所趨

從2012年，AlexNet點燃深度學習革命開始，算力一直是左右AI發展的核心力量。

尤其是在Scaling Law規則的驅動下，AI大模型的訓練與推理對于算力需求也迅速水漲船高。AI頭部巨頭們更是紛紛加碼基礎設施的布局，從微軟、Meta、AWS等重金投建新數據中心，到xAI短時間構建起20萬張GPU卡的AI集群，再到OpenAI推出“星際之門”項目，“得算力者得天下”深入人心，AI頭部巨頭們無不在追求“少量大專家模式”的“性能摸高”。

但這種“技術摸高”的模式會是AI發展創新的唯一路徑么？

DeepSeek-R1的橫空出現，帶來不一樣的答案。DeepSeek在工程層面大膽創新，采用大規模跨節點專家并行的模式，在算力規模和先進性受限的情況下，依然能打造出性能強大和先進的AI大模型。所謂“大規模跨節點專家并行”，即將專家分布到更多的算力卡上，減少每張卡權重加載的時延，同時減少權重的顯存占用，顯著提升單卡并行的路數，從而推動AI大模型的創新。

事實上，在DeepSeek出現之前，AI大模型在行業之中部署與應用依然面臨著數據、算法和算力等一系列巨大挑戰。很多行業用戶既需要面臨高質量數據缺乏的挑戰，又面臨著動輒千卡或者萬卡的AI集群帶來極高的成本，更受制于AI大模型閉源帶來的部署與使用門檻。

而DeepSeek采用大規模跨節點專家并行的模式，利用強化學習來減少人工依賴和數據缺失的問題；通過全面開源的方式，大幅降低AI大模型的獲取和部署成本，將AI推理資源池成本降到百卡/千卡范圍；并且支持更加輕量、靈活的部署方式，真正降低AI大模型在行業用戶環境中的部署與使用成本。

本質上，DeepSeek在工程創新層面做了大量優化工作，真正為中國AI產業走出一條新路，給予整個產業界巨大的信心，并激發起千行百業的AI應用創新。業界也認為，未來AI發展‘性能摸高’和‘工程創新’兩條技術路徑未來會繼續并存。

大EP推理挑戰在哪里

就像醫院問診一樣，過去屬于“少量大專家”的模式，通過少量的全科大夫坐診，每個大夫均處于繁忙狀態；而現在，大規模跨節點專家則屬于“大量小專家”模式，每個門診（每張算力卡）均有自己的大夫，不僅可以處理更多用戶的需求，還能夠帶來更好地用戶體驗。

當然，除了具備具備多種優勢之外，大規模跨節點專家并行模式也并非完美無瑕，隨著專家數量的增加，一系列新挑戰也接踵而至。

事實上，大規模跨節點專家并行模式并不是專家越多越好；相反，專家數量存在一個“甜點”區域，當超過這個區域，性能提升并不明顯甚至會出現下降。在大規模跨節點專家并行模式中，多專家的負載均衡和通信優化是最為突出的挑戰。

例如，AI大模型的推理屬于自回歸過程，包括Prefill和Decode兩個階段。Prefill屬于預填充，將用戶請求的prompt傳入大模型并進行計算，屬于典型的計算密集型，需要耗費大量算力；而Decode則是增量推理階段，從顯存讀取前文產生的KVCache再進行計算，屬于訪存密集型。這兩個階段對于算力資源需求存在著明顯差異，需要算力效率和通信開銷進行均衡優化。

所謂多專家負載均衡，即在業務處理中，肯能會出現某一位專家特別忙，而其他專家處于閑置狀態，需要盡可能讓所有專家“人盡其用”，從而讓算力資源高效化。而通信優化則是需要覺接ALL2ALL通信占比時間過高的問題，即當需要多個專家處理某個問題時候，專家互相之間交換意見的時間需要不短優化，以實現更高效地處理好業務。

因此，在大EP推理解決方案中，算力等硬件能力只是基礎，系統層面的整體優化才是推理加速的關鍵因素，這也要求解決方案商必須具備從架構到算法的端到端全棧優化能力。

事實上，環顧當下整個市場，針對DeepSeek AI大模型的推理解決方案并不少，而華為依然占據著整個市場的大部分份額，其成功的關鍵就在于全棧能力。華為昇騰的大EP推理解決方案涵蓋從推理系列硬件，到CANN硬件使能層，再到推理引擎，以及全面的開發工具鏈和套件，從而實現性能更高、并發更高和體驗更優。

據悉，華為昇騰大EP推理解決方案能夠實現單卡并發3倍的提升，Decode時延能夠降低50%以上，大幅降低用戶的部署和使用成本，使用體驗也得以大幅提升。此外，用戶之前一體機方案，通過交換機進行參數面互聯，基于現有組網架構軟件升級，即可升級到華為昇騰大EP推理方案。

讓行業智能化走深向實

如今，AI全面走向推理時代。有人甚至認為，應用的未來在于推理，推理將成為所有應用未來的核心組件之一。

毫無疑問，在當前的行業智能化建設中，降低AI推理的部署、使用和成本門檻具有極為意義重大。降低門檻，意味著有更多行業用戶能夠把AI推理用起來和使用好，進而推動AI在行業場景中創新的充分釋放，再進一步帶動AI應用在To B領域的繁榮，最終形成良性循環。

華為昇騰大EP推理解決方案的推出，無疑為AI推理的普及帶來一份重要答卷，也為行業智能化走深向實提供堅實基礎。

首先，憑借對AI技術趨勢的前瞻洞察以及戰略定力，華為昇騰大EP推理解決方案擁有大量關鍵創新，包括MoE負載均衡、autoPD分離部署、雙流/多維混合并行、MLAPO融合算力等五大關鍵技術，能夠實現整體方案層面的性能吞吐和時延最優，真正幫助行業用戶應對AI推理時代的到來。

例如，華為的autoPD分離部署是自適應PD分離部署，自動感知負載變化，且無需人工介入，實現多級緩存內存資源池化，冷熱KV分層加載，不僅能夠大幅提升系統的資源利用率，而且可以動態適應場景的變化需求。

其次，除了全棧自研能力之外，華為在計算、網絡和AI大模型等多個領域擁有豐富的經驗積累，使得昇騰大EP推理解決方案不僅實現性能最優，更貼近當前用戶的使用需求。

相反，目前國際廠商針對中國市場的“閹割版”方案，其性能落差巨大、短板明顯，FP16算力只有148TFLOPS。面對大規模分布式任務時，在類似DeepSeek大規模專家并行模式的推理場景下，“閹割版”方案無法有效支撐提升并發數和單卡吞吐，尤其是輸入樣本數量和序列長度提升的情況下，算力瓶頸暴露無疑。

此外，DeepSeek等AI大模型采用“潮汐導讀”實現92%的日均算力利用率，即利用“白天推理、晚上訓練”的模式來充分釋放硬件性能，而“閹割版”方案對于特定架構過度依賴，算力受限使得其在AI沒到校預訓練場景中幾乎難有作為，無法滿足訓推一體的使用需求。加上AI大模型加速向MoE模式演進，“閹割版”方案不僅成本高昂，還面臨著潛在的戰略隱患，使得其很難滿足當下行業用戶的需求。

以MoE負載均衡為例，華為自身是通信起家，對于大容量、大并發的通信場景擁有大量時間，并且積累起豐富的經驗，針對大規模跨節點專家并行，不僅能夠根據業務情況、集群規模、專家情況來自動尋優，還能自動預測和自動降解，讓專家與資源配比最優，實現整個MoE負載均衡在業界最優。

最后，華為昇騰大EP推理解決方案始終秉持開放共贏的戰略，聚焦底層根技術的基礎創新，不僅與DeepSeek等AI大模型企業保持著緊密聯系，共同攻堅與聯合創新來應對AI日新月異的發展蘇，更攜手產業鏈伙伴形成AI應用普惠化的產業協同效應，推動中國AI產業良性發展軌道。

綜合觀察，歷史告訴我們：偉大的基礎設施從來不只是工具，更是產業變革和社會經濟發展的引擎。當AI應用開始走進田間地頭、政務大廳、工廠廠房、醫療機構、港口碼頭、金融柜臺……中國正引領AI推理時代最大的技術平權運動。而以DeepSeek、華為等為代表的中國企業，在AI基礎設施領域的持續探索與創新，無疑中國AI普惠開辟出一條屬于自己的康莊大道。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.