技術的突破僅僅是序章,大規模應用而引發的連鎖反應才是真正的變革。
今年初,DeepSeek掀起的AI浪潮席卷全球,一周之內即實現億級用戶的爆發式增長和數百家企業踴躍接入,標志著中國AI企業開始掌握將技術突破轉化為AI普惠應用的底層邏輯。
回望最近十年AI發展歷史,算力始終是橫亙在理想與現實之間的一道鴻溝。尤其是在我國,算力的稀缺,猶如懸掛在整個AI產業上的達摩克利斯之劍。而DeepSeek的技術突圍,恰恰始于對這場"算力封鎖"的顛覆,并激發起整個AI產業的全面創新。
DeepSeek的火爆,讓大規模跨節點專家并行(Expert Parallelism ,簡稱: EP)成為當下AI最重要的趨勢之一,同時使得大EP推理解決方案迅速映入用戶們的眼簾。隨著DeepSeek開始全面進入各行各業的頭部用戶之中,大EP推理解決方案也成為行業智能化走深向實的那枚楔子,無比低調卻又至關重要。
大EP推理為何成大勢所趨
從2012年,AlexNet點燃深度學習革命開始,算力一直是左右AI發展的核心力量。
尤其是在Scaling Law規則的驅動下,AI大模型的訓練與推理對于算力需求也迅速水漲船高。AI頭部巨頭們更是紛紛加碼基礎設施的布局,從微軟、Meta、AWS等重金投建新數據中心,到xAI短時間構建起20萬張GPU卡的AI集群,再到OpenAI推出“星際之門”項目,“得算力者得天下”深入人心,AI頭部巨頭們無不在追求“少量大專家模式”的“性能摸高”。
但這種“技術摸高”的模式會是AI發展創新的唯一路徑么?
DeepSeek-R1的橫空出現,帶來不一樣的答案。DeepSeek在工程層面大膽創新,采用大規模跨節點專家并行的模式,在算力規模和先進性受限的情況下,依然能打造出性能強大和先進的AI大模型。所謂“大規模跨節點專家并行”,即將專家分布到更多的算力卡上,減少每張卡權重加載的時延,同時減少權重的顯存占用,顯著提升單卡并行的路數,從而推動AI大模型的創新。
事實上,在DeepSeek出現之前,AI大模型在行業之中部署與應用依然面臨著數據、算法和算力等一系列巨大挑戰。很多行業用戶既需要面臨高質量數據缺乏的挑戰,又面臨著動輒千卡或者萬卡的AI集群帶來極高的成本,更受制于AI大模型閉源帶來的部署與使用門檻。
而DeepSeek采用大規模跨節點專家并行的模式,利用強化學習來減少人工依賴和數據缺失的問題;通過全面開源的方式,大幅降低AI大模型的獲取和部署成本,將AI推理資源池成本降到百卡/千卡范圍;并且支持更加輕量、靈活的部署方式,真正降低AI大模型在行業用戶環境中的部署與使用成本。
本質上,DeepSeek在工程創新層面做了大量優化工作,真正為中國AI產業走出一條新路,給予整個產業界巨大的信心,并激發起千行百業的AI應用創新。業界也認為,未來AI發展‘性能摸高’和‘工程創新’兩條技術路徑未來會繼續并存。
大EP推理挑戰在哪里
就像醫院問診一樣,過去屬于“少量大專家”的模式,通過少量的全科大夫坐診,每個大夫均處于繁忙狀態;而現在,大規模跨節點專家則屬于“大量小專家”模式,每個門診(每張算力卡)均有自己的大夫,不僅可以處理更多用戶的需求,還能夠帶來更好地用戶體驗。
當然,除了具備具備多種優勢之外,大規模跨節點專家并行模式也并非完美無瑕,隨著專家數量的增加,一系列新挑戰也接踵而至。
事實上,大規模跨節點專家并行模式并不是專家越多越好;相反,專家數量存在一個“甜點”區域,當超過這個區域,性能提升并不明顯甚至會出現下降。在大規模跨節點專家并行模式中,多專家的負載均衡和通信優化是最為突出的挑戰。
例如,AI大模型的推理屬于自回歸過程,包括Prefill和Decode兩個階段。Prefill屬于預填充,將用戶請求的prompt傳入大模型并進行計算,屬于典型的計算密集型,需要耗費大量算力;而Decode則是增量推理階段,從顯存讀取前文產生的KVCache再進行計算,屬于訪存密集型。這兩個階段對于算力資源需求存在著明顯差異,需要算力效率和通信開銷進行均衡優化。
所謂多專家負載均衡,即在業務處理中,肯能會出現某一位專家特別忙,而其他專家處于閑置狀態,需要盡可能讓所有專家“人盡其用”,從而讓算力資源高效化。而通信優化則是需要覺接ALL2ALL通信占比時間過高的問題,即當需要多個專家處理某個問題時候,專家互相之間交換意見的時間需要不短優化,以實現更高效地處理好業務。
因此,在大EP推理解決方案中,算力等硬件能力只是基礎,系統層面的整體優化才是推理加速的關鍵因素,這也要求解決方案商必須具備從架構到算法的端到端全棧優化能力。
事實上,環顧當下整個市場,針對DeepSeek AI大模型的推理解決方案并不少,而華為依然占據著整個市場的大部分份額,其成功的關鍵就在于全棧能力。華為昇騰的大EP推理解決方案涵蓋從推理系列硬件,到CANN硬件使能層,再到推理引擎,以及全面的開發工具鏈和套件,從而實現性能更高、并發更高和體驗更優。
據悉,華為昇騰大EP推理解決方案能夠實現單卡并發3倍的提升,Decode時延能夠降低50%以上,大幅降低用戶的部署和使用成本,使用體驗也得以大幅提升。此外,用戶之前一體機方案,通過交換機進行參數面互聯,基于現有組網架構軟件升級,即可升級到華為昇騰大EP推理方案。
讓行業智能化走深向實
如今,AI全面走向推理時代。有人甚至認為,應用的未來在于推理,推理將成為所有應用未來的核心組件之一。
毫無疑問,在當前的行業智能化建設中,降低AI推理的部署、使用和成本門檻具有極為意義重大。降低門檻,意味著有更多行業用戶能夠把AI推理用起來和使用好,進而推動AI在行業場景中創新的充分釋放,再進一步帶動AI應用在To B領域的繁榮,最終形成良性循環。
華為昇騰大EP推理解決方案的推出,無疑為AI推理的普及帶來一份重要答卷,也為行業智能化走深向實提供堅實基礎。
首先,憑借對AI技術趨勢的前瞻洞察以及戰略定力,華為昇騰大EP推理解決方案擁有大量關鍵創新,包括MoE負載均衡、autoPD分離部署、雙流/多維混合并行、MLAPO融合算力等五大關鍵技術,能夠實現整體方案層面的性能吞吐和時延最優,真正幫助行業用戶應對AI推理時代的到來。
例如,華為的autoPD分離部署是自適應PD分離部署,自動感知負載變化,且無需人工介入,實現多級緩存內存資源池化,冷熱KV分層加載,不僅能夠大幅提升系統的資源利用率,而且可以動態適應場景的變化需求。
其次,除了全棧自研能力之外,華為在計算、網絡和AI大模型等多個領域擁有豐富的經驗積累,使得昇騰大EP推理解決方案不僅實現性能最優,更貼近當前用戶的使用需求。
相反,目前國際廠商針對中國市場的“閹割版”方案,其性能落差巨大、短板明顯,FP16算力只有148TFLOPS。面對大規模分布式任務時,在類似DeepSeek大規模專家并行模式的推理場景下,“閹割版”方案無法有效支撐提升并發數和單卡吞吐,尤其是輸入樣本數量和序列長度提升的情況下,算力瓶頸暴露無疑。
此外,DeepSeek等AI大模型采用“潮汐導讀”實現92%的日均算力利用率,即利用“白天推理、晚上訓練”的模式來充分釋放硬件性能,而“閹割版”方案對于特定架構過度依賴,算力受限使得其在AI沒到校預訓練場景中幾乎難有作為,無法滿足訓推一體的使用需求。加上AI大模型加速向MoE模式演進,“閹割版”方案不僅成本高昂,還面臨著潛在的戰略隱患,使得其很難滿足當下行業用戶的需求。
以MoE負載均衡為例,華為自身是通信起家,對于大容量、大并發的通信場景擁有大量時間,并且積累起豐富的經驗,針對大規模跨節點專家并行,不僅能夠根據業務情況、集群規模、專家情況來自動尋優,還能自動預測和自動降解,讓專家與資源配比最優,實現整個MoE負載均衡在業界最優。
最后,華為昇騰大EP推理解決方案始終秉持開放共贏的戰略,聚焦底層根技術的基礎創新,不僅與DeepSeek等AI大模型企業保持著緊密聯系,共同攻堅與聯合創新來應對AI日新月異的發展蘇,更攜手產業鏈伙伴形成AI應用普惠化的產業協同效應,推動中國AI產業良性發展軌道。
綜合觀察,歷史告訴我們:偉大的基礎設施從來不只是工具,更是產業變革和社會經濟發展的引擎。當AI應用開始走進田間地頭、政務大廳、工廠廠房、醫療機構、港口碼頭、金融柜臺……中國正引領AI推理時代最大的技術平權運動。而以DeepSeek、華為等為代表的中國企業,在AI基礎設施領域的持續探索與創新,無疑中國AI普惠開辟出一條屬于自己的康莊大道。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.