文/黃海峰通信生活
從ChatGPT掀起全民AI熱潮,到DeepSeek、千問3等本土大模型接連崛起,算力早已超越傳統硬件范疇,成為國家戰略競爭的新制高點。據中國信息通信研究院發布的《中國算力發展指數白皮書(2022 年)》顯示,預計到2030年,全球算力規模將達到56 ZFLOPS,年平均增長率為65%。
在這場算力爭奪戰中,聯想作為行業重要參與者,正通過一系列創新舉措構建自身競爭優勢。
近日,聯想以2025創新科技大會為舞臺,在聯想AI算力基礎設施技術創新論壇暨春季新品發布會上,推出六大創新技術與兩大重磅升級,正式推出堪稱“算力矩陣”的重磅武器——聯想萬全異構智算平臺3.0、全新算力服務器家族、聯想凌拓全新存儲產品家族和針對多種規模構建的AI算力集群的智能網絡體系以及創新技術與產品,并升級AIO V6系列產品和聯想問天WX系列虛擬化超融合8.0.2版本
我們好奇,隨著大模型規模的不斷擴展、應用場景的日益復雜,AI算力基礎設施行業面臨哪些挑戰?聯想新發布的聯想萬全異構智算平臺3.0以及服務器產品實力如何,能否應對挑戰?未來,聯想在服務器及智算平臺這兩個賽道又將有怎樣的戰略規劃與布局?
AI浪潮下,算力基礎設施面臨五大挑戰
IT基礎設施作為算力的物質基礎和核心載體,在行業數字化發展的各個方面都起著不可或缺的作用。如今,隨著以DeepSeek為代表的開源大模型走進千行百業,算力基礎設施面臨新挑戰。
第一,算力需求多樣化。從基礎模型的預訓練到推理模型、多模態模型的應用,以及從簡單的對話機器人到AI Agent、具身智能的發展,對服務器等設施算力需求也變得更加多樣化,這就要求算力基礎設施能夠提供預訓練算力、訓推算力、推理算力等更全面多樣的AI算力。
第二,算力基礎設施需要更高性能。模型本地部署的應用潮流,對大模型一體機的單機性能提出了極致要求,需要服務器具備更強的計算能力、更高的存儲容量和更快的讀寫速度,以滿足本地模型的高效運行。
同時,萬卡、十萬卡級算力集群的出現,要求在超大規模算力集群里,實現“算存網”能力的高效協同,以避免因某一環節的性能瓶頸而影響整個集群的算力發揮。
第三,算力基礎設施需要更高能效。AI算力的增長對電力需求提出了更多挑戰,如何在滿足算力需求的同時,降低數據中心的能耗,實現綠色計算,是服務器及算力基礎設施面臨的重要問題。
第四,算力基礎設施需要更高可靠性。在AI計算中,尤其是大規模的分布式訓推過程中,硬件故障可能導致整個集群計算水平大幅度下降。這就要求算力基礎設施具備更高的硬件可靠性和故障自愈能力。
第五,算力基礎設施需要提高通信效率。以DeepSeek為代表的MoE架構大模型,在訓推過程中的通信復雜度呈指數級增長,與傳統的稠密模型相比,各個專家間需要不斷地通信、協同計算,導致多個GPU間頻繁交互,這對AI服務器之間的通信網絡提出了更高的要求。
技術突圍!聯想兩大利器破解算力困局
如何破解大模型時代算力基礎設施面臨的諸多挑戰?在聯想看來,唯有創新才是破解挑戰的唯一選擇。
回首過去,當行業面臨大模型預訓練和傳統模型推理的算力訴求時,聯想通過技術創新,推出聯想萬全異構智算平臺四大技術,筑牢大模型發展底座。
如今,聯想依舊以創新為引領,打造大模型時代的堅實底座,在本次大會上推出聯想萬全異構智算平臺3.0與全新算力服務器家族兩大核心“利器”。
利器一:發布聯想萬全異構智算平臺3.0
聯想中國基礎設施業務群戰略管理部總監黃山表示,聯想萬全異構智算平臺3.0進一步推出五大差異化技術,幫助用戶在AI預訓練、后訓練、推理的過程中取得最高效、最穩定的算力。具體而言,五大技術將帶來算力設施如下升級。
其一,AI推理加速算法集,可對MLA等業界新型方法進行工程實踐落地,并結合聯想積累的混合精度量化、分布式并行等方法二次優化,將DeepSeek等大模型的推理性能提升5-10倍,單臺8卡GPU服務器采用該平臺后可支持190路用戶同時使用DeepSeek滿血版,相比業界最優社區方案保持20%性能優勢,滿足用戶對推理高吞吐量、低延時的訴求。
其二,AI編譯優化器,能在構建AI計算圖過程中,采用臨近算子融合、高效算子替代和簡化計算路徑等方式,結合與GPU戰略伙伴的研發成果優化算子,經其優化后,AI訓練后推理的計算開銷至少降低15%,且分布式訓練或推理規模越大,效果越顯著。
其三,AI訓推慢節點故障預測與自愈系統,基于聯想三年以上積累的AI訓推故障特征庫并訓練故障預測模型,實現用AI模型預測AI故障。系統通過異步訓練檢查點或推理備份準備故障恢復環境,故障發生時自動排除故障點,實現百卡集群故障秒級恢復、千卡分鐘級恢復、萬卡十分鐘級以內恢復。
其四,專家并行通信算法,針對MoE架構大模型訓推中all to all通信方式帶來的指數級通信復雜度問題,研發細粒度的計算通信協同優化算法,在底層核函數層面實現計算與通信過程高度并行,將推理延遲降低300%以上,網絡帶寬利用率從50%提升到90%。
其五,智能資源調度引擎,可基于實時負載感知與異構算力特征,動態優化GPU/CPU/DPU等資源分配策略。通過拓撲感知的任務調度算法,將多模態模型訓推任務與硬件架構精準匹配,使混合算力集群利用率提升25%以上,端到端任務執行效率提高30%,全面釋放異構算力潛能。
利器二:全新算力服務器家族
聯想中國基礎設施業務群服務器產品部總經理周韜在發布會上指出,聯想在服務器發展中一直通過引領服務器技術創新,為客戶重新定義新的算力。如今,面對大模型后訓練時代,聯想選擇再次進化服務器,并重新定義算力。本次聯想推出的全新算力服務器家族,可面對不同AI應用場景,充分釋放AI服務器的算力潛能。
其一,面對數據處理環節,聯想推出ThinkSystem SC750 V4在內的數據處理算力服務器家族。這些服務器可在單一機柜中實現高達48個計算節點,可配置12288個英特爾志強6性能核心及8800兆赫茲的MRDIMM,采用專利無滴漏不銹鋼盲插系統等保障穩定,13U16節點高密度全液冷設計提升算力效率。
其二,面對AI訓練環節,聯想推出聯想問天WA7880a家族在內的AI訓練算力服務器家族。這些服務器配置兩顆英特爾志強處理器、8塊GPU卡通過OAM互聯提供澎湃算力,采用冷板式CPU/GPU液冷方案及浸沒式液冷技術實現綠色節能,結合異構智算平臺實現異構算力調度、故障感知解決,利用AI編譯優化器降低訓練開支。
其三,面對推理應用環節,聯想推出聯想問天 WA5480 G5、聯想問天WR5220 G5、聯想ThinkSystem SR650 V4、SR650a V4、SR630 V4在內的推理應用算力服務器家族。這些服務器支持英特爾Xeon6處理器和主流PCIE GPU處理器,CPU核集成加速器,與GPU配合良好,借助獨特技術保障可靠性,提供全液冷方案,結合英特爾Xeon6的能效優勢,為客戶提供更高性能和功耗比。
構建算力新生態:聯想勾勒全新戰略布局
面向未來,聯想算力基礎設施有著怎樣的發展路徑?通過與聯想專家交流,筆者發現,聯想在聯想萬全異構智算平臺,以及服務器發展中有著清晰的發展規劃與戰略布局:構建“四個更”的混合式基礎設施,即更強大、更高效、更穩定、更綠色,助力混合式人工智能快速落地。
首先,在算力服務器領域,聯想將構建多樣化的“數字武器庫”,讓算力設施更強大。在產品平臺拓展維度,聯想將從目前主要集中在英特爾平臺,拓展至“1 + 3 + N”規劃方向。其中,“1”為一個系統架構,“3”支持三種CPU的形態,“N”代表多種GPU的組合。
筆者認為,這種布局將讓聯想擁有不同類型“武器”,可通過產品自由搭配,滿足客戶多樣化的“作戰需求”。
此外,聯想將注重場景化設計優化。比如,數據處理場景下,注重提升CPU算力密度;AI訓練場景著重解決GPU功耗及散熱問題;推理應用場景強調服務器平臺的通用性,提供更長的部件兼容性列表,適配市面上常見部件。
其次,創新算力服務,讓算力設施更高效。聯想在算力服務方面,首次發布算力服務“成本-效能”雙優運營系統,持續助力客戶優化運營效能與成本。其中智能調度引擎與FinOps引擎,將數據輸送到混合云,完成企業AI模型訓練,待模型培育成熟后,可彈性部署在邊緣設備或終端硬件,實現分布式推理運算,可提升集群資源利用率13%,并精準識別58%無效實例,最大化用戶效益。這一創新對于提升企業AI基礎設施的投資回報率具有重要價值。
再次,聯想將基于聯想萬全異構智算平臺,打造數字世界的“超級樞紐”,讓算力設施更穩定。在技術創新方面,異構納管技術就像是給不同型號的“數字列車”鋪設統一軌道。聯想希望讓國產GPU伙伴的“列車”穩穩駛入軌道,還要與部分伙伴共同打磨軌道的每一處細節,讓列車跑得又快又穩。
比如,聯想凌拓從數據管理到存儲架構均進行了全方位升級,包括聯想問天DXN AI存儲解決方案、DXN2000系列、DXN全閃系列,Lenovo ThinkSystem DE/DM/DG系列、NetApp ASA/AFF/FAS系列、AIPod DeepSeek一體機在內的聯想凌拓全新存儲產品家族,不僅提供覆蓋純訓練、訓推一體以及推理場景的綜合架構方案,還與GPU企業展開深度合作,確保技術和產品能夠快速落地、滿足本地各行業實際需求。
又比如,聯想通過RoCE/IB多架構融合及低延遲優化技術,構建了覆蓋多種規模AI算力集群的智能網絡體系。其數據網絡產品兼容多種主流AI網絡架構,包括基于無阻塞通信的胖樹架構(Fat-Tree)、具備高擴展性與低時延特性的蜻蜓增強型架構(Dragonfly+),以及分布式解耦的DDC架構(Distributed Disaggregated Chassis),充分滿足差異化場景需求。其中,本次發布的高密度400G交換機聯想問天NE8770-64QC,專為AI場景深度優化;也發布了兩款戰略級新品——面向下一代融合數據網絡的多業務核心交換機聯想問天NE7550G-8C,以及支持超大規模組網的新一代高性能核心交換機聯想問天NE9770G-4C。
在模型與場景拓展方面,聯想將持續關注各類大模型的發展,將已有的優化技術和方案應用到新模型中,針對新模型的特點進行進一步優化。
此外,聯想還將從當前的智算中心,向推理應用場景拓展,提升推理技術亮點,實現對AI全流程的算力優化,以滿足不同行業、不同客戶在不同場景下對AI算力的需求。
最后,以浸沒液冷技術雙突破,讓算力設施更綠色。在綠色計算領域,聯想浸沒液冷技術取得雙重突破:單相浸沒方面采用"飛魚"仿生散熱設計,模擬魚類游動姿態優化流體設計,支持下一代600W芯片散熱,最大功耗提升20%。此前,聯想與清華大學開展深入技術預研合作,研發流場優化方案及高性能散熱器,使冷卻液的冷卻效率最大化,獲得最優PUE,同時在冷卻液、Tank設計方案、CDU等各方面探索低成本方案,推動浸沒液冷的快速普及。
相變浸沒方向通過“雙循環”相變浸沒制冷系統實現PUE低至1.035的業界領先水平,為更冷靜、更可靠的服務器及數據中心產品提供有力支持。聯想還專門在天津建立了浸沒式液冷實驗室,通過真實場景的實驗獲得可靠數據,以推動浸沒式液冷的研發。
從單點突破到生態共贏:聯想為算力競爭提供新范式
在全球算力競爭白熱化階段,聯想推出的聯想萬全異構智算平臺3.0與全新算力服務器家族,標志著算力基礎設施正從“硬件堆砌”邁向“生態協同”、從“單一功能”轉向“全鏈路優化”。
聯想的戰略布局精準直擊行業痛點。比如,其“四大差異化技術”將算法創新、硬件優化與場景適配深度融合,以“軟硬一體”模式打破傳統廠商僅依賴硬件升級的局限,樹立技術融合創新標桿。
同時,服務器國產化進程的推進,將讓聯想構建起“技術自主+生態開放”的雙輪驅動模式,有望成為中國企業在全球算力競爭中的突圍范式。
縱觀聯想在算力基礎設施的布局,似乎給整個行業帶來一定啟示:算力競爭不僅是技術比拼,更是生態體系、戰略眼光與響應速度的綜合較量。
在這一過程中,唯有整合多元技術、構建開放生態且能快速響應場景需求的企業,方能在智能革命浪潮中搶占先機,贏得未來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.