在智能化技術驅動下, 隨著算力規模的不斷擴大,超算及智算中心系統的運維管理復雜度呈指數級增長,運維領域正經歷從“人工經驗驅動”到“數據智能驅動”的范式變革。同時,超智融合算力的綠色可持續發展,成為運營運維面臨的重要挑戰。
5月8日,由上海市計算機學會、聯想集團主辦,上海市計算機學會高性能計算專委會、上海交通大學網絡信息中心承辦,益企研究院協辦的“超智融合算力的可持續運營運維論壇”在上海交通大學李政道研究所舉行。
本次論壇邀請了多位國內高校與業界專家共同參會,圍繞超算和智算的可持續智能運維與運營在實踐中面臨的挑戰及解決方案進行探討,并就當前熱點話題、最新科研成果和未來發展趨勢進行了深入的交流。
上海超級計算中心主任李根國在論壇的開幕致辭中表示,智算與超算都是服務于大規模計算和特定應用的基礎設施,二者的融合管理和可持續化運維,一直是各大高校和相關研究機構關心的話題,借助此次論壇的溝通和交流,希望能夠為超智融合算力的未來發展提供更多的創新思路和實踐經驗。
上海超級計算中心主任李根國
產學研協同破局:
多維能效優化重塑超智算中心可持續化發展模式
在綠色數據中心發展的背景下,超智算數據中心的價值體現,不僅是提供高質量的算力,也要考慮能耗節省。在本次論壇上,上海交通大學網絡信息中心副主任林新華與聯想SSG GI&CHCS技術創新中心智能云高級經理吳眾欣聯合發布了雙方在高算力場景下的智能運維、運營領域的合作創新成果。
從2023年起,基于楊元慶捐贈的思源一號超算集群,上海交通大學與聯想集團聯合創新,將高校的算法深度與企業的工程廣度結合,通過可持續化運維、運營方法打破杰文斯悖論,找到高算力場景下體現超算/智算中心核心價值的優化方法及最佳實踐。
聯想集團聯想智能云高級經理吳眾欣
校方團隊通過自底向上的四級調優方法——從作業腳本、服務器組件、隊列調度到環境調控,構建了覆蓋全鏈路的能效計算方法。聯想xCloud團隊通過精準采集作業/節點/機柜/機房四級能耗數據,結合數據分析、算力建模、智能預測與多維度動態調整,實現系統性優化方案落地,為超智算中心智能化運維與運營升級提供了可復制的校企合作范式。
上海交通大學網絡信息中心副主任林新華
機房環境調優,是超算、智算集群運營運維任務量最大的環節之一。在傳統數據中心運維中,一般都是獨立地分別調整IT系統和制冷系統的能耗。根據上海交通大學網絡信息中心的分享,他們設計了IT-制冷系統聯合調優的智能體,其中IT系統負責核心級別的頻率調控、分配作業到節點,制冷系統負責動態調節水溫。在將智能體嵌入到上海交大的DCIM集群監控系統中之后,可以探索在智能化聯合調控策略上構建IT、制冷聯合優化模型,從而整體優化集群的能耗。
上海紐約大學的高性能計算集群運維之道
上海紐約大學信息技術部高級主任常潘,分享了上海紐約大學的高性能計算集群的運維管理經驗。
上海紐約大學信息技術部高級主任常潘
上海紐約大學的超算集群具有29個機柜,包含用于GPU的14個高密度機柜、用于CPU的14個普通密度機柜。前者供電50KW,后者供電30KW。為更好地對高性能計算集群進行管理,上海紐約大學配置了專職的集群管理人員,以便從系統、網絡、動力環境、用戶服務等角度進行運維。
在身份認證方面,上海紐約大學采用Free IPA集成MS Active Directory的方式進行賬戶的集中管理、集中認證;在高性能計算的資源獲取方面,上海紐約大學提供了一個集成的、單點登錄的方式,方便校內外師生以Web的方式提交作業來使用資源;在資源和性能監控方面,上海紐約大學采用Splunk進行GPU、CPU、內存等數據的動態采集;在作業監控方面,上海紐約大學采用了XDMoD、Prometheus + Grafana + Alertmanager等,來監控相關的作業申請、執行與資源分配情況。
此外,上海紐約大學還分享了節點擴展、數據備份恢復以及智能體應用的情況。據常潘介紹,上海紐約大學目前已經應用了ChatBot、招生AI面試、寫作評分、GPA計算、教室音視頻設備診斷等多種智能體,為全校師生提供服務。
優化運維 南京大學保障算力基礎服務的實踐
隨后,南京大學eScience中心負責人、信息化建設管理服務中心副主任姚舸分享了南京大學信息中心在優化運維、保障AI算力基礎服務方面的進展。
南京大學eScience中心負責人、信息化建設管理服務中心副主任姚舸
南京大學的eScience中心提供云盤、超級計算、開源鏡像、數據存儲、網絡授時等多種服務,實現助學、助教、助研、助管的多重職能。
此外,該中心處于測試階段的AI服務小助手已經上線,并公開提供服務,能夠幫助用戶根據eScience中心文檔解答用戶提問。姚舸表示,該AI服務小助手采用了完全私有化的智能體和模型,通過純本地化部署保障數據安全,結合知識庫定制、提示詞管理、參數微調等手段,是為垂直細分科研領域打造靈活高效的專屬AI助手。
同時,姚舸介紹了南京大學信息化建設管理服務中心最新成立的AI賦能中心,該中心旨在推進人工智能與數據賦能平臺建設,助力“智慧南大”建設。
南京大學信息化建設管理服務中心也完成了DeepSeek滿血版南大專屬版本、通義千問等AI大模型的本地化部署;與移動云、騰訊云、阿里云等主流云服務商建立了戰略合作,為南京大學的師生科研創新提供彈性算力資源支持。
蘭州大學的多數據中心超算平臺實踐
蘭州大學超算中心主任工程師張洋也分享了蘭州大學的超算平臺創新實踐。蘭州大學在2020年6月建設了高性能計算平臺一期,在2023年建設了高性能計算平臺二期,加強了平臺計算存儲能力,并實現了兩期資源的統一管理和整合。
蘭州大學超算中心主任工程師張洋
據介紹,蘭州大學的超算中心實現了大規模的科研支撐功能,支持了蘭州大學150個研究方向、超過300個科研項目,支撐了蘭州大學數百篇高水平SCI論文的發布,更是促進了多個學科之間的交叉研究,提升了蘭州大學師生的高性能計算應用水平。
在DeepSeek大火之后,蘭州大學也實現了DeepSeek的本地部署與應用,上線之后支持了蘭州大學師生的學術研究、教學輔助、職業發展、行政工作等。
張洋也分享了蘭州大學超算中心在國產ARM HPC生態建設、移動算力以及HPC+AI應用軟件的部署與管理等方面的經驗,并對超算中心未來作為科技創新平臺、學科建設平臺、人才培養平臺的發展進行了展望。
北京大學的超智算融合平臺實踐
北京大學計算中心系統管理室副主任李若淼分享了北京大學超智算融合平臺實踐。
北京大學計算中心系統管理室副主任李若淼
據李若淼主任介紹,北京大學構筑了超智算一體化算力平臺系統體系,覆蓋應用層、平臺層、調度層,對智算中心和超算中心的資源進行統一管理。在平臺層,北京大學使用SCOW算力平臺系統,對HPC算力和AI算力各種異構算力資源進行管理;在調度層,北京大學應用了鶴思算力調度系統實現了HPC和智能計算場景下的資源管理、作業管理、資源隔離等功能,這也是國內首個支持超智算領域的信創開源算力調度系統。
在超智算平臺的運維方面,李若淼主任表示,北京大學在安全、監控等多個方面都設計了足夠全面穩妥的方案,以確保平臺的平穩運行;在超智算平臺的運營方面,北京大學的SCOW系統能夠實現統一運營,及時反饋超智算平臺作業數量、機時數量等相關的數據。
在應用層,北京大學還部署了小蒜智能體平臺和小蒜智能助手,能夠提供知識檢索、醫療咨詢、法律援助等多樣化服務。
聯想集團的大模型彈性訓練容錯系統
聯想集團聯想研究院智能計算實驗室研發經理李焱分享了大模型彈性訓練容錯系統的設計與優化。
聯想集團聯想研究院智能計算實驗室研發經理李焱
李焱表示,大模型訓練任務需要長時間占用大量硬件資源,軟硬件故障發生頻率高且類型多樣,加之故障原因難以定位,導致訓練中斷時間較長,模型狀態(Checkpoint)也會面臨嚴峻的讀寫挑戰。因此,李焱認為需提升大模型訓練系統的容錯能力,核心技術包括:故障診斷與精準定位、高效Checkpoint存取以及資源彈性時的快速恢復機制。
聯想設計的容錯系統針對大模型訓練過程中面臨的網絡中斷、節點宕機、進程崩潰等多種典型故障,提供高效自動的恢復機制。基于模型訓練的并行策略與硬件存儲層次特點,通過多層次優化檢查點讀寫操作和即時檢查點保存機制,針對千億規模參數模型,可將端到端故障恢復時間縮短至10分鐘以內,并將模型中斷后的重訓時間壓縮至單次訓練迭代時間。當集群資源彈性變化時,系統能夠快速準確地獲取大模型訓練的最優并行策略配置,并與容錯調度組件協同,確保系統的自適應能力,通過彈性調度訓練資源提升作業訓練效率及集群GPU資源利用率。
西湖大學的DeepSeek本地化部署實踐與應用
西湖大學高性能計算中心主任李南分享了西湖大學的DeepSeek本地化部署實踐與應用。
西湖大學高性能計算中心主任李南
據李南介紹,西湖大學的DeepSeek R1本地化部署經歷了三個階段,階段一是單卡獨立服務,階段二是多卡并行服務,階段三是優化多卡并行,最終達到總吞吐1054 tokens每秒,總輸出524 tokens每秒,總并發在100進程每臺。
此外,西湖大學還進行了更多的嘗試,包括在2臺8卡910B-64G上的國產平臺部署、1臺8卡H20-80G的Hopper平臺部署,以及2臺8卡H20-80G的FP8原始版部署。
李南表示,針對部署的各大模型進行了基準測試,包括MMLU、GPQA、MATH500、AIME2024以及LiveCodeBench等,發現國產平臺GPQA得分為73.74 (論文數據71.5),AIME2024得分為83.33 (論文數據為79.8),算是測試中的意外收獲。
西湖大學部署DeepSeek之后,也針對校內提供了服務,為為校內各項AI服務提供底層推理支撐。
小結
在此次論壇上,多位專家的分享內容翔實,為超智融合算力的運營運維提供了寶貴的實踐經驗和心得,并使得參會人員在隨后的交流中大獲裨益。
本次超智融合算力的可持續運營運維論壇的成功舉辦,為高算力場景下可持續化運維與運營實踐提供了可貴的一線經驗,必將有助于推動我國高校的超算、智算的進一步發展,為HPC、AI的深入應用建設更堅實的基礎設施。
由聯想CTO組織整體牽頭的聯想校企科研合作是聯想技術創新生態的重要一環。當前,聯想與高校的合作布局主要包括重點高校戰略合作計劃 (如上海交大、清華大學)、聯合實驗室計劃、聯想科學家計劃,中國計算機學會—聯想藍海科研基金計劃,以及中國人工智能學會-聯想藍天科研基金計劃等。致力于聯合聯想政教行業架構師與業務部門打造新型產學研合作新范式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.