99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

超智融合算力的可持續運營運維論壇成功舉辦

0
分享至

在智能化技術驅動下, 隨著算力規模的不斷擴大,超算及智算中心系統的運維管理復雜度呈指數級增長,運維領域正經歷從“人工經驗驅動”到“數據智能驅動”的范式變革。同時,超智融合算力的綠色可持續發展,成為運營運維面臨的重要挑戰。

5月8日,由上海市計算機學會、聯想集團主辦,上海市計算機學會高性能計算專委會、上海交通大學網絡信息中心承辦,益企研究院協辦的“超智融合算力的可持續運營運維論壇在上海交通大學李政道研究所舉行。

本次論壇邀請了多位國內高校與業界專家共同參會,圍繞超算和智算的可持續智能運維與運營在實踐中面臨的挑戰及解決方案進行探討,并就當前熱點話題、最新科研成果和未來發展趨勢進行了深入的交流。

上海超級計算中心主任李根國在論壇的開幕致辭中表示,智算與超算都是服務于大規模計算和特定應用的基礎設施,二者的融合管理和可持續化運維,一直是各大高校和相關研究機構關心的話題,借助此次論壇的溝通和交流,希望能夠為超智融合算力的未來發展提供更多的創新思路和實踐經驗。


上海超級計算中心主任李根國

產學研協同破局:

多維能效優化重塑超智算中心可持續化發展模式

在綠色數據中心發展的背景下,超智算數據中心的價值體現,不僅是提供高質量的算力,也要考慮能耗節省。在本次論壇上,上海交通大學網絡信息中心副主任林新華與聯想SSG GI&CHCS技術創新中心智能云高級經理吳眾欣聯合發布了雙方在高算力場景下的智能運維、運營領域的合作創新成果。

從2023年起,基于楊元慶捐贈的思源一號超算集群,上海交通大學與聯想集團聯合創新,將高校的算法深度與企業的工程廣度結合,通過可持續化運維、運營方法打破杰文斯悖論,找到高算力場景下體現超算/智算中心核心價值的優化方法及最佳實踐。


聯想集團聯想智能云高級經理吳眾欣

校方團隊通過自底向上的四級調優方法——從作業腳本、服務器組件、隊列調度到環境調控,構建了覆蓋全鏈路的能效計算方法。聯想xCloud團隊通過精準采集作業/節點/機柜/機房四級能耗數據,結合數據分析、算力建模、智能預測與多維度動態調整,實現系統性優化方案落地,為超智算中心智能化運維與運營升級提供了可復制的校企合作范式。


上海交通大學網絡信息中心副主任林新華

機房環境調優,是超算、智算集群運營運維任務量最大的環節之一。在傳統數據中心運維中,一般都是獨立地分別調整IT系統和制冷系統的能耗。根據上海交通大學網絡信息中心的分享,他們設計了IT-制冷系統聯合調優的智能體,其中IT系統負責核心級別的頻率調控、分配作業到節點,制冷系統負責動態調節水溫。在將智能體嵌入到上海交大的DCIM集群監控系統中之后,可以探索在智能化聯合調控策略上構建IT、制冷聯合優化模型,從而整體優化集群的能耗。

上海紐約大學的高性能計算集群運維之道

上海紐約大學信息技術部高級主任常潘,分享了上海紐約大學的高性能計算集群的運維管理經驗。


上海紐約大學信息技術部高級主任常潘

上海紐約大學的超算集群具有29個機柜,包含用于GPU的14個高密度機柜、用于CPU的14個普通密度機柜。前者供電50KW,后者供電30KW。為更好地對高性能計算集群進行管理,上海紐約大學配置了專職的集群管理人員,以便從系統、網絡、動力環境、用戶服務等角度進行運維。

在身份認證方面,上海紐約大學采用Free IPA集成MS Active Directory的方式進行賬戶的集中管理、集中認證;在高性能計算的資源獲取方面,上海紐約大學提供了一個集成的、單點登錄的方式,方便校內外師生以Web的方式提交作業來使用資源;在資源和性能監控方面,上海紐約大學采用Splunk進行GPU、CPU、內存等數據的動態采集;在作業監控方面,上海紐約大學采用了XDMoD、Prometheus + Grafana + Alertmanager等,來監控相關的作業申請、執行與資源分配情況。

此外,上海紐約大學還分享了節點擴展、數據備份恢復以及智能體應用的情況。據常潘介紹,上海紐約大學目前已經應用了ChatBot、招生AI面試、寫作評分、GPA計算、教室音視頻設備診斷等多種智能體,為全校師生提供服務。

優化運維 南京大學保障算力基礎服務的實踐

隨后,南京大學eScience中心負責人、信息化建設管理服務中心副主任姚舸分享了南京大學信息中心在優化運維、保障AI算力基礎服務方面的進展


南京大學eScience中心負責人、信息化建設管理服務中心副主任姚舸

南京大學的eScience中心提供云盤、超級計算、開源鏡像、數據存儲、網絡授時等多種服務,實現助學、助教、助研、助管的多重職能

此外,該中心處于測試階段的AI服務小助手已經上線,并公開提供服務,能夠幫助用戶根據eScience中心文檔解答用戶提問。姚舸表示,該AI服務小助手采用了完全私有化的智能體和模型,通過純本地化部署保障數據安全,結合知識庫定制、提示詞管理、參數微調等手段,是為垂直細分科研領域打造靈活高效的專屬AI助手。

同時,姚舸介紹了南京大學信息化建設管理服務中心最新成立的AI賦能中心,該中心旨在推進人工智能與數據賦能平臺建設,助力“智慧南大”建設。

南京大學信息化建設管理服務中心也完成了DeepSeek滿血版南大專屬版本、通義千問等AI大模型的本地化部署;與移動云、騰訊云、阿里云等主流云服務商建立了戰略合作,為南京大學的師生科研創新提供彈性算力資源支持。

蘭州大學的多數據中心超算平臺實踐

蘭州大學超算中心主任工程師張洋也分享了蘭州大學的超算平臺創新實踐。蘭州大學在2020年6月建設了高性能計算平臺一期,在2023年建設了高性能計算平臺二期,加強了平臺計算存儲能力,并實現了兩期資源的統一管理和整合。


蘭州大學超算中心主任工程師張洋

據介紹,蘭州大學的超算中心實現了大規模的科研支撐功能,支持了蘭州大學150個研究方向、超過300個科研項目,支撐了蘭州大學數百篇高水平SCI論文的發布,更是促進了多個學科之間的交叉研究,提升了蘭州大學師生的高性能計算應用水平。

在DeepSeek大火之后,蘭州大學也實現了DeepSeek的本地部署與應用,上線之后支持了蘭州大學師生的學術研究、教學輔助、職業發展、行政工作等。

張洋也分享了蘭州大學超算中心在國產ARM HPC生態建設、移動算力以及HPC+AI應用軟件的部署與管理等方面的經驗,并對超算中心未來作為科技創新平臺、學科建設平臺、人才培養平臺的發展進行了展望。

北京大學的超智算融合平臺實踐

北京大學計算中心系統管理室副主任李若淼分享了北京大學超智算融合平臺實踐。


北京大學計算中心系統管理室副主任李若淼

據李若淼主任介紹,北京大學構筑了超智算一體化算力平臺系統體系,覆蓋應用層、平臺層、調度層,對智算中心和超算中心的資源進行統一管理。在平臺層,北京大學使用SCOW算力平臺系統,對HPC算力和AI算力各種異構算力資源進行管理;在調度層,北京大學應用了鶴思算力調度系統實現了HPC和智能計算場景下的資源管理、作業管理、資源隔離等功能,這也是國內首個支持超智算領域的信創開源算力調度系統。

在超智算平臺的運維方面,李若淼主任表示,北京大學在安全、監控等多個方面都設計了足夠全面穩妥的方案,以確保平臺的平穩運行;在超智算平臺的運營方面,北京大學的SCOW系統能夠實現統一運營,及時反饋超智算平臺作業數量、機時數量等相關的數據。

在應用層,北京大學還部署了小蒜智能體平臺和小蒜智能助手,能夠提供知識檢索、醫療咨詢、法律援助等多樣化服務。

聯想集團的大模型彈性訓練容錯系統

聯想集團聯想研究院智能計算實驗室研發經理李焱分享了大模型彈性訓練容錯系統的設計與優化。


聯想集團聯想研究院智能計算實驗室研發經理李焱

李焱表示,大模型訓練任務需要長時間占用大量硬件資源,軟硬件故障發生頻率高且類型多樣,加之故障原因難以定位,導致訓練中斷時間較長,模型狀態(Checkpoint)也會面臨嚴峻的讀寫挑戰。因此,李焱認為需提升大模型訓練系統的容錯能力,核心技術包括:故障診斷與精準定位、高效Checkpoint存取以及資源彈性時的快速恢復機制。

聯想設計的容錯系統針對大模型訓練過程中面臨的網絡中斷、節點宕機、進程崩潰等多種典型故障,提供高效自動的恢復機制?;谀P陀柧毜牟⑿胁呗耘c硬件存儲層次特點,通過多層次優化檢查點讀寫操作和即時檢查點保存機制,針對千億規模參數模型,可將端到端故障恢復時間縮短至10分鐘以內,并將模型中斷后的重訓時間壓縮至單次訓練迭代時間。當集群資源彈性變化時,系統能夠快速準確地獲取大模型訓練的最優并行策略配置,并與容錯調度組件協同,確保系統的自適應能力,通過彈性調度訓練資源提升作業訓練效率及集群GPU資源利用率。

西湖大學的DeepSeek本地化部署實踐與應用


西湖大學高性能計算中心主任李南分享了西湖大學的DeepSeek本地化部署實踐與應用。


西湖大學高性能計算中心主任李南

據李南介紹,西湖大學的DeepSeek R1本地化部署經歷了三個階段,階段一是單卡獨立服務,階段二是多卡并行服務,階段三是優化多卡并行,最終達到總吞吐1054 tokens每秒,總輸出524 tokens每秒,總并發在100進程每臺。

此外,西湖大學還進行了更多的嘗試,包括在2臺8卡910B-64G上的國產平臺部署、1臺8卡H20-80G的Hopper平臺部署,以及2臺8卡H20-80G的FP8原始版部署。

李南表示,針對部署的各大模型進行了基準測試,包括MMLU、GPQA、MATH500、AIME2024以及LiveCodeBench等,發現國產平臺GPQA得分為73.74 (論文數據71.5),AIME2024得分為83.33 (論文數據為79.8),算是測試中的意外收獲。

西湖大學部署DeepSeek之后,也針對校內提供了服務,為為校內各項AI服務提供底層推理支撐。

小結


在此次論壇上,多位專家的分享內容翔實,為超智融合算力的運營運維提供了寶貴的實踐經驗和心得,并使得參會人員在隨后的交流中大獲裨益。

本次超智融合算力的可持續運營運維論壇的成功舉辦,為高算力場景下可持續化運維與運營實踐提供了可貴的一線經驗,必將有助于推動我國高校的超算、智算的進一步發展,為HPC、AI的深入應用建設更堅實的基礎設施。

由聯想CTO組織整體牽頭的聯想校企科研合作是聯想技術創新生態的重要一環。當前,聯想與高校的合作布局主要包括重點高校戰略合作計劃 (如上海交大、清華大學)、聯合實驗室計劃、聯想科學家計劃,中國計算機學會—聯想藍海科研基金計劃,以及中國人工智能學會-聯想藍天科研基金計劃等。致力于聯合聯想政教行業架構師與業務部門打造新型產學研合作新范式。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
毛主席雖活了83歲,保健醫生卻說:其實毛主席不具備長壽條件

毛主席雖活了83歲,保健醫生卻說:其實毛主席不具備長壽條件

老謝談史
2025-06-25 19:08:07
一父親發帖艾滋病兒子又進重癥監護室!打算把他送臨終關懷醫院…

一父親發帖艾滋病兒子又進重癥監護室!打算把他送臨終關懷醫院…

火山詩話
2025-07-25 06:51:52
炸了一夜,俄軍暴風驟雨反攻,匕首高超彈炸,首次開炸基輔地鐵站

炸了一夜,俄軍暴風驟雨反攻,匕首高超彈炸,首次開炸基輔地鐵站

老白觀天下
2025-07-22 15:53:02
國家為什么會強力保護私生子的繼承權?

國家為什么會強力保護私生子的繼承權?

伊歷史
2025-07-24 16:26:01
為什么有些女人覺得,只要稍微有點姿色和身材,就會嫁給高富帥

為什么有些女人覺得,只要稍微有點姿色和身材,就會嫁給高富帥

加油丁小文
2025-06-23 07:30:07
帕金斯列新賽季五大MVP候選人:東契奇第一,SGA排第五

帕金斯列新賽季五大MVP候選人:東契奇第一,SGA排第五

雷速體育
2025-07-25 12:27:59
現場追星樊振東,平野美宇害羞打招呼!日本世界冠軍秒變迷妹

現場追星樊振東,平野美宇害羞打招呼!日本世界冠軍秒變迷妹

陳意小可愛
2025-07-26 00:44:44
全新速騰L來襲,大屏新體驗等你來享

全新速騰L來襲,大屏新體驗等你來享

廣州時代車評
2025-06-16 15:33:15
CBA重磅交易即將達成?涉及四隊和三名球員,兩大狀元或重新換隊

CBA重磅交易即將達成?涉及四隊和三名球員,兩大狀元或重新換隊

老葉評球
2025-07-25 16:52:19
為何中年女人不喜歡去賓館,而傾向于在車里?

為何中年女人不喜歡去賓館,而傾向于在車里?

思絮
2025-07-24 20:21:16
全賣光了!貴州一家人套現42億,把爛攤子留給了8.8萬股民

全賣光了!貴州一家人套現42億,把爛攤子留給了8.8萬股民

毒sir財經
2025-04-25 22:21:31
一只鳳4:焦元東打電話求助加代

一只鳳4:焦元東打電話求助加代

金昔說故事
2025-07-25 18:32:32
本周一被湖人裁員!米爾頓加盟貝爾格萊德游擊 下賽季薪水120萬

本周一被湖人裁員!米爾頓加盟貝爾格萊德游擊 下賽季薪水120萬

直播吧
2025-07-25 08:47:05
事實證明:有激光雷達的新勢力,智駕干不過靠攝像頭的特斯拉

事實證明:有激光雷達的新勢力,智駕干不過靠攝像頭的特斯拉

車快評
2025-07-26 00:15:22
實力相差太大!國足邀請賽對手曝光,阿根廷無緣復仇國足

實力相差太大!國足邀請賽對手曝光,阿根廷無緣復仇國足

體育吐槽
2025-07-25 23:34:52
劍指總冠軍,火箭隊全面升級!美媒評14人豪華名單:KD成破局關鍵

劍指總冠軍,火箭隊全面升級!美媒評14人豪華名單:KD成破局關鍵

鍋子籃球
2025-07-25 23:16:53
阿婆在派出所旁擺小攤9年,無人驅趕,所長調任她塞包裹:這給你

阿婆在派出所旁擺小攤9年,無人驅趕,所長調任她塞包裹:這給你

紅豆講堂
2025-07-25 11:36:29
吳邦國的父親吳忠性簡介:解放前拒絕去臺灣,被譽為“測繪將軍”

吳邦國的父親吳忠性簡介:解放前拒絕去臺灣,被譽為“測繪將軍”

方圓文史
2025-06-03 23:59:44
馬德興:U17亞洲杯預賽8月7日抽簽,中國國少成東道主+種子隊

馬德興:U17亞洲杯預賽8月7日抽簽,中國國少成東道主+種子隊

懂球帝
2025-07-25 15:42:26
37歲男子和19歲女大學生戀愛,雙方父母均已同意,男生:羨慕哭了

37歲男子和19歲女大學生戀愛,雙方父母均已同意,男生:羨慕哭了

唐小糖說情感
2025-07-25 17:50:21
2025-07-26 01:36:49
DT Value
DT Value
關注數據價值,企業數字化變革
965文章數 1158關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

游戲
時尚
房產
數碼
公開課

《無主之地4》已開發完畢進廠壓盤

今年夏天一定要有這件衣服,好看又復古!

房產要聞

分數線集體飆漲!海中867分!2025海南中招格局大變!

數碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 德令哈市| 徐闻县| 蓬莱市| 漾濞| 广丰县| 邻水| 冀州市| 乳山市| 汝南县| 木里| 乌拉特中旗| 铜川市| 石楼县| 北票市| 建湖县| 上高县| 馆陶县| 定远县| 武功县| 红原县| 西乌珠穆沁旗| 北辰区| 卢氏县| 彩票| 峨眉山市| 星子县| 东乡族自治县| 巴林左旗| 萨迦县| 平利县| 滦南县| 高唐县| 镇康县| 恭城| 娄烦县| 苍山县| 柞水县| 苏尼特右旗| 铜川市| 双城市| 寿阳县|