從去年開始,大模型的出現“一石激起千層浪”,將人工智能推到了前所未有的高度。
隨著智能算力“流”入千行百業,越來越多的行業場景與人工智能相結合,從智慧醫療,智慧金融,智慧城市再到無人駕駛,智能化轉型延伸到各行各業的方方面面。麥肯錫的報告也預測:到 2040年,生成式 AI每年可為全球經濟帶來 2.6萬億至 4.4萬億美元的增長。
越是巨大的市場機遇,越需要穩固的“底座”,否則就會成為“空中樓閣”。無疑,智能算力就是行業智能化時代的“算力底座”。
如何讓這個“算力底座”發揮最大的能量,解決異構智算帶來的諸多挑戰就是當前的重中之重。由聯想、中國智能計算產業聯盟和異構智算產業生態聯盟,共同出品的《異構智算產業趨勢與技術白皮書》正是為此而來。
01
智算崛起,標準先行
智算時代,最典型的特征就是算力的異構化。
異構算力通常由 CPU、 GPU、 FPGA、 ASIC等不同的算力處理體系組成,這些不同類型的處理器各自具有獨特的優勢,能夠滿足不同場景中的應用需求。通過將它們組合在一起,可以實現計算資源的優化分配和高效利用,進而實現計算效力最大化。
換言之,要發揮智算的最大價值,就必然要走通異構算力體系的路。
異構智算,最大的挑戰就是要構建開放的平臺,能夠適應和兼容各種技術體系。同時還要通過智算平臺,能夠把這些技術傳遞給上層應用,賦能千行百業。
聯想中國基礎設施業務群戰略總監黃山
聯想中國基礎設施業務群戰略總監黃山說:“在這本《白皮書》當中,聯想起到的主要是協調的作用,我們邀請了各個權威機構的專家和生態伙伴,并從聯想異構智算的案例集當中優選了十大案例,進行了集中的呈現,希望可以做到‘他山之石可以攻玉’,為智算產業的發展帶來指引。”
《未來呼嘯而來》中提出:未來的創新將不是單向式、重度垂直的,若干個重要領域的創新需求之間,會突然產生 “疊加效應 ”,并改變我們的生活。智算生態,也是由產業鏈當中處在不同環節的標準機構和企業,將力量疊加,產生的“合力”推動了整個產業的發展。
中國電子技術標準化研究院云計算研究室副主任陳志峰
中國電子技術標準化研究院云計算研究室副主任陳志峰表示,“異構智算最終是要用起來。無論是要解決煙囪化,兼容性,還是軟硬件融合等問題,標準的建立是非常重要的,從芯片層一直到應用層,所有的生態伙伴一起來群策群力,共同讓智算的生態繁榮起來。”
英特爾首席云架構師胡明月
對于標準化,英特爾首席云架構師胡明月則強調,“不能忽略的一點是,如果在封閉的系統里,連接的成本其實很高,所以英特爾更強調系統的開放性,希望用通用的標準去實現連接。”
恰如所言,智算是一個與通用算力截然不同的賽道,在百花齊放的基礎設施架構下,發揮算力的最大效能,標準先行的確是應時之舉。從這個角度,《白皮書》的發布本身,也是希望通過推動標準的落地,以及相關行業內的標桿案例展示,為智算深入各行各業,成千上萬的場景提供幫助。
02
如何解決
異構環境下的算效問題
根據 IDC數據預測, 2027年中國智能算力規模將達到 117EFlops,是 2024年 2.3倍,增速將達通用算力 2倍及以上,算力規模的擴大為智算帶來了很多挑戰。
聯想萬全異構智算平臺專家郭晉兵
聯想萬全異構智算平臺專家郭晉兵說:“大模型為智算帶來了新的問題,就是它的集群規模會越來越大,一方面對智算的需求也變得大,另一方面也會帶來了算力性能損失和算力多樣化的問題。”
陳志峰也表示:“現在很多企業都在建萬卡集群,甚至十萬卡集群,在這么大的規模下,就一定會存在多種卡并存的情況,異構化的大模型智算集群已經是大勢所趨,自然也會遭遇到統一管理、資源隔離、算力調度、任務分配等難題,所以異構智算的管理平臺建設是一個關鍵。”
聯想萬全異構智算平臺,正是為了解決這些痛點而來。“萬全異構智算平臺,不僅僅是為了解決異構智算統一管理的復雜性,也是為了發揮異構算力的最大價值,因為經過我們的觀察, GPU卡作為系統中最貴的組件,實際的利用率并不高,目前平均只有 30%左右。”黃山說。
引起智算效率普遍不高的原因,其實是異構算力軟硬件融合情況不夠好所帶來的。
因為,過去芯片都是煙囪式的,都在構建自己的軟硬件架構。但是,不同服務器類型、網絡類型和存儲類型之間的排列組合,會是一個復雜的矩陣。每個矩陣只有配置完整之后,才能順滑的跑通上面的應用。而每個矩陣都有每一個矩陣的特性,用戶需要在數百種配置當中去決策,無形中帶來了很多困難。
據郭晉兵介紹,聯想萬全異構智算平臺的五大能力之首,就是算力匹配魔方。基于海量的硬件評測和 AI算子算法集成工作,聯想構建了 AI場景與算法與集群硬件三者匹配關系的算力魔方知識庫。用戶只需輸入場景和數據,系統即可自動加載最優算法和調度最佳集群配置,極大地簡化了選擇驗證過程。
除此之外,平臺內置的 ? GPU內核態虛擬化 ?救贖,能夠大幅提升 GPU的利用率 , vGPU的利用率可以從 80%提升到 95% ?。另外,集合通信算法庫 ?可以使訓練效率提升 10%~ 15% ?;再有 AI與 HPC集群超級調度器,能夠在 1小時內自動完成跨集群資源調度和共享。
“萬全異構智算平臺實際上要解決就是兩件事:一是打破傳統算力的煙囪式架構,二是超智融合,讓算力在智算和超算兩套系統中平滑遷移,并發揮最大效能。”黃山說。
03
生態共進
以智算為產業打造“長尾”
說到算力在不同算力系統中平滑流轉,這與天數智芯的技術實踐其實不謀而合。
天數智芯副總裁兼客戶項目部總經理宋煜
天數智芯副總裁兼客戶項目部總經理宋煜提出:“今天的數據中心當中,實際上會擁有不同廠商的通用 GPU,或者同一家廠商的不同代際的 GPU。無形中就出現一個問題:算力沒有辦法融合在一起,這就是算力孤島或者資源墻。”
打破資源墻,讓不同代際甚至不同廠商之間的 GPU,聯合在一起支持大模型的訓練,就要建立一個異構、統一的計算底座,支持大模型在混合異構的集群里去做訓練。一個關鍵的技術點,就是不同的 GPU之間如何通信。
而天數智芯的解決方案就是要解決這個問題,在混合異構集群中兼容不同品牌的 GPU,同時還要確保不同 GPU之間的數據交互是準確的。那么如何去判斷混合異構集群的性能不輸于單一 GPU集群?
宋煜給出了一個很好的解決方案:“比如有兩個單獨的集群,分別是 NV集群和天數集群。單獨訓練時的峰值效率求和所得的百分之比,如果與各自集群原生算力的峰值效率相當,就解決了客戶對混合異構集群算力效能的擔憂。事實證明,我們的混合集群的峰值效率可以達到 92%與單一 GPU集群的效率相當。”
我們不難看出,在生態各界的攜手之下,異構智算的前景一片光明。
談到未來,黃山相信,“未來的推理市場會加速,這個市場選擇的不再是大規模算力,而是垂直的方案,軟硬融合的方案,這也是聯想未來會持續去優化的方向。”
可持續發展性,則是胡明月更為關注的點,他提出,“隨著集群規模越來越大,功耗也會越來越大。不可避免地就采取各種各樣的制冷措施,我們和聯想也會共同推動一些制冷的技術標準。”
宋煜表示,“聯盟中所處不同位置的伙伴,看到的問題和需求是不同的,比如端側的推理可能會有好的產品組合出現,我們也希望通過產品的迭代能夠去參與到其中,和伙伴一起提供完整的解決方案,讓客戶能夠享受到智算的紅利。”
而對聯想來說,“我們也希望能夠針對不同行業的客戶,模型的變化和應用的變化,去細分算力的需求,通過更為精細化的方式,與生態伙伴們共同去滿足日益增長的智算需求。” 郭晉兵說。
我們認為,大模型的風口終將成為過去式,但由此引發的智算變革,乃至更為深遠的行業智能化轉型會是長期持續的進程,解決了異構智算的供需問題,就等于為整個產業創造了“長尾效應”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.