導讀:優化大模型算力瓶頸,軟件平臺同樣重要。
2023年,AI大模型掀起的新一輪人工智能應用熱潮,加劇了AI算力的供不應求。廣發證券分析預測,國內AI大模型在訓練與推理階段或產生相當于1.1萬臺至3.8萬臺高端AI服務器的算力需求,對應126億元至434億元增量AI算力市場規模。
解決算力缺口需要雙管齊下。最顯而易見的是硬件瓶頸,在算力供給不足的情況下,需求暴漲進一步提升了算力投入成本。另一條路徑則是通過軟件平臺提升算力平臺效率。如何讓每一塊AI芯片發揮更大的算力效能,不是砸錢堆硬件可以解決,而是一個復雜的系統工程,關系到每一家想要用好大模型的企業的投入產出比。
不久前,在2023全球人工智能產品應用博覽會上,一款讓AI大模型開發與部署降本增效的軟件平臺拿下了智博會“產品金獎”,它就是浪潮信息智能業務生產創新平臺AIStation。AIStation的獲獎,體現出算力平臺效率已經受到AI產業界的重點關注。
大模型賽道,算力平臺效率成新挑戰
根據科技部新一代人工智能發展研究中心發布的《中國人工智能大模型地圖研究報告》,我國研發的大模型數量排名全球第二,截止目前國內已發布79個10億參數以上大模型。“百模大戰”推動下,對算力的需求遠遠超過算力增長速度。
大模型對算力的消耗非常驚人。根據Wikipedia的數據,GPT-3的計算需求約為3640 PetaFlop/s-day, 約等于64個A100 GPU訓練1年時間。這就讓大規模算力的靈活使用、高效調度成為大模型訓練的基本要求。
大模型的算力基礎設施是一個包含計算、網絡、存儲、框架等在內的系統性分布式訓練環境。網絡、存儲、計算每一項基礎資源的使用效率,都影響著算力平臺的效率,進而影響到大模型整體的訓練進度和部署效率。
在計算層面,多元異構芯片的統一調度和高效管理是首要問題。目前市面已經有近一百種AI算力的芯片,不同的AI應用場景對算力的需求不盡相同。比如,AI訓練需要使用精度低的16位浮點計算,AI推理則適合使用INT8或者INT4精度。此外,龐大的算力節點規模還會帶來算力使用效率衰減的問題。
在存儲層面,大模型訓練所需的海量數據對存力提出更高的要求,大模型需要大量的數據預處理和準備工作,這些都讓企業面臨嚴峻的數據處理和加速挑戰。
在網絡層面,大模型訓練和推理往往需要成千上萬顆GPU芯片,如何把海量GPU連接起來形成超級計算集群,對網絡規模、網絡帶寬、網絡通信優化都提出更高要求。
以往針對算力平臺效率,傳統模式往往采用針對計算、存儲、網絡的分散化管理,不僅效率低,而且缺少針對性優化的整體調度系統,導致大規模計算平臺的整體協同性較差,訓練算力效率低。
為了提升AI算力平臺的效率,早在2019年浪潮信息就發布了AIStation,主打的就是一站式AI算力資源調度管理。通過對計算資源、數據資源、深度學習軟件棧資源進行統一管理,AIStation能有效提升大規模AI算力集群的可用性和表現性能。
在大模型時代,AIStation的價值更加凸顯。算力效率直接影響到大模型訓練時長以及算力消耗成本,因此更高效的算力資源管理平臺,不僅可以幫企業節省成本,更重要的是可以更快將模型應用落地,搶占市場先機。
AIStation如何讓大模型更易用更高效
那么,AIStation對算力平臺效率的實際價值如何?
目前,包括千億參數大模型、大型商業銀行、樞紐智算中心、前沿科技企業都已成功驗證了AIStation的效果。
比如,2457億參數的“源”大模型就是借助AIStation完成高效訓練的。據公開資料表明,GPT-3大模型在其V100 GPU集群上的訓練算力效率為21.3%,而在AIStation的加持下,浪潮信息“源1.0”的訓練算力效率則達到了44.8%。
在某大型商業銀行,AIStation幫助完成底層算力資源統一調度,將AI模型訓練周期由1周下降為1個工作日,支持AI業務場景快速上線。AIStation還助力智能駕駛企業縱目科技將模型訓練的算力資源利用率由70%提升至90%,模型訓練效率提升了35%,加速了智能駕駛應用創新。
這些成績背后,離不開AIStation的三大優勢:
第一, 一站式管理,秒級構建訓練環境
在多元異構算力方面,AIStation可以支持30多款國內外最頂尖的AI芯片,涵蓋CPU、GPU、FPGA以及更廣泛的AIPU芯片。針對大模型底層的異構算力集群,AIStation實現了統一池化管理,而且通過自研分布式任務自適應系統,實現了訓練底層的計算、存儲、網絡環境自動化配置。通過多種資源高效管理和調度策略,AIStation能實現萬卡集群的毫秒級調度,提升整體資源利用率到70%以上。
同時,AIStation集成主流的大模型訓練框架,依托容器化技術支持秒級構建運行環境,從而簡化大模型訓練前大量的環境配置、依賴庫適配和超參數調整工作,讓開發者將時間精力集中在最重要的模型開發訓練環節。
第二,優化計算、存儲、網絡效能瓶頸,保障大模型訓練的健壯性與穩定性
AIStation通過鏡像分發加速、數據緩存加速、網絡拓撲調度、資源動態彈性伸縮的等特性,在大模型訓練過程中提升算力平臺整體效率。
在數據瓶頸方面,AIStation的數據緩存機制可以避免訓練數據重復下載,讓模型訓練效率獲得200%-300%的提升。通過網絡拓撲優化與分布式通信優化的結合,大模型的分布式訓練線性加速比高達0.9,有效抑制多節點協同的性能損耗。
第三,訓練推理一體化,算力資源彈性伸縮
AIStation可打通大模型訓練和推理的全流程,并按需響應大模型實際應用中的調用突發性。其可根據業務變化實時調配算力資源,實現秒級服務擴縮容,支持百萬級高并發的大規模AI推理服務場景,服務響應平均延遲低于1ms。
基礎設施加速大模型普惠
AI時代,算力、算法、數據各個層面都將涌現出一大批基礎設施,大模型就是其中之一。
英偉達CEO黃仁勛曾表示,大模型正在降低應用開發門檻,所有應用都值得用大模型重做一次。大模型時代,所有企業都在思考如何讓大模型能力為我所用。
正如,電力時代不是所有企業都需要自建發電廠一樣,只有少數技術、資金實力雄厚的企業需要研發基礎大模型,數量更廣泛的企業則可以依托基礎大模型結合具體場景進行微調,開發豐富的行業大模型、細分場景大模型,加快AI在各行各業的落地創新。
在加速大模型普惠的道路上,相比網絡、存儲、計算等硬件資源,高質量的軟件平臺同樣重要,尤其是軟件的工程化、易用性、完備性都是影響大模型訓練與落地的關鍵。目前,通過系統性軟硬一體優化的平臺與軟件棧能力加速大模型落地已經成為行業共識,各大人工智能企業都在強化圍繞大模型的軟件平臺能力。
在AI基礎設施方面,浪潮信息AIStation在調度多元算力、提升算力效能、降低大模型開發應用門檻方面,已經探索出不少成功實踐。而且,AIStation并非孤軍奮戰,通過與其他AI基礎設施的融合打通,正在為國內AI開發者提供完善的AI開發生態。比如AIStation與作為算法基礎設施的“源”大模型、作為算力基礎設施的智算中心、開放的元腦生態伙伴能力相結合,將為國內AI產業創新提供堅實底座。
大模型時代,算力效率已經成為決定企業創新效率的關鍵。相信未來將涌現出越來越多AIStation這樣的一站式創新平臺,進一步釋放大模型的應用價值,加速大模型落地千行百業。
打造良好的大模型產業生態,未來浪潮信息將通過更多的方式提供與承載大模型能力,推動與迎接大模型新時代。
本文為「智能進化論」原創作品。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.