現如今,“百模大戰”已經成為中國面向AIGC大模型競爭激烈最外在的體現。與此同時,面對生成式AI開發與應用場景,如何提供從集群系統環境部署到算力調度保障和大模型開發管理的全棧全流程,降低大模型算力系統的使用門檻、優化大模型的研發效率,保障大模型的生產與應用的諸多挑戰和障礙也浮出水面,而何以應對將直接關系著大模型應用及未來的進一步發展。
政策與趨勢雙重利好,AIGC呈現“百模大戰”之勢
提及AIGC大模型,從2020年 GPT-3發布以來,OpenAI等國內外的科技企業和研究機構通過零樣本學習(Zero-ShotLearning)、提示詞工程(PromptEngineering)、指令微調(SFT)、人類反饋強化學習(RLHF)等諸多技術創新,找到了有效使用大模型的技術范式。而2022年底發布的ChatGPT更是成功引爆了公眾對于生成式人工智能的熱情。
進入到今年,國內外針對生成式AI的投資激增,微軟、谷歌等眾多科技公司都在開發生成式AI模型。截止到2023年7月,僅國內發布的生成式AI模型已經超過了100個,呈現出“百模大戰”之勢。
究其原因,從政策層面,,中央政治局召開會議,指出要重視通用人工智能發展,營造創新生態,重視防范風險。而為貫徹落實國家相關決策部署,《若干措施》提出,要“系統構建大模型人工智能技術體系”、“推動通用人工智能技術創新場景應用”。《行動方案》也強調,要打造全域全時場景應用,推進“千行百業+AI”,孵化高度智能化的生產機器人;通過大力推進通用人工智能和政務服務、醫療、金融等各個領域的融合發展,有效實現數據、算力、算法計算機行業點評的復用,大大拓展大模型的價值邊界。
除上述國家相關政策外,《北京市促進通用人工智能創新發展的若干措施》、《上海市促進人工智能產業發展條例》《上海市加大力度支持民間投資發展若干政策措施》以及《深圳市加快推動人工智能高質量發展高水平應用行動方案(2023-2024年)》等相關政策也相繼出臺和實施。
由此不難看出,從國家到地方,關注通用人工智能的系統建設,探索通用人工智能新路徑,推動創新場景應用已經成為業內的思想共識、政策共識和發展共識。
另一方面,大模型的開源開放進一步激發了學界和社區的熱情。例如Meta在2023年3月開源的LLaMA(羊駝)大模型在短短的幾個月時間內就演化出了蓬勃發展的一個大模型社區,基于LLaMA進行衍生開發的大模型包括Alpaca、BELLE、Vicuna、 Koala、Orca等。
此外,Falcon、MPT等眾多模型的開源進一步豐富了社區生態,促進了業界對AIGC的應用落地探索。當前,基于大模型技術的創新應用已經開始廣泛地進入到日常生活和辦公之中,這些系統包括大型語言模型聊天機器人,如ChatGPT和Bard;辦公助手MS officecopilot、筆記AI助手notion AI和編程助手GITHUB copilot等。
智算成驅動AIGC發展核心引擎,系統性挑戰顯現
面對上述政策與趨勢帶來的利好,智算是驅動AIGC發展核心引擎自然也成為業內的共識,但隨之而來的則是算力瓶頸、數據瓶頸和算法瓶頸的出現,并直接影響到了業內大模型的開發、構建及應用效率。
據統計,以ChatGPT的總算力消耗3640PFdays計算,需要7—8個投資規模30億、算力500P的數據中心支撐運行。盡管如此巨大的投入,GPT3的集群訓練效率僅為23%。雖然硬件改進可以降低FLOPs成本,但大模型的持續升級,使得算力的總成本一直在增加。相比之下,同為大模型的源1.0的算力效率則達到45%,名列前茅。
那么業內不禁要問,造成上述瓶頸,并導致最終實際應用效率迥異的原因是什么?
對此,浪潮信息高級副總裁劉軍認為,“通過源1.0這樣千億級別大模型的工程實踐,我們成為了業內少有的既是算力基礎設施(懂算力),同時又懂大模型的廠商。而現實是,有好多做算力基礎設施的不懂模型,做模型的又不懂服務器、算力和系統,這個時候,二者兼具的優勢就在實踐中體現出來了”。
其實在我們看來,劉軍解釋的背后從另一個角度反映的是當下面向AIGC的大模型發展中造成瓶頸,并導致最終實際應用效率迥異的系統性挑戰的顯現。
具體表現為,面向AIGC大模型的構建、開發和應用,算力平臺的構建已不僅僅是服務器、存儲、網絡等硬件設備的集成,也有諸多設備軟硬件兼容性和性能調教上的know-how。需要考慮不同硬件和軟件之間的兼容性和版本選擇,確保驅動和工具的適配性和穩定性。
例如在InfiniBand、RoCE網絡的配置和驅動安裝上會遇到一些復雜的網絡設置和驅動安裝問題。由于涉及到用戶管理,GPU運行基礎環境,并行文件系統等多個組件的安裝和配置,往往需要依賴豐富的經驗,整個部署過程會比較復雜,例如在實際的生產環境中,安裝和配置集群需要兼顧性能和穩定性的考慮,為了確保系統的高性能和穩定運行,需要驗證在不同的硬件環境下的軟件適配,優化包括BIOS,操作系統,底層驅動,文件系統和網絡等多個指標,找到最優的選擇這個過程耗時耗力,容易貽誤算力的上線時間。
這里需要補充說明的是,大模型訓練過程比傳統的分布式訓練復雜,訓練周期長達數月。集群計算效率低、故障頻發且處理復雜,會導致訓練中斷后不能及時恢復,從而會降低大模型訓練的成功概率,也會使得大模型訓練成本居高不下。
在大模型的算法開發層面,從PB級數據的爬取、清洗、過濾和質檢,到大規模預訓練的算法設計、性能優化和失效管理;從指令微調數據集的設計到人類反饋強化學習訓練的優化,冗長的開發鏈條意味著需要諸多工程化工具的支撐。
在大模型的部署與應用層面,在當前商業模型與開源模型能力表現各有專長的現狀下,如何選擇最為合適的基礎模型,以及如何基于基礎模型和行業特點,打造應用,實現大模型的落地依然是當前大模型在部署和應用上的最大挑戰。
綜上,在我們看來,業內亟需從系統層面為未來大模型的良好生態發展尋找最優解,即通過構建高效穩定的智算系統,深耕發掘系統部署、集群優化,資源調度,數據處理、訓練加速、算法優化等全面的能力,讓煉大模型更省時、省力,讓大模型更快、更穩、更智能。
對癥下藥,OGAI呼之已出的邏輯
所謂對癥下藥。為了應對大模型發展中,呈現出的算力平臺、算法開發及部署和應用層面的挑戰,作為AI基礎設施系統級廠商的浪潮信息日前正式發布了“大模型智算軟件棧OGAI”。
那么問題來了,浪潮信息發布大模型智算軟件棧OGAI的技術邏輯是什么?
對此,浪潮信息人工智能與高性能應用軟件部AI架構師Owen ZHU解釋稱,“原來客戶買一個服務器就可以直接使用,但隨著AIGC對于算力需求的持續增加,部署的服務器越來越多,甚至要構建和使用集群,這導致算力基礎設施已經像一部性能強大的法拉力跑車面向普通駕駛者難以駕馭一樣,光把硬件設備買回去已經不足以滿足他們做大模型的需求,而OGAI的目的和出發點則是在提供硬件(例如服務器、集群構建等)的基礎上,進一步幫助他們去解決自身做大模型構建和應用可能遇到的問題,是針對每一層提煉了我們看到的與AIGC大模型相關的作業環境里面的關鍵問題,并通過自身以及我們服務客戶的實踐,提供軟件以及對應的方案幫助客戶構建、開發和應用大模型效率的提升”。
事實真的如此嗎?
縱觀該軟件棧,其由5層架構組成,從L0到L4分別對應于基礎設施層的智算中心OS產品、系統環境層的PODsys產品、調度平臺層的AIStation產品、模型工具層的YLink產品和多模納管層的MModel產品。
其中L0層智算中心OS面向智算中心等公共算力服務平臺,面向多租戶場景,提供靈活多樣的裸金屬AI算力服務;L1層PODsys聚焦智算集群部署場景,提供了包括基礎設施環境安裝、環境部署、用戶管理、系統監控和資源調度一整套工具鏈,提供易用、高效、開放、兼容的智算集群系統環境部署方案;L2層AIStation面向AI開發場景, 通過云原生技術對集群系統中的計算資源、存儲資源和網絡資源進行統一的接入和納管,提供了易于使用的開發環境和作業管理界面,并基于內置算力調度系統和訓練穩定保障系統來實現易于接入、按需分配、彈性擴展和和高效穩定的AI研發應用支撐平臺;L3層YLink針對大模型的開發過程,通過集成整合浪潮信息在大模型研發過程中的工具和開源工具,為用戶提供高效、便捷與標準化的大模型開發與優化流程;L4層MModel定位于多模型管理與服務平臺,幫助客戶更好的管理和評估模型,加速模型的部署和應用。
從上述OGAI的構成,相信業內很容易發現,OGAI是提供從集群環境搭建到算力調度,再至大模型開發的全棧軟件,并覆蓋了大模型從數據處理、預訓練和模型微調工具到多模型管理的整個研發流程工具鏈。而為了滿足大模型計算對算力的需求,OGAI在不同的層次強調了性能優化,從服務器BIOS的調教到大規模集群組網性能和算力調度策略的多尺度、多層次的性能優化,來充分釋放智算集群性能。另外,OGAI也融合了浪潮信息此前在MLPerf性能評測、服務客戶實際需求、源大模型開發中的最佳實踐。需要說明的是,OGAI采用的是分層解耦設計,這意味著用戶可以根據自身的需要各取所需。
最后,值得一提的是,OGAI不僅是一款智算軟件棧。未來,基于浪潮信息元腦生態平臺,通過聚合元腦生態力量,將各類通用模型、行業模型、工具和技術能力進行整合,共同推動大模型技術在千行百業的落地和應用。
“助百模,智千行”,是指“百模”領先的科技公司都希望把自己領先的模型能力能夠落地到我們的企業和行業用戶及應用場景中。我們要給它設計如何實現的適合的商業通道,就是浪潮信息的元腦生態。在這個生態中,大模型和AI科技公司是左手伙伴,還有連接最終行業、企業客戶的右手伙伴,即系統集成商、軟件開發商等。而浪潮信息把這兩類伙伴聚集在元腦生態中,彼此攜手,就可以實現一個N×M的效應,讓模型伙伴領先的能力快速落地。劉軍進一步解釋了業內關心的OGAI未來助力AIGC產業化落地的路徑。
寫在最后:中國有句俗話:飯不是最后一口才吃飽的。縱觀當下的“百模大戰”,雖是百花齊放,但也不乏好高騖遠者,例如有些企業推出了集訓練和推理于一身的所謂大模型一體機,而從實際情況看,如何做好基礎大模型的預訓練、基于開源和第三方大模型的微調、針對自身需求大模型的正確選擇才是目前客戶面臨的最大挑戰和痛點,而能否很好解決這些挑戰和痛點,決定著推理的效率乃至最終商業化落地的進程和效率。
從這個角度看,我們認為OGAI的推出可謂適逢其時,是直擊目前面向AIGC大模型用戶痛點的清障之舉。而唯有如此,“助百模,智千行”才真正可期。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.