近年來,AI技術的崛起,加速推動數據中心等基礎設施全面走向重塑。
然而,與AI服務器、AI芯片等炙手可熱相比,BMC(Baseboard Management Controller,即基板管理控制器)固件似乎并非聚光燈下的主角,卻又在基礎設施演進中發揮著不可替代的作用。尤其是AI應用井噴、AI集群規模愈發龐大、數據中心各類設備數量持續攀升的背景下,服務器的BMC固件堪稱解鎖大規模多元算力基礎設施運維管理的“金鑰匙”。
正所謂見微知著、睹始知終,作為大規模算力基礎設施的運維管理的關鍵,BMC固件自身在AI時代也在發生巨大變化。以OpenBMC為代表的開放固件,全面驅動著BMC固件技術走向開放與協作,從產業生態、產品技術和解決方案等方面突破傳統技術的瓶頸,探索出基礎設施運維管理的共贏之路。
近日,《BMC開放固件產業報告》(以下簡稱:《報告》)出爐,不僅總結開放固件產業十年發展狀況,更展望BMC管理技術未來的演進趨勢和方向,標志著開放固件產業以積跬步至千里、積小流成江海的態勢,全面開啟產業快速發展的新篇章。
傳統技術路線瓶頸凸顯
在算力基礎設施向多元化演進,算力架構全面轉向以加速器為中心的趨勢下,傳統BMC固件的技術路線正遇到巨大的瓶頸。
究其原因,人工智能、大數據、云計算等多樣性業務應用的驅動,使得算力基礎設施發生根本性變化,基礎設施的監控管理需要在架構兼容性、平臺適應性及業務場景靈活支持等方面適配全新的需求。AIGC的爆發,給數據中心等基礎設施帶來一系列全新的挑戰,也是BMC固件加速變革的重要時間點。
面對這些變化,傳統BMC固件技術逐漸“捉襟見肘”。
其一、無法滿足多處理器平臺架構的兼容性需求,傳統BMC固件采用耦合設計,架構封閉且可擴展性差,難以適配多元算力芯片、用戶需求的多樣性和業務場景的快速變化;
其二、固件開發迭代與算力快速發展嚴重不匹配,傳統IBV Codebase長達半年乃至一年的固件迭代周期,與AI時代多元異構算力芯片的快速迭代周期脫節,加上傳統固件處理問題效率低下,嚴重制約了算力基礎設施的快速演進。
其三、封閉生態與快速變化的創新需求矛盾突出,傳統BMC采取閉源模式與嚴格的許可協議,限制用戶對于固件的分發、修改與定制化開發,難以滿足數據中心對基礎設施運維管理的標準化、智能化和精細化等需求。
傳統IBV還是以封閉架構為主,代碼轉發受制于商業考量,需要付費授權等,從最重要的客戶側來看,國內外一些大型互聯網、CSP廠商均在加速從傳統方案向開放性方案遷移。
事實上,與數據中心硬件開放的大趨勢一樣,BMC固件在傳統技術瓶頸凸顯之際,也全面走向開放。以OpenBMC為代表的開源項目,通過十年時間的耕耘,為開放固件產業的發展夯實了牢固的生態、技術基礎。
OpenBMC十年,開放固件產業成型
開放與協作是BMC固件領域近年來最大的呼聲。
如今,開放固件已然形成產業良好發展的態勢,哪怕是傳統BMC技術方案商,也在積極擁抱開源項目和推出開放固件場景。這一切源于2014年OpenBMC開源項目的成立,以及數據中心用戶、系統廠商、芯片廠商等產業上下游伙伴之后的持續推動。
《報告》就指出,OpenBMC相較傳統BMC固件,在技術架構、開發模式上具有顯著優勢,通過高度可擴展的軟件框架、歸一化的接口,實現多元算力的兼容適配,并提升平臺的穩定性,為產業聯合創新提供統一的平臺。2024年可謂是開放固件產業化落地的元年。上至用戶側,下至芯片廠商,均在積極擁抱基于OpenBMC的開放固件方案。
OpenBMC之所以能成功引領開放固件產業的快速發展,首先離不開過去十年產業界上下游伙伴的廣泛參與,并形成良性的產業生態。從2014年OpenBMC項目正式成立,到后續國內外互聯網公司、CSP廠商陸續加入,再到2018年Linux基金會正式接納,OpenBMC項目用十年時間建成完善的產業生態和活躍的技術社區。
目前,OpenBMC社區用戶涵蓋最終用戶、處理器廠商、系統廠商、IBV等43家企業;2018年至2024年9月,OpenBMC代碼貢獻量每年超過25萬行,社區持續保持高度活躍狀態,在CSP客戶的大規模數據中心,部署節點均已超過上萬臺,像IBM、Intel、AMD、浪潮信息等上下游企業均積極參與,其中浪潮信息已連續5年在社區代碼貢獻榜中穩居中國第一。
其次,OpenBMC在技術層面經過十年的打磨,穩步構建起層次分明、易于擴展、穩定性強的開放軟件框架,并且與Linux開源生態深度整合,廣泛兼容多種處理器平臺與算力芯片,支持快速、靈活的模塊化開發與適配,采用C++面向對象編程也極大地豐富了函數庫資源和提升開發效率。
更為難得的是,OpenBMC遵循Apache 2.0開源許可,徹底打破過去傳統BMC封閉開發的模式,鼓勵代碼自由使用、修改和分發,大幅提升開發效率和技術創新活力。
OpenBMC軟件架構
第三,OpenBMC真正成為技術創新的催化劑,成功將用戶快速變化的場景需求與技術創新進行對接,讓快速響應、高效創新切實可行。
相比于一些傳統IBV廠商的產品,OpenBMC在BMC如何與AI融合、精準預測等均走在產業探索的最前沿,功能創新和性能等方面更具優勢。
例如,隨著大模型進入到各行各業,萬卡規模的AI集群也越來越多,但是AI集群隨著規模的持續增加,遇到突出的挑戰就是內存故障而引發的大量訓練任務中斷,嚴重影響到大模型的訓練效果和AI應用創新。這是當前乃至今后很多用戶均會遇到的挑戰,但如果依靠傳統BMC技術的迭代方式和開發速度,顯然很難滿足市場中的新需求。
對此,作為OpenBMC項目的深度參與者,浪潮信息快速創新,成功研發內存故障智能預警修復技術,基于對上萬臺服務器故障數據的建模分析和AI模型算法的訓練,從內存故障提前預警、內存錯誤實時隔離、內存故障智能修復等技術層級創新,實現在架構設計、錯誤類型、防護等級等方面全面增強,讓內存故障導致的服務器宕機風險降低80%+,保障客戶業務高效穩定運行。
開放固件產業壯大,OpenBMC任重道遠
問渠哪得清如許,唯有源頭活水來。
如今,憑借開源共享的理念和前沿的技術架構,OpenBMC實現對服務器管理市場格局的重塑,打破了傳統BMC市場的高門檻和專有技術壁壘,大幅提升市場創新活力,贏得產業鏈上下游的廣泛認可和積極參與,成為開放固件產業的創新源頭和活水,推動開放固件產業的建立和穩步發展。
不過,要想讓開放固件產業持續壯大,OpenBMC依然任重道遠,需要在標準化、產業拓展和生態協同發展等方面持續下功夫,逐步形成可持續的發展模式,真正滿足更加廣泛的市場需求。
首先是如何加速標準化的進程,逐步破解兼容性與互操作性難題。越來越多產業伙伴、用戶加入其中,OpenBMC對于標準化的進一步深化,無疑將有助于降低系統整合的復雜性和提高不同設備之間的互操作性,提升數據中心運維效率與穩定性。
例如,近年來《服務器基板管理控制器(BMC)技術要求》與《服務器基板管理控制器(BMC)測試方法》等一系列關鍵標準的頒布,對于BMC固件的規范化發展奠定堅實基礎。后續,隨著更多標準化舉措的實施與完善,BMC開放固件的標準化水平也有望得到持續提升。
第二,OpenBMC用十年時間征服了互聯網公司、CSP廠商,接下來最重要的工作就是如何實現行業、應用場景的延伸與擴展,逐漸延伸到金融、運營商等行業之中。眾所周知,金融、運營商等傳統行業由于自身業務的需求不同,對于BMC固件的穩定性、可靠性要求更高,對于像OpenBMC等開源方案也會更加謹慎。但隨著開放固件在技術上的成熟,加上有互聯網的標桿效應,像金融等傳統行業也會積極擁抱OpenBMC。
第三,OpenBMC社區的繁榮發展,參與者越來越多,不可避免地會出現版本分化的情況出現,影響系統的統一性和兼容性,需要OpenBMC項目在保持開放性的同時,也需要確保項目的統一性和方向性。
社區主線不會無限吸納各種Feature,且每個代碼模塊都有資深專家來維護,以確保代碼的通用性。此外,從長期來看,OpenBMC會類似Llama那樣,形成一個開放的方案和多個分支,在開放性、統一性等方面取得一定的平衡。
大數據在線是聚焦人工智能、大數據、云計算等前沿科技領域深度觀察的深度媒體。目前,大數據在線在微信公眾號、今日頭條號、新浪財經、36氪、雪球號、觀察號等主流自媒體平臺均有入駐,積累粉絲超過20W;并榮獲今日頭條十大科技新銳媒體、商業新知十大人工智能媒體等多項殊榮。商務聯系請添加微信:Owen_Inter,添加請備注具體信息。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.