智東西
作者 ZeR0
編輯 漠影
智東西6月9日報道,全球領先的開源解決方案提供商紅帽公司于5月19日-22日在美國波士頓舉行紅帽全球峰會,宣布啟動全新開源項目llm-d,以滿足生成式AI大規模推理需求。
峰會期間,紅帽總裁兼首席執行官Matt Hicks、紅帽高級副總裁兼首席營收官Andrew Brown、紅帽高級副總裁兼首席產品官Ashesh Badani、紅帽首席技術官兼全球工程高級副總裁Chris Wright、紅帽合作伙伴生態系統成功高級副總裁Stefanie Chiras等多位紅帽高管,與智東西等亞太區媒體進行了深入交流。
Matt Hicks談道,紅帽的使命是為客戶提供真正的選擇和靈活性,無論是Linux、容器還是自動化,其交付的每一層都保持開放且值得信賴,讓用戶能放心運行、調整并持續創新。這種開放性催生了vLLM、Kubernetes、OpenShift等項目中的大規模協作與共享標準生態。
Ashesh Badani補充說,開源只是一個許可證,離不開背后社區的支持,新發布的llm-d正印證這一點。紅帽與谷歌云、AMD、NVIDIA等眾多伙伴共同宣布這一項目,只有在共同創建并持續維護的前提下,開放才真正有意義。
Andrew Brown稱,紅帽支持任何云、任何連接器、任何模型,沒有鎖定,客戶因此能快速遷移并擴展。這一切都建立在開源之上,進一步加深了客戶的信任。
一、紅帽推出llm-d社區,助力大規模分布式生成式AI推理
全新開源項目llm-d旨在讓生產型生成式AI像Linux一樣無處不在,由紅帽與創始貢獻者CoreWeave、谷歌云、IBM Research、NVIDIA合作打造,聯手AMD、思科、Hugging Face、英特爾、Lambda和Mistral AI,并獲得了來自加州大學伯克利分校Sky Computing Lab(vLLM的發起者)和芝加哥大學LMCache Lab(LMCache的發起者)的支持。
llm-d采用原生Kubernetes架構、基于vLLM的分布式推理和智能AI感知網絡路由,利用大規模生成式AI推理技術,能增強vLLM的能力,使得大語言模型(LLM)推理云能夠滿足苛刻的生產服務級目標(SLO),為AI推理解鎖大規模生產。
根據知名市場調研機構Gartner的數據,到2028年,隨著市場的成熟,80%以上的數據中心工作負載加速器將專門部署用于推理,而不是訓練用途。
隨著推理模型日益復雜和規模不斷擴大,其對資源需求的持續攀升限制了集中式推理的可行性,并有可能因成本過高和延遲過長,而使AI創新陷入瓶頸。紅帽及其行業合作伙伴正通過llm-d應對這一挑戰。
llm-d項目提供了多項創新,包括:
- vLLM已迅速成為開源領域的事實標準推理服務器,為新興的前沿模型提供Day 0模型支持,并支持各種加速器(現已包括谷歌云TPU)。
- 預填充和解碼分離將AI的輸入上下文和token生成階段分離成離散操作,然后將它們分布到多個服務器上。
- 鍵值緩存卸載,基于LMCache,將鍵值緩存的內存負擔從GPU內存轉移到更具成本效益且容量更大的標準存儲,如CPU內存或網絡存儲。
- 由Kubernetes驅動的集群和控制器可在工作負載需求波動時更高效地調度計算和存儲資源,同時確保性能和較低的延遲。
- AI感知網絡路由,用于將傳入請求調度到最有可能擁有過去推理計算熱緩存的服務器和加速器。
- 高性能通信API可實現服務器之間更快、更高效的數據傳輸,支持NVIDIA推理傳輸庫(NIXL)。
使用Kubernetes久經考驗的編排能力,llm-d將先進的推理能力集成到現有企業IT基礎設施中。該統一平臺使IT團隊能夠滿足關鍵業務工作負載的各種服務需求,同時部署創新技術以最大限度地提高效率,并顯著降低與高性能AI加速器相關的總擁有成本(TCO)。
紅帽認識到,在快速發展的生成式AI推理領域,充滿活力且易于訪問的社區至關重要。該公司計劃積極推動llm-d社區的發展,為新成員營造一個包容的環境,并促進其持續發展。
二、聚生態之力支撐企業級AI,兩條路原生支持AI Agent
Stefanie Chiras談道,生態合作寫在紅帽的基因里。紅帽從上游社區做起,把成果延伸到ISV、系統集成商以及云服務商,現在RHEL與OpenShift已能在AWS、微軟Azure、谷歌云、IBM云直接訂購;Ansible Automation Platform則通過紅帽與IBM渠道銷售。AI時代讓這種合作更加緊密。
在Ashesh Badani看來,AI可能是過去20年來最深刻的IT變革,甚至可能超過云計算,因為它對日常工作的影響立竿見影。他談道,從實時版RHEL到AI推理,紅帽公布的每一層都是聚合了生態合作伙伴之力,將社區創新轉化為企業級方案。
Stefanie Chiras具體分享了三大亮點:
1、RHEL:實時內核與鏡像現已同步上架AWS、Azure、谷歌云和Oracle Cloud。同時推出的 RHEL Partner Validation計劃允許ISV自助完成兼容性測試并貼上“Validated on RHEL” 標簽,上市周期大幅縮短。
2、OpenShift Virtualization:已通過AWS、微軟Azure、谷歌云、IBM Cloud、Oracle Cloud Infrastructure認證。正在評估本地虛擬化替代方案的客戶,可獲得一套隨工作負載遷移而跨云一致的現代平臺,并配備即插即用的存儲、備份/災備、網絡與監控集成。
復星汽車、阿聯酋航空等客戶反饋,遷移到運行在AMD EPYC處理器上的OpenShift Virtualization后,TCO最高降低77%。
3、AI推理:全新的Red Hat AI Inference Server(內置 vLLM) 首發即支持谷歌云TPU,以及 Intel、AMD、Arm、Power、IBM Z的CPU/GPU。對硬件伙伴而言,只需針對一個推理引擎做優化;對客戶而言,可在開放與專有模型之間自由組合。
Chris Wright透露說,紅帽將通過兩條路徑原生支持AI Agent:
1、運行無憂:確保Agent運行時在OpenShift與RHEL上都能高效工作,無論是在數據中心的 GPU,還是邊緣節點的CPU。
2、能力內嵌:把Agent能力融入自家產品組合,在Lightspeed旗艦下統一呈現。今天有Ansible Lightspeed,未來還會有面向RHEL與OpenShift的Lightspeed功能。這些服務會暴露API,供Agent調用,實現自動化和日常運維優化。
運行VM(虛擬機)的同一套OpenShift平臺,也承載紅帽的AI堆棧。“今天把VM現代化,就是為明天的生成式AI打地基。”Ashesh Badani說。
Andrew Brown認為AI的普及速度堪比早期電子商務,橫跨所有行業,這是真正的勢能,而非炒作。在他看來,缺乏AI技能的新畢業生很快就會被邊緣化,而忽視生成式AI的企業則會損失數月的生產力。
據他分享,IDC等市研機構預測,全球約35%的新增AI價值將來自亞太地區。客戶選擇紅帽的原因很簡單:平臺自由——從小規模起步,快速擴展,并且隨時在本地滿足需求。
紅帽最近發布的OpenShift Virtualization、RHEL鏡像模式以及實時特性,讓部署更容易,即使身處遠離大型科技中心的地區,也能獲得一致、安全、可靠的平臺體驗。
在亞太地區,紅帽憑借Red Hat AI Inference Server拿下了不少“新Logo”。這套平臺“任何模型、任何連接器、任何云”都能跑,即便只有兩名工程師,也能在本地小型集群上迅速搭起生成式AI。
同時,紅帽的老客戶也在借助Project AI把大語言模型以容器式工件封裝,在多云之間自由遷移。
其打法很簡單:先幫客戶壓低AI成本,再提供一個高韌性、高安全的平臺來補強(而非替換)現有環境。這套理念在亞太地區非常受認可,系統集成商和ISV已經排隊啟動試點,有六七個概念驗證(PoC)將在本季度落地。
Stefanie Chiras提到印度、中國和東南亞正出現AI井噴,為此紅帽成立了面向亞太的共創團隊,讓他們的工程師與紅帽專家并肩開發,再交由系統集成商交付給最終用戶。
新推出的RHEL Partner Validation計劃,為伙伴打通了快速上市通道,同時也向客戶保證“它能在RHEL上運行”,紅帽會全程背書。該計劃讓ISV可自行在RHEL上完成驗證,承諾第三方支持,之后再決定是否申請完整認證。
AWS的Distributor Seller of Record(DSOR)計劃支持分銷商把不同伙伴的產品打包上架。紅帽已在澳大利亞把紅帽解決方案與本地ISV的AI增值服務捆綁銷售,未來RHEL AI和OpenShift AI上市后也會復制這一做法。
無論云廠商推出的是開放還是專有的AI工具,紅帽都會“就地對接”,確保工作負載在混合云之間可自由遷移。紅帽承諾將客戶的選擇權放在核心位置,并與每一家超大規模云廠商(hyperscalers)實現無縫集成。
隨著AI加速落地,Matt Hicks認為混合云的格局已經翻轉。五年前,主旋律還是“全部上公有云”;兩年前,大家開始承認,很多工作負載會繼續留在本地,同時工廠、門店、車輛等邊緣場景迅速崛起。AI進一步放大了這一趨勢:為了降低延遲、保證數據就地處理,推理往往必須貼近數據產生點執行。
Matt Hicks說,如今混合云不再是可選項,而是默認架構。在AI時代,一致性、安全、運維管理這些老問題變得不可回避,誰能從核心到邊緣把算力和數據統籌起來,誰就能釋放巨大的價值。
三、vLLM已成開源推理標準,開放將帶來更優質的AI安全改進
正如紅帽通過將Linux轉變為現代IT的基石,開創了開源企業先河,如今紅帽正推動構建AI推理。紅帽的愿景非常清晰:無論采用何種AI模型、底層加速器或部署環境,vLLM都能成為新型跨混合云環境推理的開放標準權威。
從GitHub Star、下載量或貢獻者增速來看,vLLM已成事實上的開源推理標準。
Matt Hicks認為,現在有兩股動力把大家拉向vLLM:一是越來越多廠商把模型checkpoint預先調優到vLLM,縮短上市時間,也把維護成本攤給社區;二是英特爾、AMD、NVIDIA以及各大云廠商的自研芯片團隊,都在上游提交優化補丁,讓自家硬件“開箱即用”。
在他看來,當模型層和芯片層都在同一個項目里投資源,開放標準就會扎根。
Chris Wright補充分享說,谷歌云TPU、AWS Inferentia等云端芯片都直接往vLLM倉庫提PR,連主推Triton的NVIDIA也為vLLM做適配,因為大多數新模型首先登陸vLLM。用戶只需pip install vllm、加載模型,就能直接獲得收益。
他談道,在AI領域,“開放”這一概念仍在成形。模型基于海量數據訓練后,以工件(artifact)形式發布,常用OSI兼容許可證,允許用戶微調、修改權重并再次分發。
早期開源曾被質疑穩健性與安全性,但透明度最終扭轉了局面,任何人都能審計代碼并修復漏洞,這也是為什么今天大多數加密標準都是開放的。
無論許可證開放還是專有,AI的核心安全議題都是一致的:防止輸出敏感或有害內容、阻斷越獄(jailbreak)提示、抵御對抗樣本與數據投毒。
學術界和社區對這些問題的研究非常活躍,而開放能加速解決方案的演進。紅帽團隊相信開放將繼續帶來更快速、更優質的安全改進。
結語:未來AI不應受到基礎設施孤島的限制
從IBM收購紅帽的第一天起,雙方就統一在三大支柱RHEL、OpenShift、Ansible之上。IBM Cloud Paks很快就成為在OpenShift上構建和運行軟件的參考架構,這種一致性變得更為牢固。同樣的模式也延伸到虛擬化和AI。IBM的中間件與應用底層統一采用紅帽平臺。紅帽“RHEL + OpenShift核心組合”如今已支撐越來越多的IBM產品,進一步鞏固了整個產品線的整合。
AI的未來不應受到基礎設施孤島的限制。紅帽團隊認為,未來企業可以在任意云環境中的任意加速器上部署任意模型,提供出色且更加一致的用戶體驗,并且無需高昂的成本。為了釋放生成式AI投資的潛力,企業需要一個通用推理平臺——一個用以推動未來數年中,更加無縫、更高性能AI創新的標準。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.