每年的云棲大會,是阿里云對外展示其技術進展和市場洞察的窗口。
今年當然也不例外。首先是在模型端,阿里云帶來了通義千問開源模型Qwen2.5, 僅僅以72B的參數量就在性能上完勝Meta 405B參數的的Lama3.1,毫無疑問成為當前全球最強的開源大模型。
緊接著,基礎層的升級也開始對外展示。通過全棧優化,全新升級后的AIInfra系列產品構建起阿里云穩定高效的AI基礎設施產品,使得連續訓練有效時長大于99%,模型算力利用率整整提升了20%。
而除了新技術的發布,阿里云這次還完整分享了他們在過去一年在大模型商業落地的市場探索經驗,尤其是在政企市場的價值創造。從阿里云在政企市場的這些經驗和市場洞察中,可以窺探中國AI走向成熟的一些關鍵因子。
生成式AI的出現,首先帶來的是計算范式的變化。
在云棲大會上,阿里巴巴CEO阿里云董事長吳泳銘將這種趨勢闡述為,**“過去幾十年,CPU主導的計算體系,正在加速向GPU主導的AI計算體系轉移。”**
事實上,這種變化也反應在當前的政企市場上。大模型的出現,尤如一股激流突然沖向了這個市場,對AI算力的儲備,成為了各個層面首當其沖考慮的事。
最直觀明顯的是,以政府或政府所轄國資主體主導的城市智算集群,幾乎每一周都會有非常大的訂單標的發公告招標。
緊接著,大模型驅動科學研究的浪潮興起。來自科研機構的需求也開始涌現,尤其是生物、環境、材料、地理、醫學等學科的科研智算需求。
此外,大量的企業也開始摸索大模型與業務場景的試點結合應用,企業對智算的需求開始多點開花,出現廣泛多樣化的需求。
基于這樣的市場趨勢,吳媽從宏觀層面給出了預判,未來所有的軟硬件都會具備推理能力,計算內核將變成以GPU,AI算力為主,CPU傳統算力為輔的計算模式。
在具體業務落地過程中,則需要考慮的會更為細致。過去行業的認知都集中在,萬卡是訓練模型的門檻。但是,到了過程中,會發現真正門檻遠不止于此。
阿里云智能集團副總裁、產品解決方案總經理霍嘉則表示,“行業對于GPU計算集群的認知還不太一致,這不是簡單的加法,擁有了萬卡并不代表就擁有了萬卡的算力。“阿里云創始人王堅博士也曾針對市場上算力焦慮有過類似的表態,如果數中國的算力其實不少的,更關鍵的能力在于如何提升算力利用率。
首當其沖的挑戰是,在規模化算力能否達到較好的性能;其次,在規模化算力下,是否有良好的系統穩定性,因為GPU服務器壞卡率和BM的故障率都挺高;
同時還得考慮,針對多種芯片的兼容,尤其是在政企市場對數據安全性都有一定要求。"現在中國政企客戶最關心的是安全和成本。"阿里云智能集團研究員、阿里云智能集團副總裁、專有云總經理劉國華在拜訪了包括很多客戶后得出的市場結論。
他進一步闡述到,基于此,政企客戶更加期望云平臺是滿足云+AI協同發展的要求,而不是單一各自去做各自的事情,來最大化提升整體的成本效率。
政企客戶這樣的視角,對阿里云而言是機遇也是挑戰。要知道,阿里云已經服務了超過1000家的政企客戶,其中不乏國家醫保、12306、海關總署、國家電網、南方電網等大型機關和央企,AI的賦能顯然是明顯的業績預期提振。挑戰也不容小覷,阿里云怎么選擇和構建AI時代的云技術技術體系與發展路徑。
眼下的技術語境是,模型的參數規模從百億到千億甚至數萬億級別的增長,融合語言、圖像、語音、視頻的多模態模型需求開始層出不窮,圖像模型和視頻模型方興未艾,對以AI計算為核心的基礎設施的需求,也顯著提升。
在這次云棲大會上,阿里云向外屆展示了一系列AI基礎設施的升級。
不僅有可以支持單機16卡、顯存1.5T的磐久AI服務器,同時提供AI算法預測GPU故障,準確率到92%;
還有可以支持10萬個GPU穩定互連的全新高性能網絡架構HPN7.0,使得模型端到端訓練性能提升10%以上;
此外,CPFS文件存儲的數據吞吐20TB/s,為AI智算提供指數級擴展存儲能力;
同時還有,可以實現萬卡級別訓練推理一體化彈性調度的人工智能平臺PAI,AI算力有效利用率超90%
這些底層技術能力的演進,支撐了當前大模型技術發展過程中從算力、網絡、存儲、模型訓練、數據處理等各個環節的設施升級需求,而對于政企客戶而言就會明顯感受到飛天企業版智算升級。
首先是更強的兼容性。整個智算平臺支持多芯的GPU融合管理,通過和多家GPU廠商的合伙,實現共計23款GPU都能被支持接入和管理,同時還將國產卡的性能提升10%;
其次是更大的融合技術,基于公專一體的網絡架構,支持單一集群1.5萬卡的建設,同構體系下在單一模型訓練場景下,輕松達到了行業大模型訓練的條件;
此外,算力統一運營調度下帶來了更高的利用效率。GPU虛擬化和容器調度算力切分粒度達到1%,資源利用率提升100%;
而且,還針對推理場景進行單獨的性能優化。基于訓推資源調度一體化平臺,通過訓推任務和資源調度策略結合,將算力資源碎片減少30%,通信帶寬提升100%以上,模型的吞吐量提升23%,通過對GPU深度調優,飛天企業版GPU性能較社區版提升10%。
同時,端到端系統穩定性也大幅提升。飛天企業版提供從訓練任務到底層基礎設施的一體化監控和分析診斷能力,針對故障節點和受影響的作業路徑可實現分鐘級定位和診斷,整體故障監控覆蓋率達到 80%。
值得關注的是,智能升級后的飛天企業版還增加了AIStudio平臺和運維大模型板塊。AIStudio在兼容國產底層硬件的基礎上,可實現模型訓練、微調、測評等,內置豐富的行業應用插件,用戶可快捷、高效地完成大模型的構建和發布;運維大模型以通義千問為基模,結合超百萬運維專業問題、方案等數據訓練而成,這將使得政企客戶對于云的自主運維能力不斷加強,可將日常運維效率提升50%。
也就是說,飛天企業版智算升級讓云實現了AI化,而集成在飛天企業版上的一站式 AI 大模型開發平臺----百煉專屬版也迎來了版本迭代,使得模型服務與云融為一體。該平臺不僅集成了國內外主流優質大模型,提供模型選型、微調訓練、安全套件、模型部署等服務和全鏈路的應用開發工具,還簡化了底層算力部署、模型預訓練、工具開發等復雜工作,方便政企客戶更加高效地開發自主大模型。
百煉專屬版2.0,不僅從在底層算力上,兼容了「公共云 VPC」和「專有云」環境,進一步匹配政企市場開發環境需求;支持多芯異構的算力調度,支持多租戶模式下的算力、模型、數據隔離與共享。
在大型模型的訓練和推理方面,百煉專屬版2.0實現了顯著的性能提升。它采用高效的分布式訓練技術,使得訓練速度提高了20%。此外,通過軟硬件的協同優化,它在保持精度的同時,將量化誤差降低到0.5%,并且推理速度提高了3倍以上。
在模型資源方面,百煉專屬版2.0提供了從7B到72B不同規模的大語言模型,以及多模態大模型,以滿足不同需求。它還兼容主流模型框架,并支持用戶自定義接入第三方大模型。
在模型服務方面,百煉專屬版2.0能夠處理包括圖表、公式、圖片、音視頻在內的各種內容,以及大文件和巨量文件的解析。利用平臺提供的豐富工具和插件,開發者可以通過簡單的拖放操作,快速構建智能體。
通過飛天企業版智算升級和百煉專屬版迭代,從底層算力到上層模型服務被進一步勾連,云和AI兩者協同向前,進一步融合,構建起了智能時代的云技術架構體系。
AI算力的強勁需求,本質是應該是由模型應用來驅動,而非單純算力數據的軍備競賽來推動。
這也是當前政企市場核心競爭點,客戶最關注的還是價值的創造,大模型技術到底能給客戶帶來什么樣的業務價值。但是在當前的市場狀況下,似乎每一個客戶,甚至于每一個人對于大模型的認知都不太一樣。這種差異造成來不少客戶對大模型擁有過高的期望,甚至于說有的客戶直接期望加上大模型后,業務能發生翻天覆地的變化,拉動業績甚至于說產品銷量的增長。
這種現象從某種層面印證了,吳媽在云棲大會演講中對當前行業認知階段的描述,"人們對于新技術革命,往往對短期高估,又對長期低估。"
目前,市場中對模型應用的落地場景主要可以歸納為三類:
首先是,生產效率的提升。除了可以通過各種生產軟件上的copilot,幫助提高文檔、文案的創作效率。此外,還可以基于Rag搜索增強做知識庫的再造,尤其是在知識密集型的領域,帶來了顯著的價值。
一個典型的案例是,知名藥企阿斯利康,基于通義模型搭建的藥品不良反應自動分析和總結平臺,使得藥物安全把控效率提升了300%,準確率從90%提升到95%。產生這個結果背后原因,是對藥品不良反應研究工作流場景的深度洞察。
以往專家往往需要閱讀大量與之藥物不良反應可能有關的論文,再來篩選判斷真正有關的文章以及相關片段進行匯總整理,進而產出藥品的不良反應報告。你會發現整個工作流中大量的時間和精力花費在搜索閱讀和整理,而這部分工作卻非常適合依靠大模型來做,專家可以把精力用在真正運用專業知識來進行核心判斷和決策的環節,節省了80%的工作量,報告產出效率和準確率也會隨之提升。
其次是,營銷手段的豐富。基于大模型生產的推廣文案、營銷海報、產品視頻都開始被大量企業所采用,顆粒度和豐富度越來越高。
同時,企業數據價值再挖掘的場景也頗具想象力。大型客戶內部都有一個崗位叫BI數據分析師,主要的工作就是基于企業大量的業務數據,進行不同維度數據分析,使得管理層和決策者能夠迅速獲取業務狀態,并且基于BI數據快速制定計劃。
針對這種"取數"場景,阿里云通過ChatBI的方式,幫助電力行業的BI數據分析師能通過自然語言的方式,提升復雜電力調控場景下數據查詢的效率,進而提高生產率。"取數"場景的另一個典型案例是,中國一汽基于通義千問打造了大模型應用GPT-BI實現了在財務和質保領域的智能報表生成,5秒就可以生成多變量報表,同時還覆蓋了汽車產供銷等9大決策場景,展現出數據預測和泛化能力,模型準確率高達92.5%。
其實可以發現,在具體大模型落地應用上還算不上是規模性的爆發,但在政企市場的一些細分場景中已經開始呈現出不可比擬的價值。
阿里云智能集團副總裁、解決方案研發部總經理曾震宇則認為,不要把大模型當成一個目的,要嚴肅認真的去想想業務場景,到底用模型解決一個什么問題,對它有一個合理恰當的預期,保持更多耐心,大模型也確實能在業務中發揮很大的作用。
而從更大的視角來看,落地場景零零星星分布在各行各業,內部卻有統一的邏輯,都由AI時代的云驅動,都要通向AGI,正猶如一顆顆分布在草原上火星,會慢慢的連點成片,燃起熊熊大火。"站在AI時代浪潮的開端,我感到無比興奮。"
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.