圖片來源@pixabay
生成式AI技術變革,正驅使數據庫廠商展開激烈競爭。
傳統廠商長期占據主導地位,卻也因云原生分布式數據庫的沖擊而有所動搖。當AI風暴再次攪動這個市場,數據庫廠商紛紛調整數據戰略,試圖更加貼近企業客戶使用AI的實際場景。新舊勢力間的角逐,實際也讓真實的客戶加快享受到新時代紅利。
在Databricks的案例庫中流傳著這樣一個故事。來自中國的全球消費電子品牌安克創新,其數據團隊曾遇到過一個棘手問題:受原有數倉的制約,無法對企業內部多個系統和應用數據進行統一治理,這導致團隊將大量時間用于數據治理及相關的Devops落地,幾乎沒有時間挖掘更高價值的數據任務,比如用于支持生成式AI的創新。
安克創新用上了云湖倉,而針對這一產品的選型中,其團隊放棄了Snowflake,而選擇Databricks,其關鍵一點在于技術層面,前者并不符合團隊對操作便捷性和基于同一平臺實現數據、分析、AI創新的需求。而基于Databricks的云湖倉產品Delta Lake實現200TB數據的統一數據底座后,安克創新又陸續用上了Databricks的其他產品:通過Unity Catalog實現表格式數據訪問,基于MLflow實現AI應用自動化流程編排。準備就緒后,安克創新數據團隊終于有機會去探索大模型驅動下的代碼檢索、自動生成SQL、問答知識庫等服務。
安克創新的選擇背后,是以Databricks和Snowflake為首的兩大數據分析與智能服務提供商所焦灼的領域——云湖倉。在表引擎、分析引擎、實時計算引擎、數據入湖工具、數據開發DataOps工具鏈、統一元數據管理等相關的引擎或組件,以及當下面向AI的大模型自研、AI數據庫層面,各方都展開了尤為激烈的競爭,以搶占市場先機。
過去兩年間,其實很多企業都在嘗試生成式AI應用,但直至今天,我們仍沒有看到真正能大規模推廣到企業中的AI案例。其核心問題在于生成式AI應用始終存在不準確或不相關的推理結果,也就是常稱的“幻覺”問題。而結合上述案例實踐能夠進一步理解,減少模型幻覺的重要方法之一,是引入企業內部知識庫,提高生成準確性和邊界,這往往需要在IT基礎設施和數據集成的統一性上下功夫。
看似技術引領了市場變革,其實不然。數據庫市場的變局,是發展到一定程度必然面對的,并且早已箭在弦上。
1990~2020,被反復錘煉的一個技術名詞
理解數據庫市場這一切變化,還要從“倉”與“湖”說起。
作為一款分析型數據庫,數據倉庫(Data Warehouse)的出現已有幾十年的歷程,最早可以追溯到20世紀60年代,并且隨著近些年大數據技術的發展而不斷升級。
20世紀90年代,在比爾·恩門(Bill Inmon)和拉爾夫·金博爾(Ralph Kimball)的推動下,數據倉庫迅速發展。被譽為數據倉庫之父的比爾·恩門在《構建數據庫倉庫》一書中給出其定義:一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策(Decision Making Support)。
這在當時,是一項重大創新,包括能夠支持更快的商業智能(當時還談不上AI,更多是BI),能更高效地處理結構化數據等,也存在明顯缺點,如缺乏對非結構化數據的處理能力,處理大量數據需要較長時間。但這一技術方案,基本滿足了當時大量處于初創階段的中小企業或客戶團隊,對于處理有限數據和分析的訴求。
直至21世紀初,大數據的興起給傳統數據倉庫帶來了挑戰。這一挑戰首先暴露在谷歌、雅虎等互聯網公司內部:后端有大量的業務系統支撐,同時也有支持“海量”數據服務的平臺架構,但在數據分析、商業智能等方面,一直在使用傳統的數據庫+數據倉庫作為底層支撐。傳統的數據倉庫無法處理大量非結構化數據,一旦遇到業務流量洪峰,數據倉庫就會出現瓶頸,持續擴容也顯得捉襟見肘。
為了應對這一挑戰,數據湖(Data Lake)的概念應運而生。
從核心目標上講,數據湖與數據倉庫都是用于數據分析,以便為組織提供洞察,輔助業務決策,但二者仍有區分。數據湖通常存儲用于高級分析應用的各類大數據,而數據倉庫則存儲用于基本商業智能、分析和報告用途的常規交易數據。
2003年至2006年期間,谷歌相繼發表文件分布式系統GFS、并行計算框架MapReduce和BigTable論文,這“三駕馬車”奠定了大數據技術的基石,開啟了大數據技術發展大幕。隨后,Hadoop出現,它以HDFS分布式文件系統作為存儲層,以MapReduce提供計算,為海量數據處理提供了一套全面的解決方案,并在雅虎的支持下,Hadoop生態發展迅猛。
2010年,Hadoop World大會上Pentaho公司創始人詹姆斯·迪克森(James Dixon)率先提出“數據湖”的概念,以解決當時數據倉庫處理大數據時所面臨的的性能瓶頸。他指出:“如果把數據集市想象成一個瓶裝水倉庫,經過清潔、包裝和結構化處理,方便飲用,那么數據湖就是一個更自然狀態的大型水庫。數據湖的內容從源頭入湖,用戶可來湖中查看、潛入或取樣。”
也就是說,數據湖一開始就將所有數據源的數據進行存儲,包括離線的、在線的,結構化的、非結構化的,各類面向事務型的數據。同時,利用Hadoop等大數據處理技術,使得海量數據處理更容易。
從理論上講,數據湖的出現在很大程度是符合時代的,并且在2015年得到比較大的發展。但由于許多企業構建數據湖的進展并沒有想象中順利,也一定程度上削弱了數據湖的普及。例如,當時的數據湖只解決存儲問題,分析計算的問題依然需要數倉完成,放到今天,計算、存儲是需要同時被解決的。另外,數據湖的實施和維護成本高,且需要經年累月與企業業務流程以及數據分析工具集成,才能實現其價值。
那么,能否實現“倉”、“湖”的優點兼具?即讓數據倉庫直接ETL數據湖里的數據,實現湖、倉的打通。2020年,Databricks公司對湖倉一體(DLH,Data Lakehouse)概念的提出,不僅讓Databricks這家以開源Spark出名的公司再次出圈,也讓業內看到了湖倉一體架構的優越性,眾多數倉專家由此也開始了對數據湖功能兼容的大量技術探索。
誰在入局
Databricks首先在2020年發表了一篇重要論文《A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics》,將“湖倉一體”作為一種新穎的數據管理方法。據論文描述,該方法將數據倉庫和數據湖整合到一個系統中,以更“湖倉一體”的方式運行,充分利用云存儲服務的成本效益,這尤其對于同時使用BI工具和依賴數據科學/機器學習解決方案的大型企業有益。
在概念提出的最開始一段時間,確實只有Databricks一家商業公司提供湖倉產品,但很快,隨著湖倉一體理念得到廣泛關注,圍繞湖倉的技術組件和產品方案,逐漸衍生出四股力量:
一是MPP數據庫Teradata和基于Hadoop的Cloudera等老牌公司,二是三大云廠商的同類產品包括Google BigQuery、Amazon Redshift、Azure Synapse Analytics;三是主打存算分離的云數倉(CDW)新貴Snowflake,四是以數據湖開源表格式Delta Lake、Apache Hudi等為基礎的商業公司Databricks。
從技術路徑上,與單獨建倉或單獨建湖的不同的是,前者無法保證數據湖與數據倉庫中的數據一致性問題,湖倉一體是以數據倉庫中支持數據湖特性,和以數據湖中支持數倉特性兩大方向。例如,Snowflake、Amazon Redshift,以及國內的阿里云MaxCompute以前者為技術路徑;而Databricks、Uber則以后者為技術路徑。作為湖倉一體概念的提出者,Databricks如今基于Apache Spark、Delta Lake、MLflow等開源組件構建了相對完整的產品方案,并且基于三方云平臺,將湖倉產品集成售賣。
數據湖、數據倉庫曾各自獨立發展過一段時間,現如今,這兩個技術方案已經走向融合。
根據Fortune?Business?Insights公布的《大數據分析市場報告,2021-2028年》,目前大量初創公司正在爭奪全球大數據分析市場的份額,預計2028年將達到5497.3億美元。根據資本流動趨勢和觀察到的客戶需求,大數據分析市場中最熱門的領域無疑是數據倉庫、數據湖、數據湖倉、數據網格、DataOps和超快速大數據查詢引擎。
中國信通院《數據庫發展研究報告(2024)》指出,隨著智能時代的到來,AI大模型需要的存儲底座需要具備高存儲密度、高性能計算、數據安全保障等特點,能夠對大規模數據進行高性能處理的湖倉一體技術成為AI大模型不可或缺的數據基礎設施。原因在于兩點:一是湖倉一體的設計為大模型提供了高性能數據處理底座,二是人工智能也使得倉內智能成為可能。
如果說傳統數倉、數據湖能夠向湖倉一體架構持續演進,其首要原因還是來自實際企業應用場景中,業務驅動的結果。那么,隨著企業應用場景逐步推進到以AIGC的業務和應用中,AI大模型在企業的快速推進正客觀促成湖倉相關領域的廠商展開競賽,筆者注意到,各股勢力不光頻繁展開性能拉練,也在試圖通過技術收購整合、投入研發,企業客戶也成為這場競賽中的直接受益者。
過去一年,頭部的數據庫企業,甚至于大模型企業都已經在積極采取產品發布、或進行收購、合作的方式,搶占AI大模型時代的先機。
今年2月,Databricks公司還宣布與SAP達成合作,SAP將把Databricks的AI數據管理工具集成到其新的業務數據云;而Snowflake宣布將與英偉達合作,為企業量身定制AI模型。
另外,在大模型技術爆發背景下,以及各方產業鏈上下游廠商的頻繁較量中,戰火也早已燒到了中國市場。
以阿里云湖倉架構為例,在數據存儲層,基于數據平臺、數倉和數據湖能力基礎之上,進行倉內數據模型直接調用;在數據服務層,提供RAG服務、Data API及模型管理能力;在場景應用層,湖倉可支持企業快速搭建知識庫。
國內市場,除了阿里云、華為云等云廠商外,星環科技、滴普科技、柏睿數據、偶數科技等創業廠商也在過去一段時間展開了對湖倉一體架構的技術探索與產品落地。
但對比了品牌、產品技術、市場資源、客戶基礎、組織能力等多維度優勢后,我們注意到,在湖倉領域,始終有兩個無法忽視的競對:Databricks和Snowflake。
兩種路線的較量
其實兩方勢力的競爭成功與否,并不在于一地之得失,而在于有生力量之消長。Databricks與Snowflake競爭的背后,也是兩種技術路線的較量。
與外界現如今感知所不同的是,湖倉這一概念在被市場得到關注之前,Databricks其實定位于基于Apache Spark構建的統一數據和分析平臺,并且一直在緩慢且成功地發展其業務。只是在近些年,Databricks開始從Snowflake等數倉廠商手中奪取了越來越多的市場份額。
而Databricks的最大亮點在于,它是以流數據處理為出發點,向上擴展自身AI能力,向下打造湖倉一體,通過不斷完善AI基礎架構,為最上層AI應用提供一個優化的承載平臺。因而Databricks并非是一家數倉或數據庫公司,而是構建AI infra的公司。
業務層面,Databricks更專注于高級分析和處理復雜的數據處理任務,通常涉及數據科學或機器學習。這也使得Databricks一開始合作的客戶通常具備數據工程能力,并認可其數據湖中支持數倉特性的技術路線。
技術層面,Databricks做了許多能力建設。首先,Databricks對其數據湖表格式開源項目Delta Lake投入了大量資金和,并且還是該開源項目的最大貢獻者。
2024年,Databricks進一步收購Iceberg的商業公司Tabular,進一步鞏固其市場地位,要知道Snowflake、Cloudera、AWS、Oracle、Salesforce等眾多廠商基于Iceberg構建。這一操作明顯使Snowflake的處境更加艱難,并導致其不得不宣布將Polaris Catalog作為Delta Lake和Iceberg的直接開源替代方案,以對抗Databricks的影響。
其次,Databricks成功解決了跨各種數據處理引擎的無縫互操作性這一重大挑戰,消除了供應商鎖定的問題。
此外,Databricks從一開始就面向數據科學、人工智能領域持續探索,并構建了一系列數據與AI工具組件。如開發和維護AI生命周期管理開源平臺MLflow,用于進行機器學習模型的部署和訓練;數據分析工具Koalas,可讓使用Pandas進行編程的數據科學家直接切換到Spark上,用于大型分布式集群應用。
2023年,Databricks開源了其首個大語言模型dolly 2.0,為其后續推出大模型拉開了序幕。2023年末,Databricks以13億美金收購大模型初創公司Mosaic,以便Databricks現有的客戶實現數據源無縫集成,提高構建數據服務的統一體驗。通過對MosaicML的技術和團隊整合,MosaicML被全面整合進Databricks的湖倉產品中。
今年3月,Databricks發布了一款132B混合專家模型DBRX,該大模型由內部Mosaic Research團隊開發,其人員一部分就來自于此前對MosaicML團隊的收編而來。據Databricks透露,DBRX完全基于Databricks平臺開發,利用Unity Catalog等工具進行數據治理、Apache Spark進行數據處理以及Mosaic AI Training進行模型訓練和微調。正是這種深度集成,客戶可以通過API訪問DBRX,從而無縫集成到現有工作流程和應用程序中。
從趨勢上看,隨著生成式AI應用的出現,市場需求顯然已經在從數倉轉向了更有利于Databricks的湖倉技術。Databricks近期指出,已經有200多家客戶從Snowflake遷移到Databricks,其中有8家還是頭部大客戶。
另一個信號是,Databricks和Snowflake之間的差距正在縮小。Databricks宣布預計截至2025年1月31日第四季度的收入運行率將超過30億美元,而Snowflake公布的2025財年產品營收實現35億美元。
Databricks已多次與Snowflake進行性能大戰。2023年,為了甩開膀子撕逼,雙方甚至同意將DeWitt條款限制拿掉,即允許研究人員和科學家在學術論文中明確使用其系統名稱。
技術層面,Snowflake針對結構化數據的存儲和分析進行了優化,并高度重視數據倉庫的易用性和可擴展性。同時,Snowflake從2022年相繼收購了Applica、Streamlit、SnowConvert、Myst.AI和Neeva等多家AI與數據領域初創公司,加大對AI分析和數據平臺的投入。今年4月,Snowflake發布了其開源大模型Arctic,以4800億參數MoE架構試圖擊敗Databricks的DBRX。此外,Snowflake還與Anthropic等大模型廠商合作。去年10月,Snowflake還與Cloudera實現集成,客戶通過使用Snowflake的計算引擎和獲得Iceberg支持的Cloudera湖倉一體架構,實現動態擴展分析與AI工作負載,同時降低成本。
與Snowflake同樣技術路線的云廠商也開始頻繁向外界證明,其核心產品能夠跟上生成式AI和大模型的進步。
Google BigQuery為解決湖倉統一治理,直接將治理功能嵌入到數倉中,而非單獨工具或流程。近日的Google Cloud Next大會上,谷歌表示Google BigQuery自2011年面世以來,其客戶數量已經是Snowflake和Databricks的五倍。
2024 Gartner云數據庫管理系統魔力象限
無論走哪種技術路徑,無非是代表不同的商業利益群體,這種爭論對于客戶而言,都需要深入了解當前和未來的需求。可能某些場景下,Databricks更廣泛的功能使其更具優勢,而在其他情況下,Snowflake的易用性亦會成為其決定性因素。
暗流涌動
但最耐人尋味的,是雙方在AI大模型時代達成的某些共識對整個數據庫市場的震動。當其他老牌對手看到Snowflake和Databricks增強了對大模型的支持,也終于下場布局,新興的初創公司也因數據庫市場的攪動,開始重新找準市場定位。
不久前,Snowflake、Databricks競相展開對AI RAG(檢索增強生成)公司VoyageAI的收購。收購Voyage或將幫助前者提升自身平臺的速度和性能。例如,Snowflake已通過一項云服務向客戶提供Voyage模型的訪問權限,客戶可以使用該服務構建AI應用。Databricks此前也在努力為其相應的服務提供同樣的訪問權限。不過,隨著MongoDB對VoyageAI的成功截胡,一切正朝著新的變局演變。
與此同時,新興AI搜索初創公司Glean已經在瞄準這塊市場,推出能夠幫助企業更有效搜索數據庫中數據的產品。值得關注的是,近期Databricks還被曝出擬將收購無服務器初創公司Neon。
但更大的問題是,對于客戶而言,企業對數據的訴求早已不在于記錄信息、收集信息,更在于獲得可行的見解,做出更明智、更快速的決策。在AI應用潮流和企業降本增效的驅使下,客戶仍然需要花一定的精力和成本來做新數據庫的嘗試和遷移,同樣面臨極大風險。
數據庫賽道也越來越卷了,尤其在國內市場,很多兩三年前出現的初創公司或產品已消弭不少,諸多創業十年以上的數據庫廠商也在頻繁跟進技術基調更新產品。
而紛爭角逐的核心主線是,在新賽道、新興細分市場中,數據庫廠商的核心機會仍然是解決客戶的業務問題,而不是過度關注拿獎、追逐技術時尚,成為市場的投機者。(本文首發于鈦媒體APP,作者 | 楊麗,編輯 | 蓋虹達)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.