文|周路平
編輯|游勇
5月17日,獨立數據庫廠商OceanBase在廣州舉辦了第三屆開發者大會。當天除了發布面向AI的開箱即用產品PowerRAG,更令外界關注的是,OB的戰略也從一體化數據庫升級為AI時代的一體化數據底座。
眾所周知,OB過去多年一直堅持走一體化數據庫路線,而一體化的內涵也在不斷豐富。
早在2022年8月,OceanBase發布4.0版本時,就首次公開提出了單機分布式一體化的理念,可以適應大小不同規模的工作負載,兼顧分布式系統的水平擴展優勢與集中式數據庫的單機性能優勢,滿足客戶從分布式到單機場景的多元化需求。
2024年4月,OceanBase 4.3版本又打造了TP/AP一體化,不僅能實現可行存、可行列混存和可列存的多種存儲方式,同時融入分布式 TP 核心能力小事務寫入技術,有效消除數據導入延遲,滿足更嚴苛的AP實時分析需求。當年10 月,OceanBase的4.3.3 GA 版本,升級了向量檢索與索引功能,實現 SQL+AI 一體化。
今年4月底,OceanBase CEO楊冰發布全員信,宣布OceanBase將全面進入AI時代,要打造“DATA×AI”核心能力,建設AI時代的數據底座,實現數據與AI的融合,把OceanBase由一個一體化數據庫變成一個一體化數據處理底座。
如今,OB的“一體化”主要有兩層內涵:一是從負載的層面,一體化能處理TP、AP和AI業務。從用戶視角來看,在用戶最核心的場景里,數據量和業務并發量高,對可用性和延遲特別敏感,這類場景會用到分布式數據庫。與此同時,每家企業都會有一些相對邊緣的場景,比如OA系統,這類場景就適合單機版本。OceanBase希望在一套引擎里幫助用戶實現技術棧的統一。
以東莞農商銀行為例,這家客戶把20多個業務系統升級到了OceanBase,核心業務系統采用了分布式架構,一般業務系統也采用了OceanBase的單機主備的部署,這種部署方式幫助客戶節省了數百萬的軟件開發成本,同時實現了業務性能的大幅度提升。
二是在架構層面,單機分布式一體化+云上云下一體化,實現多云原生,既包括在不同云平臺提供完全一致的體驗,也包括實現跨云的高可用、跨云的容災,以及實現面向多云的存儲計算分離。
目前,OB已經兼容了國內外主流的云平臺,而在開發者大會上,OB也宣布增加了對百度智能云的支持。同時,OB也全新推出了“共享存儲”產品,實現對象存儲與事務型數據庫(TP)的深度集成,創新構建存算一體與分離的多云原生架構,成為業界首個在TP場景下支持對象存儲的多云原生數據庫,為海量數據場景提供兼顧成本優化與性能保障的云原生解決方案。
不難發現,從一體化數據庫到一體化AI數據底座,雖然只有一字之差,但背后其實是在不斷適應數據庫發展的需要,尤其是AI時代對數據處理的需要。
楊傳輝透露,一體化數據底座其實是OceanBase一體化數據庫基礎上的延伸。之所以提數據底座,是因為外界提到數據庫,很容易會聯想到這是做交易或者做分析的數據庫產品,偏單一功能。而“數據底座”是希望通過一體化的產品、一體化的引擎,同時處理OLTP、OLAP以及AI的混合負載。
這個轉變的背后,也跟當前的市場形勢有很大關系。AI時代的應用帶來更海量數據的同時,也讓很多工作的負載邊界變得模糊,無法像以前一樣嚴格區分這個業務只做AP或者TP。開發者更希望在一套引擎里直接通過一條SQL處理所有的工作負載。
“我們希望OceanBase成為AI時代的MySQL。”OceanBase CTO楊傳輝說,如今OB不僅能夠支持OLTP和OLAP傳統的數據庫工作負載,也能支持AI領域的工作負載。比如半結構化數據、向量數據、文檔、混合檢索,甚至一部分RAG的能力。
而PowerRAG就是OceanBase在一體化數據底座的應用層探索的第一步。
當前,搭建RAG服務雖然有很多方式,但都有一定的門檻,背后涉及不同類型文檔的識別,包括文檔怎么去做切分,怎么做embedding,怎么用好向量數據庫,怎么寫好大語言模型的提示詞。OceanBase PowerRAG相當于把這些工作都封裝到公有云的服務里,實現開箱即用,幫助用戶實現文檔知識庫、智能對話、圖像比對、數據分析等多種AI應用場景的快速開發。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.