智東西
作者 程茜
編輯 漠影
生成式AI時代究竟該如何構建數據庫?
智東西5月20日報道,剛剛過去的周六,OceanBase 2025開發者大會上,我們找到了這家數據庫廠商的答案——一體化數據底座。
OceanBase CEO楊冰說:“一體化數據底座指的是希望通過一體化產品、一體化引擎,同時處理OLTP、OLAP以及AI的混合負載。”
他們想要最終解決的難題就是AI的大爆發時代,數據庫應當如何更好地存儲、處理數據,從而更好地適應新時代需要,謀求更長遠發展。
當下,企業的數據存儲與處理正面臨前所未有的挑戰。一方面,大模型訓練、實時推理等場景產生的海量異構數據,要求存儲系統具備極高的容量彈性與跨模態管理能力;另一方面,數據處理需兼顧事務處理的實時性、分析決策的高效性及AI任務的復雜計算需求。
然而,傳統數據基礎設施與生成式AI下的數據需求割裂,產業亟需能整合多模態數據處理、海量數據處理等特征,并深度融合AI能力的新型數據底座。
在此背景下,國產數據庫的主力玩家OceanBase,已經在數據庫轉型之路上率先突圍:宣布全面擁抱AI,打造“Data×AI”核心能力、啟動人才和組織體系升級,并圍繞一體化數據底座為核心發布首款面向AI的應用產品PowerRAG。
開發者大會同天,智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝進行了深入交流,試圖探尋這家數據庫主力廠商在AI時代的核心競爭力。
一、從Data Infra向Data×AI Infra躍遷,數據在AI時代的角色將如何重塑?
數據的特征會直接影響模型的性能、泛化能力和應用效果,但伴隨著AI的發展,數據衍生出一系列亟待突破的全新挑戰。螞蟻集團CTO何征宇提到了四大挑戰。
作為大模型訓練基石的互聯網公開數據即將枯竭,未來獲取高質量數據的成本將逐步攀升。
嚴謹的行業數據稀缺且流動困難,存在三重特征:數字化進程滯后、數據質量要求嚴苛、核心數字化知識沉淀不足。
多模態數據需要更強處理能力。未來越來越多的數據需要包含視覺、觸覺、本體感覺和音頻等諸多信息。
數據的質量評估難。評估的質量決定模型質量,但現有數據與模型質量評估方式,難以指導大模型訓練擺脫“訓模如煉丹”的窘境。
對于數據的重要性,何征宇一針見血指出:“數據的邊界決定了大模型的能力上限,所有的數據公司都將成為AI公司。”
與此同時,數據量的增長仍在突飛猛進。IDC預測到2028年,受生成式AI等技術驅動,全球新生成數據量規模將達到393.9ZB,其中企業數據規模和增速尤為凸顯,全球企業級數據的數據量較2023年整體增長在400%以上。
可以看到,數據在AI時代的角色正在被重塑。正如楊冰所說,如今數據基礎設施不僅要實現“物理變化”,如支撐海量數據存儲、可擴展性等突破存儲、計算的瓶頸,還要發生“化學變化”,如支持知識的學習、獲取,支持應用的推理以及決策。
因此,AI正驅動數據基礎設施Data Infra向“數據×AI”的融合架構Data×AI Infra躍遷。
在生成式AI應用爆發之際,傳統的數據基礎設施的轉型顯得更為急迫。IDC軟件市場研究經理李凌霄提到,數據基礎設施目前的負載割裂、云環境割裂、多模態割裂、技術債務正阻礙生成式AI落地。
傳統TP+AP環境會造成長數據鏈條資源消耗、負載需求,無法在生成式AI場景下擁有實時支撐能力以及充分的計算資源;同時企業在不同云平臺間的數據交互、加工、治理割裂;傳統場景下專庫專用的架構做異構數據間聯合查詢時,會造成性能消耗和響應延遲;企業需要在生成式AI時代,保持、延續其此前基礎設施架構的完整。
其中,2023年隨著大模型發展而爆發的向量數據庫,曾因擅長處理非結構化數據被視為企業最大化發揮數據價值的關鍵工具,但如今其難以獨立解決復雜業務問題的弊端愈發凸顯。
諸多企業實現向量融合的方式是在現有數據基礎設施之上融合向量插件,很少會選擇獨立部署。楊傳輝提到,向量數據庫是一個臨時態,因為用戶在查詢時往往會涉及向量、標量等混合數據,獨立的向量數據庫未來會被替代。
在大模型落地行至關鍵機遇期,數據和大模型能力如何融合,成為數據庫領域企業決勝AI時代的核心競爭力分水嶺。深耕數據庫領域的OceanBase已經先行一步,開始探索構建適配AI時代的數據底座新范式。
二、兩大思路加速一體化數據庫轉型,首發AI產品PowerRAG
擁抱AI已經成為千行百業共識,一貫秉持穩扎穩打理念的OceanBase于今年4月底,宣布全面進入AI時代。
彼時,OceanBase CEO楊冰發布全員信,宣布要打造“Data×AI”核心能力,加速打造AI時代數據底座。
具體來看,OceanBase的Data×AI戰略的關鍵是要實現數據與AI的融合,而一體化數據底座就是一體化數據庫的延伸,其核心仍然是能不能做好數據處理。
其背后的考量一直是以用戶需求出發。AI時代對于數據處理的兩個顯著需求是:高質量、海量數據以及混合負載。楊傳輝說,AI應用出現使得工作負載邊界逐漸模糊,其無法嚴格區分向量、標量數據,開發者的需求也隨之變化:他們希望在一套引擎里直接通過一條SQL處理所有工作負載。
這恰恰是OceanBase的核心優勢所在。OceanBase除了能夠支持OLTP和OLAP傳統數據庫工作負載,還能支持AI領域工作負載,如半結構化數據JSON處理、向量數據庫、混合檢索以及RAG能力等。
從宏觀角度來看,這些技術積淀為數據與模型的一體化融合提供了基礎,成為大模型落地產生價值的關鍵所在。
還是從需求出發,數據和模型實現融合需要解決的有兩大問題:數據處理和模型本身的準確性、成本、行業適配性等。在此基礎上,OceanBase進一步將打造“Data×AI”核心能力細化為兩方面工作:
一方面是要將數據融入模型里,希望通過提高數據質量、結構化程度,提升模型準確度、推理效率,讓小模型也能有大效果,同時降低推理成本;
另一方面是希望將AI原生集成到數據庫中,楊傳輝闡述說這有兩種融合方式,一是較為直觀的在數據庫里通過類似AI function方式直接集成大模型能力,另一種是實現SQL+AI的混合計算,分析、問答一體完成,這樣的融合需要較長的時間來實現。
關于一體化數據底座布局的考量,OceanBase在產品層面首發了面向AI的應用產品PowerRAG,為開發者打造AI驅動的開箱即用RAG服務。
楊傳輝說,他們首要解決的是“能用”問題,通過RAG方式提升大模型準確率,再逐步從“可用”推進到“好用”,使得AI應用走向實際生產場景。
傳統的搭建RAG服務方案存在開發周期長、維護成本高、灰箱調試困難、性能難以優化等問題。打通應用開發數據層、平臺層、接口層與應用層全流程的PowerRAG,可以提供Document(文檔)和 Chat(對話)兩個核心API接口,使得用戶可以快速實現文檔知識庫、智能對話、圖像比對、數據分析等多種AI應用場景的開發。
這只是OceanBase在應用層面探索的第一步。未來,OceanBase將逐漸形成從算力、基礎設施,到平臺層、應用層、交付形態的一體化數據底座全方位布局。
三、15年積淀,企業級分布式數據庫能力已打下基礎
這個勢頭正猛的國產數據庫主力,經過15年的磨礪,已經淬煉出獨特的Data×AI Infra方法論,構建起智能時代的核心競爭力。
成立自2010年的OceanBase,是螞蟻集團100%自研的原生分布式數據庫,目前支持支付寶全部核心賬務、核心支付系統,連續十余年穩定支撐雙十一的高并發場景。
如今OceanBase取得的成績可以用這幾個數據加以概括:IDC發布的《2024年上半年中國分布式事務數據庫軟件市場跟蹤報告》顯示,OceanBase占據獨立數據庫市場份額第一、市場整體第四;楊冰透露,目前OceanBase社區已經擁有超2.5萬名開發者,突破100萬下載次數、可統計的開源集群數超5萬個。
OceanBase已通過橫向擴展的技術底座構建起符合AI時代技術能力的技術基礎,同時以縱向深化的高性能數據處理基準,為打造AI時代的一體化數據底座積勢。
從技術底座的布局看,OceanBase最基本的企業級分布式數據庫能力,為AI時代的海量數據處理分析打下基礎。同時,其同步推進向量性能、混合檢索等支持AI應用落地的核心基礎設施發展。
從性能表現看,OceanBase的性能已經達到開源向量數據庫業界領先水平。楊傳輝現場演示對比了OceanBase與業界主流的3款開源向量數據庫,結果顯示,OceanBase的跑分超過其他三大業界主流開源向量數據庫。
此外,在處理海量數據方面,OceanBase引入BQ量化算法,OceanBase的測試結果顯示,在同等召回率與性能的情況下,引入該算法(HNSW+BQ)能夠實現內存成本較HNSW降低 95%。
為幫助用戶降低AI場景中常見的半結構化數據存儲成本,OceanBase引入針對JSON半結構化數據的壓縮能力。經OceanBase測試, OceanBase在TPC-H 10G數據集上JSON壓縮比可達MongoDB的3倍。
同時,在技術布局的前瞻構建與用戶需求的精準洞察之外,OceanBase宣布了全維度擁抱AI的戰略決斷,并且即刻啟動組織效能革新與人才結構升級的雙輪驅動。
OceanBase CTO楊傳輝擔任AI戰略一號位,全面統籌AI戰略制定和技術產品落地,同時成立AI平臺與應用部、AI引擎組等,將形成AI時代從一體化存儲到一體化計算的全方位布局。
全面進入AI時代背后,是OceanBase打造AI時代一體化數據底座的技術底氣與信心。
結語:OceanBase全面擁抱AI,數據庫轉型已先行一步
隨著AI發展,數據庫在智能生態中承載的能力正經歷顛覆性變革,從傳統的數據存儲容器蛻變為驅動AI全流程的智能引擎。
數據庫企業正以主動變革的姿態,將技術迭代轉化為AI時代的增長引擎。OceanBase希望由“數據庫”向“數據底座”演進,形成全方位、一體化處理這些問題的解決方案,為AI時代的企業解決數據處理難題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.