從螞蟻集團獨立一年后,分布式數據庫的標桿OceanBase正在全力擁抱AI。
不久前,OceanBase CEO(首席執行官)楊冰發布全員信,宣布OceanBase將全面進入AI時代,打造“Data×AI”核心能力,建設AI時代的數據底座。
為此,OceanBase啟動人才和組織體系升級,任命CTO楊傳輝(日照)擔任AI戰略一號位,并成立AI平臺與應用部、AI引擎組等新部門。通過組織和人才的全方位保障,實現從一體化存儲到一體化計算的全方位布局,推進“Data × AI”平臺的搭建,聚焦打造RAG、AI平臺、知識庫等能力。
公開信息顯示,楊傳輝是OceanBase數據庫的創始成員之一。2010年加入OceanBase團隊,主導了歷次架構設計和技術研發,從無到有實現了OceanBase在螞蟻集團的全面落地。同時,還主導了兩次OceanBase TPC-C測試,并打破世界紀錄,見證了OceanBase的崛起。
在5月17日的第三屆開發者大會上,OceanBase發布面向AI的應用產品PowerRAG,該產品提供開箱即用的RAG應用開發能力,是其面向AI時代的探索之一。楊傳輝也首次公開闡釋了OceanBase的Data×AI戰略,他表示,OceanBase正致力于構建Data×AI能力,面向AI時代推動一體化數據庫向一體化數據底座的戰略演進。
本期《濤滔不絕》,CSDN創始人&董事長蔣濤與OceanBase CTO、 AI戰略一號位楊傳輝就數據庫邁向AI戰略的必要性談起,從數據庫與AI的技術融合實踐到數據庫與AI的未來洞見,為我們揭開了數據庫擁抱AI的深層邏輯。
AI浪潮下,數據庫如何承接AI
伴隨著DeepSeek的崛起,今天,我們已經從大數據時代邁入大AI時代。同時,這也意味著數據在應用層的拓展和數據量將大幅增加,對數據處理的多模態和擴展性能力要求更高。
蔣濤:從你的角度來看,AI大模型對數據基礎設施有什么新的要求和變化?
楊傳輝:一方面,AI時代的數據從結構化交易記錄延伸至文本、圖像、向量等多模態形態,例如金融風控需分析用戶行為向量,醫療場景則需要處理影像數據特征等多模態數據。此外,據IDC預測,2025年全球數據量將達到175ZB,其中,80%以上的為非結構化數據,這也就意味著非結構化數據的存儲和處理將成為核心挑戰,傳統單一的存儲架構難以承載如此龐大的數據需求。
另一方面,大模型在通用領域的“幻覺”問題,可能導致數據分析和決策失誤,尤其在金融、醫療等關鍵領域,可能演變為“準確率危機”,影響業務穩定性和安全性。核心問題就在于企業如何處理數據,如何處理好數據與AI的關系。
從本質上來看,幾乎所有數據企業都是AI企業,數據與AI分不開。
也就是說,AI時代,企業需深刻理解數據與AI的共生關系,數據與AI本身密不可分。數據庫的價值顯然已經從單一工具轉變為AI賦能的基礎設施,成為連接數據與智能的橋梁。而這也正是OceanBase AI戰略的核心所在。
OceanBase 的 DataAI:重新定義數據庫邊界
在這樣的背景下,數據庫的角色已不再局限于數據存儲,而是演進為支撐AI應用的底座。其不僅要高效處理多模態數據,還需具備智能化數據分析能力,以應對復雜場景下的決策需求。
蔣濤:OceanBase提出的Data×AI如何理解?
楊傳輝:首先,Data×AI并不是簡單的技術疊加,更多是數據庫的延展。而OceanBase的發展路徑恰好與之相契合。OceanBase的產品從早期的OLTP數據庫,逐步擴展到OLAP分析處理,再到向量、搜索、JSON和多模態處理,形成了一體化的數據庫架構,完美契合Data×AI的需求。
盡管Data xAI處于起步階段,但OceanBase的優勢在于其是交易出身,對于分析、多模態處理有著天然的優勢。不同研發小組專注于各自模塊,但最終集成于分布式引擎之上,確保一體化方案的協同高效,避免了傳統數據庫的割裂問題,實現數據處理的連貫性與高效性。
蔣濤:和外掛式數據庫廠商的主要差距表現在哪里?比如性能方面?
楊傳輝:我覺得主要差別體現在兩方面。其一在于體驗上的本質差異。混合搜索功能需同時查詢交易數據和多模態向量,若分屬多系統,技術棧分散,難以統一,導致檢索效果不佳。其二,分布式數據庫底座能全面處理結構化和非結構化數據,確保高效準確,這是外掛式難以比擬的。
蔣濤:混合檢索對于數據庫廠商而言,是一種新的能力嗎?
楊傳輝:我認為是的。隨著AI和多模態需求的興起,數據庫廠商紛紛轉向混合負載和混合檢索,這在沒有AI和多模態之前是不常見的。可以說,混合檢索對于數據庫而言是一個比較新的趨勢。
蔣濤:OceanBase的向量性能現在是什么樣的水平?
楊傳輝:依托螞蟻集團在向量索引技術上的深厚積累,結合OceanBase在數據庫領域的優勢,尤其在分布式架構、擴展性和穩定性方面,雙方的優勢能力深度融合,目前已達到開源數據庫業內一流水平。從性能維度來看,在同等召回率下,檢索性能較開源向量數據庫更快;從成本維度來看,針對向量數據量不大的情況,引入BQ量化算法,通過直接量化或簡單內存量化,我們節省了95%的內存,對于向量數據量龐大的情況,存儲至磁盤后,OceanBase的優勢更為顯著,確保高效處理的同時,大幅降低成本。
AI重塑數據庫:從被動存儲主動賦能
大模型的崛起,暴露了企業數據應用的深層矛盾:即公網數據訓練的模型難以理解行業私有數據,而數據隱私與安全又限制了“數據喂給大模型”的路徑。此時,數據庫的角色從“數據倉庫”升級為“AI橋梁”——它既要存儲和管理數據,更要主動處理數據,讓大模型“看得懂”企業私有知識。 RAG(檢索增強生成)技術則成為突破口之一。
蔣濤:企業如何將私有數據與大模型集合是關鍵,數據庫能做什么?
楊傳輝:我們希望從兩個維度切入:一是通過RAG(檢索增強生成),將企業查詢相關數據提取后作為提示(類似數據庫中的hint)輸入大模型,以生成更精準的結果;二是未來通過微調,針對企業特定場景數據對模型進行優化,使其更貼合實際業務需求。
今天,我們也在開發者大會上發布了RAG工具,未來還將支持微調等工具,持續專注于數據處理能力拓展,覆蓋多模態數據場景。
目前,OceanBase一體化數據底座中的向量數據庫與混合檢索能力已在客戶中落地,例如聯通軟研院用其構建 DBA知識庫,in銀泰商業通過混合檢索實現智能問數功能,這些實踐均體現了業界對OceanBase相關能力的認可。
蔣濤:如何用好OceanBase的PowerRAG方案?
楊傳輝:傳統RAG需要開發者自行搭建數據處理、向量索引、提示詞優化等復雜流程,而OceanBase的Power RAG將這些流程封裝為標準化服務:用戶只需上傳文檔,即可通過自然語言查詢私有知識,底層自動完成文檔解析、段落切割、向量檢索與大模型交互。這種“低代碼甚至無代碼”的能力,讓AI應用門檻大幅降低——即使是中小企業,也能借助數據庫工具快速構建專屬智能服務,如客服知識庫、智能報表生成等。
當然,這其中更深層的變革在于數據處理邏輯的重構。數據庫開始融合AI算法,通過向量索引優化檢索效率,利用大模型生成SQL語句或優化查詢計劃。例如,OceanBase的ODC工具,已能通過對話式交互輔助開發者編寫SQL,準確率顯著提升。這進一步驗證了“數據庫+AI”將重新定義開發者的工作方式,讓數據處理從“技術活兒”變為“自然語言對話”。
蔣濤:MCP會被作為數據銜接的工具嗎?
楊傳輝:從AI生態視角出發,我們目前已實現對MCP協議的支持,滿足大模型調用數據庫及其他工具的需求,且我們的管控工具也已完成MCP協議適配。
力爭成為新一代MySQL
數據庫的競爭,本質是生態的競爭。在傳統數據庫時代,MySQL、PostgreSQL等憑借開源生態占據統治地位。而在AI時代,新的生態格局正在形成。
蔣濤:OceanBase 對出海怎么看?如何構建數據庫生態?
楊傳輝:在海外拓展業務期間,我們接觸了眾多客戶,他們普遍對OceanBase的產品贊不絕口,尤其認可其領先的擴展性、性價比以及獨特的一體化能力,這些優勢在傳統數據庫產品中實屬罕見。但也面臨一些挑戰:比如海外部分客戶的程序員群體技術遷移能力較弱,難以適應新的技術框架,且對額外的開發任務接受度較低,這本質上是生態建設層面的難題。
不過,AI時代的到來為OceanBase創造了破局機遇。隨著多模態數據處理需求的爆發,市場急需一體化數據底座。當前開源生態中,PostgreSQL 通過插件形式積極擴展對事務處理(TP)、分析處理(AP)及向量數據的支持,生態發展迅猛;而 MySQL 因被收購,在AI時代的生態迭代近乎停滯。OceanBase作為完全兼容MySQL的開源產品,不僅能無縫承接MySQL用戶,更憑借一體化架構在性能與成本上實現超越 —— 既能滿足傳統交易場景需求,又能原生支持向量檢索、混合負載等AI能力,成為MySQL生態向AI時代轉型的方案之一。
同時,OceanBase的另一核心優勢源于螞蟻集團的深度賦能。頂級應用場景是驅動數據庫創新的核心動力。正如移動互聯網時代的雙11成就了OceanBase的分布式技術領先地位,AI時代的前沿應用正推動OceanBase的智能化升級。螞蟻集團在金融、風控、營銷、醫療等全場景的AI實踐,為OceanBase提供了獨一無二的“練兵場”—— 從內部業務中提煉的向量檢索、智能風控等能力,經實戰打磨成熟后再輸出給外部企業,使 OceanBase 的AI功能在落地效率與成熟度上能夠超出行業平均水平。這種“內部孵化 - 外部驗證” 的模式,正是OceanBase技術快速迭代的核心密碼。
生態構建的另一維度是全球化。東南亞、歐洲、拉美等地區正成為新戰場,AI時代的混合負載需求讓中國數據庫的技術優勢得以凸顯,正如新能源車憑借技術迭代打破傳統車企優勢,中國數據庫也有望借助AI浪潮實現“換道超車”。
蔣濤:對開發者有哪些建議?
楊傳輝:AI時代的到來,對所有開發者而言既是機遇也是挑戰。“學AI用AI,學OB用OB”是應對這一變革的核心路徑。OceanBase作為深耕數據庫領域15年的產品,未來仍將持續投入迭代,不斷進化。如今,OceanBase在分布式技術領域已處于世界領先地位,但要成為數據庫生態中最受歡迎的產品,仍需長期耕耘。
但生態的繁榮無法僅憑一家企業完成,需要攜手所有用戶與開發者共同成長。在此過程中,OceanBase將始終保持專注——依托螞蟻集團的強大支持,持續加大技術投入,優化產品能力。我們期待與開發者并肩,在AI時代共同構建更具生命力的技術生態。對于開發者而言,擁抱AI浪潮、掌握OceanBase技術,正是把握未來機遇的關鍵所在。
蔣濤:OceanBase在未來的5~10年有什么技術藍圖規劃?
楊傳輝:數據庫是需要沉淀的基礎設施,打造世界級數據底座需以20-30年為周期。未來 5-10年,OceanBase將聚焦兩大戰略方向:
其一,深化一體化數據底座建設,成為新一代MySQL。
當前OceanBase用戶已覆蓋全球2000多家企業,但要成為全球流行的技術棧,需從 “萬級用戶” 邁向 “百萬級、千萬級”。AI時代的核心目標是讓OceanBase成為企業AI應用的標配底座,支撐從交易、分析到向量檢索的全場景需求。這不僅需要持續優化分布式架構的性能與穩定性,更要通過開源生態建設降低使用門檻,例如兼容MySQL生態以吸引傳統開發者轉型。
其二,破解“Data ×AI”深度融合的技術命題。
數據與AI的結合面臨算法優化、成本控制、模型適配等多重挑戰。OceanBase的技術團隊正重點突破兩大方向:
降低AI推理成本:通過向量索引優化、內存量化等技術,提升數據處理效率的同時降低資源消耗。
動態適配大模型進化:建立與大模型廠商的協同機制,快速響應模型迭代(如上下文長度擴展、多模態輸入支持),避免因模型升級導致的技術滯后。
未來十年,數據庫的終極形態可能是“Data x AI”的深度融合體:它既是數據存儲與處理的中心,也是AI應用的運行平臺,甚至能通過自主學習優化數據管理策略。
做數據底座需要20年、30年的長期投入,我們正站在新的起點上。
結語
當 DeepSeek 等大模型重新定義 “智能上限” 時,數據庫正在定義 “智能的邊界”—— 它決定了企業能在多大程度上利用數據釋放 AI 價值。OceanBase的探索表明,數據庫的AI覺醒不是技術疊加,而是從底層架構到場景落地的全面革新。
正如蔣濤所說:中國擁有全球領先的應用場景和技術人才儲備,這為國產數據庫的崛起提供了沃土。我們有理由相信AI時代的 “Data x AI” 融合趨勢為國產數據庫提供新的機遇,OceanBase的一體化數據底座探索可以說為數據庫廠商做了標桿,同時期待更多開發者加入生態,共同把握AI時代的 “大航海” 機遇,開啟軟件產業大變革。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.