允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
全面擁抱AI之后,OceanBase首次詳解了他們的戰(zhàn)略。
第三屆開發(fā)者大會(huì)上,OceanBase發(fā)布了面向AI的應(yīng)用產(chǎn)品PowerRAG——
主打RAG開發(fā)能力開箱即用,打通應(yīng)用開發(fā)數(shù)據(jù)層、平臺(tái)層、接口層與應(yīng)用層的全流程。
它可以幫助用戶實(shí)現(xiàn)文檔知識(shí)庫、智能對(duì)話、圖像比對(duì)、數(shù)據(jù)分析等多種AI應(yīng)用場景的快速開發(fā)。
作為他們AI應(yīng)用層面探索的第一步,首次以AI戰(zhàn)略一號(hào)位現(xiàn)身大會(huì)的CTO楊傳輝進(jìn)一步解釋了產(chǎn)品背后的戰(zhàn)略驅(qū)動(dòng):OceanBase正致力于構(gòu)建Data×AI能力,面向AI時(shí)代推動(dòng)一體化數(shù)據(jù)庫向一體化數(shù)據(jù)底座的戰(zhàn)略演進(jìn)。
這是OceanBase戰(zhàn)略升級(jí)的第一個(gè)大動(dòng)作,時(shí)間間隔不過一個(gè)月。
2025年4月27日,OceanBase CEO 楊冰發(fā)布全員信,宣布OceanBase將全面進(jìn)入AI時(shí)代,并且為保障戰(zhàn)略推進(jìn),OceanBase啟動(dòng)人才和組織體系升級(jí),任命CTO楊傳輝擔(dān)任AI戰(zhàn)略一號(hào)位,并成立AI平臺(tái)與應(yīng)用部、AI引擎組等新部門。
這樣的推進(jìn)速度,不難看出OceanBase背后的AI決心和氣魄。而本次開發(fā)者大會(huì)呈現(xiàn)出他們對(duì)于數(shù)據(jù)與AI融合的思考,在大模型行業(yè)應(yīng)用進(jìn)入深水區(qū)的此刻,其實(shí)值得參考。
數(shù)據(jù)在AI時(shí)代的重塑:從挑戰(zhàn)到基礎(chǔ)設(shè)施革新
AI技術(shù)的爆發(fā)式發(fā)展正在重塑數(shù)據(jù)生態(tài),已經(jīng)成為行業(yè)共識(shí)。據(jù)IDC數(shù)據(jù)預(yù)測,受到生成式AI等技術(shù)驅(qū)動(dòng),新生成數(shù)據(jù)量規(guī)模將達(dá)到393.9ZB,其中企業(yè)數(shù)據(jù)規(guī)模和增速尤為凸顯,非結(jié)構(gòu)化數(shù)據(jù)將是最主要的企業(yè)數(shù)據(jù)形式,占比將超80%。
海量數(shù)據(jù)的爆炸式增長,讓傳統(tǒng)數(shù)據(jù)基礎(chǔ)設(shè)施面臨前所未有的挑戰(zhàn)。數(shù)據(jù)存儲(chǔ)容量告急、存儲(chǔ)架構(gòu)擴(kuò)展形不足、數(shù)據(jù)管理效率低下,數(shù)據(jù)分析實(shí)時(shí)性滯后正在倒逼行業(yè)思考:如何構(gòu)建AI時(shí)代的新型數(shù)據(jù)基礎(chǔ)設(shè)施?
AI從Task-specific到General的進(jìn)化,給數(shù)據(jù)提出了更高維度的需求。螞蟻集團(tuán)CTO何征宇在分享中指出,海量的互聯(lián)網(wǎng)數(shù)據(jù)成就了今天的大模型,但大模型幻覺問題的源頭也是數(shù)據(jù)問題。數(shù)據(jù)決定著大模型的能力上限,且依舊有很大挑戰(zhàn):一是數(shù)據(jù)的獲取成本顯著增加,二是嚴(yán)謹(jǐn)?shù)男袠I(yè)數(shù)據(jù)稀缺且流動(dòng)困難,三是多模態(tài)數(shù)據(jù)需要更強(qiáng)的處理能力,四是數(shù)據(jù)的質(zhì)量評(píng)估難。
無法數(shù)字化,就無法智能化。在傳統(tǒng)企業(yè)場景中,要想實(shí)現(xiàn)智能化,前提實(shí)現(xiàn)數(shù)字化,只有充分挖掘數(shù)據(jù)要素,才能通過AI來釋放它的價(jià)值。
能夠看到的是,AI與數(shù)據(jù)之間的關(guān)系遠(yuǎn)比以往都更為緊密。數(shù)據(jù)驅(qū)動(dòng)AI,而AI正在推動(dòng)Data Infra 向 Data × AI Infra 演進(jìn)。
數(shù)據(jù)基礎(chǔ)設(shè)施的革新方向已清晰可見,但是現(xiàn)有數(shù)據(jù)基礎(chǔ)設(shè)施可能無法跟上AI的需求。
企業(yè)大模型落地面臨著成本、準(zhǔn)確性和數(shù)據(jù)安全三大挑戰(zhàn)。
數(shù)據(jù)孤島導(dǎo)致跨系統(tǒng)整合成本激增,企業(yè)需為分散的存儲(chǔ)、冗余計(jì)算(如多副本ETL)及數(shù)據(jù)庫人工運(yùn)維支付高昂溢價(jià);長尾場景下的一些碎片化數(shù)據(jù)難以為模型提供完整”知識(shí)圖譜”,往往導(dǎo)致數(shù)據(jù)準(zhǔn)確性不足;當(dāng)數(shù)據(jù)儲(chǔ)存在單機(jī)或者單片云時(shí),是有可能因?yàn)橥獠抗收隙媾R數(shù)據(jù)泄露的風(fēng)險(xiǎn),而用大模型做個(gè)智能應(yīng)用本身開發(fā)周期就太長,整個(gè)風(fēng)險(xiǎn)的窗口期就拉長,這個(gè)過程成本也很高。
既然如此,行業(yè)該如何破局?承載著數(shù)據(jù)處理與分析的責(zé)任,數(shù)據(jù)庫廠商正在加速探索,以O(shè)ceanBase為代表,15年持續(xù)深耕海量核心場景Know-how,它的系列動(dòng)作或許值得關(guān)注。
一方面,OceanBase 堅(jiān)持100%根自研,自 2010 開始投入研發(fā),目前已支持支付寶全部核心賬務(wù)、核心支付系統(tǒng),連續(xù)十余年穩(wěn)定支撐雙 11,歷經(jīng)流量洪峰和穩(wěn)定性考驗(yàn)。全球唯一接連打破“數(shù)據(jù)庫世界杯”TPC-C 和 TPC-H 測試紀(jì)錄,入選世界互聯(lián)網(wǎng)領(lǐng)先科技成果獎(jiǎng)。
在商業(yè)化上,OceanBase已助力金融、政務(wù)、運(yùn)營商、零售、互聯(lián)網(wǎng)等多個(gè)行業(yè)的2000多家客戶實(shí)現(xiàn)關(guān)鍵業(yè)務(wù)系統(tǒng)升級(jí)。
另一方面,它正在全力擁抱AI,積極布局戰(zhàn)略升級(jí)。他們會(huì)如何做,也能給正在等待AI轉(zhuǎn)型升級(jí)的企業(yè)一個(gè)參考。
CEO楊冰的全員信中,其實(shí)就已經(jīng)透露他們接下來的發(fā)展目標(biāo):
- 我們將形成AI時(shí)代從一體化存儲(chǔ)(行存、列存、KV、文檔、向量、倒排)到一體化計(jì)算(OLTP、OLAP、NoSQL、向量數(shù)據(jù)庫、搜索、推理、RAG)的全方位布局,依托螞蟻的豐富應(yīng)用場景將OceanBase的“Data × AI”能力打磨成為新的核心競爭力,并逐漸服務(wù)外部客戶,打造如分布式技術(shù)般的世界級(jí)AI數(shù)據(jù)底座。
而此次開發(fā)者大會(huì),正是他們向外界展示的首次實(shí)踐。
OceanBase給出答案:一體化數(shù)據(jù)底座
面對(duì)行業(yè)的真實(shí)需求,OceanBase正在大膽探索。CTO楊傳輝表示,作為一體化分布式數(shù)據(jù)庫,OceanBase已經(jīng)具備了一定的AI時(shí)代數(shù)據(jù)處理能力。
比如分布式有效應(yīng)對(duì)海量數(shù)據(jù)的存儲(chǔ)計(jì)算、多模融合統(tǒng)一處理不同結(jié)構(gòu)數(shù)據(jù)、TP/AP一體化實(shí)現(xiàn)混合事務(wù)和實(shí)時(shí)分析處理。
在支持AI應(yīng)用落地的核心基礎(chǔ)設(shè)施——向量性能、混合檢索等層面,OceanBase也有新的突破。
大會(huì)現(xiàn)場,基于基準(zhǔn)測試工具VectorDBBench,采用Performamce768D1M測試數(shù)據(jù)集,OceanBase與業(yè)內(nèi)三款領(lǐng)先的開源向量數(shù)據(jù)庫進(jìn)行性能跑分測試。結(jié)果顯示,OceanBase的向量性能已經(jīng)達(dá)到開源向量數(shù)據(jù)庫業(yè)內(nèi)的領(lǐng)先水平。
而面對(duì)AI時(shí)代的海量數(shù)據(jù),OceanBase還引入BQ量化算法(HNSW+BQ),大幅降低向量場景的內(nèi)存需求;引入針對(duì)JSON半結(jié)構(gòu)化數(shù)據(jù)的壓縮能力,降低AI場景中的半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)成本。此外,OceanBase已具備面向多種數(shù)據(jù)模型的混合檢索能力。
再加上PowerRAG,一改傳統(tǒng)的開發(fā)模式(組件森林開發(fā)模式、RAG平臺(tái)模式等),主打開箱即用。
以上能力和產(chǎn)品,背后依托于OceanBase對(duì)于大模型落地價(jià)值的思考以及“一體化數(shù)據(jù)底座”的戰(zhàn)略思路。
他們認(rèn)為大模型落地產(chǎn)生價(jià)值的核心在數(shù)據(jù)與模型的一體化融合。更形象地表述是,數(shù)據(jù)與AI的關(guān)系不再是簡單的Data+AI,應(yīng)該是Data×AI。
基于Data×AI能力,OceanBase致力于從一體化數(shù)據(jù)庫朝著一體化數(shù)據(jù)底座演進(jìn)。
在過去15年產(chǎn)品技術(shù)演進(jìn)中,一體化早已注入了OceanBase的靈魂。甚至從架構(gòu)設(shè)計(jì)的第一天就被視作自然而然的選擇:通過分布式架構(gòu)底座將多個(gè)關(guān)鍵能力融合到一個(gè)引擎和一套數(shù)據(jù)庫。
從最初的工程一體化、多租戶、多兼容模式,演進(jìn)到 HTAP 工作負(fù)載一體化(混合事務(wù)/分析處理),再到單機(jī)分布式一體化、多模型、多數(shù)據(jù)接口,以及面向未來多云基礎(chǔ)設(shè)施的存算分離引擎,可以說一體化本身就是OceanBase產(chǎn)品迭代發(fā)展的核心。
當(dāng)下更海量更復(fù)雜數(shù)據(jù)規(guī)模、混合負(fù)載的需求,一體化數(shù)據(jù)底座也成為廣泛的市場需求。它的底層需要實(shí)現(xiàn)單機(jī)分布式一體化和云上云下一體化,也就是單機(jī)分布式一體化架構(gòu)和多云原生架構(gòu),對(duì)用戶來說它需要提供一套統(tǒng)一支持SQL、AP和AI的數(shù)據(jù)底座。
AI時(shí)代的數(shù)據(jù)底座
此次 OceanBase 所展現(xiàn)出來的數(shù)據(jù)底座探索和創(chuàng)新,對(duì)整個(gè)數(shù)據(jù)庫行業(yè)以及AI應(yīng)用生態(tài)發(fā)展都可能帶來多維度推動(dòng)作用。
首先,AI時(shí)代的數(shù)據(jù)基礎(chǔ)設(shè)施正在從“被動(dòng)存儲(chǔ)”到“主動(dòng)賦能”的范式轉(zhuǎn)換。以往數(shù)據(jù)基礎(chǔ)設(shè)施隱于技術(shù)之后,廠商更多是針對(duì)單一性能、單點(diǎn)需求進(jìn)行優(yōu)化和解決,沒有形成整體的整合與協(xié)同。
現(xiàn)在當(dāng)AI賦能應(yīng)用層,數(shù)據(jù)基礎(chǔ)設(shè)施面向 AI 提供開發(fā) AI 創(chuàng)新應(yīng)用的能力,如推理能力、向量能力、RAG 能力、混合檢索能力等,以滿足 AI 創(chuàng)新應(yīng)用對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施的全面需求。
這也就給其他廠商跟進(jìn)優(yōu)化自身的產(chǎn)品,朝著數(shù)據(jù)與模型一體化融合的方向研究和實(shí)踐提供一個(gè)參考。
其次,AI時(shí)代的數(shù)據(jù)底座,可能呈現(xiàn)出這幾個(gè)方面的特點(diǎn)。
多模態(tài)融合,支持結(jié)構(gòu)化(SQL)、半結(jié)構(gòu)化(JSON)、非結(jié)構(gòu)化(向量/文本)數(shù)據(jù)的統(tǒng)一存儲(chǔ)與混合檢索能力。
混合負(fù)載處理能力,AI時(shí)代將工作負(fù)載的邊界模糊了。通過HTAP引擎實(shí)現(xiàn)OLTP(事務(wù)處理)與OLAP(實(shí)時(shí)分析)的融合,以適應(yīng)復(fù)雜的處理需求。
此外,還包括成本與性能的極致平衡、AI原生功能集成等特點(diǎn)。
最后,在AI廣泛應(yīng)用落地中,數(shù)據(jù)庫廠商是整個(gè)生態(tài)中關(guān)鍵一環(huán)。通過提供高效、易用的數(shù)據(jù)底座解決方案,降低企業(yè)開發(fā) AI 應(yīng)用門檻,從而實(shí)現(xiàn)AI的普惠。
從OceanBase Data x AI的全景圖可以看到,作為最底層的一體化數(shù)據(jù)底座,OceanBase需要和下層模型,以及上層的Agent平臺(tái),AI應(yīng)用做適配。比如當(dāng)前在流行的MCP大模型生態(tài)。
也就意味著,AI場景價(jià)值落地,還是離不開生態(tài)合力,通過”數(shù)據(jù)-模型-應(yīng)用“形成正向循環(huán),促使全行業(yè)加速向多模態(tài)、低成本、易用性方向演進(jìn)。
未來,隨著更多企業(yè)加入這一生態(tài),AI技術(shù)將真正成為普惠生產(chǎn)力,而OceanBase的實(shí)踐無疑正在為這一未來筑牢“地基”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.