過(guò)去一年的AI熱潮,儼然成了“全網(wǎng)最熱”的話題。從生成式AI的火爆,到“千億參數(shù)”模型的不斷突破,AI進(jìn)入了從研究到應(yīng)用的“爆發(fā)期”。無(wú)論是創(chuàng)作、編程,還是機(jī)器人、自動(dòng)駕駛,AI似乎開(kāi)始無(wú)處不在,成為了各行業(yè)的大殺器。
但問(wèn)題是,當(dāng)所有的目光都聚焦在如何讓AI更強(qiáng)、更智能、更普及時(shí),真正決定AI能否大規(guī)模落地的,卻是一個(gè)我們常常忽視的東西——數(shù)據(jù)底座。是的,在很多情況下,AI不缺算法,也不缺算力,它缺的是穩(wěn)定、快速、高效的數(shù)據(jù)管理平臺(tái)——一個(gè)能承載起龐大數(shù)據(jù)流動(dòng)、分析和處理的基礎(chǔ)設(shè)施。
那么,AI時(shí)代對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施提出了哪些新的要求,又應(yīng)該怎么來(lái)應(yīng)對(duì)呢?5月17日在OceanBase第三屆開(kāi)發(fā)者大會(huì)上,OceanBase的一系列舉動(dòng),也許可以給我們一些啟示。
舊數(shù)據(jù)底座,
為什么撐不住AI“大廈”?
AI看起來(lái)很炫,但落地才是最大挑戰(zhàn)。生成式AI已經(jīng)開(kāi)始影響幾乎所有行業(yè),然而,隨著數(shù)據(jù)量的爆炸性增長(zhǎng),傳統(tǒng)的數(shù)據(jù)庫(kù)開(kāi)始顯現(xiàn)出它們的短板。數(shù)據(jù)的規(guī)模、結(jié)構(gòu)和處理方式,已經(jīng)超出了傳統(tǒng)數(shù)據(jù)庫(kù)的承載能力。
☆數(shù)據(jù)爆炸式增長(zhǎng),傳統(tǒng)數(shù)據(jù)庫(kù)捉襟見(jiàn)肘
根據(jù)IDC的預(yù)測(cè),到2028年,全球新生成的數(shù)據(jù)量將達(dá)到驚人的393.9ZB。這意味著,從互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng),到醫(yī)療、金融到零售、制造,各行業(yè)每天都會(huì)產(chǎn)生和積累海量數(shù)據(jù)。而傳統(tǒng)數(shù)據(jù)庫(kù)在面對(duì)這海嘯一般的數(shù)據(jù),往往顯得力不從心。
☆數(shù)據(jù)結(jié)構(gòu)復(fù)雜化,如何統(tǒng)一?
AI應(yīng)用要求數(shù)據(jù)庫(kù)能夠靈活、快速地處理來(lái)自不同來(lái)源和形式的數(shù)據(jù),而這些數(shù)據(jù)的結(jié)構(gòu)差異是AI應(yīng)用能否成功的關(guān)鍵所在。從結(jié)構(gòu)化到非結(jié)構(gòu)化,再到多模態(tài)數(shù)據(jù),數(shù)據(jù)本身的復(fù)雜性要求數(shù)據(jù)庫(kù)必須具備超強(qiáng)的整合能力。
但傳統(tǒng)數(shù)據(jù)庫(kù)的架構(gòu)無(wú)法應(yīng)對(duì)這些新興需求,它們大多以單一數(shù)據(jù)類(lèi)型為主,導(dǎo)致當(dāng)結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)并存時(shí),往往需要使用多個(gè)數(shù)據(jù)庫(kù)來(lái)分別處理。這種“多庫(kù)并存”的方式,不僅導(dǎo)致管理上的復(fù)雜性,還帶來(lái)了系統(tǒng)間的互通性問(wèn)題,增加了數(shù)據(jù)存取的時(shí)間和成本。
☆A(yù)I落地要翻過(guò)去的“三座大山”
AI在實(shí)際落地時(shí),總會(huì)遇到三大“攔路虎”:成本、安全性、效率。這些挑戰(zhàn)正是傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法完全解決的痛點(diǎn)所在。
成本高:AI應(yīng)用需要巨大的計(jì)算資源,而數(shù)據(jù)存儲(chǔ)和計(jì)算的費(fèi)用常常高得令人咋舌。傳統(tǒng)數(shù)據(jù)庫(kù)在面對(duì)大數(shù)據(jù)量、高并發(fā)時(shí),難以提供可伸縮的解決方案。
數(shù)據(jù)碎片化嚴(yán)重:隨著數(shù)據(jù)來(lái)源和種類(lèi)的多樣化,企業(yè)常常面臨數(shù)據(jù)孤島現(xiàn)象——不同系統(tǒng)中的數(shù)據(jù)難以互通,無(wú)法高效整合。傳統(tǒng)數(shù)據(jù)庫(kù)的存儲(chǔ)方式和查詢(xún)機(jī)制,未能有效打破這些障礙。
安全性難保障:AI應(yīng)用涉及大量的敏感數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)庫(kù)往往難以在高速數(shù)據(jù)訪問(wèn)和安全防護(hù)之間找到平衡。
這些問(wèn)題,都是傳統(tǒng)數(shù)據(jù)庫(kù)架構(gòu)無(wú)法高效支撐AI規(guī)模化商用的根本原因。AI對(duì)數(shù)據(jù)的處理不僅要求高效,還要求智能,而傳統(tǒng)數(shù)據(jù)庫(kù)在這方面的能力已遠(yuǎn)遠(yuǎn)不足。
AI時(shí)代需要怎樣的數(shù)據(jù)底座?
說(shuō)到數(shù)據(jù)庫(kù)和AI的關(guān)系,很多人會(huì)認(rèn)為只是簡(jiǎn)單的“Data + AI”結(jié)合:數(shù)據(jù)加上AI算法,兩個(gè)部分的簡(jiǎn)單疊加。但這種看法過(guò)于簡(jiǎn)化了問(wèn)題。現(xiàn)實(shí)中,真正需要的是Data × AI,即數(shù)據(jù)與AI深度融合。
在AI應(yīng)用中,數(shù)據(jù)和模型是互相依賴(lài)的。簡(jiǎn)單來(lái)說(shuō),AI不僅僅依賴(lài)數(shù)據(jù),更需要依靠一個(gè)統(tǒng)一的數(shù)據(jù)庫(kù)/數(shù)據(jù)引擎來(lái)進(jìn)行實(shí)時(shí)計(jì)算、優(yōu)化數(shù)據(jù)質(zhì)量,并為模型提供精準(zhǔn)、快速的數(shù)據(jù)支持。只有在數(shù)據(jù)和AI深度融合的基礎(chǔ)上,AI的效能才能最大化。
在AI時(shí)代,數(shù)據(jù)庫(kù)不僅僅需要存儲(chǔ)數(shù)據(jù),它必須具備以下幾項(xiàng)核心能力,才能支撐復(fù)雜的AI應(yīng)用:
1. 分布式處理海量數(shù)據(jù):AI應(yīng)用需要處理海量的數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)庫(kù)的單機(jī)模式往往難以滿(mǎn)足這一需求。分布式數(shù)據(jù)庫(kù)能夠通過(guò)水平擴(kuò)展提供無(wú)限的存儲(chǔ)和計(jì)算能力,在應(yīng)對(duì)大規(guī)模數(shù)據(jù)時(shí)不再受限。
2. 一體化支持多種數(shù)據(jù)格式:AI應(yīng)用中的數(shù)據(jù)不僅僅是結(jié)構(gòu)化的表格數(shù)據(jù),還包括文本、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù),甚至包括像傳感器數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù)。
3. SQL + AI 混合計(jì)算:在AI應(yīng)用中,數(shù)據(jù)不僅需要存儲(chǔ),還需要進(jìn)行智能化計(jì)算。
4. 向量檢索能力:在AI應(yīng)用中,特別是自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域,向量檢索能力至關(guān)重要。
這已不是傳統(tǒng)數(shù)據(jù)庫(kù)能提供的能力。“Data × AI”,不僅僅是把AI和數(shù)據(jù)結(jié)合在一起,更重要的是通過(guò)技術(shù)創(chuàng)新,打破傳統(tǒng)數(shù)據(jù)庫(kù)架構(gòu)的局限,打造出一個(gè)能夠支撐AI應(yīng)用落地的平臺(tái)。這也正是OceanBase努力的方向。
OceanBase做了什么?
當(dāng)大多數(shù)企業(yè)仍在爭(zhēng)奪AI算法和應(yīng)用的流量入口時(shí),作為數(shù)據(jù)庫(kù)廠商,OceanBase選擇回到源頭,重新審視AI發(fā)展的最底層——數(shù)據(jù)基座。他們沒(méi)有追風(fēng)口,而是悄悄打地基。現(xiàn)在,這條路終于開(kāi)始顯露出價(jià)值。
一個(gè)月前,OceanBase公布了自成立以來(lái)最大的一次戰(zhàn)略升級(jí)。他們提出“Data × AI”戰(zhàn)略,從組織架構(gòu)、技術(shù)體系、產(chǎn)品路徑三方面同步展開(kāi),目標(biāo)很明確:成為AI時(shí)代最堅(jiān)實(shí)的數(shù)據(jù)底座。
1. 從組織上重投AI
2025年4月,OceanBase CEO楊冰發(fā)出一封內(nèi)部全員信,正式宣布公司全面進(jìn)入AI時(shí)代。為了確保戰(zhàn)略落地,他們沒(méi)有僅僅喊口號(hào),而是動(dòng)了“筋骨”——組織重構(gòu)、人才布局圍繞AI展開(kāi)。
CTO楊傳輝被任命為AI戰(zhàn)略一號(hào)位,全面統(tǒng)籌技術(shù)方向。
成立AI平臺(tái)與應(yīng)用部、AI引擎組,從底層引擎到上層平臺(tái)分工明確。
原有開(kāi)發(fā)工具團(tuán)隊(duì)(ODC、OAS)并入AI平臺(tái)部,集中力量打造RAG框架、知識(shí)庫(kù)、AI服務(wù)等核心能力。
組織上的調(diào)整,意味著這不只是一個(gè)“試水項(xiàng)目”,而是OceanBase對(duì)AI的深度承諾。螞蟻集團(tuán)也表態(tài),支持OceanBase攻堅(jiān)AI關(guān)鍵場(chǎng)景,配合其技術(shù)演進(jìn)。這種“自上而下”的投入,正是大多數(shù)技術(shù)公司在AI時(shí)代轉(zhuǎn)型中所缺失的。
2. 技術(shù)棧升級(jí),將“一體化”走到底
如果說(shuō)組織重構(gòu)是戰(zhàn)略框架,那技術(shù)演進(jìn)就是它的“肌肉和骨骼”。OceanBase在架構(gòu)設(shè)計(jì)上沒(méi)有選擇模塊化的“拼湊式”方案,而是堅(jiān)持最難走的一條路——從第一天就強(qiáng)調(diào)“一體化”。
這套“難而正確”的選擇,如今成了OceanBase在AI時(shí)代的最大優(yōu)勢(shì)。
多模融合存儲(chǔ):OceanBase打通了行存、列存、KV、文檔、向量、倒排等六種存儲(chǔ)模式,讓結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)可以在同一平臺(tái)統(tǒng)一管理。這是AI場(chǎng)景中數(shù)據(jù)雜亂、來(lái)源多樣的最佳解法。
向量技術(shù)突破:向量性能是AI落地的重要基石,經(jīng)過(guò)跑分測(cè)試,OceanBase的向量性能已經(jīng)達(dá)到開(kāi)源業(yè)內(nèi)的領(lǐng)先水平,此外OceanBase自研HNSW + BQ量化算法,在保證召回率和性能的基礎(chǔ)上,將向量場(chǎng)景的內(nèi)存成本降低了95%。這意味著企業(yè)可以用更低成本處理大規(guī)模AI檢索任務(wù)。
SQL + AI混合檢索能力:通過(guò)內(nèi)核級(jí)集成的向量引擎與傳統(tǒng)SQL查詢(xún)引擎,OceanBase實(shí)現(xiàn)了結(jié)構(gòu)數(shù)據(jù)與向量數(shù)據(jù)的混合檢索,查詢(xún)效率與精度同步提升。同時(shí)支持自然語(yǔ)言查詢(xún)、智能SQL生成等能力,讓開(kāi)發(fā)者無(wú)需懂復(fù)雜算法,也能搭建AI應(yīng)用。
JSON壓縮能力領(lǐng)先MongoDB三倍:針對(duì)AI中大量產(chǎn)生的半結(jié)構(gòu)化JSON數(shù)據(jù),OceanBase提供了深度壓縮能力,在TPC-H標(biāo)準(zhǔn)測(cè)試中,壓縮效率可達(dá)MongoDB的3倍。這在企業(yè)真實(shí)場(chǎng)景中,意味著數(shù)據(jù)存儲(chǔ)成本的大幅降低。
這些技術(shù)細(xì)節(jié)不是炫技,而是實(shí)打?qū)嵉墓こ棠芰Α沁@套從底層到上層的能力積累,讓OceanBase成為AI落地過(guò)程中少數(shù)能接住“潑天流量”的數(shù)據(jù)庫(kù)產(chǎn)品。
3. 產(chǎn)品創(chuàng)新的腳步也沒(méi)停下來(lái),發(fā)布PowerRAG、AI一體機(jī)、共享存儲(chǔ)
技術(shù)之外,OceanBase也在產(chǎn)品層面迅速“出招”。其中,PowerRAG、共享存儲(chǔ),就是其最新的成果。
先看看PowerRAG,這是一款開(kāi)箱即用的RAG(Retrieval-Augmented Generation)應(yīng)用開(kāi)發(fā)框架。傳統(tǒng)RAG開(kāi)發(fā)門(mén)檻高、流程復(fù)雜,而OceanBase將文檔處理、數(shù)據(jù)索引、檢索、生成等能力模塊化封裝,只需簡(jiǎn)單調(diào)用接口,企業(yè)就能快速構(gòu)建自己的問(wèn)答系統(tǒng)、智能助手或知識(shí)圖譜。
OceanBase同時(shí)還發(fā)布“共享存儲(chǔ)”產(chǎn)品,該產(chǎn)品將對(duì)象存儲(chǔ)與事務(wù)型數(shù)據(jù)庫(kù)(TP)深度集成,打破了傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)本地磁盤(pán)和云盤(pán)的依賴(lài),實(shí)現(xiàn)了計(jì)算與存儲(chǔ)的解耦。通過(guò)這種方式,OceanBase大幅提升了云上數(shù)據(jù)存儲(chǔ)的彈性擴(kuò)展能力,同時(shí)在TP負(fù)載下,存儲(chǔ)成本最高可降低50%。
這些產(chǎn)品是OceanBase從做“數(shù)據(jù)庫(kù)”,走向AI時(shí)代“數(shù)據(jù)底座”的能力延展。他們守住數(shù)據(jù)與AI融合的關(guān)鍵一環(huán),用更少的工程成本、更高的數(shù)據(jù)效率,讓AI真正落地。
OceanBase樹(shù)立了一個(gè)
怎樣的“風(fēng)向標(biāo)”?
在一場(chǎng)被模型參數(shù)和GPU算力主導(dǎo)的AI競(jìng)賽中,OceanBase顯得有些“逆勢(shì)”。它不追爆款應(yīng)用,也沒(méi)有推出自己的大模型。它做的是最不顯眼,卻也最不可或缺的一塊——重塑AI時(shí)代的數(shù)據(jù)基礎(chǔ)設(shè)施。
☆從“存儲(chǔ)”到“底座”,數(shù)據(jù)庫(kù)的角色正在重寫(xiě)
過(guò)去,數(shù)據(jù)庫(kù)是IT系統(tǒng)的中間環(huán)節(jié),用于存儲(chǔ)業(yè)務(wù)數(shù)據(jù),支撐事務(wù)處理。它的重要性被默認(rèn)為“理所當(dāng)然”,卻很少被放到AI敘事的C位。但AI時(shí)代改變了一切。
今天,大模型不是孤立運(yùn)行的,它需要依賴(lài)高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練、微調(diào)和推理。生成式AI看似依賴(lài)算力和算法,實(shí)際上,誰(shuí)能提供穩(wěn)定、可控、結(jié)構(gòu)清晰的數(shù)據(jù)輸入,誰(shuí)就掌握了AI真正的底盤(pán)。
OceanBase清楚地意識(shí)到了這一點(diǎn)。它不只是把數(shù)據(jù)庫(kù)變“快”或者變“智能”,它正在讓數(shù)據(jù)庫(kù)從一個(gè)“信息容器”,變成一個(gè)具備計(jì)算、理解、推理能力的AI基礎(chǔ)設(shè)施。這種轉(zhuǎn)變,才是真正AI Ready的底座。
☆一體化,不只是口號(hào),而是工程哲學(xué)
無(wú)論是多模融合的存儲(chǔ)引擎,還是支持TP/AP/AI混合負(fù)載的查詢(xún)能力,OceanBase始終堅(jiān)持“一體化”的技術(shù)哲學(xué)。
這條路極其難走:它要求從產(chǎn)品架構(gòu)層就開(kāi)始統(tǒng)一設(shè)計(jì),不能像傳統(tǒng)方案那樣“拼接”不同模塊。它意味著技術(shù)團(tuán)隊(duì)要在同一內(nèi)核中解決多種負(fù)載的資源調(diào)度、性能瓶頸、數(shù)據(jù)一致性等難題。這是多數(shù)數(shù)據(jù)庫(kù)廠商回避的挑戰(zhàn),也是OceanBase選擇的路線。
為什么要堅(jiān)持?CTO楊傳輝的解釋很簡(jiǎn)單:“用戶(hù)需要的不是一個(gè)個(gè)孤島,而是一套能跑通全流程的系統(tǒng)。” 在AI場(chǎng)景里,數(shù)據(jù)訓(xùn)練、推理、檢索、反饋是閉環(huán)流程,分裂的系統(tǒng)只會(huì)帶來(lái)更高的成本和更差的體驗(yàn)。而一體化,則意味著低成本、高效率、高一致性的“全鏈路數(shù)據(jù)支撐能力”。
如今,不止OceanBase,越來(lái)越多云服務(wù)商、數(shù)據(jù)庫(kù)廠商也開(kāi)始轉(zhuǎn)向“統(tǒng)一架構(gòu)”“混合負(fù)載”“多模一體”的技術(shù)路線。OceanBase快人一步,用實(shí)際產(chǎn)品提前驗(yàn)證了這條路的可行性。
☆數(shù)據(jù)底座,是國(guó)產(chǎn)技術(shù)的新賽道
作為100%根自研的國(guó)產(chǎn)數(shù)據(jù)庫(kù),OceanBase是中國(guó)首個(gè)打破TPC-C、TPC-H權(quán)威測(cè)試世界紀(jì)錄的數(shù)據(jù)庫(kù),是少數(shù)能在核心金融級(jí)業(yè)務(wù)中承壓運(yùn)營(yíng)的產(chǎn)品之一,如今又致力于打造AI時(shí)代兼顧性能與性?xún)r(jià)比的數(shù)據(jù)底座。更重要的是,它不是一個(gè)“單點(diǎn)突破”的產(chǎn)品,而是在完整產(chǎn)業(yè)鏈條上建立能力閉環(huán)的解決方案提供者。
這對(duì)于中國(guó)科技生態(tài)非常有借鑒價(jià)值。過(guò)去我們習(xí)慣在應(yīng)用層突破,在模型層追趕,但在數(shù)據(jù)基礎(chǔ)設(shè)施這一層,依然存在不小的技術(shù)空白。而OceanBase用15年走出的路徑,提供了一種可能——從最底層打磨出一套中國(guó)人自己的AI基礎(chǔ)設(shè)施。
☆引領(lǐng)行業(yè)生態(tài)“去模型中心化”,讓人們看到模型、算力之外的底層設(shè)施
今天我們談AI,談模型,談AGI的想象力,但如果沒(méi)有像OceanBase這樣重新建構(gòu)底層基礎(chǔ)設(shè)施的企業(yè),這一切想象都將難以落地。模型的上限,永遠(yuǎn)取決于數(shù)據(jù)的下限;AI的高度,終將由底座的厚度決定。
在接下來(lái)的幾年里,我們還會(huì)看到更多模型參數(shù)、更多推理框架、更強(qiáng)的開(kāi)源社區(qū)。但同時(shí),也會(huì)有越來(lái)越多的人開(kāi)始意識(shí)到:“未來(lái)不只是屬于算法、算力更強(qiáng)的人,還屬于數(shù)據(jù)根基更深的人。”
而OceanBase這樣的國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商,正在成為那個(gè)深挖地基的人。當(dāng)然,這樣的廠商并不只是OceanBase,還有無(wú)數(shù)廠商正在摸索前行。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.