機器之心報道
編輯:Panda
「Scaling Law 即將撞墻。」這一論斷的一大主要依據(jù)是高質量數(shù)據(jù)不夠用了,正如前 OpenAI 首席科學家 Ilya Sutskever 在 NeurIPS 2024 大會上警告的那樣:「我們所知的預訓練即將終結。」雖然近幾個月由于測試時間計算(test-time compute)范式的快速發(fā)展,這個曾經(jīng)喧囂一時的觀點現(xiàn)在已經(jīng)少有人提,但數(shù)據(jù)對 AI 的重要性卻不減反增,已然成為當前正在持續(xù)的「大模型大戰(zhàn)」中最耀眼的元素之一。
為什么數(shù)據(jù)很重要?從本質上講,當前幾乎所有 AI 模型都依賴對數(shù)據(jù)中模式的學習,機器獲得智能的過程很大程度上是對訓練數(shù)據(jù)概率分布的建模與泛化。而隨著我們進入了「AI 下半場」,數(shù)據(jù)庫的發(fā)展范式也正從現(xiàn)有的「AI for DB」和「DB for AI」轉向「Data×AI」,即數(shù)據(jù)與模型的一體化融合發(fā)展,同時「數(shù)據(jù)庫」也正擴展成「數(shù)據(jù)底座」,即能夠同時處理 OLTP、OLAP 和 AI 的混合負載的一體化引擎。這也是大模型真正落地、產生價值的基礎。
正如 OceanBase CTO 楊傳輝在 5 月 17 日的 OceanBase 2025 開發(fā)者大會上說的那樣:「我認為在 AI 時代,我們需要的是一個一體化的數(shù)據(jù)底座,它的底層需要實現(xiàn)單機分布式一體化和云上云下一體化,用戶需要一套統(tǒng)一支持 SQL、AP 和 AI 的數(shù)據(jù)庫、數(shù)據(jù)底座。」這意味著,數(shù)據(jù)庫系統(tǒng)正在從傳統(tǒng)意義上的「存儲介質」進化為 AI 運行的「地基」。 OceanBase 要做的正是「向一體化數(shù)據(jù)底座演進」。
為什么需要 Data×AI?
雖然「Scaling Law 撞墻論」宣稱高質量數(shù)據(jù)即將耗盡,但實際上這里提到的高質量數(shù)據(jù)主要是指人類產生的易于獲取的互聯(lián)網(wǎng)數(shù)據(jù)。另一個方向上,隨著生成式 AI 和新型數(shù)字化技術的發(fā)展,新生成的數(shù)據(jù)卻正在日益暴增!IDC 預計,2028 年全球新生成數(shù)據(jù)量規(guī)模將達到驚人的393.9 ZB—— 在 2024 年 147 ZB 的基礎上還將以平均每年近 28% 的速度增長。如此海量的數(shù)據(jù)增長將給數(shù)據(jù)基礎設施帶來巨大的壓力。不僅如此,多模態(tài)與非結構化數(shù)據(jù)爆發(fā)式增長、數(shù)據(jù)擴展性和碎片化等問題也在不斷加劇。
這些問題綜合起來,對底層基礎設施的存儲容量、架構擴展和實時分析能力提出了更高要求;也因此,數(shù)據(jù)庫的穩(wěn)健性與可擴展性已經(jīng)成為 AI 應用成功的前提,正如數(shù)據(jù)科學界一句老話說的那樣:「數(shù)據(jù)的邊界決定模型的上限 」。如何高效、可靠地存儲、管理和調用這些數(shù)據(jù),成為 AI 基礎設施能否支撐下一個十年的關鍵考驗。可以說,數(shù)據(jù)在 AI 時代正面臨著一場角色的重塑。
當然,這些需求也已經(jīng)成為了相關領域發(fā)展的重要推動力。據(jù) IDC 統(tǒng)計,2024 年全球大數(shù)據(jù) IT 總投資規(guī)模約為 3540 億美元,預計到 2028 年將增長至近 6440 億美元。
「Data×AI」范式便是在這一背景中誕生的,傳統(tǒng)意義上的 Data Infra(數(shù)據(jù)基礎設施)概念正在走向升級:
Data Infra + AI → Data × AI Infra
也就是說,數(shù)據(jù)系統(tǒng)的作用不再只是為 AI 提供數(shù)據(jù),而是本身也成為 AI 工作流程的一部分,與 AI 協(xié)同發(fā)展。
通過數(shù)據(jù)與 AI 的一體化融合,「Data×AI」范式有望解決行業(yè)數(shù)據(jù)流通難、多模態(tài)數(shù)據(jù)處理難、質量評估難等諸多問題。
比如在行業(yè)數(shù)據(jù)方面,數(shù)據(jù)碎片化早已是普遍存在的老大難問題,尤其在金融、醫(yī)療、工業(yè)制造等復雜嚴謹?shù)男袠I(yè),數(shù)據(jù)不僅分散在不同業(yè)務系統(tǒng)中,還存在極強的結構異構性和組織粒度差異。數(shù)據(jù)匯集的難度遠高于算法構建。垂類數(shù)據(jù)缺乏統(tǒng)一建模方式,導致即使擁有大模型能力,也難以完成語義理解與業(yè)務聯(lián)通。很多企業(yè)所謂的「AI 能力不足」本質上是「數(shù)據(jù)層打不通」。
多模態(tài)數(shù)據(jù)處理難主要體現(xiàn)在數(shù)據(jù)融合和對齊的復雜性上。在實際應用中,文本、圖像、音頻、視頻等不同類型的數(shù)據(jù)具有各自獨特的結構和特性。例如,文本數(shù)據(jù)是線性的,圖像數(shù)據(jù)是二維的,而音視頻數(shù)據(jù)則是時序性的。將這些異構數(shù)據(jù)有效地融合在一起,要求系統(tǒng)具備強大的數(shù)據(jù)對齊和同步能力。此外,不同模態(tài)的數(shù)據(jù)在質量、密度和可用性方面可能存在顯著差異,進一步增加了處理的復雜性。這些挑戰(zhàn)使得多模態(tài) AI 系統(tǒng)在實現(xiàn)高效、準確的決策支持方面面臨嚴峻考驗。
數(shù)據(jù)質量評估難則主要源于數(shù)據(jù)的多樣性和動態(tài)性。在 AI 模型訓練過程中,數(shù)據(jù)的準確性、完整性、一致性和時效性直接影響模型的性能。然而,隨著數(shù)據(jù)來源的多元化和數(shù)據(jù)量的激增,傳統(tǒng)的數(shù)據(jù)質量評估方法已難以滿足需求。例如,自動化工具可能難以識別和糾正數(shù)據(jù)中的細微錯誤或偏差,尤其是在非結構化數(shù)據(jù)中。此外,數(shù)據(jù)的實時更新和變化也要求評估機制具備高度的靈活性和適應性。因此,建立高效、智能的數(shù)據(jù)質量評估體系,成為確保 AI 模型可靠性和有效性的關鍵。
這些問題的解決將成為 AI 真正實現(xiàn)大規(guī)模乃至普及化應用的重要基礎,尤其是在金融、健康、生活、開發(fā)等一些核心應用場景中。
而已發(fā)展 15 年的 OceanBase 已在這些方面取得了長足的進步。作為一個一體化分布式數(shù)據(jù)庫,OceanBase 已經(jīng)具備了一定的 AI 時代數(shù)據(jù)處理能力,如分布式有效應對海量數(shù)據(jù)的存儲計算、多模融合統(tǒng)一處理不同結構數(shù)據(jù)、 TP/AP 一體化實現(xiàn)混合事務和實時分析處理。但大模型落地產生價值的核心在于數(shù)據(jù)與模型的一體化融合,這也正是 OceanBase 提出的構建 Data×AI 能力的關鍵。基于此,OceanBase 正在向 AI 時代戰(zhàn)略躍遷。
OceanBase 在 AI 時代的戰(zhàn)略躍遷
從最初的工程一體化、多租戶、多兼容模式,演進到 HTAP 工作負載一體化(混合事務/分析處理),再到單機分布式一體化、多模型、多數(shù)據(jù)接口,還有如今 Shared Nothing 和 Shared Storage 兩種部署模式的一體化,以及面向未來多云基礎設施的存算分離引擎,一體化理念一直是 OceanBase 產品迭代不斷發(fā)展的核心。
這種理念也切實地給 OceanBase 的發(fā)展帶來了助益。自 2010 年開始投入研發(fā)以來,這款脫胎于螞蟻集團的原生分布式數(shù)據(jù)庫現(xiàn)已支付寶全部核心賬務與核心支付系統(tǒng),并連續(xù)十余年穩(wěn)定支撐雙 11,歷經(jīng)流量洪峰和穩(wěn)定性考驗。不僅如此,OceanBase 還是全球唯一接連打破「數(shù)據(jù)庫世界杯」TPC-C 和 TPC-H 測試紀錄的數(shù)據(jù)庫,并已入選世界互聯(lián)網(wǎng)領先科技獎。經(jīng)過 15 年在海量核心場景中的持續(xù)深耕,OceanBase 已助力金融、政務、運營商、零售、互聯(lián)網(wǎng)等多個行業(yè)的 2000 多家客戶實現(xiàn)關鍵業(yè)務系統(tǒng)升級。
而現(xiàn)在,為了實現(xiàn)從一體化數(shù)據(jù)庫向一體化數(shù)據(jù)底座(Data×AI)的演進,從去年 3 月開始獨立運營的 OceanBase 一直在進行有針對性的創(chuàng)新研發(fā)。在 OceanBase 2025 開發(fā)者大會上,OceanBase CEO 楊冰總結了他們正在推進的四個大方向:
- 成為「知識底座」。企業(yè)要向智能化發(fā)展,必須要有一個更加貼合企業(yè)內部運行數(shù)據(jù)和領域知識的內部知識庫,因此融合知識至關重要。為此,OceanBase 計劃要做的包括增強向量能力、提升融合檢索能力、實現(xiàn)企業(yè)知識存儲體系的動態(tài)更新、深度整合模型后訓練與微調。
- 打破「數(shù)據(jù)次元壁」。需要實現(xiàn)多模態(tài)的、不同形式和來源的數(shù)據(jù)的標量數(shù)據(jù)和向量數(shù)據(jù)的融合,為此還需要在數(shù)據(jù)存儲的檢索層上取得更多突破。
- 當 AI 的「靠譜參謀」。當前 AI 查詢和引用的數(shù)據(jù)可能是不一致的或非實時的,甚至可能還是錯誤級的;為了解決這個問題,需要深度融合推理引擎和數(shù)據(jù)存儲引擎。
- 做流量的「沖浪高手」。互聯(lián)網(wǎng)上的流量存在明顯的波峰和波谷,比如雙 11 期間網(wǎng)購流量就會暴增。彈性地應對流量波動也非常關鍵。這是 OceanBase 的強項 —— 結合云的虛擬化的能力以及 OceanBase 的分布式的能力,并且深度適配這些訓練以及推理的場景,可以最大化地挖掘這些數(shù)據(jù)的價值,同時獲得最大的性價比。
會上,我們也看到了 OceanBase 在這些方向上的成果的一次集體展現(xiàn)。
首先來看一個現(xiàn)場跑分數(shù)據(jù):OceanBase 在 VectorDBBench 上 的向量性能。通過現(xiàn)場測試 100 萬條 768 維的數(shù)據(jù)并對比其它 3 款開源向量數(shù)據(jù)庫,OceanBase 以領先的成績證明了自己的實力。
OceanBase 還在原有的向量索引 HNSW 的基礎上引入的BQ 量化算法—— 可將向量數(shù)據(jù)的內存需求平均降低 95%!舉個例子,假設有 2 億條 1536 維的向量數(shù)據(jù),如果直接存儲到內存,要用 1.2 TB 的內存,但如果進行量化處理,則只需 58.6 GB 即可。而對于向量數(shù)據(jù)量特別大以至于無法完全放入內存乃至需要分布式存儲的情況,也可以通過量化的方式達到極致的性能。
這種在性能、成本、穩(wěn)定性、運維性等方面的優(yōu)勢使 OceanBase 非常適合作為生產系統(tǒng)進行部署。
在此基礎上,OceanBase 還在不斷獲得新能力,比如其擁有非常豐富的數(shù)據(jù)模態(tài)支持—— 不僅支持傳統(tǒng)關鍵數(shù)據(jù)庫里的標量(OLTP、OLAP),也支持支持 JSON、全文索引、向量、混合搜索。而且 OceanBase 針對向量與標量混合檢索的能力進行了引領業(yè)內的優(yōu)化。
在這些底層技術能力的基礎上,針對大模型的數(shù)據(jù)檢索問題,OceanBase 在此次開發(fā)者大會上專門發(fā)布了一款面向 AI 時代的開箱即用的 RAG 服務:PowerRAG。其將不同類似文檔的識別、切分、嵌入以及放入向量數(shù)據(jù)庫和寫 LLM 提示詞等工作都封裝成了一個公有云服務。OceanBase CTO 楊傳輝表示:「我們的 PowerRAG 已經(jīng)達到了業(yè)界主流 RAG 應用的性能水平,它的準確率和召回率肯定好于開發(fā)者自己寫的 RAG。」
另外,OceanBase 也已經(jīng)與業(yè)界主流的智能體(Agent)平臺進行了很好的適配,包括 Dify、FastGPT、DB-GPT、LangChain 等。OceanBase 也已經(jīng)實現(xiàn)了對 MCP 協(xié)議的支持。
毫無疑問,OceanBase 正在全力擁抱 AI。
上個月,OceanBase 宣布 CTO 楊傳輝擔任 AI 戰(zhàn)略一號位,全面統(tǒng)籌 AI 戰(zhàn)略制定和技術產品落地。同時還宣布成立了 AI 平臺與應用部并在原有的 OB 底層引擎團隊里新成立了 AI 引擎組。
OceanBase 也對自己的「Data×AI 一體化數(shù)據(jù)底座」戰(zhàn)略方向信心十足。在談到「OceanBase 為什么行」時,除了 OceanBase 15 年堅持自主研發(fā)的過硬技術實力,CTO 楊傳輝還給出了兩大理由:
- Data×AI 一體化數(shù)據(jù)底座其實是 OceanBase 一體化數(shù)據(jù)庫的延伸,它的核心在于能不能做好數(shù)據(jù)處理,只是數(shù)據(jù)處理的范圍會有所拓展。
- AI 時代的應用大爆發(fā)給了 OceanBase 更大的機會,因為 AI 時代的應用會產生兩個需求:更海量的數(shù)據(jù)和混合負載;而一體化和分布式剛好又是 OceanBase 的優(yōu)勢。
另外,相信「開源」也是這個問題的答案的重要組成部分。開源也是 OceanBase 2025 開發(fā)者大會上一個被重點強調的關鍵詞。自 2021 年 6 月 1 號正式開源以來,OceanBase 已經(jīng)成長為最流行的中國開源數(shù)據(jù)庫之一 —— 已連續(xù)兩年獲得了「墨天輪」排名第一。楊傳輝介紹說,OceanBase 的社區(qū)用戶下載量已經(jīng)突破了百萬量級,并且集群的部署數(shù)量也已超過 5 萬,增長還非常快 —— 年環(huán)比增長超過 400%。
墨天輪排行榜當前前 10 名,可以看到 OceanBase 目前以顯著優(yōu)勢位居第一,截圖來自 modb.pro/dbRank
AI 帶來的深刻變革已經(jīng)開始顯現(xiàn),其核心的數(shù)據(jù)自然也是這場變革的重中之重,甚至可能「未來所有的數(shù)據(jù)公司都將成為 AI 公司」—— 正如螞蟻集團 CTO 何征宇說的那樣。在這場變革中,憑借「Data×AI」戰(zhàn)略,我們或將看到 OceanBase 迎來自己的躍遷。
數(shù)據(jù)庫正在成為一大關鍵變量
當大模型的參數(shù)增速趨緩、應用同質化競爭加劇,一場「回到底層」的產業(yè)反思已經(jīng)開始。人們越來越清楚地意識到:模型能走多遠,取決于它腳下的數(shù)據(jù)有多厚實。畢竟 AI 不是空中樓閣,需要堅實的數(shù)據(jù)地基。
OceanBase 的方向并不神秘:構建一個真正為 AI 而生的一體化數(shù)據(jù)底座。從 PowerRAG 到壓縮和量化算法,從向量支持到多模態(tài)數(shù)據(jù)融合,OceanBase 正讓數(shù)據(jù)庫成為下一個關鍵變量。正如 OceanBase CEO 楊冰在 4 月底的全員信中說的那樣:「誰能更好地解決 Data 和 AI 的融合,實現(xiàn) Data×AI,誰就能成為 AI 時代的數(shù)據(jù)底座。」
是時候把注意力投向那些看似「傳統(tǒng)」的地方了。因為真正能承載未來智能的,不是某個爆款應用,而是能夠支撐千行百業(yè)、接住海量數(shù)據(jù)洪峰的下一代數(shù)據(jù)底座。
OceanBase 的路徑并非孤例,背后是整個數(shù)據(jù)庫行業(yè)正與 AI 協(xié)同演進的共同趨勢。數(shù)據(jù)庫,還將繼續(xù)進化。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.