AI大廈需要新的地基！

2025-05-19 19:15:40　來源: 機器之心Pro

天津舉報

分享至

機器之心報道

編輯：Panda

「Scaling Law 即將撞墻。」這一論斷的一大主要依據(jù)是高質量數(shù)據(jù)不夠用了，正如前 OpenAI 首席科學家 Ilya Sutskever 在 NeurIPS 2024 大會上警告的那樣：「我們所知的預訓練即將終結。」雖然近幾個月由于測試時間計算（test-time compute）范式的快速發(fā)展，這個曾經(jīng)喧囂一時的觀點現(xiàn)在已經(jīng)少有人提，但數(shù)據(jù)對 AI 的重要性卻不減反增，已然成為當前正在持續(xù)的「大模型大戰(zhàn)」中最耀眼的元素之一。

為什么數(shù)據(jù)很重要？從本質上講，當前幾乎所有 AI 模型都依賴對數(shù)據(jù)中模式的學習，機器獲得智能的過程很大程度上是對訓練數(shù)據(jù)概率分布的建模與泛化。而隨著我們進入了「AI 下半場」，數(shù)據(jù)庫的發(fā)展范式也正從現(xiàn)有的「AI for DB」和「DB for AI」轉向「Data×AI」，即數(shù)據(jù)與模型的一體化融合發(fā)展，同時「數(shù)據(jù)庫」也正擴展成「數(shù)據(jù)底座」，即能夠同時處理 OLTP、OLAP 和 AI 的混合負載的一體化引擎。這也是大模型真正落地、產生價值的基礎。

正如 OceanBase CTO 楊傳輝在 5 月 17 日的 OceanBase 2025 開發(fā)者大會上說的那樣：「我認為在 AI 時代，我們需要的是一個一體化的數(shù)據(jù)底座，它的底層需要實現(xiàn)單機分布式一體化和云上云下一體化，用戶需要一套統(tǒng)一支持 SQL、AP 和 AI 的數(shù)據(jù)庫、數(shù)據(jù)底座。」這意味著，數(shù)據(jù)庫系統(tǒng)正在從傳統(tǒng)意義上的「存儲介質」進化為 AI 運行的「地基」。 OceanBase 要做的正是「向一體化數(shù)據(jù)底座演進」。

為什么需要 Data×AI？

雖然「Scaling Law 撞墻論」宣稱高質量數(shù)據(jù)即將耗盡，但實際上這里提到的高質量數(shù)據(jù)主要是指人類產生的易于獲取的互聯(lián)網(wǎng)數(shù)據(jù)。另一個方向上，隨著生成式 AI 和新型數(shù)字化技術的發(fā)展，新生成的數(shù)據(jù)卻正在日益暴增！IDC 預計，2028 年全球新生成數(shù)據(jù)量規(guī)模將達到驚人的393.9 ZB—— 在 2024 年 147 ZB 的基礎上還將以平均每年近 28% 的速度增長。如此海量的數(shù)據(jù)增長將給數(shù)據(jù)基礎設施帶來巨大的壓力。不僅如此，多模態(tài)與非結構化數(shù)據(jù)爆發(fā)式增長、數(shù)據(jù)擴展性和碎片化等問題也在不斷加劇。

這些問題綜合起來，對底層基礎設施的存儲容量、架構擴展和實時分析能力提出了更高要求；也因此，數(shù)據(jù)庫的穩(wěn)健性與可擴展性已經(jīng)成為 AI 應用成功的前提，正如數(shù)據(jù)科學界一句老話說的那樣：「數(shù)據(jù)的邊界決定模型的上限」。如何高效、可靠地存儲、管理和調用這些數(shù)據(jù)，成為 AI 基礎設施能否支撐下一個十年的關鍵考驗。可以說，數(shù)據(jù)在 AI 時代正面臨著一場角色的重塑。

當然，這些需求也已經(jīng)成為了相關領域發(fā)展的重要推動力。據(jù) IDC 統(tǒng)計，2024 年全球大數(shù)據(jù) IT 總投資規(guī)模約為 3540 億美元，預計到 2028 年將增長至近 6440 億美元。

「Data×AI」范式便是在這一背景中誕生的，傳統(tǒng)意義上的 Data Infra（數(shù)據(jù)基礎設施）概念正在走向升級：

Data Infra + AI → Data × AI Infra

也就是說，數(shù)據(jù)系統(tǒng)的作用不再只是為 AI 提供數(shù)據(jù)，而是本身也成為 AI 工作流程的一部分，與 AI 協(xié)同發(fā)展。

通過數(shù)據(jù)與 AI 的一體化融合，「Data×AI」范式有望解決行業(yè)數(shù)據(jù)流通難、多模態(tài)數(shù)據(jù)處理難、質量評估難等諸多問題。

比如在行業(yè)數(shù)據(jù)方面，數(shù)據(jù)碎片化早已是普遍存在的老大難問題，尤其在金融、醫(yī)療、工業(yè)制造等復雜嚴謹?shù)男袠I(yè)，數(shù)據(jù)不僅分散在不同業(yè)務系統(tǒng)中，還存在極強的結構異構性和組織粒度差異。數(shù)據(jù)匯集的難度遠高于算法構建。垂類數(shù)據(jù)缺乏統(tǒng)一建模方式，導致即使擁有大模型能力，也難以完成語義理解與業(yè)務聯(lián)通。很多企業(yè)所謂的「AI 能力不足」本質上是「數(shù)據(jù)層打不通」。

多模態(tài)數(shù)據(jù)處理難主要體現(xiàn)在數(shù)據(jù)融合和對齊的復雜性上。在實際應用中，文本、圖像、音頻、視頻等不同類型的數(shù)據(jù)具有各自獨特的結構和特性。例如，文本數(shù)據(jù)是線性的，圖像數(shù)據(jù)是二維的，而音視頻數(shù)據(jù)則是時序性的。將這些異構數(shù)據(jù)有效地融合在一起，要求系統(tǒng)具備強大的數(shù)據(jù)對齊和同步能力。此外，不同模態(tài)的數(shù)據(jù)在質量、密度和可用性方面可能存在顯著差異，進一步增加了處理的復雜性。這些挑戰(zhàn)使得多模態(tài) AI 系統(tǒng)在實現(xiàn)高效、準確的決策支持方面面臨嚴峻考驗。

數(shù)據(jù)質量評估難則主要源于數(shù)據(jù)的多樣性和動態(tài)性。在 AI 模型訓練過程中，數(shù)據(jù)的準確性、完整性、一致性和時效性直接影響模型的性能。然而，隨著數(shù)據(jù)來源的多元化和數(shù)據(jù)量的激增，傳統(tǒng)的數(shù)據(jù)質量評估方法已難以滿足需求。例如，自動化工具可能難以識別和糾正數(shù)據(jù)中的細微錯誤或偏差，尤其是在非結構化數(shù)據(jù)中。此外，數(shù)據(jù)的實時更新和變化也要求評估機制具備高度的靈活性和適應性。因此，建立高效、智能的數(shù)據(jù)質量評估體系，成為確保 AI 模型可靠性和有效性的關鍵。

這些問題的解決將成為 AI 真正實現(xiàn)大規(guī)模乃至普及化應用的重要基礎，尤其是在金融、健康、生活、開發(fā)等一些核心應用場景中。

而已發(fā)展 15 年的 OceanBase 已在這些方面取得了長足的進步。作為一個一體化分布式數(shù)據(jù)庫，OceanBase 已經(jīng)具備了一定的 AI 時代數(shù)據(jù)處理能力，如分布式有效應對海量數(shù)據(jù)的存儲計算、多模融合統(tǒng)一處理不同結構數(shù)據(jù)、 TP/AP 一體化實現(xiàn)混合事務和實時分析處理。但大模型落地產生價值的核心在于數(shù)據(jù)與模型的一體化融合，這也正是 OceanBase 提出的構建 Data×AI 能力的關鍵。基于此，OceanBase 正在向 AI 時代戰(zhàn)略躍遷。

OceanBase 在 AI 時代的戰(zhàn)略躍遷

從最初的工程一體化、多租戶、多兼容模式，演進到 HTAP 工作負載一體化（混合事務/分析處理），再到單機分布式一體化、多模型、多數(shù)據(jù)接口，還有如今 Shared Nothing 和 Shared Storage 兩種部署模式的一體化，以及面向未來多云基礎設施的存算分離引擎，一體化理念一直是 OceanBase 產品迭代不斷發(fā)展的核心。

這種理念也切實地給 OceanBase 的發(fā)展帶來了助益。自 2010 年開始投入研發(fā)以來，這款脫胎于螞蟻集團的原生分布式數(shù)據(jù)庫現(xiàn)已支付寶全部核心賬務與核心支付系統(tǒng)，并連續(xù)十余年穩(wěn)定支撐雙 11，歷經(jīng)流量洪峰和穩(wěn)定性考驗。不僅如此，OceanBase 還是全球唯一接連打破「數(shù)據(jù)庫世界杯」TPC-C 和 TPC-H 測試紀錄的數(shù)據(jù)庫，并已入選世界互聯(lián)網(wǎng)領先科技獎。經(jīng)過 15 年在海量核心場景中的持續(xù)深耕，OceanBase 已助力金融、政務、運營商、零售、互聯(lián)網(wǎng)等多個行業(yè)的 2000 多家客戶實現(xiàn)關鍵業(yè)務系統(tǒng)升級。

而現(xiàn)在，為了實現(xiàn)從一體化數(shù)據(jù)庫向一體化數(shù)據(jù)底座（Data×AI）的演進，從去年 3 月開始獨立運營的 OceanBase 一直在進行有針對性的創(chuàng)新研發(fā)。在 OceanBase 2025 開發(fā)者大會上，OceanBase CEO 楊冰總結了他們正在推進的四個大方向：

成為「知識底座」。企業(yè)要向智能化發(fā)展，必須要有一個更加貼合企業(yè)內部運行數(shù)據(jù)和領域知識的內部知識庫，因此融合知識至關重要。為此，OceanBase 計劃要做的包括增強向量能力、提升融合檢索能力、實現(xiàn)企業(yè)知識存儲體系的動態(tài)更新、深度整合模型后訓練與微調。
打破「數(shù)據(jù)次元壁」。需要實現(xiàn)多模態(tài)的、不同形式和來源的數(shù)據(jù)的標量數(shù)據(jù)和向量數(shù)據(jù)的融合，為此還需要在數(shù)據(jù)存儲的檢索層上取得更多突破。
當 AI 的「靠譜參謀」。當前 AI 查詢和引用的數(shù)據(jù)可能是不一致的或非實時的，甚至可能還是錯誤級的；為了解決這個問題，需要深度融合推理引擎和數(shù)據(jù)存儲引擎。
做流量的「沖浪高手」。互聯(lián)網(wǎng)上的流量存在明顯的波峰和波谷，比如雙 11 期間網(wǎng)購流量就會暴增。彈性地應對流量波動也非常關鍵。這是 OceanBase 的強項 —— 結合云的虛擬化的能力以及 OceanBase 的分布式的能力，并且深度適配這些訓練以及推理的場景，可以最大化地挖掘這些數(shù)據(jù)的價值，同時獲得最大的性價比。

會上，我們也看到了 OceanBase 在這些方向上的成果的一次集體展現(xiàn)。

首先來看一個現(xiàn)場跑分數(shù)據(jù)：OceanBase 在 VectorDBBench 上的向量性能。通過現(xiàn)場測試 100 萬條 768 維的數(shù)據(jù)并對比其它 3 款開源向量數(shù)據(jù)庫，OceanBase 以領先的成績證明了自己的實力。

OceanBase 還在原有的向量索引 HNSW 的基礎上引入的BQ 量化算法—— 可將向量數(shù)據(jù)的內存需求平均降低 95%！舉個例子，假設有 2 億條 1536 維的向量數(shù)據(jù)，如果直接存儲到內存，要用 1.2 TB 的內存，但如果進行量化處理，則只需 58.6 GB 即可。而對于向量數(shù)據(jù)量特別大以至于無法完全放入內存乃至需要分布式存儲的情況，也可以通過量化的方式達到極致的性能。

這種在性能、成本、穩(wěn)定性、運維性等方面的優(yōu)勢使 OceanBase 非常適合作為生產系統(tǒng)進行部署。

在此基礎上，OceanBase 還在不斷獲得新能力，比如其擁有非常豐富的數(shù)據(jù)模態(tài)支持—— 不僅支持傳統(tǒng)關鍵數(shù)據(jù)庫里的標量（OLTP、OLAP），也支持支持 JSON、全文索引、向量、混合搜索。而且 OceanBase 針對向量與標量混合檢索的能力進行了引領業(yè)內的優(yōu)化。

在這些底層技術能力的基礎上，針對大模型的數(shù)據(jù)檢索問題，OceanBase 在此次開發(fā)者大會上專門發(fā)布了一款面向 AI 時代的開箱即用的 RAG 服務：PowerRAG。其將不同類似文檔的識別、切分、嵌入以及放入向量數(shù)據(jù)庫和寫 LLM 提示詞等工作都封裝成了一個公有云服務。OceanBase CTO 楊傳輝表示：「我們的 PowerRAG 已經(jīng)達到了業(yè)界主流 RAG 應用的性能水平，它的準確率和召回率肯定好于開發(fā)者自己寫的 RAG。」

另外，OceanBase 也已經(jīng)與業(yè)界主流的智能體（Agent）平臺進行了很好的適配，包括 Dify、FastGPT、DB-GPT、LangChain 等。OceanBase 也已經(jīng)實現(xiàn)了對 MCP 協(xié)議的支持。

毫無疑問，OceanBase 正在全力擁抱 AI。

上個月，OceanBase 宣布 CTO 楊傳輝擔任 AI 戰(zhàn)略一號位，全面統(tǒng)籌 AI 戰(zhàn)略制定和技術產品落地。同時還宣布成立了 AI 平臺與應用部并在原有的 OB 底層引擎團隊里新成立了 AI 引擎組。

OceanBase 也對自己的「Data×AI 一體化數(shù)據(jù)底座」戰(zhàn)略方向信心十足。在談到「OceanBase 為什么行」時，除了 OceanBase 15 年堅持自主研發(fā)的過硬技術實力，CTO 楊傳輝還給出了兩大理由：

Data×AI 一體化數(shù)據(jù)底座其實是 OceanBase 一體化數(shù)據(jù)庫的延伸，它的核心在于能不能做好數(shù)據(jù)處理，只是數(shù)據(jù)處理的范圍會有所拓展。
AI 時代的應用大爆發(fā)給了 OceanBase 更大的機會，因為 AI 時代的應用會產生兩個需求：更海量的數(shù)據(jù)和混合負載；而一體化和分布式剛好又是 OceanBase 的優(yōu)勢。

另外，相信「開源」也是這個問題的答案的重要組成部分。開源也是 OceanBase 2025 開發(fā)者大會上一個被重點強調的關鍵詞。自 2021 年 6 月 1 號正式開源以來，OceanBase 已經(jīng)成長為最流行的中國開源數(shù)據(jù)庫之一 —— 已連續(xù)兩年獲得了「墨天輪」排名第一。楊傳輝介紹說，OceanBase 的社區(qū)用戶下載量已經(jīng)突破了百萬量級，并且集群的部署數(shù)量也已超過 5 萬，增長還非常快 —— 年環(huán)比增長超過 400%。

墨天輪排行榜當前前 10 名，可以看到 OceanBase 目前以顯著優(yōu)勢位居第一，截圖來自 modb.pro/dbRank

AI 帶來的深刻變革已經(jīng)開始顯現(xiàn)，其核心的數(shù)據(jù)自然也是這場變革的重中之重，甚至可能「未來所有的數(shù)據(jù)公司都將成為 AI 公司」—— 正如螞蟻集團 CTO 何征宇說的那樣。在這場變革中，憑借「Data×AI」戰(zhàn)略，我們或將看到 OceanBase 迎來自己的躍遷。

數(shù)據(jù)庫正在成為一大關鍵變量

當大模型的參數(shù)增速趨緩、應用同質化競爭加劇，一場「回到底層」的產業(yè)反思已經(jīng)開始。人們越來越清楚地意識到：模型能走多遠，取決于它腳下的數(shù)據(jù)有多厚實。畢竟 AI 不是空中樓閣，需要堅實的數(shù)據(jù)地基。

OceanBase 的方向并不神秘：構建一個真正為 AI 而生的一體化數(shù)據(jù)底座。從 PowerRAG 到壓縮和量化算法，從向量支持到多模態(tài)數(shù)據(jù)融合，OceanBase 正讓數(shù)據(jù)庫成為下一個關鍵變量。正如 OceanBase CEO 楊冰在 4 月底的全員信中說的那樣：「誰能更好地解決 Data 和 AI 的融合，實現(xiàn) Data×AI，誰就能成為 AI 時代的數(shù)據(jù)底座。」

是時候把注意力投向那些看似「傳統(tǒng)」的地方了。因為真正能承載未來智能的，不是某個爆款應用，而是能夠支撐千行百業(yè)、接住海量數(shù)據(jù)洪峰的下一代數(shù)據(jù)底座。

OceanBase 的路徑并非孤例，背后是整個數(shù)據(jù)庫行業(yè)正與 AI 協(xié)同演進的共同趨勢。數(shù)據(jù)庫，還將繼續(xù)進化。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.