99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI大廈需要新的地基!

0
分享至

機器之心報道

編輯:Panda

「Scaling Law 即將撞墻。」這一論斷的一大主要依據(jù)是高質量數(shù)據(jù)不夠用了,正如前 OpenAI 首席科學家 Ilya Sutskever 在 NeurIPS 2024 大會上警告的那樣:「我們所知的預訓練即將終結。」雖然近幾個月由于測試時間計算(test-time compute)范式的快速發(fā)展,這個曾經(jīng)喧囂一時的觀點現(xiàn)在已經(jīng)少有人提,但數(shù)據(jù)對 AI 的重要性卻不減反增,已然成為當前正在持續(xù)的「大模型大戰(zhàn)」中最耀眼的元素之一。

為什么數(shù)據(jù)很重要?從本質上講,當前幾乎所有 AI 模型都依賴對數(shù)據(jù)中模式的學習,機器獲得智能的過程很大程度上是對訓練數(shù)據(jù)概率分布的建模與泛化。而隨著我們進入了「AI 下半場」,數(shù)據(jù)庫的發(fā)展范式也正從現(xiàn)有的「AI for DB」和「DB for AI」轉向「Data×AI」,即數(shù)據(jù)與模型的一體化融合發(fā)展,同時「數(shù)據(jù)庫」也正擴展成「數(shù)據(jù)底座」,即能夠同時處理 OLTP、OLAP 和 AI 的混合負載的一體化引擎。這也是大模型真正落地、產生價值的基礎。

正如 OceanBase CTO 楊傳輝在 5 月 17 日的 OceanBase 2025 開發(fā)者大會上說的那樣:「我認為在 AI 時代,我們需要的是一個一體化的數(shù)據(jù)底座,它的底層需要實現(xiàn)單機分布式一體化和云上云下一體化,用戶需要一套統(tǒng)一支持 SQL、AP 和 AI 的數(shù)據(jù)庫、數(shù)據(jù)底座。」這意味著,數(shù)據(jù)庫系統(tǒng)正在從傳統(tǒng)意義上的「存儲介質」進化為 AI 運行的「地基」。 OceanBase 要做的正是「向一體化數(shù)據(jù)底座演進」。

為什么需要 Data×AI?

雖然「Scaling Law 撞墻論」宣稱高質量數(shù)據(jù)即將耗盡,但實際上這里提到的高質量數(shù)據(jù)主要是指人類產生的易于獲取的互聯(lián)網(wǎng)數(shù)據(jù)。另一個方向上,隨著生成式 AI 和新型數(shù)字化技術的發(fā)展,新生成的數(shù)據(jù)卻正在日益暴增!IDC 預計,2028 年全球新生成數(shù)據(jù)量規(guī)模將達到驚人的393.9 ZB—— 在 2024 年 147 ZB 的基礎上還將以平均每年近 28% 的速度增長。如此海量的數(shù)據(jù)增長將給數(shù)據(jù)基礎設施帶來巨大的壓力。不僅如此,多模態(tài)與非結構化數(shù)據(jù)爆發(fā)式增長、數(shù)據(jù)擴展性和碎片化等問題也在不斷加劇。

這些問題綜合起來,對底層基礎設施的存儲容量、架構擴展和實時分析能力提出了更高要求;也因此,數(shù)據(jù)庫的穩(wěn)健性與可擴展性已經(jīng)成為 AI 應用成功的前提,正如數(shù)據(jù)科學界一句老話說的那樣:「數(shù)據(jù)的邊界決定模型的上限 」。如何高效、可靠地存儲、管理和調用這些數(shù)據(jù),成為 AI 基礎設施能否支撐下一個十年的關鍵考驗。可以說,數(shù)據(jù)在 AI 時代正面臨著一場角色的重塑。

當然,這些需求也已經(jīng)成為了相關領域發(fā)展的重要推動力。據(jù) IDC 統(tǒng)計,2024 年全球大數(shù)據(jù) IT 總投資規(guī)模約為 3540 億美元,預計到 2028 年將增長至近 6440 億美元。

「Data×AI」范式便是在這一背景中誕生的,傳統(tǒng)意義上的 Data Infra(數(shù)據(jù)基礎設施)概念正在走向升級:

Data Infra + AI → Data × AI Infra

也就是說,數(shù)據(jù)系統(tǒng)的作用不再只是為 AI 提供數(shù)據(jù),而是本身也成為 AI 工作流程的一部分,與 AI 協(xié)同發(fā)展。



通過數(shù)據(jù)與 AI 的一體化融合,「Data×AI」范式有望解決行業(yè)數(shù)據(jù)流通難、多模態(tài)數(shù)據(jù)處理難、質量評估難等諸多問題。

比如在行業(yè)數(shù)據(jù)方面,數(shù)據(jù)碎片化早已是普遍存在的老大難問題,尤其在金融、醫(yī)療、工業(yè)制造等復雜嚴謹?shù)男袠I(yè),數(shù)據(jù)不僅分散在不同業(yè)務系統(tǒng)中,還存在極強的結構異構性和組織粒度差異。數(shù)據(jù)匯集的難度遠高于算法構建。垂類數(shù)據(jù)缺乏統(tǒng)一建模方式,導致即使擁有大模型能力,也難以完成語義理解與業(yè)務聯(lián)通。很多企業(yè)所謂的「AI 能力不足」本質上是「數(shù)據(jù)層打不通」。

多模態(tài)數(shù)據(jù)處理難主要體現(xiàn)在數(shù)據(jù)融合和對齊的復雜性上。在實際應用中,文本、圖像、音頻、視頻等不同類型的數(shù)據(jù)具有各自獨特的結構和特性。例如,文本數(shù)據(jù)是線性的,圖像數(shù)據(jù)是二維的,而音視頻數(shù)據(jù)則是時序性的。將這些異構數(shù)據(jù)有效地融合在一起,要求系統(tǒng)具備強大的數(shù)據(jù)對齊和同步能力。此外,不同模態(tài)的數(shù)據(jù)在質量、密度和可用性方面可能存在顯著差異,進一步增加了處理的復雜性。這些挑戰(zhàn)使得多模態(tài) AI 系統(tǒng)在實現(xiàn)高效、準確的決策支持方面面臨嚴峻考驗。

數(shù)據(jù)質量評估難則主要源于數(shù)據(jù)的多樣性和動態(tài)性。在 AI 模型訓練過程中,數(shù)據(jù)的準確性、完整性、一致性和時效性直接影響模型的性能。然而,隨著數(shù)據(jù)來源的多元化和數(shù)據(jù)量的激增,傳統(tǒng)的數(shù)據(jù)質量評估方法已難以滿足需求。例如,自動化工具可能難以識別和糾正數(shù)據(jù)中的細微錯誤或偏差,尤其是在非結構化數(shù)據(jù)中。此外,數(shù)據(jù)的實時更新和變化也要求評估機制具備高度的靈活性和適應性。因此,建立高效、智能的數(shù)據(jù)質量評估體系,成為確保 AI 模型可靠性和有效性的關鍵。

這些問題的解決將成為 AI 真正實現(xiàn)大規(guī)模乃至普及化應用的重要基礎,尤其是在金融、健康、生活、開發(fā)等一些核心應用場景中。

而已發(fā)展 15 年的 OceanBase 已在這些方面取得了長足的進步。作為一個一體化分布式數(shù)據(jù)庫,OceanBase 已經(jīng)具備了一定的 AI 時代數(shù)據(jù)處理能力,如分布式有效應對海量數(shù)據(jù)的存儲計算、多模融合統(tǒng)一處理不同結構數(shù)據(jù)、 TP/AP 一體化實現(xiàn)混合事務和實時分析處理。但大模型落地產生價值的核心在于數(shù)據(jù)與模型的一體化融合,這也正是 OceanBase 提出的構建 Data×AI 能力的關鍵。基于此,OceanBase 正在向 AI 時代戰(zhàn)略躍遷。

OceanBase 在 AI 時代的戰(zhàn)略躍遷

從最初的工程一體化、多租戶、多兼容模式,演進到 HTAP 工作負載一體化(混合事務/分析處理),再到單機分布式一體化、多模型、多數(shù)據(jù)接口,還有如今 Shared Nothing 和 Shared Storage 兩種部署模式的一體化,以及面向未來多云基礎設施的存算分離引擎,一體化理念一直是 OceanBase 產品迭代不斷發(fā)展的核心。



這種理念也切實地給 OceanBase 的發(fā)展帶來了助益。自 2010 年開始投入研發(fā)以來,這款脫胎于螞蟻集團的原生分布式數(shù)據(jù)庫現(xiàn)已支付寶全部核心賬務與核心支付系統(tǒng),并連續(xù)十余年穩(wěn)定支撐雙 11,歷經(jīng)流量洪峰和穩(wěn)定性考驗。不僅如此,OceanBase 還是全球唯一接連打破「數(shù)據(jù)庫世界杯」TPC-C 和 TPC-H 測試紀錄的數(shù)據(jù)庫,并已入選世界互聯(lián)網(wǎng)領先科技獎。經(jīng)過 15 年在海量核心場景中的持續(xù)深耕,OceanBase 已助力金融、政務、運營商、零售、互聯(lián)網(wǎng)等多個行業(yè)的 2000 多家客戶實現(xiàn)關鍵業(yè)務系統(tǒng)升級。

而現(xiàn)在,為了實現(xiàn)從一體化數(shù)據(jù)庫向一體化數(shù)據(jù)底座(Data×AI)的演進,從去年 3 月開始獨立運營的 OceanBase 一直在進行有針對性的創(chuàng)新研發(fā)。在 OceanBase 2025 開發(fā)者大會上,OceanBase CEO 楊冰總結了他們正在推進的四個大方向:

  1. 成為「知識底座」。企業(yè)要向智能化發(fā)展,必須要有一個更加貼合企業(yè)內部運行數(shù)據(jù)和領域知識的內部知識庫,因此融合知識至關重要。為此,OceanBase 計劃要做的包括增強向量能力、提升融合檢索能力、實現(xiàn)企業(yè)知識存儲體系的動態(tài)更新、深度整合模型后訓練與微調。
  2. 打破「數(shù)據(jù)次元壁」。需要實現(xiàn)多模態(tài)的、不同形式和來源的數(shù)據(jù)的標量數(shù)據(jù)和向量數(shù)據(jù)的融合,為此還需要在數(shù)據(jù)存儲的檢索層上取得更多突破。
  3. 當 AI 的「靠譜參謀」。當前 AI 查詢和引用的數(shù)據(jù)可能是不一致的或非實時的,甚至可能還是錯誤級的;為了解決這個問題,需要深度融合推理引擎和數(shù)據(jù)存儲引擎。
  4. 做流量的「沖浪高手」。互聯(lián)網(wǎng)上的流量存在明顯的波峰和波谷,比如雙 11 期間網(wǎng)購流量就會暴增。彈性地應對流量波動也非常關鍵。這是 OceanBase 的強項 —— 結合云的虛擬化的能力以及 OceanBase 的分布式的能力,并且深度適配這些訓練以及推理的場景,可以最大化地挖掘這些數(shù)據(jù)的價值,同時獲得最大的性價比。

會上,我們也看到了 OceanBase 在這些方向上的成果的一次集體展現(xiàn)。

首先來看一個現(xiàn)場跑分數(shù)據(jù):OceanBase 在 VectorDBBench 上 的向量性能。通過現(xiàn)場測試 100 萬條 768 維的數(shù)據(jù)并對比其它 3 款開源向量數(shù)據(jù)庫,OceanBase 以領先的成績證明了自己的實力。



OceanBase 還在原有的向量索引 HNSW 的基礎上引入的BQ 量化算法—— 可將向量數(shù)據(jù)的內存需求平均降低 95%!舉個例子,假設有 2 億條 1536 維的向量數(shù)據(jù),如果直接存儲到內存,要用 1.2 TB 的內存,但如果進行量化處理,則只需 58.6 GB 即可。而對于向量數(shù)據(jù)量特別大以至于無法完全放入內存乃至需要分布式存儲的情況,也可以通過量化的方式達到極致的性能。

這種在性能、成本、穩(wěn)定性、運維性等方面的優(yōu)勢使 OceanBase 非常適合作為生產系統(tǒng)進行部署。

在此基礎上,OceanBase 還在不斷獲得新能力,比如其擁有非常豐富的數(shù)據(jù)模態(tài)支持—— 不僅支持傳統(tǒng)關鍵數(shù)據(jù)庫里的標量(OLTP、OLAP),也支持支持 JSON、全文索引、向量、混合搜索。而且 OceanBase 針對向量與標量混合檢索的能力進行了引領業(yè)內的優(yōu)化。

在這些底層技術能力的基礎上,針對大模型的數(shù)據(jù)檢索問題,OceanBase 在此次開發(fā)者大會上專門發(fā)布了一款面向 AI 時代的開箱即用的 RAG 服務:PowerRAG。其將不同類似文檔的識別、切分、嵌入以及放入向量數(shù)據(jù)庫和寫 LLM 提示詞等工作都封裝成了一個公有云服務。OceanBase CTO 楊傳輝表示:「我們的 PowerRAG 已經(jīng)達到了業(yè)界主流 RAG 應用的性能水平,它的準確率和召回率肯定好于開發(fā)者自己寫的 RAG。」



另外,OceanBase 也已經(jīng)與業(yè)界主流的智能體(Agent)平臺進行了很好的適配,包括 Dify、FastGPT、DB-GPT、LangChain 等。OceanBase 也已經(jīng)實現(xiàn)了對 MCP 協(xié)議的支持。



毫無疑問,OceanBase 正在全力擁抱 AI。

上個月,OceanBase 宣布 CTO 楊傳輝擔任 AI 戰(zhàn)略一號位,全面統(tǒng)籌 AI 戰(zhàn)略制定和技術產品落地。同時還宣布成立了 AI 平臺與應用部并在原有的 OB 底層引擎團隊里新成立了 AI 引擎組。

OceanBase 也對自己的「Data×AI 一體化數(shù)據(jù)底座」戰(zhàn)略方向信心十足。在談到「OceanBase 為什么行」時,除了 OceanBase 15 年堅持自主研發(fā)的過硬技術實力,CTO 楊傳輝還給出了兩大理由:

  1. Data×AI 一體化數(shù)據(jù)底座其實是 OceanBase 一體化數(shù)據(jù)庫的延伸,它的核心在于能不能做好數(shù)據(jù)處理,只是數(shù)據(jù)處理的范圍會有所拓展。
  2. AI 時代的應用大爆發(fā)給了 OceanBase 更大的機會,因為 AI 時代的應用會產生兩個需求:更海量的數(shù)據(jù)和混合負載;而一體化和分布式剛好又是 OceanBase 的優(yōu)勢。

另外,相信「開源」也是這個問題的答案的重要組成部分。開源也是 OceanBase 2025 開發(fā)者大會上一個被重點強調的關鍵詞。自 2021 年 6 月 1 號正式開源以來,OceanBase 已經(jīng)成長為最流行的中國開源數(shù)據(jù)庫之一 —— 已連續(xù)兩年獲得了「墨天輪」排名第一。楊傳輝介紹說,OceanBase 的社區(qū)用戶下載量已經(jīng)突破了百萬量級,并且集群的部署數(shù)量也已超過 5 萬,增長還非常快 —— 年環(huán)比增長超過 400%。



墨天輪排行榜當前前 10 名,可以看到 OceanBase 目前以顯著優(yōu)勢位居第一,截圖來自 modb.pro/dbRank

AI 帶來的深刻變革已經(jīng)開始顯現(xiàn),其核心的數(shù)據(jù)自然也是這場變革的重中之重,甚至可能「未來所有的數(shù)據(jù)公司都將成為 AI 公司」—— 正如螞蟻集團 CTO 何征宇說的那樣。在這場變革中,憑借「Data×AI」戰(zhàn)略,我們或將看到 OceanBase 迎來自己的躍遷。

數(shù)據(jù)庫正在成為一大關鍵變量

當大模型的參數(shù)增速趨緩、應用同質化競爭加劇,一場「回到底層」的產業(yè)反思已經(jīng)開始。人們越來越清楚地意識到:模型能走多遠,取決于它腳下的數(shù)據(jù)有多厚實。畢竟 AI 不是空中樓閣,需要堅實的數(shù)據(jù)地基。

OceanBase 的方向并不神秘:構建一個真正為 AI 而生的一體化數(shù)據(jù)底座。從 PowerRAG 到壓縮和量化算法,從向量支持到多模態(tài)數(shù)據(jù)融合,OceanBase 正讓數(shù)據(jù)庫成為下一個關鍵變量。正如 OceanBase CEO 楊冰在 4 月底的全員信中說的那樣:「誰能更好地解決 Data 和 AI 的融合,實現(xiàn) Data×AI,誰就能成為 AI 時代的數(shù)據(jù)底座。」

是時候把注意力投向那些看似「傳統(tǒng)」的地方了。因為真正能承載未來智能的,不是某個爆款應用,而是能夠支撐千行百業(yè)、接住海量數(shù)據(jù)洪峰的下一代數(shù)據(jù)底座。

OceanBase 的路徑并非孤例,背后是整個數(shù)據(jù)庫行業(yè)正與 AI 協(xié)同演進的共同趨勢。數(shù)據(jù)庫,還將繼續(xù)進化。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《再見愛人2》三年后,Lisa姐還是走了

《再見愛人2》三年后,Lisa姐還是走了

老吳教育課堂
2025-05-19 16:12:17
有些差距!東決首場最低票價為671美元,西決則為170美元

有些差距!東決首場最低票價為671美元,西決則為170美元

雷速體育
2025-05-19 09:16:52
問題被曝光后,夜里11點常務副市長率隊到現(xiàn)場,市長牽頭專項整治,市紀委啟動問責

問題被曝光后,夜里11點常務副市長率隊到現(xiàn)場,市長牽頭專項整治,市紀委啟動問責

新京報政事兒
2025-05-19 14:20:06
近2億獨生子女的困境,已經(jīng)來臨

近2億獨生子女的困境,已經(jīng)來臨

霹靂炮
2025-05-19 13:30:49
38歲何潔近照曝光,面容憔悴略顯衰老,160CM的身高看著像150CM

38歲何潔近照曝光,面容憔悴略顯衰老,160CM的身高看著像150CM

小seven的囧囧啊
2025-05-18 13:53:11
山東省青島市市南區(qū)、副區(qū)長

山東省青島市市南區(qū)、副區(qū)長

觀星賞月
2025-05-20 00:24:41
張九齡婚禮現(xiàn)場曝光!于謙證婚人,岳云鵬上臺送祝福,燒餅主持人

張九齡婚禮現(xiàn)場曝光!于謙證婚人,岳云鵬上臺送祝福,燒餅主持人

草莓解說體育
2025-05-20 00:07:36
S媽不裝了!大婚之夜逼汪小菲賣車還錢,馬筱梅也不忍了!

S媽不裝了!大婚之夜逼汪小菲賣車還錢,馬筱梅也不忍了!

古希臘掌管月桂的神
2025-05-19 19:29:04
瓦倫西亞官方:維尼修斯紀錄片嚴重失實,保留一切法律手段

瓦倫西亞官方:維尼修斯紀錄片嚴重失實,保留一切法律手段

雷速體育
2025-05-19 20:04:10
絕望的小學男老師

絕望的小學男老師

阿亮評論
2025-05-18 10:33:11
上海疾控通報最新情況!多地“新冠陽性率升高”,緊急提醒:3類人群要注意

上海疾控通報最新情況!多地“新冠陽性率升高”,緊急提醒:3類人群要注意

魯中晨報
2025-05-20 07:17:39
50歲林志玲現(xiàn)身戛納!胸前硬擠腰上有贅肉,四肢卻骨瘦如柴太搶鏡

50歲林志玲現(xiàn)身戛納!胸前硬擠腰上有贅肉,四肢卻骨瘦如柴太搶鏡

明月聊史
2025-05-19 15:44:28
小米突發(fā)!多人被采取刑事強制措施

小米突發(fā)!多人被采取刑事強制措施

19樓
2025-05-19 15:17:07
“造芯不是黑歷史”!雷軍動情官宣:3nm,我們做到了,研發(fā)投入已超135億元!小米汽車SUV發(fā)布時間也定了

“造芯不是黑歷史”!雷軍動情官宣:3nm,我們做到了,研發(fā)投入已超135億元!小米汽車SUV發(fā)布時間也定了

每日經(jīng)濟新聞
2025-05-19 13:20:31
為什么華人很少跟白種女人交往?網(wǎng)友:感覺她能把我裝進去

為什么華人很少跟白種女人交往?網(wǎng)友:感覺她能把我裝進去

美好客棧大掌柜
2025-01-20 00:27:14
早該被炸掉?三門峽大壩,是敗筆還是利民工程?答案來了

早該被炸掉?三門峽大壩,是敗筆還是利民工程?答案來了

詩意世界
2025-05-19 22:44:35
中美局勢可能發(fā)生大反轉,最先超過美國的竟不是經(jīng)濟

中美局勢可能發(fā)生大反轉,最先超過美國的竟不是經(jīng)濟

起喜電影
2025-05-20 00:19:57
新一輪存款利率下調即將落地 銀行負債成本有望進一步改善

新一輪存款利率下調即將落地 銀行負債成本有望進一步改善

財聯(lián)社
2025-05-19 23:20:03
夏思齊出軌丑聞曝光,網(wǎng)紅形象徹底坍塌

夏思齊出軌丑聞曝光,網(wǎng)紅形象徹底坍塌

圓圓神神神
2025-05-19 15:39:41
經(jīng)紀人:王鈺棟出去月薪就三五千歐,依木蘭不太適合留洋

經(jīng)紀人:王鈺棟出去月薪就三五千歐,依木蘭不太適合留洋

懂球帝
2025-05-19 21:19:11
2025-05-20 08:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10497文章數(shù) 142316關注度
往期回顧 全部

科技要聞

聯(lián)手馬斯克扎克伯格,微軟"背叛"OpenAI!

頭條要聞

環(huán)球:印媒稱"中國參與印巴交火" 無理取鬧且十分危險

頭條要聞

環(huán)球:印媒稱"中國參與印巴交火" 無理取鬧且十分危險

體育要聞

王楚欽談?chuàng)Q球拍:每次都是我 對組織辦賽很失望

娛樂要聞

S媽首次回應被指控偷大s珠寶一事

財經(jīng)要聞

建設銀行、招商銀行公告 下調存款利率

汽車要聞

雷軍官宣:小米首款SUV YU7 5月22日發(fā)布

態(tài)度原創(chuàng)

親子
家居
本地
公開課
軍事航空

親子要聞

孩子又拉又吐咋辦?8個常見疑問,北京兒童醫(yī)院權威解答

家居要聞

暗色工業(yè) 簡約的設計美學

本地新聞

“5·19中國旅游日”2025年主會場活動啟動儀式

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

事關加沙 以色列一天發(fā)三個聲明

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 扎囊县| 德化县| 长岛县| 汽车| 南丹县| 且末县| 惠水县| 广灵县| 台安县| 垦利县| 宁河县| 秦皇岛市| 固阳县| 历史| 合作市| 炉霍县| 永安市| 登封市| 郓城县| 阳东县| 四川省| 铜梁县| 三原县| 平陆县| 阿拉善左旗| 嘉禾县| 济源市| 连江县| 丰县| 密山市| 鄂尔多斯市| 延津县| 泗水县| 定远县| 太湖县| 昌图县| 措美县| 沅江市| 平潭县| 井研县| 高唐县|