智東西
作者 王涵
編輯 漠影
智東西6月24日報道,獨立數據庫廠商OceanBase今日在媒體溝通會上宣布,其云數據庫OB Cloud已實現AI能力的開發部署及生態集成,并已服務零售、金融、物流等行業的數十家頭部企業,推動AI落地。
在今年的3月27日,OceanBase舉行了首屆合作伙伴大會,在會上OceanBase稱“AI將成為其未來重要的發展方向。此次OB Cloud對AI能力的部署集成與行業應用,被視為OceanBase AI戰略落地的第一步。
“云數據庫與AI天然契合。”OceanBase副總裁、公有云事業部總經理尹博學這樣解釋,一方面,云數據庫的彈性擴展、成本優化、高可用等特性,為AI工作負載提供堅實底座;另一方面,AI對多模態數據的高效調用需求,推動云數據庫強化向量檢索、多模融合等能力。
“推理過程中,向量檢索與標量查詢相結合式的數據檢索,可以緩解大語言模型的幻覺現象。”尹博學介紹到,OB Cloud將向量索引、全文索引和模糊索引集成為“all in one”的存儲化引擎,可以幫助客戶在簡潔高效的技術棧上,提高效率并降低成本。
據悉,OB Cloud云基座涵蓋了國內外主流的6家云廠商,可以獲得開箱即用的云服務。從去年第二季度到今年第二季度,一年里OB Cloud的開服區域從30提升到50,提升了67%;可用區從100+提升到170+,其可靠性和容災能力大幅度提升。可以在不同的地域、不同的國家、不同的基礎設施上,AI應用的可獲得性變得更便捷,OB Cloud也能夠在各種地域、各種云上為AI應用提供支撐和服務。
▲OceanBase副總裁、公有云事業部總經理尹博學
一、成本直降95%,OB Cloud性能超ES9.0
如今的AI應用涉及海量的結構化、半結構化以及非結構化數據,單一數據類型的存儲和查詢已經沒有辦法滿足業務需求。與此同時,更大的挑戰來自高維向量數據,推薦系統、圖像搜索、語義理解等AI場景,需要處理的數據不僅體量龐大,而且計算復雜。
企業對于數據庫的向量能力的要求也越來越高,而OB Cloud可以將多模態數據通過嵌入模型轉化成向量進行儲存,實現更加高效的數據存儲與調用。
對于非結構化數據處理,OceanBase資深技術專家張易稱,OB Cloud主要通過加強文本檢索和向量檢索來達到更優的性能。同時在非結構化之上,目前正在通過AI函數的功能,鏈接模型以及數據的能力,從而能夠達到一條SQL串接整個的結構化以及非結構化處理的工作流。
在 RAG 技術應用中,其核心處理流程與行業主流架構具有一致性。該流程首先對用戶問題進行理解與改寫,將自然語言查詢轉化為適配系統處理的格式;繼而在知識庫檢索環節中,完成知識片段的召回與排序優化,確保向大模型輸入高相關性信息;最終由大模型基于處理后的內容生成答案并反饋給用戶。
值得關注的是,該方案對全流程各環節進行了細粒度拆解,通過對問題解析、知識檢索、模型交互等每個節點的獨立調優與協同串聯,實現了整體回答準確率與處理效率的系統性提升。
▲OceanBase資深技術專家張易
OB Cloud向量算法庫叫做VSAG,目前已經開源。在國際主流的Benchmark上,VSAG向量的性能大概是目前Sota水平的90%以上。
此外,在數據層面,OB Cloud基于向量算法組織了內存索引、磁盤索引和混合索引來應對向量的存儲和計算的需求。最后是算力層,目前OB Cloud正在構建基于GPU的向量索引。
在算法方面,張易還提到,一方面向量數據會隨著用戶增長而不斷攝入,一方面用戶對數據的需求也會越來越大。為了既實現增量又要滿足海量,OB Cloud讓檢索實時可見,并引進磁盤IVF+HNSW混合索引,單機可支撐10億向量檢索。
同時,在AI領域,在json等半結構化數據處理方面,OB也做了大量的工作。目前在json的存儲優化方面,已有的版本跟主流的MongoDB相比,成本僅為1/3。
OB和其他的向量數據庫還有一個比較大的區別,即從OB整個向量數據庫到向量算法全部都是自研的。OceanBase資深技術專家張易稱,從整體性能上看,自研的OB Cloud的向量性能已經達到主流開源數據庫水平。
據螞蟻內部統計,OB Cloud對資源的要求高1~2個數量級,同等召回率和性能的條件下,OB Cloud的成本可以下降95%,在研版本的性能超ES 9.0 BBO 16%。
在最近的幾個月,OceanBase引入RabitQ來解決傳統HNSW算法占用內存較多的問題。內部統計,在不同的工作負載、同樣的查詢以及召回數據等量的情況下,引入RabitQ的OB Cloud會比和傳統計算的數據存取高,對資源的要求也高1到2個數量級。同時與同時引進了RabitQ算法的主流產品ES9.0做了對比,OB Cloud的BBQ高16%左右。
據悉,OB Cloud正在“TP+向量”與“向量+多模態”的方向上進行探索。從螞蟻集團內部實踐及行業趨勢來看,文本檢索領域正經歷技術迭代升級:數年前單一向量技術即可解決語義檢索需求,近年來已發展為向量與全文檢索結合的模式。而當前業界數據表明,向量、全文與稀疏向量的融合應用能進一步提升召回率。
基于此,技術團隊正推進兩方面優化:一方面將稀疏向量、稠密向量與全文的多路檢索能力集成至數據庫內核,使用戶通過單條 SQL 即可實現混合檢索;另一方面嘗試將向量 Embedding 模型嵌入數據庫,使用戶僅需插入原始數據,無需關注向量處理過程,從而實現數據插入與查詢的一體化易用性體驗。
二、PowerRAG:一站式解決方案,提升回答準確率與處理效率
OceanBase公有云高級產品專家馮禮在會上稱,在 AI 落地中,RAG(檢索增強生成)是企業優先采用的核心場景,通過知識庫、知識檢索與大模型結合,解決大模型 “幻覺” 問題,使其基于企業內部數據作答。
傳統RAG搭建需復雜選型向量庫、文本庫等數據底座,上層依賴開源框架開發,運維與集成成本高。現推出的PowerRAG多模一體化方案整合多元檢索能力,在此基礎上實現全流程模塊集成,以一站式方案降低成本,其核心流程涵蓋問題理解、知識庫檢索及大模型交互,通過環節優化提升效率。
▲OceanBase公有云高級產品專家馮禮
新產品PowerRAG正在形成“集成知識庫+知識檢索+大模型”式的多模一體化數據解決方案。該產品可以將文檔輸入到知識庫形成切片,通過向量嵌入模型以向量模式存儲,用戶通過提問檢索答案,再將答案通過大語言模型輸出給用戶。PowerRAG還可以對文檔的段落、表格和圖片等不同的多模態數據采取不同的解析策略。
OceanBase AI助手以及AI驅動的智能運維服務(OAS)就是該產品的落地實踐結果。目前,PowerRAG可以在OB Cloud官網進行體驗。
三、DB – LLMOps新范式,解決企業AI規模化落地三重挑戰
“AI不再是工具,而是平臺級基礎設施的接替者。”OceanBase公有云事業部解決方案總監戴濤稱,企業AI規模化落地三個核心挑戰:數據治理與架構適配、成本和性能博弈、企業級數據安全。
▲OceanBase公有云事業部解決方案總監戴濤
面對這三個挑戰,OceanBase可以幫助企業從結合自身優勢產生AI應用新范式:DB-LLMOps。該范式是圍繞企業數據和大模型的應用程序的生命周期管理平臺或者工具。企業可以充分利用企業與數據的長處和特征,引入大模型的能力,共同完成整個企業開發、AI開發架構范式的變化。
另外,戴濤強調,在向量技術的實際應用中,檢索場景始終是核心切入點。傳統檢索模式以全文檢索、結構化檢索為主,但隨著大模型技術的引入,檢索需求正經歷深度變革:向量檢索、語義檢索、模型重排序及RAG等技術的融合,使檢索邏輯從單一規則匹配轉向語義理解與智能優化的復合模式。
當前企業面臨的檢索場景呈現顯著復雜化特征:從數據形態看,圖像、文本、音頻、視頻等多模態數據的檢索需求并存;從應用維度看,跨語料、跨專業、跨學科的復雜檢索場景日益普遍。
此類需求的升級推動向量數據庫成為關鍵解決方案,其通過高維向量表征與語義相似度計算,可有效應對多模態數據關聯分析、跨領域知識匹配等復雜檢索場景,為企業解決傳統檢索技術在語義理解與跨維度檢索中的瓶頸問題。
在企業落地案例中,向量數據庫助力以圖搜圖功能實現高效應用。例如,三維家家居設計企業,其借助向量數據庫對大量家居素材圖片進行Embedding嵌入,用戶上傳圖片后,系統可快速檢索匹配相關設計素材,輔助設計師生成AI裝修視覺圖。
跨境電商企業卡佩希通過向量數據庫實現多模態檢索,客服可基于用戶的圖片或文字需求描述,快速檢索并推薦相關女裝商品,提供混合檢索服務。在視頻推薦場景中,合作企業當貝基于用戶觀看記錄的向量表征,通過語義匹配推送風格相似的內容,將向量檢索能力延伸至廣告推薦領域。
在RAG場景落地中,伯俊科技利用OB向量能力構建企業知識庫,沉淀專業知識,后續將延伸至文件導購、AI配貨等場景。貨拉拉以RAG為底座,一方面通過圖片、代碼等模式識別實現資損代碼識別,輔助用戶賠償建議判斷;另一方面打造數倉AI答疑功能,支持自然語言SQL查詢,為客戶提供數據倉庫問題解答。
在企業問數場景落地中,銀泰通過處理自然語言,將其轉化為RAG化、向量化內容,為企業管理層提供實時問題診斷。該方案涵蓋從自然語言到SQL的轉化,訓練企業特殊語料,搜索數據后供經營者決策。同時,銀泰還應用RAG功能,對外提供智能問答,對內構建知識庫。
在企業Agent領域應用中,OB的一體化技術架構具備顯著優勢:其混合查詢能力支持標量與向量一體化檢索,多模態交互特性可處理多元數據。高并發、低延遲性能適配企業實時需求,數據隔離與多租戶機制則保障了企業級應用的安全性與資源管理效率,為企業構建AI底座提供核心支撐。
最后,戴濤總結稱,企業 AI 規模化落地可分三步推進:
第一步:單場景從0到1切入,建議以知識庫為入口,選擇高價值、短鏈路場景,借助PowerRAG產品快速搭建驗證。
第二步:漸進式場景擴展,針對業務與 IT 團隊認知差異,通過Design Thinking工作坊協同挖掘AI場景,完成小規模應用構建,實現從1到10的能力延伸。
第三步:構建 AI 業務中臺,整合Agent、RAG及一體化數據庫,形成標準化平臺,支持業務與輕IT人員快速開發創新應用,推動業務與IT雙輪驅動,最終實現從AI賦能到AI原生的升級。
結語:AI正重塑企業智能生產力
OceanBase副總裁、公有云事業部總經理尹博學將OB Cloud的AI能力優勢總結為四點,分別是具備天然的一體化架構,一套數據庫支持事務處理(TP)、實時分析(AP)、AI工作負載,用戶面向AI無需引入額外技術棧;多模向量一體化,原生支持向量、標量、空間、文本等多模數據的混合檢索,簡化AI應用復雜度;提供開箱即用的RAG服務,“0門檻”構建現代RAG應用;Bring AI to Data,一體化架構實現數據的新鮮度與智能的實時性融合。
據了解,目前OB Cloud的AI能力已在零售、金融、物流等眾多行業的數十家頭部企業中落地驗證。除上述提到的合作伙伴外,OB Cloud在攜程落地“以圖搜圖”的搜索及個性化推薦場景;支撐中國聯通軟研院、九訊云等實現RAG智能問答的高效混合檢索;助力支付寶等企業打造更智能的“問數”與Agent協同應用。
值得一提的是,OceanBase已與LlamaIndex、LangChain、Dify、支付寶百寶箱等60余家AI應用開發與生態開放平臺深度集成,并支持大模型生態協議MCP,在全球范圍內構建完整的AI技術生態鏈。據了解,OB Cloud與這些AI生態伙伴也實現深度對接,共同加速行業智能化升級。
“未來的數據底座必須同時具備云的彈性、AI的智能以及多云環境下的韌性。”正如尹博學稱,AI正重塑企業智能生產力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.