過去兩年,大模型成為企業(yè)數(shù)智化詞典中出現(xiàn)頻率最高的詞之一。
DeepSeek、字節(jié)跳動(dòng)的豆包、阿里通義、百度文心——AI正以肉眼可見的速度普及。但當(dāng)我們從技術(shù)敘事回到企業(yè)實(shí)踐,情況并不樂觀。
大模型的確讓AI更聰明了,但在企業(yè)落地層面,模型之間的差異正在迅速縮小。真正拉開差距的,是企業(yè)是否擁有能夠與大模型深度結(jié)合的高質(zhì)量私有數(shù)據(jù)——AI只有讀懂企業(yè)自己的數(shù)據(jù),才能發(fā)揮真正的業(yè)務(wù)價(jià)值。
星環(huán)科技注意到這個(gè)現(xiàn)實(shí)。
在5月27日舉辦的“AI×Data:新一代AI Infra”年度發(fā)布會(huì)上,這家深耕大數(shù)據(jù)行業(yè)十余年,也是中國第一家上市的大數(shù)據(jù)公司,拋出了一個(gè)重要命題:企業(yè)智能化能力的差異,不再取決于選用了哪種大模型,而是取決于能否高效激活和利用自身的私有數(shù)據(jù)資產(chǎn)——其核心支撐,正是一套真正具備AI就緒能力的數(shù)據(jù)平臺(tái)(AI-Ready Data Platform)。
那么,什么是AI-Ready Data Platform,對(duì)于企業(yè)AI應(yīng)用發(fā)展有什么價(jià)值?接下來,我們就這些問題來進(jìn)行探討。
AI落地的五大“真問題”,
90%都與數(shù)據(jù)有關(guān)
當(dāng)大模型已經(jīng)“商品化”,企業(yè)之間的差距從模型轉(zhuǎn)向了“落地能力”。
星環(huán)科技在這次發(fā)布會(huì)上,明確指出企業(yè)在AI落地中常見的五個(gè)系統(tǒng)性難題,而這五個(gè)問題,有一個(gè)共同的根因——數(shù)據(jù)失效。
1. 數(shù)據(jù)孤島嚴(yán)重,存儲(chǔ)結(jié)構(gòu)單一,大模型“無數(shù)據(jù)可用”
在企業(yè)內(nèi)部,數(shù)據(jù)普遍存在于多個(gè)系統(tǒng)之中:ERP、CRM、呼叫中心、IoT設(shè)備、日志平臺(tái)、報(bào)表系統(tǒng)……不同業(yè)務(wù)系統(tǒng)各自為政,形成典型的數(shù)據(jù)孤島。
更關(guān)鍵的是,大多數(shù)企業(yè)的數(shù)據(jù)平臺(tái)依舊停留在以關(guān)系型數(shù)據(jù)庫為主的單一結(jié)構(gòu),缺乏對(duì)向量、圖譜、時(shí)序等多模數(shù)據(jù)模型的支持。而這些,正是大模型運(yùn)行和理解復(fù)雜業(yè)務(wù)語義所必需的基礎(chǔ)要素。
2. 數(shù)據(jù)質(zhì)量差,喂得再多也沒用
很多企業(yè)會(huì)把所有數(shù)據(jù)都“倒進(jìn)模型”,期望它自動(dòng)產(chǎn)生答案。但數(shù)據(jù)本身如果缺失、混亂、過時(shí),甚至自相矛盾,那模型只能輸出“垃圾中的平均值”。
AI不是魔法,它也需要“干凈的食物”。
數(shù)據(jù)標(biāo)準(zhǔn)、標(biāo)簽一致性、元數(shù)據(jù)管理……這些看似枯燥的工作,恰恰決定了AI能否理解上下文,是否具有可靠的反饋能力。
3. 非結(jié)構(gòu)化數(shù)據(jù)堆積如山,難以利用
企業(yè)80%以上的數(shù)據(jù)來自PDF、圖像、網(wǎng)頁、郵件、聊天記錄等非結(jié)構(gòu)化信息。這些內(nèi)容藏著大量的業(yè)務(wù)邏輯與領(lǐng)域知識(shí),但無法直接供模型使用,導(dǎo)致AI“聰明的地方剛好餓著”。
這就引出一個(gè)技術(shù)瓶頸:企業(yè)是否有能力把非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)化為模型能理解的形式?
4. AI項(xiàng)目碎片化,成本高昂
當(dāng)前AI應(yīng)用開發(fā)普遍存在“碎片化建設(shè)”問題:客服線一套AI,營銷線一套AI,風(fēng)控線再來一套。模型、語料、推理流程各自為政,缺乏平臺(tái)級(jí)復(fù)用機(jī)制。
結(jié)果是:成本翻倍,治理困難,數(shù)據(jù)邏輯割裂。
這也是為什么“模型越多,效果反而越差”的悖論開始浮現(xiàn)。
5. 模型“懂邏輯”,卻不懂業(yè)務(wù)
大模型在語言和知識(shí)方面的能力是強(qiáng)的,但企業(yè)需要的不只是語法正確的答案,而是基于內(nèi)部數(shù)據(jù)、規(guī)則和行業(yè)語境給出的“合理建議”。
換句話說,AI可以生成句子,但不代表它能理解一個(gè)銀行的審批流程,或者一家制造企業(yè)的質(zhì)量控制規(guī)則。
這需要“知識(shí)建模”和“業(yè)務(wù)上下文”的注入,而這正是多數(shù)企業(yè)目前缺失的部分。
從“AI+Data”到“AI×Data”:企業(yè)該如何破局?
在這樣的背景下,越來越多的企業(yè)意識(shí)到:數(shù)據(jù)不是AI的附屬品,而是AI能力真正的“燃料庫”和“底盤系統(tǒng)”。
星環(huán)科技在發(fā)布會(huì)上提出了一個(gè)關(guān)鍵公式:AI×Data=企業(yè)智能化能力的新范式。
不同于傳統(tǒng)的“AI+Data”時(shí)代,AI作為交互方式去訪問數(shù)據(jù)(即模型+數(shù)據(jù)調(diào)用),“AI×Data”強(qiáng)調(diào)的是深度耦合、雙向驅(qū)動(dòng)。AI前置到數(shù)據(jù)加工的全鏈路流程當(dāng)中,數(shù)據(jù)采集、清洗、治理,到最后的數(shù)據(jù)分析都全面AI化。
正是基于這一洞察,星環(huán)科技推出了“AI-Ready Data Platform”,定位為AI基礎(chǔ)設(shè)施的核心引擎。這個(gè)平臺(tái)不是簡單的數(shù)據(jù)管理工具,而是解決企業(yè)AI落地過程中“數(shù)據(jù)全流程瓶頸”的系統(tǒng)級(jí)平臺(tái)。
什么是AI-Ready Data Platform?
它解決了什么問題?
一套平臺(tái)想要支撐AI的全生命周期,需要遠(yuǎn)比傳統(tǒng)數(shù)據(jù)庫更復(fù)雜的能力結(jié)構(gòu)。
星環(huán)科技將其定位為企業(yè)AI基礎(chǔ)設(shè)施的“數(shù)據(jù)地基”,不僅僅是因?yàn)樗袚?dān)數(shù)據(jù)存儲(chǔ)任務(wù),更因?yàn)樗貥?gòu)了數(shù)據(jù)在AI系統(tǒng)中的“角色”。
在傳統(tǒng)系統(tǒng)中,數(shù)據(jù)是“被提取、被使用”的靜態(tài)資源;但在AI時(shí)代,大模型對(duì)數(shù)據(jù)的要求不僅是體量,更是多樣性與語義深度——它需要向量、圖譜、時(shí)序、文本、關(guān)系型等多種模型的數(shù)據(jù)融合處理,才能理解復(fù)雜業(yè)務(wù)語境、支撐精準(zhǔn)推理,這也正是AI-Ready Data Platform的核心要義。
當(dāng)然,一個(gè)先進(jìn)的理念,如果不能落地為可用的技術(shù)產(chǎn)品,那也是一句空話。那么,星環(huán)科技如何將AI-Ready Data Platform落地為其技術(shù)產(chǎn)品體系呢?
接下來,我們來拆解一下星環(huán)科技AI-Ready Data Platform的五大核心能力,并講清楚每種能力是由哪些具體產(chǎn)品來承載的。
1. 多模型統(tǒng)一存儲(chǔ):打破數(shù)據(jù)壁壘,從底層做起
☆核心產(chǎn)品:TDH(Transwarp Data Hub)
它能在統(tǒng)一框架中管理關(guān)系型、圖、時(shí)序、向量等數(shù)據(jù),不僅簡化了存儲(chǔ)層的架構(gòu),還實(shí)現(xiàn)了跨模型的數(shù)據(jù)調(diào)用與分析。例如,在一個(gè)風(fēng)控系統(tǒng)中,可以同時(shí)調(diào)用賬戶交易表(關(guān)系型)、行為路徑圖(圖數(shù)據(jù)庫)與客戶行為向量(向量數(shù)據(jù)庫)做出聯(lián)合判斷。
值得提出的是,這一架構(gòu)使星環(huán)科技成為國內(nèi)首個(gè)通過信通院"多模數(shù)據(jù)庫產(chǎn)品評(píng)測(cè)"的廠商,也是國內(nèi)首批發(fā)布分布式向量數(shù)據(jù)庫的企業(yè),并入選Gartner"數(shù)據(jù)庫產(chǎn)品品類最多的廠商之一"。
2. 非結(jié)構(gòu)化數(shù)據(jù)處理:讓“沉默數(shù)據(jù)”說話
☆核心產(chǎn)品:Corpus Studio
這是一個(gè)語料轉(zhuǎn)化與語義抽取工具。它能從PDF文檔、網(wǎng)頁、合同、聊天記錄等數(shù)據(jù)中提取結(jié)構(gòu)化信息,例如政策編號(hào)、責(zé)任主體、關(guān)鍵指標(biāo)等,進(jìn)而構(gòu)建AI可訓(xùn)練的語料庫。
企業(yè)長期積累的大量文檔和內(nèi)部制度,可以在這個(gè)過程中變成AI訓(xùn)練數(shù)據(jù),而非被遺棄。
3. 數(shù)據(jù)治理能力:數(shù)據(jù)不是越多越好,而是越“干凈”越好
☆核心產(chǎn)品:TDS(Transwarp Data Studio)
在AI時(shí)代,數(shù)據(jù)治理的目標(biāo)變了。它不再是簡單的ETL或元數(shù)據(jù)管理,而是對(duì)數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估、標(biāo)準(zhǔn)化抽取、指標(biāo)血緣追蹤、語義校驗(yàn)等更高階工作。
TDS提供的是一套自動(dòng)化的數(shù)據(jù)“整形與規(guī)范”系統(tǒng),讓數(shù)據(jù)變得可控、可解釋、可追溯。
4. 知識(shí)建模:構(gòu)建AI的“企業(yè)語境”
☆核心產(chǎn)品:TKH(Transwarp Knowledge Hub)+ Knowledge Lodge
AI不懂企業(yè)流程,是因?yàn)樗鼪]有“背景知識(shí)”。TKH承擔(dān)的是“知識(shí)工程”的角色——將數(shù)據(jù)中的業(yè)務(wù)邏輯(如審批規(guī)則、流程節(jié)點(diǎn)、行業(yè)術(shù)語)抽象為語義圖譜,構(gòu)建出可供AI參考與推理的“企業(yè)語境模型”。
這使得AI不再僅僅是聊天工具,而能成為“業(yè)務(wù)場(chǎng)景中的智能體”。
5. 實(shí)時(shí)數(shù)據(jù)洞察:讓AI反饋速度與業(yè)務(wù)節(jié)奏匹配
☆核心產(chǎn)品: 實(shí)時(shí)湖倉集一體平臺(tái)
實(shí)時(shí)處理能力已成為AI落地的基礎(chǔ)設(shè)施要求。在金融、制造、電商、物流等領(lǐng)域,業(yè)務(wù)變化是秒級(jí)的,而AI推理結(jié)果不能在分鐘甚至小時(shí)之后再反饋。
星環(huán)科技的實(shí)時(shí)湖倉集一體平臺(tái),打通了數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)集市,使得數(shù)據(jù)鏈路更短,數(shù)據(jù)落地即分析。該平臺(tái),能夠?qū)崿F(xiàn)數(shù)據(jù)端到端實(shí)時(shí)接入和秒級(jí)分析,幫助企業(yè)實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)接入、實(shí)時(shí)處理和實(shí)時(shí)分析,進(jìn)而提供全流程的實(shí)時(shí)數(shù)據(jù)洞察能力。
此外,星環(huán)科技在此次發(fā)布會(huì)上重點(diǎn)介紹了Sophon LLMOps 1.6平臺(tái)的進(jìn)化。
作為AI×Data融合的關(guān)鍵引擎,星環(huán)科技Sophon LLMOps平臺(tái)已成為企業(yè)構(gòu)建AI基礎(chǔ)設(shè)施的核心組成。平臺(tái)通過“星鑄(模型開發(fā))、星典(知識(shí)工程)、星解(語料工程)、星構(gòu)(應(yīng)用開發(fā))”四大模塊,覆蓋從模型開發(fā)、知識(shí)建模、語料處理到應(yīng)用編排的全生命周期,打通了從數(shù)據(jù)到知識(shí)、從模型到應(yīng)用的閉環(huán)路徑。
需要指出的是,星環(huán)科技的各項(xiàng)產(chǎn)品不是孤立的,而是通過多條產(chǎn)品的融合,來打造的是“數(shù)據(jù)操作系統(tǒng)”。
那么,如何來理解“數(shù)據(jù)操作系統(tǒng)”,它與我們常說的“數(shù)據(jù)庫”或“中臺(tái)”又有什么不同呢?
數(shù)據(jù)庫是存儲(chǔ)引擎,數(shù)據(jù)中臺(tái)是協(xié)調(diào)機(jī)制,但數(shù)據(jù)操作系統(tǒng)是主動(dòng)管理和調(diào)度數(shù)據(jù)智能能力的執(zhí)行環(huán)境。
傳統(tǒng)數(shù)據(jù)庫擅長做結(jié)構(gòu)化數(shù)據(jù),但面對(duì)圖譜、全文檢索、時(shí)序流、嵌入向量時(shí),往往需要引入多個(gè)獨(dú)立產(chǎn)品來協(xié)同使用。
企業(yè)的常見搭配是:Hive管理海量歷史數(shù)據(jù)、ClickHouse做分析、HBase處理事務(wù)表、Milvus存向量數(shù)據(jù)、Elasticsearch做全文檢索——聽上去各司其職,實(shí)際上卻導(dǎo)致:數(shù)據(jù)流轉(zhuǎn)鏈條冗長,延遲高;接口不統(tǒng)一,安全性難控;資源分散調(diào)度低效,成本很高。
星環(huán)將AI-Ready Data Platform設(shè)計(jì)為一個(gè)具備“四層統(tǒng)一”能力的架構(gòu):
這使得企業(yè)可以像管理“一個(gè)智能數(shù)據(jù)引擎”那樣管理AI的數(shù)據(jù)基礎(chǔ)層——既具可控性,又有靈活性;既滿足工程效率,又支持業(yè)務(wù)落地。這不僅解決了物理結(jié)構(gòu)的問題,也解決了數(shù)據(jù)之間無法聯(lián)動(dòng)的問題。
從真實(shí)案例,
看一站式數(shù)據(jù)平臺(tái)如何創(chuàng)造
很多AI項(xiàng)目最終失敗,原因并不是技術(shù)不先進(jìn),而是基礎(chǔ)系統(tǒng)之間缺乏協(xié)同:數(shù)據(jù)治理未完成、知識(shí)圖譜不到位、推理模型和業(yè)務(wù)脫節(jié),導(dǎo)致AI“離業(yè)務(wù)線始終有一公里”。
那么,如何打通這“最后一公里”呢?星環(huán)科技的思路是,重構(gòu)數(shù)據(jù)底座,提升向“托舉”上層AI應(yīng)用的能力。他們的落地目標(biāo)并不復(fù)雜:讓數(shù)據(jù)進(jìn)入AI更容易、讓AI理解數(shù)據(jù)更精準(zhǔn)、讓AI反饋業(yè)務(wù)更高效。
這種策略,在一些對(duì)數(shù)據(jù)要求極高的行業(yè)中,已經(jīng)展現(xiàn)出非常具體的業(yè)務(wù)價(jià)值。
例如,在銀行業(yè),星環(huán)科技基于星典Knowledge Lodge與星解Corpus Studio,結(jié)合Sophon LLMOps,幫助某銀行構(gòu)建企業(yè)級(jí)知識(shí)工程平臺(tái),形成覆蓋指標(biāo)、制度、運(yùn)營、客服及通用金融知識(shí)的“4+1”知識(shí)庫體系。該平臺(tái)解決了缺乏高質(zhì)量數(shù)據(jù)與語料、數(shù)據(jù)孤島、領(lǐng)域知識(shí)匱乏等問題,支撐包括智能問答、信貸助手、財(cái)務(wù)分析等多個(gè)AI應(yīng)用,體現(xiàn)了“AI×私有數(shù)據(jù)”的落地價(jià)值。
在數(shù)據(jù)治理場(chǎng)景中,星環(huán)通過語料平臺(tái)(星解Corpus Studio)與知識(shí)平臺(tái)(星典Knowledge Lodge)協(xié)同,實(shí)現(xiàn)從數(shù)據(jù)采集、智能解析到知識(shí)資產(chǎn)構(gòu)建的自動(dòng)化流程,并將各類數(shù)據(jù)治理工具封裝為AI數(shù)據(jù)治理MCP Server,實(shí)現(xiàn)治理閉環(huán),顯著提升治理效率與準(zhǔn)確性。
在制造業(yè),星環(huán)基于統(tǒng)一技術(shù)架構(gòu)與Timelyre時(shí)序數(shù)據(jù)庫,打通M域(如ERP、CRM)與O域(如運(yùn)維、監(jiān)控、設(shè)備)數(shù)據(jù),實(shí)現(xiàn)PB級(jí)數(shù)據(jù)的時(shí)序分析與跨模型融合,助力企業(yè)在運(yùn)維監(jiān)控、質(zhì)量管控、供應(yīng)鏈優(yōu)化等方面釋放數(shù)據(jù)價(jià)值。
總結(jié)而言,從應(yīng)用落地情況來看,星環(huán)科技的一體化數(shù)據(jù)平臺(tái)釋放出的價(jià)值并不神秘,可以歸結(jié)為三個(gè)方面:
通過真實(shí)案例,我們看到,AI真正成為企業(yè)生產(chǎn)力的一部分,不僅僅靠大模型的能力,還靠數(shù)據(jù)基礎(chǔ)的扎實(shí)結(jié)構(gòu)和組織能力。
誰掌控?cái)?shù)據(jù)平臺(tái),誰掌控AI的未來
放眼未來,我們發(fā)現(xiàn)行業(yè)開始出現(xiàn)一個(gè)顯著的趨勢(shì),AI基礎(chǔ)設(shè)施正在從“模型驅(qū)動(dòng)”轉(zhuǎn)向“數(shù)據(jù)驅(qū)動(dòng)”。
在過去幾年,AI Infra的關(guān)注點(diǎn)聚焦在算力(GPU)、模型框架(如Transformer)、推理加速等技術(shù)棧上。
但隨著大模型能力普遍提升、推理能力普惠,模型間的差距正在縮小。很多企業(yè)使用的并不是最先進(jìn)的模型,而是最適合其數(shù)據(jù)語境的模型。
這種變化背后,標(biāo)志著AI基礎(chǔ)設(shè)施“權(quán)重中心”的遷移。
如果說模型決定了AI的智能上限,那么數(shù)據(jù)平臺(tái)決定了AI的智能下限——你給模型什么樣的數(shù)據(jù),它就能發(fā)揮多大的作用。而一個(gè)組織所能管控、治理、調(diào)度的“數(shù)據(jù)能力邊界”,將成為它在AI時(shí)代的實(shí)際權(quán)限邊界。
這也是Gartner 所說的:“大模型不會(huì)再是競爭力,私有數(shù)據(jù)才是。”
星環(huán)科技的戰(zhàn)略選擇,其實(shí)押注的是這樣一個(gè)命題 —— AI能力不是買來的,而是組織從數(shù)據(jù)出發(fā)“建”出來的。
AI發(fā)展到今天,已經(jīng)不只是模型之間的競速,還是企業(yè)內(nèi)部能力構(gòu)建的較量:
誰的數(shù)據(jù)準(zhǔn)備得更充分?
誰的數(shù)據(jù)更干凈、結(jié)構(gòu)更好、語義更明確?
誰能讓AI真正理解業(yè)務(wù),反哺業(yè)務(wù)?
這些問題的答案,不再來自大模型API,而來自一整套數(shù)據(jù)系統(tǒng)、治理體系和知識(shí)建模的能力。
星環(huán)科技這樣的企業(yè),沒有去爭奪AI舞臺(tái)上最耀眼的角色,而是站在舞臺(tái)下,做一個(gè)讓每個(gè)角色都能演好的“底層導(dǎo)演”。這條路更慢,更深,更重。但如果AI真的要進(jìn)入企業(yè)日常,成為組織的一部分,它也許只能這樣走。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.