文 | 鈦資本研究院
DeepSeek使算力和算法走向平權(quán),AI場(chǎng)景化商業(yè)化應(yīng)用推動(dòng)數(shù)據(jù)資產(chǎn)化加速,數(shù)據(jù)資產(chǎn)化的前提是合規(guī),合規(guī)的原則是以第三方的客觀手段對(duì)業(yè)務(wù)留痕,而符合應(yīng)用一致性和時(shí)間完整性的拷貝數(shù)據(jù)管理CDM是AI數(shù)據(jù)的重要基礎(chǔ)設(shè)施。
最近,鈦資本邀請(qǐng)中國(guó)CDM領(lǐng)先廠商云信達(dá)科技的創(chuàng)始人張兵進(jìn)行分享,為大家?guī)?lái)一些AI投資熱點(diǎn)下的“冷思考”。主持人是鈦資本郭吉榮,他畢業(yè)于南京大學(xué),關(guān)注信息技術(shù)應(yīng)用創(chuàng)新、新能源等領(lǐng)域。以下為分享內(nèi)容:
AI三大基礎(chǔ)生產(chǎn)要素
今年春節(jié)期間,DeepSeek現(xiàn)象引發(fā)了全社會(huì)對(duì)AI的廣泛關(guān)注,它不僅刺破了美國(guó)股市的泡沫,也標(biāo)志著AI技術(shù)的普及化。算力和算法,其實(shí)在走向平權(quán)。
DeepSeek現(xiàn)象消除了算力和算法的神秘感,使得算力和算法走向平權(quán)化,為行業(yè)和企業(yè)提供了實(shí)際的商業(yè)價(jià)值。AI正在通用化,大舉進(jìn)入越來(lái)越多的行業(yè)和場(chǎng)景,大模型下一階段的訓(xùn)練必然觸及行業(yè)或企業(yè)數(shù)據(jù)乃至個(gè)人隱私數(shù)據(jù),數(shù)據(jù)繼算力算法之后成為最稀缺的資源。
數(shù)據(jù)取代模型成為AI最重要的生產(chǎn)要素,通用人工智能AGI加速了數(shù)據(jù)資產(chǎn)化,私域數(shù)據(jù)的全方位、全流程、資產(chǎn)化管理,以及能夠和算力、算法無(wú)縫結(jié)合,強(qiáng)烈需要新型數(shù)據(jù)基礎(chǔ)設(shè)施的出現(xiàn)。企業(yè)開(kāi)始將數(shù)據(jù)視為資產(chǎn),但同時(shí)也意識(shí)到數(shù)據(jù)的保密性,不會(huì)輕易公開(kāi),以防企業(yè)秘密被公開(kāi)模型學(xué)習(xí)后喪失競(jìng)爭(zhēng)優(yōu)勢(shì)。
數(shù)據(jù)資產(chǎn)化并非新概念,早在兩年前,國(guó)家財(cái)政部就修改了會(huì)計(jì)準(zhǔn)則,允許數(shù)據(jù)資產(chǎn)入表,同時(shí)成立了國(guó)家數(shù)據(jù)局,這標(biāo)志著數(shù)據(jù)資產(chǎn)化進(jìn)程的加速。數(shù)據(jù)資產(chǎn)化管理成為企業(yè)面臨的緊迫問(wèn)題,需要新型的數(shù)據(jù)基礎(chǔ)設(shè)施來(lái)支持。
隨著數(shù)據(jù)資產(chǎn)化進(jìn)程的加速,企業(yè)對(duì)其私域數(shù)據(jù)的全流程資產(chǎn)化管理變得尤為重要。這一進(jìn)程不僅改變了人們對(duì)數(shù)據(jù)的認(rèn)知,也推動(dòng)了政府對(duì)公共數(shù)據(jù)資產(chǎn)的管理,從大數(shù)據(jù)應(yīng)用轉(zhuǎn)向了數(shù)據(jù)資產(chǎn)化管理。因此,數(shù)據(jù)資產(chǎn)化和新型數(shù)據(jù)基礎(chǔ)設(shè)施的出現(xiàn),對(duì)企業(yè)和政府都具有重要意義。
數(shù)據(jù)基礎(chǔ)設(shè)施是超越IT基礎(chǔ)設(shè)施的新型基礎(chǔ)設(shè)施
數(shù)據(jù)基礎(chǔ)設(shè)施、傳統(tǒng)IT基礎(chǔ)設(shè)施有何區(qū)別?盡管云計(jì)算代表了傳統(tǒng)IT基礎(chǔ)設(shè)施的高峰,但數(shù)據(jù)基礎(chǔ)設(shè)施與之有根本不同。IT基礎(chǔ)設(shè)施對(duì)最終用戶而言是服務(wù)而非資產(chǎn),而數(shù)據(jù)則是用戶的專屬資產(chǎn)。
數(shù)據(jù)基礎(chǔ)設(shè)施是虛擬的、無(wú)形的,具有高維度特性,與物理實(shí)體的低維度IT資產(chǎn)形成對(duì)比。數(shù)據(jù)資產(chǎn)不僅包含時(shí)間維度,能夠承載過(guò)去、現(xiàn)在和未來(lái)的信息,這使得數(shù)據(jù)成為高維度的資產(chǎn)。
AI企業(yè)級(jí)應(yīng)用需要一個(gè)可管理的數(shù)據(jù)基礎(chǔ)設(shè)施,該基礎(chǔ)設(shè)施需貫穿數(shù)據(jù)采集、管理和流通的全流程,即端到端的數(shù)據(jù)管理。
數(shù)據(jù)基礎(chǔ)設(shè)施必須符合合規(guī)性和敏捷性兩個(gè)目標(biāo)。合規(guī)性指的是數(shù)據(jù)的一致性和完整性,敏捷性則要求數(shù)據(jù)可見(jiàn)且可操作。數(shù)據(jù)資產(chǎn)化是DeepSeek現(xiàn)象后最顯性化的現(xiàn)象,加速了數(shù)據(jù)生產(chǎn)化,這對(duì)企業(yè)來(lái)說(shuō)是一個(gè)迫在眉睫的現(xiàn)實(shí)問(wèn)題,因此需要新型的數(shù)據(jù)基礎(chǔ)設(shè)施來(lái)支持。數(shù)據(jù)資產(chǎn)化進(jìn)程的加速意味著企業(yè)對(duì)其私域數(shù)據(jù)的全流程資產(chǎn)化管理變得尤為重要。
1、拷貝數(shù)據(jù)技術(shù)與AI數(shù)據(jù)基礎(chǔ)設(shè)施
數(shù)據(jù)管理的底層技術(shù),特別是“拷貝”(copy data management)技術(shù)很重要,拷貝技術(shù)是將無(wú)形的數(shù)據(jù)資產(chǎn)從有形的IT基礎(chǔ)設(shè)施中分離出來(lái)的關(guān)鍵,它既是動(dòng)詞也是名詞,代表著信息在自然界中存放和傳遞的形態(tài)。
數(shù)據(jù)基礎(chǔ)設(shè)施的構(gòu)建基礎(chǔ)是拷貝技術(shù),能夠承載高維度的數(shù)據(jù)空間。真正的可信數(shù)據(jù)空間是基于虛擬數(shù)據(jù)資產(chǎn)的高維度空間,而構(gòu)建的。隨著AI大模型算法和參數(shù)調(diào)整進(jìn)入瓶頸,當(dāng)前最需要的是真實(shí)、有效的未經(jīng)清洗的原始數(shù)據(jù)(raw data)。
為了支撐AI的數(shù)據(jù)基礎(chǔ)設(shè)施,拷貝數(shù)據(jù)技術(shù)需要滿足幾個(gè)條件:首先,它需要能夠?qū)?shù)據(jù)要素從其他IT要素中分離,實(shí)現(xiàn)數(shù)據(jù)與原始應(yīng)用的解耦合;其次,數(shù)據(jù)需要符合合規(guī)性和敏捷性,即數(shù)據(jù)的一致性、完整性以及可見(jiàn)可操作性;最后,這些條件需要貫穿數(shù)據(jù)采集、管理和流通的三個(gè)階段。
傳統(tǒng)的數(shù)據(jù)中心和云計(jì)算服務(wù)(如SaaS)并沒(méi)有解決數(shù)據(jù)與應(yīng)用之間的解耦合問(wèn)題。為了將數(shù)據(jù)從應(yīng)用中分離出來(lái),可以使用的技術(shù)包括復(fù)制技術(shù)、ETL(提取轉(zhuǎn)換加載)和數(shù)據(jù)備份。只有元格式的數(shù)據(jù)備份技術(shù)同時(shí)符合合規(guī)性和敏捷性原則,能夠與原始應(yīng)用結(jié)合。
2、數(shù)據(jù)備份與數(shù)據(jù)合規(guī)、數(shù)據(jù)質(zhì)量
數(shù)據(jù)備份不僅僅是簡(jiǎn)單的三倍存儲(chǔ),而是一種對(duì)業(yè)務(wù)數(shù)據(jù)的留痕,是業(yè)務(wù)連續(xù)性的關(guān)鍵。在AI時(shí)代,備份數(shù)據(jù)因其未經(jīng)清洗、真實(shí)、有效和全面的特性,成為AI所需的高質(zhì)量數(shù)據(jù)源,同時(shí)也是合規(guī)性的重要保障。數(shù)據(jù)備份的首要目的是作為合規(guī)審計(jì)手段,它能夠確保數(shù)據(jù)的一致性和完整性,并且具有時(shí)間戳,為數(shù)據(jù)的全生命周期留痕。對(duì)生產(chǎn)數(shù)據(jù)進(jìn)行合規(guī)審計(jì)是業(yè)務(wù)需求,而非僅僅是IT概念。
數(shù)據(jù)備份的真正價(jià)值在于其對(duì)數(shù)據(jù)資產(chǎn)或數(shù)據(jù)要素的價(jià)值??梢园褦?shù)據(jù)看作人類生命體,具有不同層次的需求,從存儲(chǔ)、安全到合規(guī)、定價(jià)和價(jià)值實(shí)現(xiàn)。
數(shù)據(jù)備份與數(shù)據(jù)保護(hù)有所區(qū)別,數(shù)據(jù)保護(hù)是低端需求,關(guān)注業(yè)務(wù)連續(xù)性,而數(shù)據(jù)備份是更高層次的業(yè)務(wù)屬性需求。數(shù)據(jù)備份是數(shù)據(jù)管理合規(guī)流程中的關(guān)鍵一環(huán),是數(shù)據(jù)需求由低到高演進(jìn)的必經(jīng)階段。
數(shù)據(jù)備份如何展現(xiàn)數(shù)據(jù)資產(chǎn)的高維度屬性?即數(shù)據(jù)備份能夠使數(shù)據(jù)穿越時(shí)空回到過(guò)去,恢復(fù)到干凈、完整、良好的版本。這也是數(shù)據(jù)資產(chǎn)價(jià)值實(shí)現(xiàn)的途徑。
CDM顛覆力量涌現(xiàn),企業(yè)級(jí)數(shù)據(jù)管理成AI新基礎(chǔ)
2024年對(duì)美國(guó)CDM(Copy Data Management)技術(shù)市場(chǎng)而言是關(guān)鍵的一年,市場(chǎng)經(jīng)歷了顯著變化。2025年2月8日,全球知名的數(shù)據(jù)備份廠商Veritas被一家美國(guó)創(chuàng)新的CDM廠商Veeam收購(gòu),其經(jīng)典產(chǎn)品NetBackup將轉(zhuǎn)為Veeam的資產(chǎn),收購(gòu)金額達(dá)30億美元,由英偉達(dá)和IBM提供資金。此外,另一家CDM企業(yè)Rubrik在納斯達(dá)克上市,市值一度超過(guò)150億美元,目前約140億美元。
2024年初創(chuàng)的云備份態(tài)勢(shì)管理廠商Eon在資本All in AI的時(shí)代實(shí)現(xiàn)10個(gè)月內(nèi)2億美元的融資,Eon專注于提供下一代云備份平臺(tái),釋放備份數(shù)據(jù)的即時(shí)訪問(wèn)能力。云備份的真正潛力在于備份數(shù)據(jù)的即時(shí)訪問(wèn)能力,這在2024年引發(fā)了重大認(rèn)知轉(zhuǎn)變。一家成熟的云備份公司Veeam去年12月又獲得了20億美元的新融資。
這些變化表明備份技術(shù)正在向CDM技術(shù)轉(zhuǎn)型,以適應(yīng)云數(shù)據(jù)管理和即時(shí)訪問(wèn)的需求。
1、CDM破解數(shù)據(jù)管理不可能三角
CDM技術(shù)解決了數(shù)據(jù)管理的不可能三角問(wèn)題,即一致性、可用性和分區(qū)容忍性。以12306購(gòu)票APP為例,說(shuō)明了分布式系統(tǒng)的CAP不可能三角,即在分布式系統(tǒng)中,一致性、可用性和擴(kuò)展能力不能同時(shí)得到。這表明,CDM技術(shù)在數(shù)據(jù)管理和備份方面具有突破性,能夠提供更高效的數(shù)據(jù)管理和備份解決方案。
IT服務(wù)和金融系統(tǒng)的特性,特別是它們?cè)谝恢滦浴⒖捎眯院头謪^(qū)容忍性(CAP理論)方面的不同表現(xiàn)。盡管IT服務(wù)可以隨時(shí)隨地提供查詢服務(wù),但這些服務(wù)并不總是保證一致性和可用性。
以12306購(gòu)票APP為例,分布式系統(tǒng)在查詢時(shí)提供高可用性,比如查票的時(shí)候,你點(diǎn)擊一下,各個(gè)車次有多少票就出現(xiàn)了,它可以在全國(guó)各地分布成千上萬(wàn)臺(tái)甚至幾百萬(wàn)臺(tái)服務(wù)器。但在占座和付款的時(shí)候,通常需要一個(gè)集中式系統(tǒng)來(lái)保證,實(shí)現(xiàn)一致性和可用性,背后要有一個(gè)強(qiáng)系統(tǒng),實(shí)現(xiàn)讀寫(xiě)分離——有限的幾臺(tái)機(jī)器來(lái)提供全國(guó)所有用戶的下單。
金融系統(tǒng)要求強(qiáng)一致性和可用性,不能像12306彩票系統(tǒng)那樣無(wú)限分區(qū),因此金融系統(tǒng)是一個(gè)強(qiáng)一致性的系統(tǒng),不可能實(shí)現(xiàn)無(wú)限分布式。
數(shù)據(jù)管理的不可能三角,即合規(guī)性、可管理性和敏捷性。傳統(tǒng)的數(shù)據(jù)備份雖然符合合規(guī)性并具有數(shù)據(jù)生命周期管理的優(yōu)勢(shì),但在敏捷性方面存在不足,因?yàn)閭鹘y(tǒng)備份數(shù)據(jù)通常不能直接訪問(wèn),這限制了其敏捷性。比如傳統(tǒng)備份將數(shù)據(jù)打包壓縮成一個(gè)專有格式的壓縮包,這種數(shù)據(jù)包在電腦上無(wú)法直接打開(kāi),只能在手機(jī)上恢復(fù),這限制了其敏捷性。
一些美國(guó)創(chuàng)業(yè)公司正在提供備份數(shù)據(jù)的即時(shí)訪問(wèn)能力,這正是敏捷性的體現(xiàn),但這與傳統(tǒng)備份的強(qiáng)合規(guī)性存在矛盾。傳統(tǒng)備份的目標(biāo)是盡快將數(shù)據(jù)打包保存下來(lái),而沒(méi)有考慮數(shù)據(jù)的即時(shí)訪問(wèn)和敏捷性。CDM(Copy Data Management)技術(shù)實(shí)現(xiàn)了合規(guī)和敏捷之間的平衡,解決了數(shù)據(jù)管理的不可能三角問(wèn)題。
2、創(chuàng)新CDM技術(shù)——原格式、黃金副本、虛擬副本
CDM(Copy Data Management)技術(shù)通過(guò)結(jié)合黃金拷貝(Golden Copy)和虛擬拷貝(Virtual Copy)解決了數(shù)據(jù)管理的不可能三角問(wèn)題,即合規(guī)性、可管理性和敏捷性。黃金拷貝是原始業(yè)務(wù)數(shù)據(jù)的一致性備份,具有合規(guī)性,但不可修改。虛擬拷貝則可以在毫秒級(jí)時(shí)間內(nèi)從黃金拷貝生成,零成本且可無(wú)限生成,提供指針式訪問(wèn),實(shí)現(xiàn)敏捷性。這種鏈接實(shí)現(xiàn)了原始合規(guī)數(shù)據(jù)的敏捷性,平衡了合規(guī)和敏捷。
CDM技術(shù)進(jìn)一步破解了數(shù)據(jù)管理不可能三角,通過(guò)元格式拷貝、黃金副本管理和虛擬副本服務(wù),解決了數(shù)據(jù)采集、管理和流轉(zhuǎn)三階段的問(wèn)題。數(shù)據(jù)采集階段,為了業(yè)務(wù)數(shù)據(jù)的敏捷性,使用了ETL(Extract, Transform, Load)技術(shù),這是一種根據(jù)特定需求人工調(diào)整、清洗并加載到人為定義的新數(shù)據(jù)結(jié)構(gòu)的過(guò)程,但不具備合規(guī)性。
CDM技術(shù)是下一代數(shù)據(jù)管理基礎(chǔ)設(shè)施的關(guān)鍵技術(shù),它通過(guò)合規(guī)和敏捷的平衡,為數(shù)據(jù)管理提供了新的解決方案,為數(shù)據(jù)采集、管理和流轉(zhuǎn)提供了端到端的解決方案,實(shí)現(xiàn)了數(shù)據(jù)管理基礎(chǔ)設(shè)施的技術(shù)進(jìn)步。
以前,有銀行因無(wú)法提供原始交易數(shù)據(jù)而被法院駁回,法官認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不是原始的,這也突顯了電子數(shù)據(jù)作為證據(jù)的局限性。盡管銀行運(yùn)作規(guī)范,但數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)經(jīng)過(guò)ETL(Extract, Transform, Load)過(guò)程,并非原始憑證,這在司法系統(tǒng)中難以穿透審計(jì)。ETL過(guò)程由人工編寫(xiě),法官難以認(rèn)定其規(guī)則的合規(guī)性。
對(duì)比大數(shù)據(jù)和數(shù)倉(cāng)時(shí)代與AI時(shí)代數(shù)據(jù)采集方法的差異,可以看到,在BI時(shí)代,人們先有商業(yè)目的,再建模找數(shù)據(jù);而在AI時(shí)代,由于AI大模型的強(qiáng)大能力,人們更傾向于使用未經(jīng)清洗的原始數(shù)據(jù)(raw data)。這種變化反映了從目的驅(qū)動(dòng)的數(shù)據(jù)采集到數(shù)據(jù)驅(qū)動(dòng)的模型構(gòu)建的轉(zhuǎn)變,強(qiáng)調(diào)了原始數(shù)據(jù)的重要性。
這種生成式AI可以與原始合規(guī)數(shù)據(jù)對(duì)接,因?yàn)樗恋砹似髽I(yè)業(yè)務(wù)的所有歷史數(shù)據(jù)。這種對(duì)接是RAG(Retrieval-Augmented Generation)生成式檢索與原始合規(guī)數(shù)據(jù)之間的橋梁,使得AI可以直接利用未經(jīng)清洗的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析和決策。
認(rèn)知數(shù)據(jù)資產(chǎn)
數(shù)據(jù)資產(chǎn)化不僅是財(cái)務(wù)屬性,更關(guān)鍵的是數(shù)據(jù)的業(yè)務(wù)屬性,即數(shù)據(jù)的定價(jià)、流通和交易能力。數(shù)據(jù)首先需要具備IT屬性,因?yàn)閿?shù)據(jù)是現(xiàn)代信息技術(shù)的產(chǎn)物,沒(méi)有現(xiàn)代IT技術(shù),數(shù)據(jù)可能還停留在書(shū)本或竹簡(jiǎn)上。
數(shù)據(jù)資產(chǎn)化需要考慮數(shù)據(jù)的合規(guī)性,這是數(shù)據(jù)資產(chǎn)化的物理保障。數(shù)據(jù)備份,即原始拷貝,是確保數(shù)據(jù)合規(guī)性的基礎(chǔ)。數(shù)據(jù)資產(chǎn)化過(guò)程中,合規(guī)性是關(guān)鍵,沒(méi)有合規(guī)性的數(shù)據(jù)資產(chǎn)化是空中樓閣,無(wú)法實(shí)現(xiàn)。
盡管會(huì)計(jì)準(zhǔn)則在2023年有所修正,允許數(shù)據(jù)資產(chǎn)入表,但實(shí)際操作中存在困難,因?yàn)楹弦?guī)性難以認(rèn)定。許多人試圖通過(guò)法律手段來(lái)證明數(shù)據(jù)資產(chǎn)的合規(guī)性,但這并不是一個(gè)可持續(xù)的解決方案。數(shù)據(jù)資產(chǎn)化過(guò)程中的合規(guī)性問(wèn)題可以通過(guò)CDM(Copy Data Management)技術(shù)來(lái)解決,因?yàn)镃DM技術(shù)可以幫助確保數(shù)據(jù)的合規(guī)性和敏捷性。
數(shù)據(jù)資產(chǎn)化是現(xiàn)代金融業(yè)務(wù)中不可或缺的一部分,需要正確的技術(shù)和管理策略來(lái)實(shí)現(xiàn)。數(shù)據(jù)應(yīng)該從其所在的IT基礎(chǔ)設(shè)施中分離出來(lái),以便在不同的地點(diǎn)或云平臺(tái)上展現(xiàn)其價(jià)值,但同時(shí)不能帶著IT屬性到處移動(dòng)。
數(shù)據(jù)資產(chǎn)化過(guò)程中的一個(gè)關(guān)鍵挑戰(zhàn)是確保數(shù)據(jù)的真實(shí)性和有效性,這需要通過(guò)技術(shù)手段來(lái)實(shí)現(xiàn),而不是僅僅依賴法律文件或印章來(lái)證明。為了克服這些挑戰(zhàn),需要新的技術(shù)和管理策略,以及對(duì)數(shù)據(jù)分布和計(jì)算資源的合理規(guī)劃。
美國(guó)企業(yè)普遍采用多云或混合云架構(gòu),以避免將IT基礎(chǔ)設(shè)施放在一個(gè)籃子里的風(fēng)險(xiǎn)。這種架構(gòu)允許企業(yè)在多個(gè)云服務(wù)提供商之間分配應(yīng)用和數(shù)據(jù),從而提高靈活性和降低風(fēng)險(xiǎn)。
美國(guó)的CDM公司如Rubrik正在幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)的多云管理,這涉及到兩個(gè)關(guān)鍵技術(shù)概念:cloud on和cloud out。Cloud on指的是數(shù)據(jù)以拷貝(copy)的方式在多云環(huán)境中擴(kuò)展,而cloud out則是指數(shù)據(jù)在多云上的任何地方都可以被激活使用。這種技術(shù)使得企業(yè)能夠低成本、靈活地管理和調(diào)用數(shù)據(jù)。
如果企業(yè)的數(shù)據(jù)分布在多個(gè)云上,那么在每個(gè)云上都存儲(chǔ)一份數(shù)據(jù)的成本并不高,但可以實(shí)現(xiàn)數(shù)據(jù)的多云分布。CDM技術(shù)的核心在于,如果數(shù)據(jù)以元格式的拷貝形式分布在多云上,那么這些數(shù)據(jù)可以以虛擬拷貝服務(wù)的形式隨時(shí)被激活使用。這意味著企業(yè)可以根據(jù)需要在任何云上啟用計(jì)算資源,使用后可以釋放資源,從而實(shí)現(xiàn)低成本和高靈活性。
數(shù)據(jù)分布和數(shù)據(jù)調(diào)度本質(zhì)上是一回事。CDM技術(shù)可以貫通數(shù)據(jù)要素的五個(gè)層次的需求,幫助國(guó)內(nèi)重要企業(yè)進(jìn)行數(shù)據(jù)備份的國(guó)產(chǎn)化升級(jí)替換,從而避免使用過(guò)時(shí)的打包備份技術(shù),實(shí)現(xiàn)數(shù)據(jù)管理的現(xiàn)代化。
CDM與AI之間存在雙向賦能關(guān)系
國(guó)產(chǎn)數(shù)據(jù)備份技術(shù)不僅要成為AI大模型的數(shù)據(jù)底座,還要實(shí)現(xiàn)數(shù)據(jù)管理和提取,成為AI應(yīng)用的引擎。CDM與AI之間存在雙向賦能關(guān)系:一方面,生成式AI有助于提升原始數(shù)據(jù)的質(zhì)量;另一方面,備份數(shù)據(jù)能夠?yàn)锳I大模型的推理提供數(shù)據(jù)支持。
應(yīng)用數(shù)據(jù)敏捷性很重要,許多業(yè)務(wù)應(yīng)用需要及時(shí)使用原始數(shù)據(jù)。在審計(jì)和業(yè)務(wù)仿真測(cè)試中,需要訪問(wèn)原始數(shù)據(jù)。
隨著業(yè)務(wù)應(yīng)用的擴(kuò)展,這些應(yīng)用場(chǎng)景不斷展開(kāi),我們?cè)菩胚_(dá)正瞄準(zhǔn)國(guó)家戰(zhàn)略推動(dòng)的AI數(shù)據(jù)管理基礎(chǔ)設(shè)施市場(chǎng),實(shí)現(xiàn)數(shù)據(jù)歸集的標(biāo)準(zhǔn)化、規(guī)劃數(shù)據(jù)要素的資產(chǎn)化、數(shù)據(jù)流轉(zhuǎn)使用的服務(wù)化和敏捷化。
由于數(shù)據(jù)重要性客戶對(duì)數(shù)據(jù)管理技術(shù)的關(guān)注,云信達(dá)公司在金融和電信行業(yè)中獲得了廣泛認(rèn)可。在IDC發(fā)布的中國(guó)CDM市場(chǎng)研究報(bào)告中,公司連續(xù)三年排名第一。此外,公司聯(lián)合大型用戶起草了國(guó)內(nèi)CDM的第一本白皮書(shū)。從中國(guó)軟協(xié)的信創(chuàng)國(guó)產(chǎn)化替代市場(chǎng)摸底報(bào)告來(lái)看,公司連續(xù)三年在金融行業(yè)國(guó)產(chǎn)化領(lǐng)域排名第一。這表明公司在國(guó)產(chǎn)化替代市場(chǎng)中的領(lǐng)導(dǎo)地位,以及其在推動(dòng)數(shù)據(jù)管理和AI應(yīng)用發(fā)展方面的重要作用。
問(wèn)答
Q:云信達(dá)未來(lái)會(huì)通過(guò) RAG (Retrieval-Augmented Generation)在數(shù)據(jù)檢索備份上面有些動(dòng)作嗎?
A:數(shù)據(jù)備份主要分為兩大類:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)具有數(shù)據(jù)字典,易于檢索,而非結(jié)構(gòu)化數(shù)據(jù),如郵件和PDF文件等,檢索起來(lái)較為困難。當(dāng)前,RAG檢索和量化技術(shù)正致力于對(duì)這些非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行標(biāo)簽化處理,通過(guò)深度學(xué)習(xí)和檢索技術(shù)進(jìn)行初步識(shí)別,即數(shù)據(jù)的提取和存儲(chǔ)。
美國(guó)的一家CDM(Copy Data Management)廠商去年推出了一個(gè)名為GA的RAG檢索引擎,該引擎能夠?qū)浞輸?shù)據(jù)直接對(duì)接至大模型進(jìn)行檢索。RAG技術(shù)是云信達(dá)今年的重點(diǎn)方向,旨在實(shí)現(xiàn)備份數(shù)據(jù)與大模型的直接對(duì)接,以提高數(shù)據(jù)檢索的效率和準(zhǔn)確性。深度學(xué)習(xí)和AI技術(shù)在數(shù)據(jù)管理和檢索領(lǐng)域的應(yīng)用正在成為必然趨勢(shì),云信達(dá)正致力于通過(guò)這些技術(shù)提升數(shù)據(jù)備份和檢索的能力。
Q:如何評(píng)估數(shù)據(jù)資產(chǎn)的金融價(jià)值?企業(yè)如何培育具有高價(jià)值的數(shù)據(jù)資產(chǎn)?
A:要使數(shù)據(jù)成為資產(chǎn),首先必須證明數(shù)據(jù)的合規(guī)性,即數(shù)據(jù)來(lái)源的真實(shí)性和有效性。這意味著數(shù)據(jù)不能是雜亂無(wú)章、錯(cuò)誤或不完整的。證明數(shù)據(jù)的合規(guī)性,需要通過(guò)應(yīng)用一致性和時(shí)間完整性的原始拷貝(copy)技術(shù)來(lái)實(shí)現(xiàn)穿透審計(jì)。這種技術(shù)手段可以幫助追蹤數(shù)據(jù)的來(lái)源,確保數(shù)據(jù)的真實(shí)性和有效性。這是數(shù)據(jù)資產(chǎn)化過(guò)程中無(wú)法繞過(guò)的基本問(wèn)題。只有解決了數(shù)據(jù)合規(guī)性問(wèn)題,數(shù)據(jù)資產(chǎn)化才能真正實(shí)現(xiàn)其價(jià)值,從而在金融和其他領(lǐng)域中發(fā)揮其應(yīng)有的作用。
Q:如果國(guó)內(nèi)的CDM 應(yīng)用案例和國(guó)外進(jìn)行比較,大致處于怎樣的狀態(tài)?
A:關(guān)于國(guó)內(nèi)與國(guó)外在CDM應(yīng)用方面的差異,對(duì)于國(guó)外客戶,數(shù)據(jù)資產(chǎn)化之前必須證明數(shù)據(jù)的合規(guī)性,這是數(shù)據(jù)來(lái)源真實(shí)性和有效性的關(guān)鍵。數(shù)據(jù)是業(yè)務(wù)的數(shù)字化描述,備份數(shù)據(jù)是對(duì)業(yè)務(wù)數(shù)據(jù)一致性的描述,業(yè)務(wù)一致性對(duì)于獲取一次性數(shù)據(jù)至關(guān)重要。
國(guó)外的企業(yè)普遍采用多云或混合云架構(gòu),而國(guó)內(nèi)企業(yè)在數(shù)據(jù)庫(kù)選擇上存在多樣性,這導(dǎo)致了國(guó)內(nèi)外在數(shù)據(jù)管理上的巨大差異。以美國(guó)為例,大多數(shù)企業(yè)使用Oracle、MySQL、PostgreSQL等數(shù)據(jù)庫(kù),而國(guó)內(nèi)則存在多種國(guó)產(chǎn)數(shù)據(jù)庫(kù),這給數(shù)據(jù)的全局一致性控制帶來(lái)了挑戰(zhàn)。
CDM技術(shù)最初由Oracle和Veritas提出,旨在實(shí)現(xiàn)數(shù)據(jù)的快速獲取和管理。他提到,美國(guó)的CDM廠商已經(jīng)在中小企業(yè)中廣泛應(yīng)用,因?yàn)檫@些企業(yè)的數(shù)據(jù)通常存放在混合云和多云上,新興的CDM廠商能夠輕易切入這些市場(chǎng)。
關(guān)于中美之間在CDM應(yīng)用上的差異,國(guó)內(nèi)企業(yè)在信創(chuàng)國(guó)產(chǎn)化替代過(guò)程中堅(jiān)持使用CDM新技術(shù),而不是依賴?yán)霞夹g(shù)。國(guó)內(nèi)企業(yè)在數(shù)據(jù)管理和備份技術(shù)上的升級(jí)和替代,以及如何利用CDM技術(shù)實(shí)現(xiàn)數(shù)據(jù)的敏捷性和合規(guī)性。云信達(dá)在CDM過(guò)程中結(jié)合人工智能技術(shù),以滿足用戶對(duì)下一代數(shù)據(jù)需求的追求,即數(shù)據(jù)價(jià)值的提升。公司在數(shù)據(jù)管理和備份技術(shù)上的升級(jí)和替代,以及如何利用CDM技術(shù)實(shí)現(xiàn)數(shù)據(jù)的敏捷性和合規(guī)性,是當(dāng)前的重點(diǎn)方向。
Q:云信達(dá)完成這輪融資之后的技術(shù)方向,有何規(guī)劃?
A:數(shù)據(jù)備份在企業(yè)資產(chǎn)管理中很重要,它不僅是IT部門的職責(zé),更是企業(yè)資產(chǎn)管理部門的職責(zé),數(shù)據(jù)備份是業(yè)務(wù)數(shù)據(jù)的原始合規(guī)留痕,是數(shù)據(jù)資產(chǎn)化的基礎(chǔ),應(yīng)該由資產(chǎn)管理部門負(fù)責(zé),而IT部門負(fù)責(zé)實(shí)施。
云信達(dá)當(dāng)前的三個(gè)主要業(yè)務(wù)方向?yàn)椋簲?shù)據(jù)備份的國(guó)產(chǎn)化替代、虛擬副本服務(wù)和數(shù)據(jù)管理基礎(chǔ)設(shè)施。數(shù)據(jù)備份的國(guó)產(chǎn)化替代是公司業(yè)績(jī)?cè)鲩L(zhǎng)的第一推動(dòng)力,而虛擬副本服務(wù)和數(shù)據(jù)管理基礎(chǔ)設(shè)施是公司未來(lái)的增長(zhǎng)點(diǎn)。我們正在研發(fā)一個(gè)數(shù)據(jù)管理基礎(chǔ)設(shè)施,旨在實(shí)現(xiàn)合規(guī)數(shù)據(jù)與AI大模型的對(duì)接。數(shù)據(jù)資產(chǎn)化是不可避免的趨勢(shì),如果企業(yè)不能解決數(shù)據(jù)資產(chǎn)化問(wèn)題,將面臨巨大風(fēng)險(xiǎn)。也希望全社會(huì)正視數(shù)據(jù)資產(chǎn)化問(wèn)題,因?yàn)殡S著時(shí)間的推移,數(shù)據(jù)管理和應(yīng)用中的問(wèn)題將越來(lái)越突出。
鈦資本研究院觀察
國(guó)產(chǎn)數(shù)據(jù)備份技術(shù)正成為AI大模型的數(shù)據(jù)基礎(chǔ),不僅支持?jǐn)?shù)據(jù)管理和提取,還推動(dòng)AI應(yīng)用的發(fā)展。生成式AI與備份數(shù)據(jù)之間存在相互促進(jìn)的關(guān)系,前者提升數(shù)據(jù)質(zhì)量,后者為AI模型推理提供數(shù)據(jù)支持。數(shù)據(jù)的敏捷性對(duì)于業(yè)務(wù)應(yīng)用至關(guān)重要,尤其在審計(jì)和業(yè)務(wù)測(cè)試中需要訪問(wèn)原始數(shù)據(jù)。國(guó)家戰(zhàn)略推動(dòng)AI數(shù)據(jù)管理基礎(chǔ)設(shè)施市場(chǎng),相關(guān)創(chuàng)業(yè)公司也應(yīng)致力于實(shí)現(xiàn)數(shù)據(jù)歸集標(biāo)準(zhǔn)化、數(shù)據(jù)要素資產(chǎn)化、數(shù)據(jù)流轉(zhuǎn)服務(wù)化和敏捷化。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.