高質(zhì)量的數(shù)據(jù)對(duì)任何IT項(xiàng)目的成功都至關(guān)重要,對(duì)AI項(xiàng)目來(lái)說(shuō)更是如此。雖然劣質(zhì)數(shù)據(jù)總是會(huì)產(chǎn)生糟糕的結(jié)果,但對(duì)AI而言風(fēng)險(xiǎn)尤其高,因?yàn)閿?shù)據(jù)質(zhì)量差可能導(dǎo)致嚴(yán)重的財(cái)務(wù)損失、監(jiān)管罰款和聲譽(yù)損害。然而,為成功項(xiàng)目提供優(yōu)質(zhì)數(shù)據(jù)的舉措可能會(huì)帶來(lái)顯著甚至顛覆性的戰(zhàn)略?xún)?yōu)勢(shì)。
"在AI領(lǐng)域,垃圾進(jìn)垃圾出的問(wèn)題會(huì)成倍放大,"無(wú)線(xiàn)網(wǎng)絡(luò)半導(dǎo)體制造商Skyworks Solutions的副總裁兼CIO Satya Jayadev說(shuō)道。"任何優(yōu)秀AI系統(tǒng)的秘訣在于如何構(gòu)建數(shù)據(jù)層。重要的是要建立這種架構(gòu)和基礎(chǔ)設(shè)施——理解數(shù)據(jù)源、生成數(shù)據(jù)并構(gòu)建單一數(shù)據(jù)平臺(tái)。"
對(duì)于Jayadev和其他人來(lái)說(shuō),這意味著要加倍投入數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖倉(cāng)的實(shí)施,將其作為AI的單一數(shù)據(jù)來(lái)源,無(wú)論是傳統(tǒng)機(jī)器學(xué)習(xí)、生成式AI還是智能體AI。
十多年前大數(shù)據(jù)興起時(shí),數(shù)據(jù)湖應(yīng)運(yùn)而生,用于容納非結(jié)構(gòu)化數(shù)據(jù)作為分析洞察的來(lái)源。數(shù)據(jù)湖倉(cāng)(有時(shí)稱(chēng)為查詢(xún)加速器)像數(shù)據(jù)湖一樣包含非結(jié)構(gòu)化數(shù)據(jù),但添加了類(lèi)似數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)層,以更快速、更經(jīng)濟(jì)地提供洞察。
CIO們正在運(yùn)用這些和其他數(shù)據(jù)技術(shù)來(lái)確保數(shù)據(jù)管道的穩(wěn)健性和質(zhì)量水平,以便從其AI戰(zhàn)略中實(shí)現(xiàn)變革性?xún)r(jià)值。
更好的數(shù)據(jù)=更好的AI
已采取措施更好地組織其數(shù)據(jù)的組織更有可能擁有數(shù)據(jù)成熟度,這是AI成功企業(yè)的關(guān)鍵屬性。研究公司IDC將數(shù)據(jù)成熟度定義為使用先進(jìn)的數(shù)據(jù)質(zhì)量、編目和元數(shù)據(jù)以及數(shù)據(jù)治理流程。該研究公司的CDO辦公室調(diào)查發(fā)現(xiàn),具有數(shù)據(jù)成熟度的企業(yè)比其他組織更有可能將生成式AI解決方案投入生產(chǎn)。
"組織正在優(yōu)先考慮數(shù)據(jù)質(zhì)量,以提高數(shù)據(jù)工作者的生產(chǎn)力,并增強(qiáng)AI生成結(jié)果的準(zhǔn)確性和相關(guān)性,"IDC數(shù)據(jù)智能和集成軟件服務(wù)副總裁Stewart Bond表示。
此外,同一項(xiàng)IDC研究顯示,準(zhǔn)備數(shù)據(jù)以產(chǎn)生最佳AI結(jié)果對(duì)業(yè)務(wù)底線(xiàn)有強(qiáng)烈的積極影響,在客戶(hù)保留方面實(shí)現(xiàn)了五倍的改善,在利潤(rùn)、效率和收入方面也有顯著增長(zhǎng)。
對(duì)于Skyworks Solutions的Jayadev來(lái)說(shuō),使用Databricks技術(shù)構(gòu)建的數(shù)據(jù)湖倉(cāng)是數(shù)據(jù)質(zhì)量工作的重點(diǎn)。
"數(shù)據(jù)湖倉(cāng)在某種意義上是摩天大樓的基礎(chǔ)。我們收集每一條數(shù)據(jù),然后分類(lèi)和分組,構(gòu)建青銅、白銀和黃金層級(jí)的數(shù)據(jù)質(zhì)量,"這位副總裁兼CIO解釋道。"我們?cè)跀?shù)據(jù)湖倉(cāng)中有數(shù)PB的數(shù)據(jù),每天從工廠(chǎng)和其他來(lái)源流入TB級(jí)的數(shù)據(jù)。"
Gallo收獲優(yōu)質(zhì)數(shù)據(jù)
Jayadev和Skyworks Solutions并非孤例。據(jù)CIO Robert Barrios介紹,葡萄酒和其他飲料的巨型生產(chǎn)商Gallo已實(shí)施了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖倉(cāng)來(lái)獲取AI洞察。該公司構(gòu)建了SAP S/4HANA數(shù)據(jù)倉(cāng)庫(kù),分為消費(fèi)者、財(cái)務(wù)和采購(gòu)數(shù)據(jù)的獨(dú)立數(shù)據(jù)集市。此外,Gallo還為非SAP數(shù)據(jù)實(shí)施了AWS Redshift數(shù)據(jù)湖倉(cāng),應(yīng)用元數(shù)據(jù)來(lái)賦予結(jié)構(gòu)。
Barrios表示,Gallo還在使用生成式AI通過(guò)識(shí)別標(biāo)準(zhǔn)字符串的偏差和填補(bǔ)數(shù)據(jù)空白來(lái)提高數(shù)據(jù)質(zhì)量。例如,當(dāng)客戶(hù)數(shù)據(jù)條目的屬性超出常規(guī)范圍時(shí),生成式AI可以識(shí)別正確的屬性并替換錯(cuò)誤的屬性。這同樣適用于葡萄酒特征。例如,一款葡萄酒可能被描述為"辛辣",而接受的術(shù)語(yǔ)是"胡椒味"。由于它理解上下文,生成式AI會(huì)將錯(cuò)誤術(shù)語(yǔ)更改為正確術(shù)語(yǔ)。
對(duì)于生成式AI,Gallo使用AWS Bedrock。通過(guò)Bedrock,Gallo使用自己的大語(yǔ)言模型而不是公共大語(yǔ)言模型,這樣其數(shù)據(jù)就不會(huì)公開(kāi)暴露。
Gallo的下一步是記錄公司如何做決策,然后將這些信息提供給能夠自主決策的AI智能體,這是智能體AI的實(shí)現(xiàn)。"這與體育或房地產(chǎn)經(jīng)紀(jì)人沒(méi)有區(qū)別。你告訴智能體你想要什么,智能體為你找到它,"Barrios說(shuō)道。
制藥數(shù)據(jù)在湖倉(cāng)中安家
Servier Pharmaceuticals將其數(shù)據(jù)集中在Google Cloud Platform(GCP)Big Query數(shù)據(jù)湖倉(cāng)中,為六個(gè)企業(yè)IT組合提供通用數(shù)據(jù)平臺(tái),服務(wù)從研發(fā)到產(chǎn)品團(tuán)隊(duì)再到企業(yè)公關(guān)等各個(gè)群體,每個(gè)群體都在某種程度上實(shí)施AI。據(jù)Servier Pharmaceuticals(一家治療癌癥和其他難治疾病的制造商)IT主管Mark Yunger介紹,湖倉(cāng)及其元數(shù)據(jù)標(biāo)簽還帶來(lái)了打破數(shù)據(jù)孤島的額外好處,否則這些孤島會(huì)分離不同團(tuán)隊(duì)使用的數(shù)據(jù)。
"我們圍繞所有這些分散的數(shù)據(jù)創(chuàng)建了合理的分類(lèi)法和數(shù)據(jù)命名法,這樣我們就可以將其用于AI算法,確保輸入良好的數(shù)據(jù)。這有助于確保我們的輸出是正確的,"Yunger說(shuō),并補(bǔ)充說(shuō)AI分析對(duì)銷(xiāo)售和營(yíng)銷(xiāo)分析及洞察特別有益。
在制藥行業(yè),專(zhuān)利極其重要。這意味著Servier必須勤勉保護(hù)自己的專(zhuān)利,同時(shí)防范侵犯其他公司的專(zhuān)利。
"我們必須謹(jǐn)慎處理放入公共數(shù)據(jù)集的內(nèi)容,"Yunger說(shuō)。考慮到這種謹(jǐn)慎,Servier在Microsoft Azure上構(gòu)建了ChatGPT的私有版本,以確保團(tuán)隊(duì)在受益于AI工具訪(fǎng)問(wèn)的同時(shí)保護(hù)專(zhuān)有信息并維護(hù)機(jī)密性。Yunger表示,生成式AI實(shí)施用于加速內(nèi)部文檔和電子郵件的創(chuàng)建。
此外,制藥試驗(yàn)中可能出現(xiàn)的個(gè)人數(shù)據(jù)必須得到極其謹(jǐn)慎的處理,以符合歐盟AI法案的要求,該法案禁止組織在未經(jīng)個(gè)人同意的情況下主動(dòng)監(jiān)控個(gè)人。
風(fēng)險(xiǎn)很高。"很多事情可能會(huì)嚴(yán)重出錯(cuò)。如果你有合規(guī)問(wèn)題,可能會(huì)面臨重大罰款。你必須確保按規(guī)則行事,"Yunger說(shuō)。
AES從源頭汲取能源數(shù)據(jù)
據(jù)AES首席數(shù)字官Alejandro Reyes介紹,專(zhuān)注于可持續(xù)能源的發(fā)電公司AES在GCP中構(gòu)建了CEDAR,這是一個(gè)用于AI的數(shù)據(jù)平臺(tái),聚合和管理來(lái)自其清潔能源站點(diǎn)的運(yùn)營(yíng)數(shù)據(jù)。
"CEDAR在數(shù)據(jù)收集和定義方式上創(chuàng)造了和諧。它使我們整個(gè)產(chǎn)品線(xiàn)保持一致,"Reyes說(shuō)。Reyes解釋?zhuān)褂脭?shù)據(jù)編目工具Atlan和基于機(jī)器學(xué)習(xí)的數(shù)據(jù)質(zhì)量工具Qualytics,CEDAR對(duì)數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn),使其能夠作為AI的單一來(lái)源,無(wú)論是由財(cái)務(wù)、工程、維護(hù)還是其他企業(yè)單位使用。
AES的Farseer為該公司贏得了2024年CIO 100獎(jiǎng),這是一個(gè)基于AI的平臺(tái),利用CEDAR數(shù)據(jù)讓AES了解市場(chǎng)需求、預(yù)期天氣條件、能源容量和預(yù)期收入。據(jù)Reyes介紹,這些信息使AES能夠確定向市場(chǎng)投放多少能源以及如何定價(jià)。此外,AES正在使用Google Gemini和Microsoft Copilot,并正在探索智能體AI來(lái)處理后臺(tái)流程。
一切都建立在數(shù)據(jù)基礎(chǔ)之上
雖然數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖和數(shù)據(jù)湖倉(cāng)遠(yuǎn)非新事物,但從AI中獲得商業(yè)價(jià)值的推動(dòng)正在將明亮的聚光燈照在它們身上——這要求一流的數(shù)據(jù)治理。
"AI不是傳統(tǒng)IT,而是一種變革工具——每個(gè)人都想要訪(fǎng)問(wèn)它。挑戰(zhàn)在于建立治理,這樣我們就可以為業(yè)務(wù)開(kāi)放數(shù)據(jù)和AI平臺(tái),以構(gòu)建所有用例,"Skyworks Solutions的Jayadev說(shuō)。
據(jù)Servier的Yunger表示,僅僅希望成功是不夠的——需要熟練的IT專(zhuān)業(yè)人員。在他開(kāi)始數(shù)據(jù)治理項(xiàng)目以來(lái)的18個(gè)月里,Yunger說(shuō)彌合人才缺口是他面臨的最大障礙。"這是人才——能力和技能組合——以及流程的結(jié)合。你需要找到合適的人才來(lái)幫助推動(dòng)和加速這些步驟。"
為了實(shí)現(xiàn)他所說(shuō)的"可持續(xù)AI",AES的Reyes建議需要取得微妙的平衡:實(shí)施數(shù)據(jù)治理,但要以不破壞工作模式的方式進(jìn)行。他建議確保公司的每個(gè)人都理解數(shù)據(jù)必須被視為寶貴資產(chǎn):鑒于AI的高風(fēng)險(xiǎn),有充分的理由必須準(zhǔn)確編目和管理數(shù)據(jù)。
Gallo的Barrios強(qiáng)化了單一、強(qiáng)大數(shù)據(jù)基礎(chǔ)的理念。"如果你有一堆不同的基礎(chǔ),它可能會(huì)變成紙牌屋。"但僅有基礎(chǔ)是不夠的。Barrios斷言,讓業(yè)務(wù)方面參與進(jìn)來(lái)至關(guān)重要。
"與業(yè)務(wù)合作,確保他們有指標(biāo)顯示你的表現(xiàn)如何,"他建議道。"你可能擁有最棒的數(shù)據(jù)湖倉(cāng),但人們必須使用它。"
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.