文/黃海峰的通信生活
在AI技術(shù)重塑全球產(chǎn)業(yè)格局的當(dāng)下,數(shù)據(jù)如同傳統(tǒng)行業(yè)的煤油氣,成為驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的新“燃料”。
而數(shù)據(jù)標(biāo)注能力,則成為AI落地應(yīng)用的關(guān)鍵突破口。因?yàn)閿?shù)據(jù)標(biāo)注就像給海量雜亂的“數(shù)據(jù)倉(cāng)庫(kù)”里的每樣?xùn)|西貼上獨(dú)一無(wú)二的小標(biāo)簽,讓機(jī)器能快速找到、看懂?dāng)?shù)據(jù),精準(zhǔn)干活,大大提高效率。
在筆者近期參加的第八屆數(shù)字中國(guó)建設(shè)峰會(huì)?智能云生態(tài)大會(huì)主論壇上,中國(guó)電信董事長(zhǎng)柯瑞文與總經(jīng)理劉桂清均提到數(shù)據(jù)標(biāo)注能力,透露出中國(guó)電信在“數(shù)據(jù)”層面的戰(zhàn)略、打法與成果。
中國(guó)電信董事長(zhǎng)柯瑞文提出構(gòu)建“算力、平臺(tái)、數(shù)據(jù)、模型、應(yīng)用”五位一體的智能云能力體系,將數(shù)據(jù)作為重要的一環(huán),清晰勾勒出數(shù)字時(shí)代發(fā)展的戰(zhàn)略藍(lán)圖。
談及數(shù)據(jù),柯瑞文強(qiáng)調(diào):“中國(guó)電信將升級(jí)‘星海’數(shù)據(jù)智能中臺(tái),加快建設(shè)高質(zhì)量數(shù)據(jù)集,賦能模型訓(xùn)推和應(yīng)用。同時(shí),中國(guó)電信還將繼續(xù)深度參與成都、沈陽(yáng)、保定等國(guó)家數(shù)據(jù)標(biāo)注基地建設(shè)和國(guó)家級(jí)數(shù)據(jù)賽事,推動(dòng)公共數(shù)據(jù)開(kāi)放運(yùn)營(yíng)和價(jià)值釋放?!?/p>
中國(guó)電信總經(jīng)理劉桂清在論壇期間發(fā)布星海多模態(tài)數(shù)據(jù)標(biāo)注平臺(tái),其三大核心技術(shù)成為全場(chǎng)焦點(diǎn)。他指出:“中國(guó)電信在數(shù)據(jù)領(lǐng)域通過(guò)強(qiáng)化數(shù)據(jù)匯聚和標(biāo)注,為客戶(hù)和合作伙伴在獲取普惠算力以及開(kāi)發(fā)和應(yīng)用AI方面提供便利,推動(dòng)人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展。”
這不禁讓人疑惑:在這個(gè)數(shù)據(jù)為王的時(shí)代,數(shù)據(jù)標(biāo)注行業(yè)面臨著怎樣的挑戰(zhàn)?星海多模態(tài)數(shù)據(jù)標(biāo)注平臺(tái)將如何應(yīng)對(duì)挑戰(zhàn)?讓我們一同深入探尋其中的奧秘。
困局:數(shù)據(jù)標(biāo)注賽道面臨四大挑戰(zhàn)
大模型時(shí)代,數(shù)據(jù)標(biāo)注的質(zhì)量與效率直接影響數(shù)據(jù)價(jià)值釋放。當(dāng)前,數(shù)據(jù)產(chǎn)業(yè)在數(shù)據(jù)標(biāo)注領(lǐng)域面臨多重挑戰(zhàn)。
第一,數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一。不同領(lǐng)域、機(jī)構(gòu)對(duì)數(shù)據(jù)標(biāo)識(shí)的規(guī)則和標(biāo)準(zhǔn)差異巨大。醫(yī)療與金融領(lǐng)域?qū)蛻?hù)身份、交易數(shù)據(jù)的標(biāo)識(shí)方式截然不同,在大模型跨領(lǐng)域數(shù)據(jù)融合訓(xùn)練時(shí),難以直接對(duì)齊整合,極大降低數(shù)據(jù)利用效率。同時(shí),智慧城市建設(shè)中,交通、環(huán)保、安防等部門(mén)數(shù)據(jù)因標(biāo)識(shí)標(biāo)準(zhǔn)不一,共享流通困難,形成一個(gè)個(gè)“數(shù)字孤島”。
第二,數(shù)據(jù)標(biāo)注準(zhǔn)確性不足。人工標(biāo)注因標(biāo)注人員專(zhuān)業(yè)水平、理解能力及主觀因素影響,存在明顯誤差,如在圖像標(biāo)注中,對(duì)模糊內(nèi)容標(biāo)注結(jié)果差異大,干擾大模型訓(xùn)練精度。而自動(dòng)化標(biāo)注工具準(zhǔn)確性與適應(yīng)性有限,面對(duì)法律文書(shū)、學(xué)術(shù)論文等專(zhuān)業(yè)文本,難以理解專(zhuān)業(yè)術(shù)語(yǔ)與語(yǔ)義關(guān)系,導(dǎo)致標(biāo)注錯(cuò)誤頻發(fā)。
第三,數(shù)據(jù)標(biāo)注完整性缺失。在數(shù)據(jù)采集整理過(guò)程中,由于疏忽或技術(shù)限制,部分?jǐn)?shù)據(jù)未被標(biāo)識(shí),這使得其中蘊(yùn)含的重要信息無(wú)法被大模型利用,造成了資源浪費(fèi)。即便已標(biāo)識(shí)的數(shù)據(jù),也可能存在信息不全面的問(wèn)題,如產(chǎn)品數(shù)據(jù)僅標(biāo)注基礎(chǔ)屬性,忽略生產(chǎn)批次、保質(zhì)期等關(guān)鍵信息,削弱大模型分析預(yù)測(cè)能力。
第四,數(shù)據(jù)標(biāo)注更新不及時(shí)。業(yè)務(wù)快速變化和技術(shù)迭代,使得數(shù)據(jù)含義與價(jià)值不斷改變。電商平臺(tái)商品分類(lèi)和屬性會(huì)隨消費(fèi)需求、市場(chǎng)趨勢(shì)調(diào)整,若數(shù)據(jù)標(biāo)識(shí)未同步更新,大模型分析銷(xiāo)售數(shù)據(jù)時(shí)易得出錯(cuò)誤結(jié)論。此外,隨著多模態(tài)大模型發(fā)展,對(duì)多模態(tài)數(shù)據(jù)標(biāo)識(shí)與關(guān)聯(lián)要求更高,舊有標(biāo)識(shí)體系難以滿足新需求。
第五,數(shù)據(jù)標(biāo)注效率低。伴隨人工智能應(yīng)用爆發(fā),數(shù)據(jù)標(biāo)注需求呈井噴式增長(zhǎng)。自動(dòng)駕駛、智能安防等領(lǐng)域動(dòng)輒百萬(wàn)級(jí)數(shù)據(jù)亟待處理,但人工標(biāo)注即便滿負(fù)荷工作,仍難以跟上需求節(jié)奏,項(xiàng)目交付周期大幅延長(zhǎng),標(biāo)注效率已成為制約產(chǎn)業(yè)發(fā)展的關(guān)鍵瓶頸。
破局:三大技術(shù)打造數(shù)據(jù)標(biāo)注利器
為了應(yīng)對(duì)以上挑戰(zhàn),數(shù)據(jù)產(chǎn)業(yè)各玩家均在積極打造破局利器,但結(jié)果卻不盡如人意。此時(shí),中國(guó)電信面對(duì)人工智能時(shí)代,重磅推出星?!ざ嗄B(tài)數(shù)據(jù)智能標(biāo)注平臺(tái)。
有人問(wèn),該平臺(tái)實(shí)力到底如何?中國(guó)電信數(shù)據(jù)發(fā)展中心總經(jīng)理林睿在發(fā)布會(huì)上直言:“星海·多模態(tài)數(shù)據(jù)智能標(biāo)注平臺(tái)擁有超50個(gè)自動(dòng)化標(biāo)注的技術(shù)和工具?!?/p>
接下來(lái),我們將從星海·多模態(tài)數(shù)據(jù)智能標(biāo)注平臺(tái)三大核心技術(shù),看一看該平臺(tái)是否擁有破解以上挑戰(zhàn)的實(shí)力。
首先,AI輔助自動(dòng)化標(biāo)注技術(shù)。該技術(shù)化身“數(shù)據(jù)智能助手”,引入AI輔助人工標(biāo)注,就像給標(biāo)注員配備了超級(jí)大腦。據(jù)行業(yè)數(shù)據(jù),傳統(tǒng)純?nèi)斯?biāo)注效率低、成本高,而星海平臺(tái)的自動(dòng)化預(yù)標(biāo)注準(zhǔn)確率達(dá)92% ,效率相比純?nèi)斯ぬ嵘?7倍,極大降低人力成本,加速數(shù)據(jù)標(biāo)注進(jìn)程。
其次,4D全模態(tài)標(biāo)注技術(shù)。面對(duì)自動(dòng)駕駛場(chǎng)景,4D全模態(tài)標(biāo)注技術(shù)好似為標(biāo)注工作打開(kāi)“時(shí)空之眼”。在傳統(tǒng)3D空間信息基礎(chǔ)上融入時(shí)間維度,形成4D標(biāo)注,猶如給自動(dòng)駕駛系統(tǒng)配備了“時(shí)空記錄儀”。行業(yè)普遍面臨自動(dòng)駕駛動(dòng)態(tài)標(biāo)注精度不足的問(wèn)題,而星海平臺(tái)這一技術(shù),能讓自動(dòng)駕駛動(dòng)態(tài)連續(xù)標(biāo)注精度提升45%,助力自動(dòng)駕駛系統(tǒng)更精準(zhǔn)感知路況變化。
最后,低空空間感知標(biāo)注技術(shù)。針對(duì)低空經(jīng)濟(jì)場(chǎng)景,通過(guò)空間感知標(biāo)注使得關(guān)鍵目標(biāo)跟蹤的連續(xù)性達(dá)到98%,空間標(biāo)注精度提升59%,比如在數(shù)字化塔臺(tái)應(yīng)用中,通過(guò)對(duì)塔臺(tái)、雷達(dá)、光電、衛(wèi)星、氣象等數(shù)據(jù)的融合,以全鏈路數(shù)據(jù)標(biāo)注技術(shù)助力塔臺(tái)的本場(chǎng)智能化管理、空域監(jiān)測(cè)、飛行調(diào)度等,實(shí)現(xiàn)低空空域“可計(jì)算、可規(guī)劃、可運(yùn)營(yíng)”,綜合服務(wù)效率提升30%。
筆者認(rèn)為,星海·多模態(tài)數(shù)據(jù)智能標(biāo)注平臺(tái)的三大能力,如同三把利刃,精準(zhǔn)破解數(shù)據(jù)標(biāo)注難題。
布局:打造星海大數(shù)據(jù)能力體系
當(dāng)筆者走進(jìn)中國(guó)電信智能云生態(tài)成果展臺(tái),仿佛踏入一座數(shù)據(jù)智能的“未來(lái)中樞”。在這里,筆者看到中國(guó)電信精心打造的星海大數(shù)據(jù)能力體系,如同三駕齊驅(qū)的馬車(chē),重新定義數(shù)據(jù)產(chǎn)業(yè)格局。
其一,星海數(shù)據(jù)智能中臺(tái)堪稱(chēng)數(shù)據(jù)界的“智慧中樞神經(jīng)”。星海數(shù)據(jù)智能中臺(tái)打破多源異構(gòu)數(shù)據(jù)間的“數(shù)字孤島”,將多模態(tài)數(shù)據(jù)采集、治理、分析與服務(wù)等能力深度集成,如同為企業(yè)裝上強(qiáng)大的數(shù)據(jù)“處理器”。通過(guò)AI算法與可視化工具,讓數(shù)據(jù)資產(chǎn)實(shí)現(xiàn)智能化運(yùn)營(yíng)。據(jù)行業(yè)報(bào)告,智慧城市、工業(yè)互聯(lián)網(wǎng)等領(lǐng)域因數(shù)據(jù)壁壘導(dǎo)致的決策滯后、資源浪費(fèi)問(wèn)題普遍存在,而星海數(shù)據(jù)智能中臺(tái)憑借 “高效賦能” 特性,助力企業(yè)精準(zhǔn)決策、降本增效,推動(dòng)數(shù)據(jù)資源向核心生產(chǎn)力加速轉(zhuǎn)化。
其二,星??尚艛?shù)據(jù)空間則是數(shù)據(jù)共享交易的“安全堡壘”。星??尚艛?shù)據(jù)空間基于區(qū)塊鏈與隱私計(jì)算技術(shù),構(gòu)建起 “數(shù)據(jù)可用不可見(jiàn),用途可控可追溯” 的嚴(yán)密防護(hù)體系。在金融、醫(yī)療等高敏感領(lǐng)域,數(shù)據(jù)安全與合法流通一直是行業(yè)痛點(diǎn),星??尚艛?shù)據(jù)空間通過(guò)權(quán)屬認(rèn)證、合規(guī)審計(jì)等機(jī)制,成為跨域數(shù)據(jù)流通的信任基石,為多方協(xié)作構(gòu)筑起堅(jiān)實(shí)的可信生態(tài)。
其三,星海數(shù)據(jù)標(biāo)注作為AI訓(xùn)練的“數(shù)字糧倉(cāng)”。星海數(shù)據(jù)智能標(biāo)注平臺(tái)以自動(dòng)化標(biāo)注工具和專(zhuān)業(yè)化眾包平臺(tái)為依托,全方位覆蓋圖像、語(yǔ)音、文本等多模態(tài)數(shù)據(jù)處理。
在筆者看來(lái),三大核心產(chǎn)品相互協(xié)同,共同構(gòu)建起星海大數(shù)據(jù)能力體系,展現(xiàn)出中國(guó)電信在數(shù)據(jù)領(lǐng)域領(lǐng)航者的強(qiáng)大實(shí)力與深遠(yuǎn)布局。
基于深厚的數(shù)據(jù)能力,中國(guó)電信在數(shù)據(jù)領(lǐng)域已成為不可小覷的力量。以數(shù)據(jù)標(biāo)注賽道為例,中國(guó)電信已和四川成都、遼寧沈陽(yáng)、河北保定三個(gè)數(shù)據(jù)局簽訂關(guān)于數(shù)據(jù)標(biāo)注基地建設(shè)的戰(zhàn)略合作協(xié)議。
此外,中國(guó)電信借助自動(dòng)化標(biāo)注技術(shù),打造了50萬(wàn)小時(shí)的方言高質(zhì)量數(shù)據(jù)集,并在此基礎(chǔ)上成功打造多方言大語(yǔ)言模型—星辰超多方言語(yǔ)音識(shí)別大模型。該模型賦予中國(guó)電信強(qiáng)大的語(yǔ)言處理能力,可精準(zhǔn)識(shí)別粵語(yǔ)、上海話、四川話、溫州話等超40種方言。
同時(shí),中國(guó)電信借助空間感知標(biāo)注,參與了在深圳市開(kāi)發(fā)了國(guó)內(nèi)首個(gè)低空?qǐng)鼍暗臄?shù)字化塔臺(tái)。
筆者觀察:從通信巨頭蛻變?yōu)閿?shù)據(jù)賦能者
在大模型重塑產(chǎn)業(yè)格局的當(dāng)下,數(shù)據(jù)已成為全球競(jìng)爭(zhēng)的戰(zhàn)略制高點(diǎn)。中國(guó)電信憑借星海大數(shù)據(jù)能力體系,正從通信基礎(chǔ)設(shè)施服務(wù)商向數(shù)據(jù)價(jià)值全鏈條賦能者轉(zhuǎn)型。
從技術(shù)突破看,星海平臺(tái)以AI輔助標(biāo)注提升效率、4D全模態(tài)標(biāo)注突破場(chǎng)景限制、可信空間保障數(shù)據(jù)流通安全,每一項(xiàng)創(chuàng)新都精準(zhǔn)切中行業(yè)發(fā)展瓶頸。
從生態(tài)構(gòu)建看,與多地?cái)?shù)據(jù)局合作建設(shè)標(biāo)注基地、開(kāi)發(fā)方言數(shù)據(jù)集及低空數(shù)字化塔臺(tái)等實(shí)踐,彰顯其推動(dòng)數(shù)據(jù)要素跨領(lǐng)域流通、加速產(chǎn)業(yè)智能化轉(zhuǎn)型的信心。
筆者以為,從通信巨頭到數(shù)據(jù)賦能者,中國(guó)電信在數(shù)據(jù)領(lǐng)域的前行之路,不僅是技術(shù)的突破,更是對(duì)“數(shù)據(jù)要素激活數(shù)字經(jīng)濟(jì)”這一時(shí)代命題的生動(dòng)回應(yīng)。
中國(guó)電信通過(guò)星海大數(shù)據(jù)能力體系構(gòu)建,不僅助力企業(yè)解決數(shù)據(jù)標(biāo)注行業(yè)現(xiàn)實(shí)痛點(diǎn),更以技術(shù)創(chuàng)新與生態(tài)共建,助力落實(shí)國(guó)家《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》提出的“健全數(shù)據(jù)要素市場(chǎng)體系,促進(jìn)數(shù)據(jù)要素自主有序流動(dòng)”目標(biāo)。
不難預(yù)見(jiàn),當(dāng)越來(lái)越多企業(yè)在數(shù)據(jù)孤島中徘徊,中國(guó)電信以技術(shù)創(chuàng)新為舟、生態(tài)共建為槳,開(kāi)辟出一條數(shù)據(jù)價(jià)值釋放的新航道,推動(dòng)數(shù)據(jù)要素價(jià)值釋放進(jìn)入新階段,成為數(shù)字中國(guó)建設(shè)先行者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.