文/海峰看科技
在AI技術(shù)重塑全球產(chǎn)業(yè)格局的當下,數(shù)據(jù)如同傳統(tǒng)行業(yè)的煤油氣,成為驅(qū)動數(shù)字經(jīng)濟發(fā)展的新“燃料”。
而數(shù)據(jù)標注能力,則成為AI落地應用的關(guān)鍵突破口。因為數(shù)據(jù)標注就像給海量雜亂的“數(shù)據(jù)倉庫”里的每樣東西貼上獨一無二的小標簽,讓機器能快速找到、看懂數(shù)據(jù),精準干活,大大提高效率。
在筆者近期參加的第八屆數(shù)字中國建設峰會?智能云生態(tài)大會主論壇上,中國電信董事長柯瑞文與總經(jīng)理劉桂清均提到數(shù)據(jù)標注能力,透露出中國電信在“數(shù)據(jù)”層面的戰(zhàn)略、打法與成果。
中國電信董事長柯瑞文提出構(gòu)建“算力、平臺、數(shù)據(jù)、模型、應用”五位一體的智能云能力體系,將數(shù)據(jù)作為重要的一環(huán),清晰勾勒出數(shù)字時代發(fā)展的戰(zhàn)略藍圖。
談及數(shù)據(jù),柯瑞文強調(diào):“中國電信將升級‘星海’數(shù)據(jù)智能中臺,加快建設高質(zhì)量數(shù)據(jù)集,賦能模型訓推和應用。同時,中國電信還將繼續(xù)深度參與成都、沈陽、保定等國家數(shù)據(jù)標注基地建設和國家級數(shù)據(jù)賽事,推動公共數(shù)據(jù)開放運營和價值釋放。”
中國電信總經(jīng)理劉桂清在論壇期間發(fā)布星海多模態(tài)數(shù)據(jù)標注平臺,其三大核心技術(shù)成為全場焦點。他指出:“中國電信在數(shù)據(jù)領(lǐng)域通過強化數(shù)據(jù)匯聚和標注,為客戶和合作伙伴在獲取普惠算力以及開發(fā)和應用AI方面提供便利,推動人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展。”
這不禁讓人疑惑:在這個數(shù)據(jù)為王的時代,數(shù)據(jù)標注行業(yè)面臨著怎樣的挑戰(zhàn)?星海多模態(tài)數(shù)據(jù)標注平臺將如何應對挑戰(zhàn)?讓我們一同深入探尋其中的奧秘。
困局:數(shù)據(jù)標注賽道面臨四大挑戰(zhàn)
大模型時代,數(shù)據(jù)標注的質(zhì)量與效率直接影響數(shù)據(jù)價值釋放。當前,數(shù)據(jù)產(chǎn)業(yè)在數(shù)據(jù)標注領(lǐng)域面臨多重挑戰(zhàn)。
第一,數(shù)據(jù)標注標準不統(tǒng)一。不同領(lǐng)域、機構(gòu)對數(shù)據(jù)標識的規(guī)則和標準差異巨大。醫(yī)療與金融領(lǐng)域?qū)蛻羯矸荨⒔灰讛?shù)據(jù)的標識方式截然不同,在大模型跨領(lǐng)域數(shù)據(jù)融合訓練時,難以直接對齊整合,極大降低數(shù)據(jù)利用效率。同時,智慧城市建設中,交通、環(huán)保、安防等部門數(shù)據(jù)因標識標準不一,共享流通困難,形成一個個“數(shù)字孤島”。
第二,數(shù)據(jù)標注準確性不足。人工標注因標注人員專業(yè)水平、理解能力及主觀因素影響,存在明顯誤差,如在圖像標注中,對模糊內(nèi)容標注結(jié)果差異大,干擾大模型訓練精度。而自動化標注工具準確性與適應性有限,面對法律文書、學術(shù)論文等專業(yè)文本,難以理解專業(yè)術(shù)語與語義關(guān)系,導致標注錯誤頻發(fā)。
第三,數(shù)據(jù)標注完整性缺失。在數(shù)據(jù)采集整理過程中,由于疏忽或技術(shù)限制,部分數(shù)據(jù)未被標識,這使得其中蘊含的重要信息無法被大模型利用,造成了資源浪費。即便已標識的數(shù)據(jù),也可能存在信息不全面的問題,如產(chǎn)品數(shù)據(jù)僅標注基礎(chǔ)屬性,忽略生產(chǎn)批次、保質(zhì)期等關(guān)鍵信息,削弱大模型分析預測能力。
第四,數(shù)據(jù)標注更新不及時。業(yè)務快速變化和技術(shù)迭代,使得數(shù)據(jù)含義與價值不斷改變。電商平臺商品分類和屬性會隨消費需求、市場趨勢調(diào)整,若數(shù)據(jù)標識未同步更新,大模型分析銷售數(shù)據(jù)時易得出錯誤結(jié)論。此外,隨著多模態(tài)大模型發(fā)展,對多模態(tài)數(shù)據(jù)標識與關(guān)聯(lián)要求更高,舊有標識體系難以滿足新需求。
第五,數(shù)據(jù)標注效率低。伴隨人工智能應用爆發(fā),數(shù)據(jù)標注需求呈井噴式增長。自動駕駛、智能安防等領(lǐng)域動輒百萬級數(shù)據(jù)亟待處理,但人工標注即便滿負荷工作,仍難以跟上需求節(jié)奏,項目交付周期大幅延長,標注效率已成為制約產(chǎn)業(yè)發(fā)展的關(guān)鍵瓶頸。
破局:三大技術(shù)打造數(shù)據(jù)標注利器
為了應對以上挑戰(zhàn),數(shù)據(jù)產(chǎn)業(yè)各玩家均在積極打造破局利器,但結(jié)果卻不盡如人意。此時,中國電信面對人工智能時代,重磅推出星海·多模態(tài)數(shù)據(jù)智能標注平臺。
有人問,該平臺實力到底如何?中國電信數(shù)據(jù)發(fā)展中心總經(jīng)理林睿在發(fā)布會上直言:“星海·多模態(tài)數(shù)據(jù)智能標注平臺擁有超50個自動化標注的技術(shù)和工具。”
接下來,我們將從星海·多模態(tài)數(shù)據(jù)智能標注平臺三大核心技術(shù),看一看該平臺是否擁有破解以上挑戰(zhàn)的實力。
首先,AI輔助自動化標注技術(shù)。該技術(shù)化身“數(shù)據(jù)智能助手”,引入AI輔助人工標注,就像給標注員配備了超級大腦。據(jù)行業(yè)數(shù)據(jù),傳統(tǒng)純?nèi)斯俗⑿实汀⒊杀靖撸呛F脚_的自動化預標注準確率達92% ,效率相比純?nèi)斯ぬ嵘?7倍,極大降低人力成本,加速數(shù)據(jù)標注進程。
其次,4D全模態(tài)標注技術(shù)。面對自動駕駛場景,4D全模態(tài)標注技術(shù)好似為標注工作打開“時空之眼”。在傳統(tǒng)3D空間信息基礎(chǔ)上融入時間維度,形成4D標注,猶如給自動駕駛系統(tǒng)配備了“時空記錄儀”。行業(yè)普遍面臨自動駕駛動態(tài)標注精度不足的問題,而星海平臺這一技術(shù),能讓自動駕駛動態(tài)連續(xù)標注精度提升45%,助力自動駕駛系統(tǒng)更精準感知路況變化。
最后,低空空間感知標注技術(shù)。針對低空經(jīng)濟場景,通過空間感知標注使得關(guān)鍵目標跟蹤的連續(xù)性達到98%,空間標注精度提升59%,比如在數(shù)字化塔臺應用中,通過對塔臺、雷達、光電、衛(wèi)星、氣象等數(shù)據(jù)的融合,以全鏈路數(shù)據(jù)標注技術(shù)助力塔臺的本場智能化管理、空域監(jiān)測、飛行調(diào)度等,實現(xiàn)低空空域“可計算、可規(guī)劃、可運營”,綜合服務效率提升30%。
筆者認為,星海·多模態(tài)數(shù)據(jù)智能標注平臺的三大能力,如同三把利刃,精準破解數(shù)據(jù)標注難題。
布局:打造星海大數(shù)據(jù)能力體系
當筆者走進中國電信智能云生態(tài)成果展臺,仿佛踏入一座數(shù)據(jù)智能的“未來中樞”。在這里,筆者看到中國電信精心打造的星海大數(shù)據(jù)能力體系,如同三駕齊驅(qū)的馬車,重新定義數(shù)據(jù)產(chǎn)業(yè)格局。
其一,星海數(shù)據(jù)智能中臺堪稱數(shù)據(jù)界的“智慧中樞神經(jīng)”。星海數(shù)據(jù)智能中臺打破多源異構(gòu)數(shù)據(jù)間的“數(shù)字孤島”,將多模態(tài)數(shù)據(jù)采集、治理、分析與服務等能力深度集成,如同為企業(yè)裝上強大的數(shù)據(jù)“處理器”。通過AI算法與可視化工具,讓數(shù)據(jù)資產(chǎn)實現(xiàn)智能化運營。據(jù)行業(yè)報告,智慧城市、工業(yè)互聯(lián)網(wǎng)等領(lǐng)域因數(shù)據(jù)壁壘導致的決策滯后、資源浪費問題普遍存在,而星海數(shù)據(jù)智能中臺憑借 “高效賦能” 特性,助力企業(yè)精準決策、降本增效,推動數(shù)據(jù)資源向核心生產(chǎn)力加速轉(zhuǎn)化。
其二,星海可信數(shù)據(jù)空間則是數(shù)據(jù)共享交易的“安全堡壘”。星海可信數(shù)據(jù)空間基于區(qū)塊鏈與隱私計算技術(shù),構(gòu)建起 “數(shù)據(jù)可用不可見,用途可控可追溯” 的嚴密防護體系。在金融、醫(yī)療等高敏感領(lǐng)域,數(shù)據(jù)安全與合法流通一直是行業(yè)痛點,星海可信數(shù)據(jù)空間通過權(quán)屬認證、合規(guī)審計等機制,成為跨域數(shù)據(jù)流通的信任基石,為多方協(xié)作構(gòu)筑起堅實的可信生態(tài)。
其三,星海數(shù)據(jù)標注作為AI訓練的“數(shù)字糧倉”。星海數(shù)據(jù)智能標注平臺以自動化標注工具和專業(yè)化眾包平臺為依托,全方位覆蓋圖像、語音、文本等多模態(tài)數(shù)據(jù)處理。
在筆者看來,三大核心產(chǎn)品相互協(xié)同,共同構(gòu)建起星海大數(shù)據(jù)能力體系,展現(xiàn)出中國電信在數(shù)據(jù)領(lǐng)域領(lǐng)航者的強大實力與深遠布局。
基于深厚的數(shù)據(jù)能力,中國電信在數(shù)據(jù)領(lǐng)域已成為不可小覷的力量。以數(shù)據(jù)標注賽道為例,中國電信已和四川成都、遼寧沈陽、河北保定三個數(shù)據(jù)局簽訂關(guān)于數(shù)據(jù)標注基地建設的戰(zhàn)略合作協(xié)議。
此外,中國電信借助自動化標注技術(shù),打造了50萬小時的方言高質(zhì)量數(shù)據(jù)集,并在此基礎(chǔ)上成功打造多方言大語言模型—星辰超多方言語音識別大模型。該模型賦予中國電信強大的語言處理能力,可精準識別粵語、上海話、四川話、溫州話等超40種方言。
同時,中國電信借助空間感知標注,參與了在深圳市開發(fā)了國內(nèi)首個低空場景的數(shù)字化塔臺。
筆者觀察:從通信巨頭蛻變?yōu)閿?shù)據(jù)賦能者
在大模型重塑產(chǎn)業(yè)格局的當下,數(shù)據(jù)已成為全球競爭的戰(zhàn)略制高點。中國電信憑借星海大數(shù)據(jù)能力體系,正從通信基礎(chǔ)設施服務商向數(shù)據(jù)價值全鏈條賦能者轉(zhuǎn)型。
從技術(shù)突破看,星海平臺以AI輔助標注提升效率、4D全模態(tài)標注突破場景限制、可信空間保障數(shù)據(jù)流通安全,每一項創(chuàng)新都精準切中行業(yè)發(fā)展瓶頸。
從生態(tài)構(gòu)建看,與多地數(shù)據(jù)局合作建設標注基地、開發(fā)方言數(shù)據(jù)集及低空數(shù)字化塔臺等實踐,彰顯其推動數(shù)據(jù)要素跨領(lǐng)域流通、加速產(chǎn)業(yè)智能化轉(zhuǎn)型的信心。
筆者以為,從通信巨頭到數(shù)據(jù)賦能者,中國電信在數(shù)據(jù)領(lǐng)域的前行之路,不僅是技術(shù)的突破,更是對“數(shù)據(jù)要素激活數(shù)字經(jīng)濟”這一時代命題的生動回應。
中國電信通過星海大數(shù)據(jù)能力體系構(gòu)建,不僅助力企業(yè)解決數(shù)據(jù)標注行業(yè)現(xiàn)實痛點,更以技術(shù)創(chuàng)新與生態(tài)共建,助力落實國家《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》提出的“健全數(shù)據(jù)要素市場體系,促進數(shù)據(jù)要素自主有序流動”目標。
不難預見,當越來越多企業(yè)在數(shù)據(jù)孤島中徘徊,中國電信以技術(shù)創(chuàng)新為舟、生態(tài)共建為槳,開辟出一條數(shù)據(jù)價值釋放的新航道,推動數(shù)據(jù)要素價值釋放進入新階段,成為數(shù)字中國建設先行者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.