4月29日,國家數據局在第八屆數字中國建設峰會上發布了《數據標注優秀案例集》,從全國417個申報案例中嚴格遴選出47個代表性優秀案例,覆蓋全國29個省、自治區、直轄市及計劃單列市、新疆生產建設兵團。
數據猿梳理發現,本次發布的數據標注優秀案例,涵蓋了數據標注技術創新、行業賦能、標準應用、生態培育、人才培養等五個方向。不僅展示了我國數據標注領域的最新成果和實踐經驗,也為行業進一步發展提供了有益參考和借鑒。
據統計,在發布的最終優秀案例集中,其中入選行業賦能方向案例最多,占了16項;技術創新方向其次,占了15項;人才培養方向案例10項;生態培育方向案例5項;標準應用方向案例1項。
47個優秀案例各方向成果展示
截圖來自國家數據局
《數據標注優秀案例集》
☆數據標注優秀案例名單如下:
1.多模態醫學影像智能數據標注平臺
2.多模態數據智能標注與管理平臺
3.AI助力數據標注產業發展新生態
4.時空智能數據標注標準化實踐
5.打造數據標注產業 助力縣域人才振興
6.農村集體土地高質量時空數據集多源協同標注
7.數據標注賦能電商產業效能提升
8.汽車行業多模態數據融合人機協同智能化標注
9.智能標注閉環體系重塑AI數據工程
10.數據標注政產教融合人才培養
11.“政校企共建 產教訓融合”數據標注人培模式
12.AGI智能化時代的AI數據標注平臺
13.AI手語翻譯數據標注賦能無障礙信息建設
14.產教融合醫學影像數據標注人才創新培養
15.ADS數據標注與PAI平臺賦能自動駕駛創新提效
16.大模型驅動的數據自主標注智能服務
17.SIFT技術引領全球大規模智能醫學影像數據標注
18.面向深度學習的遙感影像建筑半自動數據標注
19.數據標注平臺工具的創新實踐
20.深挖政務熱線數據標注產業賦能基層治理新場景
21.小語種數據標注特色創新模式
22.數據標注平臺 賦能AI產業高質量發展
23.深挖數據處理價值構建城市級數據標注產業生態
24.鐵塔視頻數據標注賦能多領域智慧監測
25.多模態數據自動化標注與增強平臺
26.數據標注賦能油氣勘探地物信息智能解譯
27.高質量多模態醫療AI訓練數據標注設施建設
28.無人機視角下人居環境數據集數據標注
29.點-線-面多粒度遙感大規模基準數據集標注
30.礦山數工—數據標注賦能礦山行業高質量發展
31.無人機影像數據標注賦能低空經濟發展
32.數據標注筑基高質量數據集
33.數據標注專業人才產學融合培養平臺
34.場景驅動高質量垂類數據標注人才培養
35.4D-BEV上億點云標注系統
36.視覺大模型自動標注一站式生產運營
37.中醫藥行業大模型數據標注
38.高質量自動駕駛數據集標注與應用
39.數據標注創新引領電力行業數智轉型
40.建設人工智能數據標注實訓基地,打造人才培養高地
41.“AI+產教融合”助力數據標注高技能人才培養
42.3D點云數據標注產教融合人才培養
43.熱帶亞熱帶典型地物空天遙感樣本標注
44.產教融合創新實踐 賦能數據標注人才培養
45.數智引擎:產教融合型數據標注人才培養
46.AI數據標注助力中醫藥領域高質量發展
47.云藏搜索引擎藏文信息處理數據標注
47個案例一覽,有哪些特色與亮點?
什么是數據標注?為什么需要數據標注?
數據標注是人工智能訓練過程中的關鍵環節,通俗來說,就是教AI認識世界——通過標記數據的特征,讓AI理解“這是什么”。具體來看,指通過人工或半自動方式為原始數據(如圖像、文本、語音、視頻等)添加結構化標簽,使其成為機器學習模型可識別的訓練樣本的過程。可以說,沒有標注,AI寸步難行,正是標注質量直接決定AI的“智商”。
比如,在醫療領域,醫生在肺部CT影像上用不同顏色標注不同的病癥,紅色為惡性腫瘤、綠色區域標注為良性結節、白色輪廓標注為器官邊界……訓練后的AI能自動標記新患者的CT片,輔助醫生快速定位病灶,實現效率翻倍。
此前,有報道稱,目前市場上有1%的數據能被收集保存下來,同時其中有90%數據是非結構化數據,這些非結構化的數據只有經過清洗與標注才能被喚醒價值,這就產生了源源不斷的清洗與標注需求。
值得一提的是,此次國家數據局發布的47個優秀案例,集中展示了我國先進的標注技術和方法,反映中國數據標注產業的創新圖譜,涉及多個領域和行業,以及國內多個地區。這些案例主要涵蓋了數據標注技術創新、行業賦能、標準應用、生態培育、人才培養等五個方向,下面我們就從這五個方面來展開分析,詳細了解一些典型的案例及其具體情況和意義。
1.數據標注賦能行業:填補空白,建立標注規范
從行業分布來看,這47個案例主要分布在醫療影像、自動駕駛、電商產業、遙感影像、人才培養教育、人工智能與大數據、行業賦能與創新、小語種與多語種、特定行業應用等領域。
例如,數據標注賦能醫療健康領域。以排名首位的“多模態醫學影像智能數據標注平臺”為例,該平臺由沈陽東軟智能醫療科技研究院有限公司等單位開發。該項目創新提出醫學影像分割大模型MISM等數據標注關鍵技術,研發集數據、模型、工具、場景為一體的醫學影像智能數據標注平臺,實現標注工具自主可控及國產化替代,標注效率提升兩個數量級(100倍)以上,質量提升30%且成本降低60%以上。該平臺搶占自主可控的數據標注技術高地,建立醫學影像標注“中國標準”。
整體框架(截圖來自國家數據集)
高質量自動駕駛數據集標注與應用。高質量的數據集對于自動駕駛技術的發展至關重要。這些數據集不僅提升了自動駕駛系統的感知能力,還促進了技術的標準化,降低了研發成本,支持了多種任務的完成,推動了自動駕駛技術的全面發展。
比如,在入選的優秀案例中包含了“4D-BEV上億點云標注系統”、“高質量自動駕駛數據集標注與應用”等5個案例。如“4D-BEV上億點云標注系統”、“高質量自動駕駛數據集標注與應用”,專注于解決復雜環境下的三維空間標注問題,這些案例普遍采用點云連續幀標注、多傳感器融合標注等技術,滿足自動駕駛高精度感知需求。
數據標注賦能油氣勘探。標注技術應用于垂直行業的智能化轉型,這些案例通常需要深厚的行業知識沉淀,標注對象具有高度專業化特征。在油氣勘探領域,準確的地物信息解譯對于資源的發現和開發至關重要。通過高效的數據標注技術,不僅提高了勘探的效率和精度,還降低了勘探成本,推動了油氣勘探行業的數字化轉型和智能化升級。
典型案例如第26號,“數據標注賦能油氣勘探地物信息智能解譯”。在這個案例中,傳統人工標定面臨海量地物與復雜地形挑戰,存在效率低、錯漏率高難題。通過基于多源地理數據融合的智能解譯系統,并結合AI算法與圖像處理技術構建了自動化翻譯平臺,累計處理地物8900萬個,解譯精度達90%,效率較人工提升20倍。經測算,年度可節約成本1.89億元,為勘探智能化轉型提供核心技術支撐,顯著推動行業降本增效。
數據標注賦能油氣勘探 數據融合過程示意圖
(來源:國家數據局)
在鄉村振興領域,如第6號“農村集體土地高質量時空數據集多源協同標注”,該項目通過多源協同標注技術,為農村土地確權和數字化管理提供數據基礎。
2.展現強大自研能力:多模態、大模型加持
在技術創新方面,很多入選案例都展現了強大的技術自研能力,如利用人工智能、機器學習等技術實現智能標注,提高標注效率和質量,降低人工成本。值得一提的是,有多個案例都提到了多模態數據標注,這也展示了當前數據標注技術發展的一個重要趨勢。比如第一個案例“多模態醫學影像智能數據標注平臺”,它實現了胸部疾病的批量化智能檢測與標注,體現了技術的高效性,又如第二個案例“多模態數據智能標注與管理平臺”。
此外,還有大模型賦能標注,典型案例如第16號案例“大模型驅動的數據自主標注智能服務”和第36號案例“視覺大模型自動標注一站式生產運營”,通過預訓練大模型實現標注過程的自動化迭代,大幅降低人工依賴。這些平臺通過打通算法平臺與標注平臺的數據交互流水線,實現數據自驅的多模態標注算法快速迭代,形成AI數據生產的新質生產力。
3.培養專業數據標注師,解決產業脫鉤問題
數據標注是人工智能發展的核心基石之一,貫穿于算法訓練、模型評估、迭代優化以及場景應用等多個環節,數據標注作為新興產業,存在人員需求大、勞動密集強度高、職業技能迭代快、產教融合深度不足、政府扶持力度不夠等現狀。
數據猿梳理發現,此次入選的案例有的探索出多種創新路徑,來培養專業的數據標注人才。如,第11號案例的“政校企共建 產教訓融合”數據標注人培模式、第34號案例“場景驅動高質量垂類數據標注人才培養”。
入選單位提到,在第11號案例的“政校企共建 產教訓融合”數據標注人培模式中,為解決數據標注人才培養痛點,政府、學校、企業共建溫州數據學院,將“生產、教學、培訓”相融合,實現了“技能培訓、人才就業、效益產值”共贏,打造了數據標注人才培養的新范式。
“政校企共建 產教訓融合”
數據標注人培模式的整體框架
又比如第34號案例,大連金慧科技的“場景驅動高質量垂類數據標注人才培養”案例,通過將垂類業務場景、自主研發的大模型智能標注平臺與人才培養體系結合,推出場景化人機協同培養模式,解決高質量垂類多模態數據標注專業人才短缺問題,已在多個業務基地落地實施,累計培養逾1萬名專業標注人員,有效縮短人才培養周期20%,提升培訓效率40%,培訓后準確率提升8%。
但具體來看,在人才培養這個方面,不同的案例也會采用不同的路徑和方法。比如,有的側重于政產學研合作,如數據標注政產教融合人才培養案例;有的注重實踐能力培養,如人工智能訓練師崗課賽證綜合育人模式案例,這些不同的人才培養模式滿足了不同地區、不同企業和不同人群對數據標注人才的需求。
4.標準應用
比如,第4號案例“時空智能數據標注標準化實踐”,針對時空數據標注不統一的問題,武漢大學牽頭制定國際開放地理信息協會OGC TrainingDML-AI標準,并轉為ISO標準(ISO 19178-1)和國家標準,涵蓋時空數據標注概念模型、編碼等標準規范。
地理人工智能數據標注標準化實踐系統圖
5.生態培育初見成效
數據標注產業生態培育過程中,面臨技術薄弱、業務匱乏、人才不足等挑戰。一些案例通過構建數據標注產業生態,整合產業鏈上下游資源,實現了數據標注與其他產業的協同發展。
如昆玉公司打造“1+N”數據產業群,形成覆蓋數據采集、清洗、標注、訓練全產業鏈的數據服務能力,成功孵化4家數據標注企業、7個項目工作室,輸出123類產品數據集。
此外,還有第3號案例,“AI助力數據標注產業發展新生態”中,百度智能云(山西)科技有限公司通過政企協同,并利用技術、生態和品牌優勢,結合山西轉型綜合改革示范區的產業政策,形成疊加效應,推動產業鏈形成。標注效率提升超60%,累計產值超15億元,孵化企業超50家,帶動就業與人才培養超3萬人。
八仙過海,不同區域、行業、
技術的實踐路徑有何不同?
通過47個案例的分析,也可以看到不同區域基于資源稟賦和產業基礎,探索出各具特色的發展道路。從不同的區域特色發展、不同的技術路徑來分析,可以看出:
不同區域具有不同的發展模式。比如:
西部地區:核心特色是就業優先。如,新疆昆玉案例針對“兵團數據標注產業空白、人才短缺、技術依賴內地”問題,通過自研技術、校企合作、標準化管理等措施,聚焦小語種標注、自動駕駛、無人零售等領域,累計解決當地就業問題。
東部地區:側重前沿技術與高端制造技術的融合。比如,廣東入選案例如“無人機視角下人居環境數據集數據標注”和“SIFT技術引領全球大規模智能醫學影像數據標注”,展現技術密集型發展路徑,這些案例更關注前沿技術在高端制造和智慧城市中的應用。
東北地區:側重與數據標注賦能傳統轉型模式,將技術自主創新賦能傳統醫療,以東北地區東軟醫療影像標注平臺為代表,依托傳統醫療產業優勢,深耕專業醫療數據標注領域,實現老工業基地的數字化轉型
民族地區:側重在文化保護模式,用數據標注來加持文化保護,比如第47號案例中“云藏搜索引擎藏文信息處理數據標注”,專注于少數民族語言和文化保護,填補多語言標注領域空白。
從不同的技術路徑來看,獲選案例采用了不同的技術路徑和方法。有的側重于算法研發,如多任務分類與分割算法、大模型驅動等;有的注重工具和平臺的創新,如智能標注平臺、4D-BEV上億點云標注系統等,有的在數據增強等技術上進行了創新實踐。
同時,不同行業、不同應用領域差異化較大。如,不同案例在數據標注的應用領域各有側重。有些專注于特定行業的深度應用,如醫療影像數據標注、交通流量數據標注等;有的則涵蓋了多個領域的綜合應用,如多模態數據標注平臺在醫療、電商、自動駕駛等多個領域應用。這種差異化的特點反映了數據標注行業在不同領域的多樣化需求和發展潛力。
透過數據看行業:
對我國數據標注有哪些啟示?
綜上,我們可以看到,技術創新是數據標注行業發展的核心動力,在很多優秀案例中,都展示了強大的自主研發能力。這表明,未來數據標注行業還需不斷探索和應用新技術,如深度學習、人工智能、自動化工具等,以提高標注的準確性和效率。
此外,自動化標注技術的出現,顯著提高了標注效率和準確性,雖然目前還不能完全取代人工標注,但已經大幅減少了人工工作量,并有望在未來實現更高程度的智能化。但我們已明顯看到,隨著生成式人工智能和大模型技術的突破,數據標注已從傳統的人力密集型向AI輔助自動化轉型。
未來,數據標注技術還將擴展到各個行業進一步深化,推動整個行業的效率提升和成本降低。隨著人工智能進入多元行業和場景落地階段,自動駕駛、醫療、法律、金融等有一定專業性要求的垂直化場景將成為主要需求,從而帶動行業進一步朝著垂直化、定制化方向發展。
當然,我們也會看到,未來數據標注行業需要建立和推廣更多的標準,以確保數據標注的質量和一致性,同時也便于數據的共享和利用。
有數據顯示,到2027年,數據標注產業專業化、智能化及科技創新能力顯著提升,產業規模大幅躍升,年均復合增長率超過20%。
數據標注市場的主要增長動力,來自于人工智能技術的快速發展和應用。數據標注作為數據預處理的重要環節,市場需求隨之擴大。隨著大模型時代的到來,數據標注在AI開發模式中的重要性日益凸顯,貫穿大模型的全生命周期,上下游合作關系更為緊密耦合。此外,非結構化數據的清洗與標注需求不斷增加,也將為數據標注市場帶來了源源不斷的增長動力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.