(記者 林碧涓)小到手機掃碼、人臉識別、智能客服,大到智慧醫療、自動駕駛,人工智能已成為各行各業變革的核心引擎。在人工智能發展歷程中,數據一直被當作其“血液”,而數據標注是人工智能算法得以有效運行的關鍵環節,是人工智能產業發展的先決條件。日前,國家數據局發布《數據標注優秀案例集》,充分展示各地在數據標注領域的應用成效;運營商方面,中國電信發布了星海·多模態數據標注平臺;軟通智慧聯合華為發布數據標注賦能高質量知識庫解決方案……產業各方助力數據標注產業高質量發展。
(圖片來源:攝圖網)
AI 產業呼喚 “高質量燃料”
從智能語音助手秒懂方言,到圖像識別系統精準區分癌細胞,AI 應用的深度與廣度持續拓展,用戶對 AI 服務的需求早已從“能用”升級為“好用”“精用”。這背后,是對數據質量的嚴苛要求,數據的精準度、多樣性和時效性直接影響 AI 模型的訓練效果。
數據標注就是通過給文本、語音、圖片、視頻等各種各樣的數據“打標簽”,形成高質量數據集,讓機器“讀得懂、學得快、訓得好”。高質量的數據標注能夠顯著提升模型的性能,其更接近人類的認知水平,低質量的數據標準則會導致模型失效或產生誤導性結果,直接影響應用結果。因此,數據標注不僅關乎人工智能技術的進步,更對數字經濟、產業升級乃至社會生活的智能化轉型具有深遠意義。
去年底,國家發改委等四部門聯合發布《關于促進數據標注產業高質量發展的實施意見》,明確指出,“到2027年,數據標注產業專業化、智能化及科技創新能力顯著提升,產業規模大幅躍升,年均復合增長率超過20%”,并系統性部署需求牽引、創新驅動、生態培育、支撐保障四大任務。根據中商情報網數據顯示,2025年中國數據標注市場規模有望突破100億元。
當前,數據標注領域存在多重挑戰,其一,大模型的發展,傳統人力標注已無法滿足數據需求;其二,由于人力、時間成本、管理等因素導致AI數據標注成本高;其三,不同行業對數據標注的需求存在顯著差異,具有很強的專業性和定制化特點,例如在面對自動駕駛等復雜場景下,還需對特殊場景進行標注,以達到安全性和可靠性。這就要求打造智能化的數據標注手段,推進數據標注工具實現迭代升級,以降低標注成本,提升數據標注質量。
科技創新,夯實數據供給的 “智能地基”
在國家大力推進“人工智能+”行動和數據標注產業布局的戰略背景下,中國電信堅持創新驅動,開展技術攻關,持續推進數據標注產業發展。
中國電信依托國家大數據重點研發工程,自主研發大數據PaaS、融AI多模態治理、數據標注等十大平臺組件。在去年底,升級發布了“星?!按髷祿放企w系,持續推進多行業、多區域、多模態數據資源匯聚,以開放100個數據集和能力為階段目標打造數據資源地圖。當前,數據要素平臺已從海南拓展到全國7省、29地市,服務超150家客戶,構建規模超9萬億Token的大模型訓練數據集。
在前不久召開的第八屆數字中國建設峰會·智能云生態大會中,發布的星海多模態數據標注平臺擁有三大技術能力,即一是AI輔助自動化標注技術,自動化預標注準確率超過92%;二是4D全模態標注技術,將3D空間與時序相結合,應用于自動駕駛場景;三是低空空間感知標注技術,對關鍵目標跟蹤的連續性達到98%,有效提升飛行管制運營能力。
值得一提的是,中國電信的《多模態數據自動化標注與增強平臺》和《視覺大模型自動標注一站式生產運營》兩項成果成功入選《數據標注優秀案例集》,為人工智能產業提供了高質量數據支撐的典型范例。
基于先進標注技術,中國電信積極參與國家級數據標注基地建設,目前已在成都、沈陽、保定3個標注基地落地應用。在成都基地,已有 13 家標注企業入駐,從業人員超900人,標注產業逐步聚集成鏈;在保定基地,將圍繞大規模多模態數據,打造智能數據標注生成管理平臺,實現數據從采集到模型部署的全流程自動化,大幅提升數據集生產效率,降低AI模型訓練門檻。
培育繁榮生態,實現高水平數據供給
數據標注產業作為人工智能發展的關鍵基礎,其高質量發展依賴于技術創新、政策引導與行業協同的深度融合。
當前,國家積極推動數據標注標準體系的建設,提升數據質量的可控性,降低算法迭代的試錯成本,夯實產業協作技術基礎。截止2025年2月底,我國在數據標注領域正在開展或已完成的標準建設共9項,相比于其他數據產業標準工作,數據標注領域標準建設存有巨大空間。
數據標注產業健康有序發展,離不開多元主體的協同發力。以北京電信與北京郵電大學共建的 “行業數據智能標注聯合實驗室” 為例,該實驗室聚焦高質量數據集建設,針對大模型數據集海量、多源、多模態且具高準確性、一致性和時效性要求的特點,聯合實驗室將構建從采集、存儲到加工的全流程治理環節,形成專屬工具集與行業標準,并將推動人形機器人、具身智能等領域的數據標注標準化,助力行業數據標準建設,為AI大模型訓練提供“數據糧倉”。
在推進產業高質量發展過程中,實現標注產品標準化、建立健全價值評估體系至關重要。通過對標全國數標委數據集相關標準,結合市場需求與行業特性,進一步完善數據集質量評測體系,因地制宜建設行業高質量數據集,能夠有效推動人工智能技術與千行百業深度融合。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.