數(shù)據(jù)已超越傳統(tǒng)生產(chǎn)要素,成為驅(qū)動人工智能技術(shù)突破與產(chǎn)業(yè)變革的核心動力,而高質(zhì)量數(shù)據(jù)是提升大模型準(zhǔn)確性、適應(yīng)性泛化能力的核心。高質(zhì)量數(shù)據(jù)集不僅是人工智能模型性能躍升的基石,更重塑了從技術(shù)研發(fā)到商業(yè)落地的全產(chǎn)業(yè)鏈條。其中數(shù)據(jù)標(biāo)注與清洗是高質(zhì)量數(shù)據(jù)集建設(shè)的關(guān)鍵環(huán)節(jié)。
2025數(shù)據(jù)安全發(fā)展大會在溫州召開,國家數(shù)據(jù)局黨組書記、局長劉烈宏出席并致辭。會上,由中國電子信息產(chǎn)業(yè)發(fā)展研究院(賽迪研究院)發(fā)布的《2025高質(zhì)量數(shù)據(jù)集研究報(bào)告》顯示,隨著人工智能、大模型技術(shù)迭代,高質(zhì)量數(shù)據(jù)建設(shè)進(jìn)入規(guī)模化、規(guī)范化發(fā)展新階段。
據(jù)央視新聞報(bào)道,2024年,我國開發(fā)或應(yīng)用人工智能的企業(yè)數(shù)量同比增長36%,高質(zhì)量數(shù)據(jù)集數(shù)量同比增長27.4%,有力支撐人工智能訓(xùn)練和應(yīng)用。利用大模型的數(shù)據(jù)技術(shù)企業(yè)和數(shù)據(jù)應(yīng)用企業(yè)同比分別增長57.21%、37.14%。
賽迪研究院黨委書記、副院長劉文強(qiáng)表示,作為人工智能模型訓(xùn)練與應(yīng)用的基石,高質(zhì)量數(shù)據(jù)集對于人工智能技術(shù)創(chuàng)新、產(chǎn)業(yè)升級和社會進(jìn)步意義十分重大,是當(dāng)前數(shù)字經(jīng)濟(jì)建設(shè)的時(shí)代課題。國家數(shù)據(jù)局統(tǒng)籌推進(jìn)了全國七個(gè)數(shù)據(jù)標(biāo)注基地建設(shè),構(gòu)建醫(yī)療、工業(yè)、教育等領(lǐng)域高質(zhì)量數(shù)據(jù)集。
賽迪研究院副總工程師劉權(quán)在接受央視新聞采訪時(shí)表示,2025年4月29日召開的第八屆數(shù)字中國建設(shè)峰會上,國務(wù)院國資委發(fā)布了涵蓋智慧能源、工業(yè)制造、綠色低碳、金融服務(wù)等10余個(gè)行業(yè)30項(xiàng)人工智能行業(yè)高質(zhì)量數(shù)據(jù)集優(yōu)秀建設(shè)成果。貴陽大數(shù)據(jù)交易所累計(jì)發(fā)布的939個(gè)多模態(tài)數(shù)據(jù)集覆蓋了金融、工業(yè)、醫(yī)療、商貿(mào)等關(guān)鍵領(lǐng)域,為大模型廠商提供了豐富且優(yōu)質(zhì)的數(shù)據(jù)資源。后續(xù)將深化數(shù)據(jù)資源開發(fā)利用和開放共享,以高質(zhì)量數(shù)據(jù)集建設(shè)賦能大模型訓(xùn)練、助力高價(jià)值場景落地,為人工智能高質(zhì)量發(fā)展筑牢數(shù)據(jù)底座。
面向高質(zhì)量數(shù)據(jù)集建設(shè)的各流程環(huán)節(jié),劉文強(qiáng)建議從以下五個(gè)方面發(fā)力:
一是強(qiáng)化數(shù)據(jù)獲取與共享,探索行業(yè)試點(diǎn)聯(lián)合推進(jìn)共建新模式。二是加強(qiáng)數(shù)據(jù)質(zhì)量源頭發(fā)力,推動數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展。三是完善質(zhì)量與標(biāo)準(zhǔn)體系,推動建設(shè)重點(diǎn)行業(yè)數(shù)據(jù)集評價(jià)標(biāo)準(zhǔn)。四是優(yōu)化數(shù)據(jù)集運(yùn)營模式,推動數(shù)據(jù)資源價(jià)值生態(tài)循環(huán)落地。五是加強(qiáng)數(shù)據(jù)隱私與安全保障,推動數(shù)據(jù)集安全評估能力建設(shè)。
報(bào)告顯示,當(dāng)前我國正加速推動高質(zhì)量數(shù)據(jù)集創(chuàng)新發(fā)展,但是仍然面臨數(shù)據(jù)存量小產(chǎn)量低、數(shù)據(jù)集質(zhì)量良莠不齊、缺乏主流高價(jià)值數(shù)據(jù)引領(lǐng)、數(shù)據(jù)利用效率低等問題。
劉文強(qiáng)表示,建議從以下三方面進(jìn)行改進(jìn):
一是在數(shù)據(jù)匯聚與共享方面,數(shù)據(jù)存量小產(chǎn)量低,數(shù)據(jù)集匯聚共享效率有待加強(qiáng)。二是在數(shù)據(jù)供給與質(zhì)量方面數(shù)據(jù)集質(zhì)量良莠不齊,缺乏主流高價(jià)值數(shù)據(jù)引領(lǐng)。三是數(shù)據(jù)挖掘與利用方面存在算法偏見,加劇數(shù)據(jù)遺失,數(shù)據(jù)要素價(jià)值挖掘不足。
劉權(quán)表示,在確保數(shù)據(jù)集的質(zhì)量方面,一是做好數(shù)據(jù)源頭管控,確保數(shù)據(jù)來源的可靠性、完整性。二是做好標(biāo)注質(zhì)量控制,規(guī)范數(shù)據(jù)標(biāo)注流程,提升標(biāo)注質(zhì)量。三是做好數(shù)據(jù)集質(zhì)量評估,通過質(zhì)量評估指導(dǎo)認(rèn)定一批高質(zhì)量數(shù)據(jù)集,使之更好地應(yīng)用到人工智能系統(tǒng)。在確保數(shù)據(jù)安全方面,要夯實(shí)數(shù)據(jù)安全保障能力,加強(qiáng)數(shù)據(jù)隱私與安全保障,推動數(shù)據(jù)集安全評估能力建設(shè),建立對數(shù)據(jù)集的持續(xù)監(jiān)控評估機(jī)制,全方位保障數(shù)據(jù)安全。
來源 | 賽迪網(wǎng)
編輯 | 辦公室
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.