“數字經濟內參,數據產業專欄”。3月3日,胡堅波(國家數據發展研究院院長)發表文章。DataBlog轉載至此,僅供內部參考。
隨著DeepSeek R1系列模型的發布,國內掀起新一輪人工智能的熱潮,通信、互聯網、汽車、能源、金融、醫療、科技等龍頭企業紛紛宣布接入DeepSeek,人工智能大模型加速向各行各業滲透。
人工智能大模型的發展需要“數據糧食”,特別是高質量數據集。高質量數據集是人工智能大模型訓練、推理和驗證的關鍵基礎,是按照特定標準,經過采集、清洗、歸類和標注等智能化處理,具有相應更新和維護機制的數據集合。
1)建設人工智能高質量數據集的重大意義
高質量數據集建設有利于推進“人工智能+”行動落地見效,對數字經濟乃至整個經濟社會高質量發展具有重大意義。
一是高質量數據集建設是人工智能發展的客觀需要。人工智能大模型對數據集提出了新要求,數據集的質量影響人工智能的智商。高質量數據集是人工智能真正的“護城河”,人工智能大模型的訓練和推理高度依賴高質量數據集的供給。谷歌研究發現,對于圖像生成模型,當計算資源受限時,數據集大小比模型大小更加重要。紐約大學的一項研究表明,大型語言模型在使用醫學數據訓練過程中,即使含有0.001%的錯誤信息,也可能導致模型輸出不準確的醫學答案。
二是高質量數據集建設是促進我國行業數字化轉型的關鍵舉措。通過開放公共數據和促進企業數據流通,可以提升垂直領域人工智能大模型的能力,促進傳統行業數字化轉型升級。例如,“蘇州絲綢紋樣數據集”匯聚了222件等級文物和7012片近現代絲綢樣本的高清數據,形成了3個具有較高水平的高清采集紋樣數據子集,并依托市場化機制,在絲綢紡織、網絡游戲、汽車、美妝、銀行、貴金屬等領域累計授權使用31批次,賦能蘇州絲綢文化傳承、文旅消費和數字創新。
三是高質量數據集建設是促進各地數字經濟發展的重要抓手。近兩年,為促進數字經濟發展,國內不同地區陸續推出各類“大模型+數據集+算力”一體化創新基地。例如,上海徐匯區的“模速空間”、北京石景山區的大模型“超級工廠”、濟南市的“大模型創新工廠”、呼和浩特市的大模型訓練基地等,為大模型訓練推理提供了重要支撐,助力地方招商引資發展數字經濟。
2)建設人工智能高質量數據集的目標和策略
人工智能正從以模型為中心,逐步轉變為以數據為中心。高質量數據集的重要性正成為社會各界的共識,大模型發展進入多模態融合階段,應全面打造大規模、多模態、多領域的高質量數據集,建立人工智能發展新范式。建設人工智能高質量數據集應采用如下策略:
首先,堅持場景化推動高質量數據集建設。當前,人工智能應用持續走深向實,在醫療、教育、零售、金融、制造、能源等領域實現了初步應用。建設高質量數據集不能盲目跟風、重復建設,不能僅限于將公共數據簡單開放,應以終為始,從醫療、教育等重點行業入手,優先突破人工智能應用最迫切、最容易產生效果、最影響行業高質量發展的數據集建設。
其次,堅持體系化牽引高質量數據集建設。高質量數據分布在各行各業,離散性強,需要更好發揮政府作用,把行業企業、模型企業、數據企業、數字化解決方案提供商、數據交易機構等多方主體組織起來,打造數據、模型、算力等協調聯動生態體系,探索新模式。
再次,堅持多元化促進大中小企業融通創新。在建設高質量數據集過程中,需要加強引導技術能力強、行業影響力高、產業鏈資源整合能力強的企業,依托行業領域應用,多渠道吸納、聚合相關數據。強化中小企業產業鏈和生態系統意識,主動融入大企業、大項目,發揮出“船小好調頭”、創新干勁足的優勢,不斷對數據進行深加工,形成本行業、本領域的高質量數據集。
最后,堅持安全合規為高質量數據集建設保駕護航。高質量數據集建設工程涵蓋數據采集、預處理、標注、合成、質量評估、開放共享等全生命周期,不僅需要保證數據的數量、質量和多樣性,更要確保數據來源的合法性、合規性和產權保護等,降低數據使用中的風險。
3)從六個方面推動人工智能高質量數據集建設
高質量數據集是決定人工智能大模型性能優劣的關鍵所在。為全力打造人工智能高質量數據集,推動大模型應用邁向新高度,建議從高質量數據集圖譜構建、政策法規保障、建設指引制定、評測體系建設、跨域合作拓展、標桿牽引示范等方面著手,推動高質量數據集建設邁上新臺階。
一是以服務大模型應用為核心,繪制高質量數據集建設圖譜,明確“建什么”。圍繞應用需求牽引、典型場景切入、行業領域賦能、安全風險可控等維度,調動政、產、學、研、用各方力量,梳理高質量數據集典型場景和應用需求等,繪制高質量數據集建設圖譜,實現可查詢、可下載、可應用,全面助力大規模、多模態的高質量數據集建設。
二是以保障數據集建設為目標,協同推進政策法規的制定與完善,確定“依據在哪”。在政策層面,推動各部門出臺針對性政策,強化高質量數據集供給。鼓勵企業積極參與高質量數據集建設,對在數據采集、清洗、標注等環節投入較大的企業給予政策支持,降低企業建設數據集的成本。在法規層面,需加快明確數據權屬問題,界定數據生產者、持有者、使用者和經營者的權利與義務,保障數據在合法合規的框架內流通與使用,為高質量數據集建設營造良好的政策法規環境,促進整個行業的健康可持續發展。
三是以解決現實問題為導向,制定高質量數據集建設指引,指明“怎么建”。組織跨行業交流,分享高質量數據集建設經驗及面臨的問題,總結建設方法論和問題庫。針對問題庫,以“揭榜掛帥”方式征集解決方案。在廣泛調研和總結基礎上,制定發布高質量數據集建設指引,不斷優化建設方案和路徑。發揮人工智能技術優勢,對大量文本、圖像、音頻等數據進行自動標注和分類,批量構建高質量數據集。
四是以推動標準建設為牽引,打造高質量數據集評測體系,指導“怎么評”。一方面,通過對高質量數據集的格式規范、類型、質量要求等方面的研究,開展系列標準的研制及細化,為各行業領域在數據采集、標注、加工治理、應用推廣等提供標準化規范指引。另一方面,構建涵蓋細分行業的高質量數據集質量評測方法、評測工具集。通過規范化的高質量數據集評測工具,客觀地評判數據集的質量等級和價值曲線,結合應用需求不斷進行迭代升級。
五是以探索跨域合作為重點,建立高質量數據集流通利用新機制,闡明“怎么流通”。依托可信數據空間、數場、數聯網、數據元件等實踐方案,推動醫療、交通、氣象、社保等多領域高質量數據集在安全合規框架內有序流動,注重建設跨部門、跨行業、跨地區高質量數據集。運用區塊鏈、隱私保護計算等技術實現數據集的可溯源與安全保護,促進跨域數據集交易流通,形成典型案例,催生新應用、新模式,釋放數據要素乘數效應。
六是以行業標桿示范為牽引,發揮資金“風向標”作用,解決“用什么引導”。組織開展行業領域高質量數據集征集工作,鼓勵各行業、各地區的企業積極參與,形成各類高質量數據集庫,提高整體供給水平、供給規模。鼓勵各類資金支持高質量數據集建設,持續完善建設機制,積極推廣典型案例,全面助力人工智能賦能行業高質量發展。
數字經濟內參DataBlog
數字經濟內參DataBlog:國家數據發展研究院成立于2024年,是國家數據局直屬的公益二類正司級事業單位。作為國家級戰略科技力量的重要組成部分,研究院以服務國家數據事業發展為核心使命,聚焦數字中國、數字經濟、數字社會建設,致力于打造國內領先、國際一流的科研機構。在國家數據局黨組的領導下,研究院通過前瞻性戰略研究、制度創新和技術支持,助力數字化驅動中國式現代化,推動國民經濟和社會發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.