簡介
李金昌
發表于《統計研究》2020年第2期,原文15.5千字
長摘要
如今,利用大數據改變生產生活和服務方式、使用大數據發掘商業價值、運用大數據進行科學研究等,都取得了實質性的進展。但是,如何保證大數據應用的質量,是一個重要的基礎性問題。
大數據質量除了準確性、及時性、完整性、適用性和經濟性等要素,還包括可得性和可分析性等要素,但準確性依然是最關鍵的要素。有別于傳統數據,其質量問題具有兩個明顯特征:(1)大數據作為副產品,其各種質量問題是難以事先預見和預防的;(2)幾乎所有的大數據都具有極好的及時性、局部的完整性、相對的準確性(生物醫學大數據等)和較差的適用性。
與傳統數據相比,影響大數據質量的因素還包括:(1)無論是其來源還是構成或是形態,都是各式各樣的;(2)快速變化性使得截止至任何一個時點的大數據都只是一個樣本;并且大數據所體現的特征與未覆蓋到部分的特征往往有明顯的差異;(3)大數據的非標準化和含義的非單一性,給大數據的應用造成了困難;(4)大數據是由小數據構成的,小數據是否真實可信很難加以分辨、也很難加以核實。
為此,大數據應用可能存在以下一些質量問題:(1)與數據使用目的的契合度可能比較差;(2)產生系統性誤差的可能性更大;(3)數據的可比性問題可能更為突出;(4)難以追蹤審核等其他相關質量隱患。
如何控制大數據應用的質量?一是做好相關理論準備。除了進一步加深理解大數據的內涵和“4V”特征外,重點有三:(1)改變對數據及其來源的認識。一切可記錄的事實都是數據,要樹立從大數據中有效、充分選擇使用數據的意識;(2)改變對總體、個體、變量等的認識。大數據是先有數據后有總體,原有的關于總體、個體和變量的定義方式不再適用;(3)改變對數據分析思路的認識。大數據分析是基于數學運算與挖掘算法相結合的分析,其結果并非都能體現為傳統意義上的定量結果,有時候是間接定量或隱性定量的。二是建立大數據應用質量控制方案。(1)事前要對數據使用目的與可供選擇使用的數據源進行對應性研究;(2)事中要做好具體的大數據標準化及其與其他數據的銜接等工作;要對數據進行審核與修補;要邊使用數據邊比較、驗證;(3)事后及時評估,包括邏輯性檢查和合理性、有效性評估。三是重視對小數據的研究。四是引導大數據企業做好基礎性工作。五是加強大數據人才的培養培訓。六是建立與大數據應用有關的法律法規。
大數據應用還要注意以下幾點:一是不要盲目在路燈下面找鑰匙;二是不要輕易相信“樣本就是總體”;三是不要忘了事物的本來規律;四是不要過分依賴純定量結果;五是不要迷信數據量越大越好;六是不要陷入“測不準”迷途。
資料來源
《產業經濟學年鑒2022》
China Economist (中文刊名:《中國經濟學人》)是由中國社會科學院主管、中國社會科學院工業經濟研究所主辦的面向全球發行的中英文學術期刊。China Economist創刊于2006年3月,始終致力于向全球傳遞中國經濟學與管理學最前沿研究進展,搭建中外學者相互交流的學術平臺和研究陣地,向全世界宣傳能夠代表中國人民根本利益訴求的研究成果,促進國外讀者更好地了解中國,不斷增強我國的國際影響力和國際話語權。《中國經濟學人》先后被EconLit、EBSCO、ProQuest、SCOPUS等全球主流、權威數據庫及索引系統收錄,入選中國社會科學院中國人文社會科學期刊(AMI),是“代表我國人文社會科學英文刊最高水平”的期刊。
在線投稿系統:
官方網站:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.