統計學的歷史源自17世紀,一直到20世紀,統計的研究是希望從樣本推論到總體,所以都是以小樣本數為主,其原因是有樣本的不只取得困難且成本高昂,且數據太多因素互相干擾不容易準確,所以早期的統計研究多屬兩階段型。
第一階段:數據分析(Data Analysis)
研究如何從母體或樣本中收集資料,描述資料中的數據和分散程度。第一階段的統計又被稱作探索性資料分析(Exploratory Data Analysis, EDA),資料分析師們會直接探討現有數據的樣貌。
第二階段:推論統計(Inferential Statistics)
由第一階段資料分析推展要做假設,使用檢驗工具做有效的樣本推論到整個母體,來制定政策,在質量管理、六?西格瑪中會經常被用到。第二階段的統計又被稱作驗證性統計,因其目的是利用樣本推斷母體并排除不只是巧合或隨機偏差,再作分析。
以前的實驗因樣本取得不易,必須用少數有效樣本推論、決策。也因此做各類數據模型測量,是最后訂目標的統計。
大數據分析
到了21世紀我們進入了電腦時代,因為我們可以儲存大量資料,不像以前的數據量比較少,工程界已經有能力可以處理大量數據的分析,故使用電腦做出各類可視化(Visualization)、探索性分析。但是因為樣本數很大,采樣誤差(隨機誤差)影響小,所以不需要做假設檢定(推論統計),大數據分析不僅能使用各類資料分析方法(臨機應變)及引導式分析,也能利用人力去發展新的分析工具。到了2010年大數據出現后,資料量龐大到無法再使用人工方式處理,于是有商業行為需要多重分析,所以這時候是使用大數據分析(Big Data)的時代。
但其實目前大數據分析流程已工程界,早已使用大數據做統計分析
現在很多人稱作數據科學(Data Science),現狀是使用者可能不再完全懂統計理論,只要會操作電腦系統進行可視化分析,期望電腦程序可以用計算方式,提供解釋與結論。這就是現今的大數據分析。但仍有分析工作,也會使用統計學的方法,只不過電腦可以做得更快且可視化來輔助分析。
統計學與大數據分析的異同
由以上的內容可知,統計與資料、通訊工程與IT領域具有密切相關性;可參考下圖。
然而實際操作卻是兩者間有著很大的訓練差,各走各路。其中許多內容、數據結構已經高度牽涉內容,但因為兩邊的工場,工程師也不知道進統計內容,而自行用程序方式就解決的。兩門工程都開發的統計工具,因缺乏嚴謹的統計模型,在某程度上的計算過程中,會有高度風險性:
以工程界為例,如果有問題可以快速檢測出來;但如果是社會、醫療、人文類的問題,容易受多重因素影響,不容易即時檢驗統計結果是否正確。所以工程師開發的統計程序,在某些情形下沒有數學嚴謹的統計理論支持,容易失去準確性。同理在商業上的大數據分析使用也要更小心。
結論
我們可以發現統計的演變,從少量數據來推論母體模型,進而做出推論。然而在21世紀可獲得大量數據,并利用電腦能部分取代數學模型,利用視覺化來分析,科技的改變讓統計的發展不斷推進,當然視覺化的分析,里面仍然是數學模型在內,且也需要數學理論支持,只不過方便研究中,但已經可由視覺化來輔助分析。
大數據時代的出現讓工程界更重視分析長數據,利用數據圖像化、視覺化、即時互動分析,來進行商業決策。而計算機工具中,常用的是大數據整合的決策統計,而非只用傳統的母體統計模型為主。以上的方法在應用在各個學程上,從自然科學、數理統計、六西格瑪、質量管理、醫學、社會科學,甚至數碼科學。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.