最近的一點思考,記下來備忘。
工業數據分析過程的本質或許可以表述為:通過發現相關關系,確認因果關系;在可能的情況下確定函數關系。
1、因果關系本質上都是通過相關關系來確認的。這是個哲學層面的觀點。
2、從事工業大數據分析時,常規的統計分析假設一般不成立。不成立的原因,往往可以歸結為干擾。分析問題的過程,本質上是與識別和去除干擾的過程。
3、分析過程的困難,本質上往往可以歸結為數據缺失等各種原因導致的數據質量問題。所以,解決數據分析困難的根本做法是提高數據質量。
4、相關關系未必容易發現。具有因果關系的變量之間,相關系數可能很小甚至接近0。相關關系往往體現為間接關系。
5、有因果關系而相關關系小,往往可以歸結為非線性關系或干擾。所以,發現相關關系本質就是識別非線性和干擾。
6、相關關系強,并不意味著有因果關系。從相關中確認因果,關鍵是識別干擾導致的假象。
7、數據質量不理想時,僅通過數據未必能夠發現相關或確定因果關系。
8、發現相關關系、確認因果關系,可能需要用到數據之外的知識;或者需要提供特殊的手段獲取新的數據。確認因果關系,往往需要多個角度的認證。包括采用數據分析之外的手段(如實驗驗證、機理分析)。換句話說,數據分析過程的手段不局限于數據分析。
9、因果關系和相關關系分析,盡量以“最小顆粒度”概念為基礎。也就是說,盡量把包含多個不同內涵的概念拆開。比如,分析導致故障原因時,“故障”可能有很多種。分析問題時應該按照可細分的故障進行分類。再如,N對強度有影響時,要把N分成固溶N、TIN兩種類型。
10、分析過程是不斷提出猜測和驗證的過程。專業知識的幫助包括:猜測可能的相關性;猜測確定因果性的路徑;給出“補足數據或證據”的建議。
11、如果跳過發現相關關系、確定因果關系直接建立函數,函數關系往往不穩定,在工業中個可能不實用。
12、函數關系的建立未必都是利用因果關系。也可能會利用相關關系穩定的相關關系。相關關系可以用來建立預測函數。但函數用于控制時,控制手段和控制目標之間,必須有因果關系。
13、長期看,數據分析的難易決定于數據條件。數據分析過程可以提示人們需要什么樣的數據條件。
14、認識數據分析的本質,是為了提高數據分析過程的效率、成功率和經濟性、減少分析過程的無效勞動。終極目標是促進智能分析、減少人類的參與。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.