沈陽市政府采購中心 歡迎你!



您當前位置:沈陽市政府采購中心 > 電子商場 >

工業大數據分析為什么不能只看相關性

來源:沈陽市政府采購中心 發布時間:2019-12-24 19:15
A+ A-

????工業大數據分析為什么不能只看相關性

工業大數據分析為什么不能只看相關性

 

有人認為,大數據分析的核心思想之一是“是相關不是因果”。我則一直強調:這個觀點不適合工業大數據分析。僅看相關性,往往會進入誤區。下面談幾種現象和原因。

數據分析結果呈現明顯相關性的,工業人往往很早就知道;偶爾有一些“發現”是工業人不知道的:卻往往是無用的。

導致這種現象的本質原因是:優秀的技術人員對生產過程和對象理解很深。所以,你發現的真正的“相關性”他往往是知道的。反之,他不知道的相關性,往往是沒有因果關系的相關。比如,“統計數據表明:穿大鞋子的人智商高”——導致這種相關的原因是:有人統計了0到18歲的未成年人。在這些人中,年齡大的智商高、穿的鞋子也大。

現實中重要的因素,數據上可能沒有相關性。

導致這種現象的原因很多。

第一個原因是范圍限制。比如,如果人們知道某個工藝參數(X)對產品性能(Y)影響很大,就會試圖控制X、讓它基本保持穩定、讓X的變化范圍非常小。這時,工藝參數和產品性能的相關性就會非常小。

第二原因是X就設定在最優點附近。這意味著X變大或者變小都會讓性能Y變差。于是,兩者的相關系數接近于0.

第三個原因就是系統性干擾。工業對象往往是個系統。當一個參數X1的變化影響性能Y時,人們就可能會找一個變量X2來抵消這種波動。這時,X1、X2都對Y產生影響,但相關系數都接近于0。例如,閥門作為保證流量穩定的控制手段時,管道堵塞會引起閥門開度增大。在管道堵塞不斷加重的過程中,閥門開度持續變大、但流量基本不變。故而從數據上看,閥門與流量幾乎不存在相關性。

分析結果符合預期,也未必能給出正確的指導。

假如兩個變量X、Y存在顯著的相關性,也確實存在線性關系。比如,通過回歸,得到兩者的關系是Y=K*X。但如果人們真的把X增加1,Y一般不會增加K。特別是:當數據來自于某個工作點附近的時候。這時,自變量的檢測誤差往往不可忽視,從而導致“有偏估計”,應用時誤差大。

懂得數據分析的人,首先要知道數據會騙人。如果這些常見的問題都不知道,會白白浪費大量的時間、還會影響自己的信譽。

數據分析的目的是為了獲得新知識。如果知識不是新的,就沒有價值。但新知識是相對“已有知識”而言的。由于工程師對生產過程和對象的理解,往往超出銷售人員對市場的理解:工程師對生產的假設往往是確定性的,而銷售人員對市場的假設往往是不確定性的。故而,工業大數據分析不同于商務大數據分析。


  • 上一篇:“人臉識別”的電子煙無人售賣機
  • 下一篇:沒有了

  • 相關新聞
    龙江微乐