國工數據大腦之變量聚類與國工銷售預測系統的融合應用

新聞資訊

2021-09-25

作者：國工智能項目部—林鋒

前言

面對市場競爭的日益激烈，制造企業想要得到客戶的認可，不得不從價格優勢轉向高質量的產品優勢。產品質量的高低已經關系到企業核心競爭力的重要一環。如何有效地管理和利用這些從企業生產和經營中產生的龐雜的質量數據，是企業迫切需要解決的問題。
將數據挖掘技術應用于生產過程質量管理中，挖掘出生產過程中影響質量的關鍵因素及其內在聯系，有針對性地采取預防措施，從而提高產品質量，為企業持續改善質量提供決策支持。在實際工作中，為了避免漏掉某些重要因素，往往在一開始選取指標的時候盡可能考慮所有的相關因素，而這樣做的結果，則是變量過多，變量間的相關度較高，給統計分析與建模帶來極大不便，因此人們希望能夠研究變量間的相似關系，按照變量的相似關系把他們聚合成若干類，進而找出影響系統的主要因素，引入了變量聚類方法。

含義

根據不同變量之間相關程度高低進行分類。研究中，若變量較多且相關較強時，可以使用變量聚類法把變量聚為幾個大類，同一類變量之間有較強相關性，不同類變量之間相關程度低，并可以從同類變量中找出一典型性變量作為代表，最終減少變量個數達到降維目的。

案例

有10種500毫升啤酒的成分和價格等數據，試用變量聚類對變量進行聚類以達到縮減變量的目的，篩選出預測變量。數據的變量包括熱量、鈉含量、酒精含量、價格、麥芽濃度。

分析過程

從數據大腦中的組件面板查找變量聚類組件，拖到到工作面板，配置數據源以及變量聚類組件參數，點擊運行。

分析結果

如何篩選聚類變量？現在我們有5個變量用來對啤酒分類，是否有必要將5個變量都納入作為分類變量呢？熱量、鈉含量、酒精含量，麥芽濃度這4個指標是要通過化驗員的辛苦努力來測定，而且還有花費不少成本，如果都納入分析的話，豈不太麻煩太浪費？所以，有必要對5個變量進行聚類處理。
從結果樹狀圖中可以看出酒精含量與麥芽濃度兩個變量距離為0.0683，二者之間相關系數最大（相關系數等于1 - 距離）選其一即可，沒有必要都作為預測變量，導致成本增加。至于酒精含量和麥芽濃度選擇哪一個作為典型指標來代替原來的兩個變量，可以根據專業知識或測定的難易程度決定。(與因子分析不同，是完全踢掉其中一個變量以達到降維的目的。)這里選用酒精含量，至此，確定出用于預測的變量為：酒精含量，鈉含量，熱量，價格。

與國工銷售預測系統相融合

在國工銷售預測系統中，對預測因素的整理就用到了變量聚類的算法。通過變量聚類算法對影響因素的歸納整理確定最終影響系統的主要因素，降低預測的成本。

適用范圍

變量聚類可以用來：分析特征相關性，對指標進行分類等。

美日韩一区二区-五月婷婷六月丁香-国产看黄网站又黄又爽又色-日本阿v片在线播放免费

人工智能化學研發

研發管理系統

智能制造管理平臺

數字孿生平臺

實驗室管理平臺

雙體系設備管理平臺

智能光譜分析系統

智能工業組網系統

網關/邊緣計算機

化工行業

醫藥行業

食品行業

高分子行業

飼料行業

新聞資訊

相關標簽

軟件產品

硬件產品