Tahmin problemleri için regresyon ağacı ve komşuluk tabanlı yöntemler geliştirilmesi: Kalıpçılık sektöründe bir uygulama
Date
2021-02-03
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Bursa Uludağ Üniversitesi
Abstract
Üretim ile hizmet sistemlerinde gerçekçi ve hızlı karar almak firmalara rekabet avantajı kazandırmaktadır. Bilgi teknolojilerindeki gelişmeler firmaların büyük miktarda veriye kolay erişimini sağlamaktadır. Ancak sayısal değerlerin tahmininin yapılması firmaların karşılaştığı büyük zorluklardandır. Bu çalışmada tahmin problemlerinin çözümü için veri madenciliğine dayalı bir metodoloji önerilmiştir. Önerilen metodolojide ağaç tabanlı yöntemler ve komşuluk tabanlı yöntemler kullanılmıştır. Ağaç tabanlı yöntemler Regresyon Ağacı, Torbalama Regresyon Ağacı ve Güçlendirme Regresyon Ağacıdır. Komşuluk tabanlı yöntemler, K-En Yakın Komşuluk ve Torbalama K- En Yakın Komşuluktur. Tahmin modelleri oluşturulurken veri kümelerindeki nesnelerin yerel aykırı değer faktörlerini, uzaklıklarını ve en yakın komşuluk sıralamasını dikkate alan ağırlıklı tahmin fonksiyonları kullanılmıştır. Aykırı değer analizi çalışması yapılarak tahmin modellerinin doğruluğunun arttırılması hedeflenmiştir. Önerilen yaklaşımların performansı dokuz adet karşılaştırmalı değerlendirme veri kümesi üzerinde test edilmiştir. Yapılan karşılaştırmalarda aykırı değer analizi ile veri önişleme yapıldıktan sonra ağırlıklı tahmin fonksiyonları kullanılarak geliştirilen topluluk yöntemlerin doğruluğu arttırdığı görülmüştür. Ayrıca sac metal kalıp imalatı yapan bir firmada kalıp üretim sürelerinin tahmini için bir vaka analizi çalışması yapılmıştır. Firmanın 2015-2018 yılları arasında üretimini tamamladığı 85 kalıba ait veriler kullanılarak geliştirilen modellerin performansları değerlendirilmiştir. İstatistiksel sonuçlar önerilen yaklaşım ile tahmin doğruluğunun arttığını göstermiştir.
Making realistic and fast decisions in production and service systems gives companies a competitive advantage. Developments in information technologies provide companies with easy access to large amounts of data. However, estimating numerical values is one of the major challenges faced by companies. In this study, a methodology based on data mining is proposed for the solution of prediction problems. Tree-based and neighborhood-based methods are used in the proposed methodology. Tree-based methods are Regression Tree, Bagging Regression Tree, and Boosting Regression Tree. Neighborhood-based methods, K-The Nearest Neighborhood and Bagging K-The Nearest Neighborhood. Weighted estimation functions that take into account the local outlier factors, distances and the nearest neighborhood order of the objects in the data sets were used while creating the prediction models. It was aimed to increase the accuracy of the prediction models by performing an outlier analysis study. The performance of the proposed approaches was tested on nine comparative evaluation datasets. In the comparisons, it was observed that the ensemble methods developed by using weighted estimation functions after data preprocessing with outlier analysis increased the accuracy. In addition, a case study was conducted to estimate the die production times in a company that manufactures sheet metal dies. The performances of the developed models were evaluated using the data of 85 dies produced by the company between 2015-2018. Statistical results showed that the accuracy of the prediction increased with the proposed approach.
Making realistic and fast decisions in production and service systems gives companies a competitive advantage. Developments in information technologies provide companies with easy access to large amounts of data. However, estimating numerical values is one of the major challenges faced by companies. In this study, a methodology based on data mining is proposed for the solution of prediction problems. Tree-based and neighborhood-based methods are used in the proposed methodology. Tree-based methods are Regression Tree, Bagging Regression Tree, and Boosting Regression Tree. Neighborhood-based methods, K-The Nearest Neighborhood and Bagging K-The Nearest Neighborhood. Weighted estimation functions that take into account the local outlier factors, distances and the nearest neighborhood order of the objects in the data sets were used while creating the prediction models. It was aimed to increase the accuracy of the prediction models by performing an outlier analysis study. The performance of the proposed approaches was tested on nine comparative evaluation datasets. In the comparisons, it was observed that the ensemble methods developed by using weighted estimation functions after data preprocessing with outlier analysis increased the accuracy. In addition, a case study was conducted to estimate the die production times in a company that manufactures sheet metal dies. The performances of the developed models were evaluated using the data of 85 dies produced by the company between 2015-2018. Statistical results showed that the accuracy of the prediction increased with the proposed approach.
Description
Keywords
Veri madenciliği, Ağaç tabanlı yöntemler, Komşuluk tabanlı yöntemler, Topluluk yöntemler, Ağırlıklı tahmin fonksiyonu, Data mining, Tree-based methods, Neighborhood-based methods, Community methods, Weighted prediction function
Citation
Eser, G. (2021). Tahmin problemleri için regresyon ağacı ve komşuluk tabanlı yöntemler geliştirilmesi: Kalıpçılık sektöründe bir uygulama. Yayınlanmamış yüksek lisans tezi. Bursa Uludağ Üniversitesi Fen Bilimleri Enstitüsü.