Sağlık harcamasının tahmininde makine öğrenmesi regresyon yöntemlerinin karşılaştırılması

Loading...
Thumbnail Image

Date

2017-08-19

Authors

Çınaroğlu, Songül

Journal Title

Journal ISSN

Volume Title

Publisher

Uludağ Üniversitesi

Abstract

Farklı veri setleri üzerinde yapılan uygulamalar sonucunda modellenmesi zor olan değişkenlerin varlığında klasik regresyon yöntemlerine alternatif olarak makine öğrenmesi regresyon yöntemlerinin kullanımı tavsiye edilmektedir. Sağlık harcaması modellenmesi zor olan bir değişken olup, literatürde makine öğrenmesi regresyon yöntemleri karşılaştırılarak bu değişkenin modellendiği bir çalışmaya rastlanmamıştır. Bu çalışmada kişi başı sağlık harcamasının tahmini amacıyla bir çoklu regresyon modeli oluşturulmuştur. Farklı hiperparametre değerleri belirlendiğinde elde edilen Lasso Regresyon, Rastgele Ağaç Regresyonu ile Destek Vektör Makinesi Regresyon performans sonuçları karşılaştırılmıştır. Çalışmada hiperparametre değeri olarak Lasso Regresyon için lamda (λ) değeri, Rastgele Ağaç Regresyonu için ağaç sayısı, Destek Vektör Regresyonu için epsilon ( ) değeri esas alınmıştır. Sonuçlar 5 ile 50 arasında değişen “k” parça çapraz geçerlilik uygulanarak performe edildiğinde makine öğrenmesi regresyon yöntemlerine ait performans sonuçlarının R 2 , RMSE ve MAE değerleri bakımından istatistiksel olarak anlamlı farklılıklar gösterdiği (p<0.001) tespit edilmiştir. Tahmin performanslarına ait yüzey ve çubuk grafikleri ile istatistiksel test sonuçları incelendiğinde farklı hiperparametre değerlerine göre Rastgele Ağaç Regresyonun (R 2 ˃ 0.7500, RMSE ≤ 0.6000 ve MAE ≤ 0.4000) daha iyi tahmin sonuçlarına sahip olduğu belirlenmiştir. Çalışma sonuçlarının, sağlık harcamasının modellendiği araştırmalar için makine öğrenmesi regresyon yöntemleri kullanıldığında en uygun hiperparametre değerlerinin belirlenmesi konusunda katkı sağlaması beklenmektedir.
As a result of experimental studies on different datasets, it is recommended to use machine learning regression methods as an alternative to classical regression methods in the existence of variables which are difficult to model. Health expenditure is an indicator which is difficult to model and there is no study in the literature about modelling health expenditure comparing machine learning regression methods. In this study a multiple regression model was conducted to predict health expenditure per capita. Performance results of Lasso Regression, Random Forest Regression and Support Vector Machine Regression compared when different hyperparameter values were determined. Lambda (λ) value for Lasso Regression, number of trees for Random Forest Regression, epsilon ( ) value for Support Vector Regression was determined as hyperparameter values. Study results performed by using “k” fold cross validation changed from 5 to 50, indicate the difference between machine learning results in terms of R 2 , RMSE and MAE values that are statistically significant (p<0.001). Surface and bar plots and statistical test results of prediction performances show that Random Forest Regression (R 2 ˃ 0.7500, RMSE ≤ 0.6000 ve MAE ≤ 0.4000) has better prediction performance according to different hyperparameter values. It is hoped that study results make contribution to studies about determining optimal hyperparameter values for machine learning regression methods for studies about modelling health expenditures.

Description

Keywords

Makine öğrenmesi, Lasso regresyon, Rastgele ağaç regresyonu, Destek vektör regresyonu, Sağlık harcaması, Machine learning, Lasso regression, Random forest regression, Support vector regression, Health expenditure

Citation

Çınaroğlu, S. (2017). "Sağlık harcamasının tahmininde makine öğrenmesi regresyon yöntemlerinin karşılaştırılması". Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 22(2), 179-200.