T.C. BURSA ULUDAĞ ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ EKONOMETRİ ANABİLİM DALI İSTATİSTİK BİLİM DALI MAKİNE ÖĞRENMESİ ALGORİTMALARI İLE KREDİ TEMERRÜT RİSKİNİ TAHMİN ETME (YÜKSEK LİSANS TEZİ) Toprak Enes TÜTÜNCÜ BURSA - 2022 T.C. BURSA ULUDAĞ ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ EKONOMETRİ ANABİLİM DALI İSTATİSTİK BİLİM DALI MAKİNE ÖĞRENMESİ ALGORİTMALARI İLE KREDİ TEMERRÜT RİSKİNİ TAHMİN ETME (YÜKSEK LİSANS TEZİ) Toprak Enes TÜTÜNCÜ Danışman: Prof. Dr. Sevda GÜRSAKAL BURSA – 2022 ÖZET Yazar Adı ve Soyadı : Toprak Enes TÜTÜNCÜ Üniversite : Bursa Uludağ Üniversitesi Enstitüsü : Sosyal Bilimler Enstitüsü Anabilim : Ekonometri Bilim/Sanat Dalı : İstatistik Tezin Niteliği : Yüksek Lisans Tezi Sayfa Sayısı : x + 88 Mezuniyet Tarihi : 25/07/2022 Tez Danışmanı : Prof. Dr. Sevda GÜRSAKAL MAKİNE ÖĞRENMESİ ALGORİTMALARI İLE KREDİ TEMERRÜT RİSKİNİ TAHMİN ETME Bankalar ve çeşitli finans kuruluşları tarafından karşılanan kredilerin, müşteri tarafından geri ödenememesi hem kredi veren kuruluşun sermaye kaybını hem de genel ekonomide oluşabilecek çeşitli risk faktörlerini beraberinde getirmektedir. Bu süreçte, oldukça kritik öneme sahip olan kredi riskinin doğru yönetilebilmesi ve uluslararası finans istikrarının sağlanması için Basel Komitesi ve BDDK (Bankacılık Düzenleme ve Denetleme Kurumu) gibi finans denetimi kuruluşları, kredi veren kurumların kredi verme karar aşamasında çeşitli regülasyon politikaları belirlemektedir. Ayrıca, kredi veren kurumlar analitik risk birimleri aracılığıyla kredi değerlendirme modelleri geliştirerek, müşterilere ait kredi risk skorunu hesaplamaktadır. Bu araştırmada, makine öğrenmesi yöntemiyle kredi skorlama sistemlerinde kullanılabilecek en başarılı tahmini gerçekleştiren algoritmanın belirlenmesi amaçlanmıştır. Bu kapsamda, Gradyan Artırma, Yapay Sinir Ağları, Lojistik Regresyon, Rassal Orman, Karar Ağacı, Destek Vektör Makineleri, K-En Yakın Komşu ve WOE dönüşümleriyle Lojistik Regresyon algoritmaları için modeller kurulmuş ve temerrüde düşen ve temerrüde düşmeyen müşteriler için en iyi sınıflandırma performansı gösteren Gradyan Artırma algoritması olmuştur. Analitik veri kalitesi ve model geliştirme süreçlerinde SAS Enterprise Guide ve SAS Enterprise Miner yazılım programları kullanılmıştır. Anahtar Sözcükler: Kredi Riski, Makine Öğrenmesi, Gradyan Artırma, Yapay Sinir Ağları, Lojistik Regresyon, Rassal Orman, Karar Ağacı, Destek Vektör Makineleri, K-En Yakın Komşu i ABSTRACT Name and Surname : Toprak Enes TÜTÜNCÜ University : Bursa Uludağ University Institution : Social Science Institution Field : Econometrics Branch : Statistics Degree Awarded : Master Page Number : x + 88 Degree Date : 25/07/2022 Supervisor : Prof. Dr. Sevda GÜRSAKAL PREDICTING DEFAULT PROBABILITY IN CREDIT RISK WITH MACHINE LEARNING ALGORITHMS Failure to repay the loans provided by banks and various financial foundations by the customer, entails both the capital loss of the lending institution and various risk factors that may occur in the general economy. In this context, financial control institutions such as the Basel Committee and BRSA (Turkish Banking Regulatory and Supervision Agency) have determined various regulatory policies during the phase of lending decision of the lending institutions in order to ensure the appropriate management of loan risk, which have critical importance, and to ensure international financial stability. In addition, lending institutions develop credit evaluation models via analytical risk units and calculate the credit risk score of customers. In this study, it is aimed to determine the algorithm that makes the most successful estimation that can be used in credit scoring systems with the machine learning method. Within this scope, models for algorithms with Gradient Boosting, Artificial Neural Networks, Logistic Regression, Random Forest, Decision Tree, Support Vector Machines, K-Nearest Neighbor and WOE transformations Logistic Regression were established and Gradient Boosting algorithm has shown the best classification performance for defaulters and non-defaulters. In analytical data quality and model development processes, SAS Enterprise Guide and SAS Enterprise Miner software programs were used. Key Words: Credit Risk, Machine Learning, Gradient Boosting, Neural Network, Logistic Regression, Random Forest, Decision Tree, Support Vector Machine, K-Nearest Neighbor ii ÖNSÖZ Yüksek Lisans eğitimime başladığım ilk günümden bu çalışmanın tüm aşamasına kadar desteklerini ve rehberliğini esirgemeyen, kıymetli fikirleriyle katkıda bulunan değerli hocam ve tez danışmanım Prof. Dr. Sevda Gürsakal’a sonsuz teşekkürlerimi sunarım. Analitik Danışman & Veri Bilimci olarak başladığım iş hayatımda daima yanımda olan ve desteklerini esirgemeyen kıymetli dostlarım Can Lütfü Yılmazer ve Mesut Aytekin’e teşekkürlerimi bir borç bilirim. Her koşulda yanımda olan sevgili aileme… Sonsuz teşekkürler... Toprak Enes TÜTÜNCÜ Bursa, 2022 iii İÇİNDEKİLER Sayfa ÖZET…………………………………………………………………………………......i ABSTRACT……………………………………………………………………………..ii ÖNSÖZ………………………………………………………………………………….iii İÇİNDEKİLER………………………………………………………………………….iv TABLOLAR…………………………………………………………………………....vii ŞEKİLLER …………………………………………………………………………....viii GRAFİKLER …………………………………………………………………………...ix KISALTMALAR ..……………………………………………………………………....x GİRİŞ …………………………………………………………………………………...1 BİRİNCİ BÖLÜM MAKİNE ÖĞRENMESİ VE KREDİ RİSKİ 1.1 MAKİNE ÖĞRENMESİ .......................................................................................... 3 1.1.1 Denetimli Öğrenme .............................................................................................. 4 1.1.1.1 Sınıflandırma ................................................................................................. 5 1.1.1.2 Regresyon ...................................................................................................... 6 1.1.1.3 Tahmin ........................................................................................................... 7 1.1.2 Denetimsiz Öğrenme ............................................................................................ 7 1.1.2.1 Kümeleme ...................................................................................................... 8 1.1.2.2 Boyut Azaltma ............................................................................................... 8 1.1.3 Yarı-Denetimli Öğrenme ...................................................................................... 9 1.1.4 Pekiştirmeli Öğrenme ......................................................................................... 10 1.2 BANKACILIKTA KREDİ RİSKİ VE ÖNEMİ ................................................... 10 1.3 LİTERATÜRDE KREDİ RİSK ANALİTİĞİ ...................................................... 14 iv İKİNCİ BÖLÜM METODOLOJİ 2.1 ÇALIŞMADA KULLANILAN SINIFLANDIRMA ALGORİTMALARI ....... 17 2.1.1 Lojistik Regresyon (Logistic Regression) .......................................................... 17 2.1.2 Yapay Sinir Ağları (Neural Network) ................................................................ 19 2.1.3 Karar Ağacı (Decision Tree) .............................................................................. 25 2.1.4 Destek Vektör Makineleri (Support Vector Machine) ....................................... 27 2.1.5 K-En Yakın Komşu (K-Nearest Neighbors) ...................................................... 29 2.1.6 Rassal Orman (Random Forest) ......................................................................... 31 2.1.7 Gradyan Artırma (Gradient Boosting) ............................................................... 33 2.2 SINIFLANDIRMALAR İÇİN PERFORMANS ÖLÇÜLERİ ............................ 34 2.2.1 Karmaşıklık Matrisi ............................................................................................ 35 2.2.2 ROC (Receiver Operating Characteristic) Eğrisi ............................................... 37 2.3 ÖRNEKLEMİN BELİRLENMESİ ....................................................................... 38 2.4 DEĞİŞKEN İNDİRGEME METOTLARI ........................................................... 39 2.4.1 Kayıp ve Aykırı (Uç) Değerler Tespiti............................................................... 39 2.4.2 Varyans Eşiği ..................................................................................................... 40 2.4.3 Kanıt Ağırlığı Dönüşümü ................................................................................... 40 2.4.4 Bilgi Değeri ........................................................................................................ 41 2.4.5 Değişken Kümeleme .......................................................................................... 42 2.4.6 LASSO (En Küçük Mutlak Daralma ve Seçim Operatörü) ............................... 43 ÜÇÜNCÜ BÖLÜM VERİ KALİTESİ VE MODEL GELİŞTİRME 3.1 VERİ SETLERİNİN TANIMLANMASI ............................................................. 45 3.2 KULLANILAN YAZILIM VE PROGRAMLAMA DİLLERİ .......................... 45 3.3 ÖZNİTELİK SEÇİMİ (DEĞİŞKEN İNDİRGEME) .......................................... 46 3.3.1 Kayıp Değer Oranı ile Öznitelik Seçimi ............................................................ 46 3.3.2 Varyans Eşiği ile Öznitelik Seçimi .................................................................... 46 v 3.3.3 Bilgi Değeri (IV) ile Öznitelik Seçimi ............................................................... 47 3.3.4 Aykırı (Uç) Değerlerin Elemesi ......................................................................... 48 3.3.5 Örneklemin Belirlenmesi ................................................................................... 48 3.3.6 Kayıp Değerlerin Atamasında Ağaç Tabanlı Yaklaşım ..................................... 49 3.3.7 Değişken Kümeleme Tekniği ile Öznitelik Seçimi ............................................ 50 3.3.8 LASSO ile Nihai Özniteliklerin Belirlenmesi .................................................... 52 3.4 MODEL GELİŞTİRME ......................................................................................... 54 3.4.1 Lojistik Regresyon ile Model Geliştirme ........................................................... 54 3.4.2 Yapay Sinir Ağları ile Model Geliştirme ........................................................... 56 3.4.3 Karar Ağacı ile Model Geliştirme ...................................................................... 58 3.4.4 Destek Vektör Makineleri ile Model Geliştirme ................................................ 60 3.4.5 K-En Yakın Komşu ile Model Geliştirme .......................................................... 61 3.4.6 Rassal Orman ile Model Geliştirme ................................................................... 61 3.4.7 Lojistik Regresyon (WOE) ile Model Geliştirme .............................................. 63 3.4.8 Gradyan Artırma ile Model Geliştirme .............................................................. 65 3.5 PERFORMANS DEĞERLENDİRME ................................................................. 67 SONUÇ ........................................................................................................................... 71 KAYNAKLAR .............................................................................................................. 73 EKLER ........................................................................................................................... 77 Ek I. IGN Düğümü Yardımıyla Nihai Değişkenlerin WOE Gruplandırılması .......... 77 Ek II. Algoritmalar için Hiperparametreler ................................................................ 86 vi TABLOLAR Tablo 1.1: Algoritma Başarılarının Karşılaştırılması ............................................... 16 Tablo 2.1: BSS’nin YSA’daki Terminolojik Karşılıkları .......................................... 20 Tablo 2.2: Toplama Fonksiyonları Örnekleri ............................................................ 21 Tablo 2.3: Bazı Aktivasyon Fonksiyonları .................................................................. 23 Tablo 2.4: Gradyan Artırma Sözde Teknik Kodu ..................................................... 34 Tablo 2.5: Karmaşıklık Matrisi ................................................................................... 35 Tablo 2.6: Sınıflandırma Ölçüleri ................................................................................ 35 Tablo 2.7: WOE Hesaplaması Örneği ......................................................................... 41 Tablo 3.1: Kayıp Değer Oranı ile Öznitelik Seçimi ................................................... 46 Tablo 3.2: Varyans Oranı ile Öznitelik Seçimi ........................................................... 47 Tablo 3.3: Bilgi Değeri (IV) ile Öznitelik Seçimi ........................................................ 47 Tablo 3.4: Aykırı (Uç) Değerlerin Elemesi ................................................................. 48 Tablo 3.5: Örneklemin Belirlenmesi ........................................................................... 49 Tablo 3.6: Değişken Kümeleme ile Öznitelik Seçimi ................................................. 51 Tablo 3.7: Nihai Öznitelikler ve Açıklamaları ........................................................... 54 Tablo 3.8: Lojistik Regresyon Katsayıları .................................................................. 55 Tablo 3.9: Eğitim ve Doğrulama Veri Setleri ile Lojistik Regresyona Ait Sınıflandırma Oranları ................................................................................................. 55 Tablo 3.10: YSA Modeline Ait Girdi ve Çıktı Ağırlıkları ......................................... 56 Tablo 3.11: Eğitim ve Doğrulama Veri Setleri ile YSA Sınıflandırma Oranları .... 57 Tablo 3.12: Eğitim ve Doğrulama Veri Setleri ile Karar Ağacına Göre Değişkenlerin Önemlilik Oranları ............................................................................... 58 Tablo 3.13: Eğitim ve Doğrulama Veri Setleri ile Karar Ağacına Ait Sınıflandırma Oranları .......................................................................................................................... 59 Tablo 3.14: SVM Optimum Model Oranları .............................................................. 60 Tablo 3.15: Eğitim ve Doğrulama Veri Setleri ile SVM Sınıflandırma Oranları ... 60 Tablo 3.16: Eğitim ve Doğrulama Veri Setleri ile KNN Algoritmasına Ait Sınıflandırma Oranları ................................................................................................. 61 Tablo 3.17: Rassal Orman Algoritmasına Göre Değişkenlerin Önemlilik Oranları ......................................................................................................................................... 62 Tablo 3.18: Eğitim ve Doğrulama Veri Setleri ile Rassal Orman Algoritmasına Ait Sınıflandırma Oranları ................................................................................................. 63 Tablo 3.19: Lojistik Regresyon (WOE) Katsayıları................................................... 64 Tablo 3.20: Eğitim ve Doğrulama Veri Setleri ile Lojistik Regresyon (WOE) Algoritmasına Ait Sınıflandırma Oranları ................................................................. 64 Tablo 3.21: Gradyan Artırma Algoritmasına Göre Değişkenlerin Önemlilik Oranları .......................................................................................................................... 65 Tablo 3.22: Eğitim ve Doğrulama Veri Setleri ile Gradyan Artırma Algoritmasına Ait Sınıflandırma Oranları .......................................................................................... 66 Tablo 3.23: Algoritmalara Ait Sınıflandırma Sonuçları ........................................... 67 Tablo 3.24: Algoritmalara Ait ROC Eğrisi Oranları ................................................ 69 vii ŞEKİLLER Şekil 1.1: Denetimli Makine Öğrenmesi Döngüsü ve Geleneksel Modelleme ........... 5 Şekil 1.2: İkili Sınıflandırma .......................................................................................... 6 Şekil 1.3: İçsel Değerlendirmeye Dayalı Yaklaşım Türleri ....................................... 13 Şekil 2.1: Lojistik Regresyon Sınıflandırma Grafiği ................................................. 17 Şekil 2.2: Lojistik Regresyon Karar Sınırı ................................................................. 18 Şekil 2.3: Popüler Dönüşümler .................................................................................... 19 Şekil 2.4: Biyolojik Sinir Ağı ve Yapay Sinir Ağı Görseli ......................................... 20 Şekil 2.5: Solda Tek Gizli Katmanlı ve Sağda Çok Katmanlı Sinir Ağı Yapısı ...... 21 Şekil 2.6: Karar Ağacı Örneği...................................................................................... 25 Şekil 2.7: İki Sınıflı Bir Problem için Hiperdüzlemler .............................................. 28 Şekil 2.8: Doğrusal Olarak Ayrılabilen Veri Setleri için Hiper-Düzlemin Belirlenmesi ................................................................................................................... 29 Şekil 2.9: K-En Yakın Komşu Örneği ......................................................................... 30 Şekil 2.11: Karar Ormanı Diyagramı ......................................................................... 31 Şekil 2.12: Gradyan Artırma Algoritmasının Yaygın Bir Örneği ............................ 33 Şekil 2.14: ROC Eğrisi Örneği ..................................................................................... 37 Şekil 2.15: VARCLUS Kümeleme Prosedürü Örneği ............................................... 43 Şekil 3.1: Düğüm Kuralları Örneği ............................................................................. 59 viii GRAFİKLER Grafik 3.1: Örneklem Öncesi ve Örneklem Sonrasına Ait İYİ-KÖTÜ Dağılımı .... 49 Grafik 3.2: Değişken Kümeleme Tekniği ile Küme Bazında Değişken Sayısı ......... 50 Grafik 3.3: Değişken Kümeleme Grafiği .................................................................... 51 Grafik 3.4: Değişken Kümeleme Sonrası Korelasyon Matrisi .................................. 52 Grafik 3.5: Katsayıların Daraltılma Grafiği .............................................................. 53 Grafik 3.6: Yaprak Grafiği .......................................................................................... 63 Grafik 3.7: Eğitim ve Doğrulama Veri Setleri ile Gradyan Artıma Algoritmasına Ait Yanlış Sınıflandırma Grafiği ................................................................................. 66 Grafik 3.8: Eğitim, Doğrulama ve Test Verilerinin Algoritmalar için ROC Eğrisi68 Grafik 3.9: Test Verisinin Algoritmalar için ROC Eğrisi ......................................... 69 ix KISALTMALAR ABD AMERİKA BİRLEŞİK DEVLETLERİ AIRB ADVANCED INTERNAL RATINGS BASED AUC THE AREA UNDER THE CURVE BDDK BANKACILIK DÜZENLEME VE DENETLEME KURUMU BSS BİYOLOJİK SİNİR SİSTEMİ CART CLASSIFICATION AND REGRESSION TREE DVM DESTEK VEKTÖR MAKİNELERİ DT DECISION TREE EAD EXPOSURE AT DEFAULT EL EXPECTED LOSS GB GRADIENT BOOSTING IGN INTERACTIVE GROUPING NODE IRB INTERNAL RATINGS BASED IV INFORMATION VALUE KNN K-NEAREST NEIGHBORS LASSO LEAST ABSOLUTE SHRINKAGE AND SELECTION OPERATOR LGD LOSS GIVEN DEFAULT LR LOGISTIC REGRESSION M MATURITY MBR MEMORY-BASED REASONING NN NEURAL NETWORK OOB OUT OF BAG PD PROBABILTY OF DEFAULT RELU RECTIFIED LINEAR UNIT RF RANDOM FOREST ROC RECEIVER OPERATING CHARACTERISTIC SAS STATISTICAL ANALYSIS SOFTWARE SVM SUPPORT VECTOR MACHINES WOE WEIGHT OF EVIDENCE YSA YAPAY SİNİR AĞLARI x GİRİŞ Geleceğin bilinmezliğine olan merak ve kontrol altına alma isteği, insanoğlunun doğal arzularından bir tanesidir. Geleceğe ışık tutmak ise sadece belirli bir düzeyde mevcuttur. Gelecek için risk hala gizemli bir düzeyde kendini saklıyor olacaktır. Riske karşı ortaya çıkan doğal savunma, geçmişin sonuçlarından öğrenerek yargısal bir tahminleme ile yapılmaktadır. Günümüzde risk boyutunun doğru ölçümlenmesi bilgisayarlar ve istatistik bilimi ile daha objektif temellere dayalı ampirik bir yöntem üzerinden makine öğrenmesi teknikleri kullanılarak gerçekleştirilmektedir. Sürdürülebilir yaşam ve çalışma hayatının sürekliliğinin sağlanması için sahip olunan kaynakların etkin ve verimli düzeyde kullanılması, yapılacak olan risk tahminleri ile önlem alınmasına bağlıdır. Dolayısıyla riskin yönetimi her sektör için kritik önem arz etmektedir. Bu durumda ortaya çıkan en önemli risk tiplerinden biri de finansal risktir. Bu kapsamda, finans sektörü için sürdürülebilirlik hayati önem arz etmektedir. Alternatif durumlara bağlı olan finansal riskte, getirinin geleceği bir önlem mekanizmasına ihtiyaç duyar. Finans sektörünün temelini oluşturan bankalar ana gelir kaynaklarını müşterileri için verdiği kredilerin faizi ile oluştururken, müşterilerin kredileri zamanında ödeyebilme durumuna bağlı bir karşılıklı ilişki içerisinde olduklarını bilirler. Bu yüzden bireysel veya kurumsal müşterilerine kredi vermeden önce haklarında nitel ve nicel verileri kullanarak, müşterilerin risk profilini uyguladıkları modeller ile kredi riski bağlamında ortaya çıkarırlar. Bu önlem mekanizmasıyla, riski minimum düzeyde tutarak kredi faaliyetlerini yönetmeye çalışırlar. Risk yönetiminde başarısız oldukları takdirde sadece kendi yapısını etkilemekle kalmaz, finanse ettiği mevduat sahipleri ve fon kaynaklarını da riske maruz bırakmış olurlar. Bu bağlamda, kredi politikalarının doğru yönetilmesi, risk ekosisteminde oldukça önemli yer tutmaktadır. Artan nüfus sayısı ile tüketimin de artması, beraberinde kredi endüstrisinin genişlemesine sebep olmaktadır. Kredi talebinin artmasına yönelik bankaların kredilendirme faaliyetlerinde hızlı ve etkin kararlar alınmasına olanak sağlayan makine öğrenmesi teknikleri ile risk ekosisteminde optimum modeller inşa edilmektedir. Bu doğrultuda Lojistik Regresyon, Yapay Sinir Ağları, Karar Ağaçları gibi birçok algoritma kullanılmasına rağmen, hangi tekniğin en iyi performansı sağladığına dair bir konsensüse 1 varılmamıştır. Bu sebeple, algoritmalar ile kurulan modellerin sınıflandırma başarıları, çeşitli istatistiksel ve makine öğrenmesi teknikleriyle ölçülerek, en iyi sınıflandırma performansı sağlayan model, optimum model belirlenmektedir. Bu çalışmada, müşterilere ait bireysel kredilerin riskini hesaplayarak, temerrüt oranını değerlendirmek amacıyla yedi farklı istatistiksel ve makine öğrenmesi algoritmaları kullanılmıştır. Araştırma kapsamında, modelde öznitelik değişkeni olarak girdi görevi görecek değişkenler farklı değişken indirgeme teknikleri kullanılarak belirlenmiştir. Nihai değişken seçimi için LASSO Regresyonu kullanılmış olup, ilgili tekniğin ceza parametresinin en güçlü sınıflandırıcı öznitelik değişkenlerin keşfedilmesini sağlamıştır. Nihai öznitelik değişkenleri ile temerrüt risk oranının tahminlemesi için Lojistik Regresyon, Yapay Sinir Ağları, Karar Ağacı, Destek Vektör Makineleri, K-En Yakın Komşular, Rassal Orman, Gradyan Artırma ve WOE dönüşümleri gerçekleştirilmiş haliyle Lojistik Regresyon algoritmaları kullanılmıştır. Elde edilen sonuçlar, Doğruluk, Hassasiyet, Özgüllük, Kesinlik, F1 skoru ve ROC eğrisi olmak üzere altı farklı ölçüye göre algoritmalar arasında performans karşılaştırılması yapılmıştır. Çalışmanın devam eden bölümlerinde sırasıyla; Bölüm 1’de; makine öğrenmesi tekniklerinin temel yapıları ve bankacılıkta kredi risk analitiği ve önemi hakkında literatür taramaları yapılarak ele alınmıştır. Bölüm 2’de; Temerrüt Olasılığı (Probability of Default (PD)) modeli için uygulanacak olan makine öğrenmesi algoritmaları, performans ölçüleri, örneklemin belirlenmesi ve değişken indirgeme teknikleri ile izlenilecek metodolojiye yer verilmiştir. Bölüm 3’de; veri setinin ön işleme süreciyle modele dahil olacak değişkenlerin belirlenmesi için değişken eleme teknikleri ve kredi ödemesinde gecikme olan kitle kadar gecikme olmayan kitle ile dengelenmiş veri kümesi oluşturulmuştur. Dengelenmiş veri kümesine nihai değişken eleme teknikleri uygulanarak, uygun görülen değişkenler ile alternatif modeller kurulmuş ve performans kıyaslamaları gerçekleştirilmiştir. Bu doğrultuda uygulanan makine öğrenmesi algoritmaların performansları hakkında değerlendirmeler, öneriler ile birlikte sonuç bölümünde detaylandırılmıştır. 2 BİRİNCİ BÖLÜM MAKİNE ÖĞRENMESİ VE KREDİ RİSKİ 1.1 MAKİNE ÖĞRENMESİ Başlangıçta bilgisayarların öğrenmesini sağlayan tekniklerin geliştirilmesi için kullanılan makine öğrenmesi, zamanla yapay zekânın bir yöntemi haline gelmiştir. Dartmouth’da matematik profesörü olan John McCarthy, 1956 yılında verdiği konferansta, yapay zekâyı “akıllı makineler yapma bilim ve mühendisliği” olarak tanımlamıştı. Bu doğrultuda yapay zekâ, makineleri akıllı yapma bilimi ise makine öğrenmesinin de bilgisayarların örneklerden öğrenerek belirli görevleri akıllıca yürütmesine izin veren bir teknoloji olduğu söylenebilir. Geleneksel programlama yaklaşımları, bir sorunun çözümünü belirleyen adım adım kodlanmış kurallara dayanırken, makine öğrenmesi sistemleri bir görev olarak belirlenir. Dolayısıyla bu sistemler önceden programlanmış kurallara uymak yerine, verilerden öğrenerek karmaşık süreçleri yürütebilme imkânı sağlar. Bu görevi nasıl gerçekleştirebileceğine veya örüntülerin tespit edileceğine örnek olarak büyük bir veri kümesi işleme alınır. Daha sonra sistem istenen çıktıya nasıl ulaşacağını öğrenir. Diğer bir ifadeyle makine öğrenmesi, bilgisayar algoritmalarının veri ve bilgilerden bağımsız olarak öğrenmek için kullanıldığı yapay zekanın bir alt kümesi olarak düşünülebilir. Makine öğrenmesinde bilgisayarların açıkça programlanması gerekmez, algoritmalarını kendi başlarına değiştirebilir ve geliştirebilirler. Makine Öğrenme algoritmaları, “eğitim verileri” olarak da bilinen örnek veri setini kullanarak otomatik olarak bir matematiksel model oluşturur ve bu kararları almak için özel olarak programlanma ihtiyacı duymaz. Öğrenmenin en temel örneği verilere düz bir çizginin yerleştirilmesi olabilir, ancak makine öğrenmesi genellikle düz çizgilere göre çok daha esnek modellerle ilgilenir. Bunu yapmasının amacı, modelin öğrenmede kullanılmayan veriler hakkında kendi içinde yeni sonuçlar çıkarmak içindir. Bir modeli 1000 köpek yavrusu resmi verisinden öğrenirsek, model doğru bir şekilde seçilirse, başka bir görüntünün (öğrenme için kullanılan 1000 köpek yavrusu resmi dışında) bir köpek 3 yavrusu tasvir edip etmediğini söyleyebilir. Bu genelleme olarak bilinir (Lindholm, 2019:7). Son yıllarda alandaki teknik gelişmeler, verilerin kullanılabilirliğinin artması ve artan bilgi işlem gücünün bir sonucu olarak makine öğrenmesinin yeteneklerinde önemli ilerlemeler görülmüştür. Bu ilerlemelerin bir sonucu olarak, sadece birkaç yıl önce doğru sonuçlar elde etmek için mücadele eden sistemlerin artık belirli görevlerde insanlardan daha iyi performans gösterebileceği kanıtlanmıştır. Günümüzde bazı görevlerde insanlardan daha iyi performans gösterebilen ses ve nesne tanıma sistemleri bulunmaktadır. Örneğin, 2015 yılında araştırmacılar, tek tek el yazısı rakamları tanımaya odaklanan dar bir vizyonla ilgili görevde insan yeteneklerini aşan bir makine öğrenme sistemi oluşturmuşlardır (Markoff, 2015:1). Makine öğrenmesi sağlık hizmeti, finans, insan kaynakları, satış ve pazarlama, lojistik ve üretim gibi birçok alanda kullanılarak sağlığımız, üretkenliğimiz ve refahımız için küresel zorlukları ele almayı ve verimliliği artırarak küresel ekonomiye trilyonlarca dolar eklemeyi vaat ediyor (The Royal Society, 2017:16). Makine öğrenmesi teknikleri denetimli öğrenme, denetimsiz öğrenme, yarı – denetimli öğrenme ve pekiştirmeli öğrenme olarak dört ana başlıkta incelenebilir. 1.1.1 Denetimli Öğrenme Denetimli öğrenmedeki esas amaç, öngörülemeyen veya gelecekteki veriler hakkında tahminlerde bulunmamızı sağlayan etiketli eğitim verilerinden bir model öğrenmektir (Raschka, 2015:3). Denetimli öğrenme, öngörülemeyen verileri tahmin etmek için etiketli eğitim veri setinde bulunan geçmiş bilgilerden yararlanarak öğrenme işlemi gerçekleştirir. Örneğin geçmiş dönemdeki satışlardan oluşan bir veri kümesi ile gelecekteki fiyatları tahmin etmek için kullanılabilir. Denetimli öğrenme de etiketlenmiş eğitim verileri ve istenen çıktı değişkeninden oluşan bir girdi değişkeni mevcuttur. Girdi ile çıktıyı eşleştiren işlevi öğrenmek üzere eğitim verilerini analiz etmek için bir algoritma kullanılır. Bu çıkarımsal işlev, görünmeyen durumlarda sonuçları tahmin etmek için eğitim verilerinden genelleme yaparak yeni ve bilinmeyen örnekleri eşleştirir (Lui, 2017:1). 4 Şekil 1.1: Denetimli Makine Öğrenmesi Döngüsü ve Geleneksel Modelleme Günümüzde denetimli öğrenme, makine öğrenmesi algoritmalarında en yaygın biçimde kullanılan Doğrusal Regresyon Modeli, Lojistik Regresyon, Karar Ağaçları, Destek Vektör Makineleri, Topluluk Öğrenme Yöntemleri ve Yapay Sinir Ağları gibi öğrenim algoritmalarını içinde barındırır (Niculescu-Mizil, 2005:626). Bu algoritmalar kendi içinde uygulama amaçlarına ve yapılarına göre sınıflandırma, regresyon ve tahmin yaklaşımları şeklinde görevlere ayrılır. 1.1.1.1 Sınıflandırma Sınıflandırma, hedefin, geçmiş gözlemlere dayalı yeni örneklerin kategorik sınıf etiketlerini öngörmek olduğu, denetimli öğrenmenin bir alt kategorisidir. Bu sınıf etiketleri, örneklerin grup üyelikleri olarak anlaşılabilen ayrık, sıralanmamış değerlerden oluşur (Raschka, 2015:3). Sınıflandırma amacıyla kullanılan algoritmalar, yapısal veya yapısal olmayan veriler üzerine uygulanarak, gözlemlenen değerlerden bir sonuç çıkarıp yeni gözlemin hangi kategoriye ait olduğunu ikili sınıflandırma, çoklu sınıflandırma veya çoklu etiket sınıflandırma gibi yöntemler kullanarak belirler. 5 Sınıflandırma yöntemleri örnekler üzerinden ifade edilecek olursa: iki boyutlu sınıflandırma için batan veya batmayan olarak kredi durumu düşünülebilir1. Çoklu sınıflandırma için denizde yaşayan canlı türleri (balıklar, kabuklu canlılar, yumuşak gövdeli canlılar vd.) veya ikiden fazla segmente ayrılmış müşterilerin ayrıştırılması olabilir. Sınıflandırma işlemini görsel veri işleme veya yapısal bilgileri kullanarak gerçekleştirmek mümkündür. Bir diğer yöntem olan çoklu etiket sınıflandırması için bir kitabın hem tıp hem spor hem de istatistik ile ilgili olabileceği düşünülerek örneklendirilebilir. Şekil 1.2: İkili Sınıflandırma Günümüzde sınıflandırma yöntemlerinde Lojistik Regresyon, Boosting, Karar Ağacı, Rassal Orman, Naive Bayes, En Yakın Komşu ve Destek Vektör Makineleri en çok tercih edilen algoritmalardır. 1.1.1.2 Regresyon Denetimli öğrenmenin diğer bir alt kategorisi olan regresyon, veri kümesinde bulunan değişkenlerin boyut değerleri arasında bir ilişki arar. Örneğin, ebeveynlerin boy uzunluğu ile çocukların boy uzunluğu arasındaki ilişki veya ikinci el araba fiyatının enflasyon ile arasındaki matematiksel bağıntı bulunabilir. 1 Şekil 1.2’de iki boyutlu bir veri seti için ikili sınıflandırma görevi kavramsal olarak gösterilmektedir. 6 En yaygın olarak regresyon analizi, öznitelik değişkenleri verildiğinde, hedef değişkeninin koşullu beklentisini, yani öznitelik değişkenleri sabitlendiğinde hedef değişkeninin ortalama değerini tahmin eder (Ouyang, 2018:14). Bu yaklaşımla denetimli öğrenme teknikleriyle her gözlem, eğitim veri setinden öğrendiklerinden yola çıkarak reel bir değer tahmininde bulunur. Günümüzde regresyon yöntemlerinde Lineer Regresyon, Çoklu Lineer Regresyon, Polinomal Regresyon, Destek Vektör Regresyonu en sık tercih edilen algoritmalardır. 1.1.1.3 Tahmin Denetimli öğrenmenin bir diğer alt kategorisi olan tahmin, geçmiş ve şimdiki verilere dayanarak, gelecek hakkında tahminler yapma sürecidir. En yaygın olarak eğilimleri analiz etmek için kullanılır. Yaygın bir örnek, şimdiki ve geçmiş yıllardaki satış verilerine dayanarak gelecek yıl için satış tahmini yapılması olabilir (Lui, 2017:1). 1.1.2 Denetimsiz Öğrenme Denetimsiz öğrenme, etiketlenmemiş verileri kullanan makine öğrenmesinin diğer bir yaklaşım türüdür. Genellikle veri noktalarını birbirine daha fazla veya daha az benzeyen özellikler belirlemeye çalışarak verileri kümeler veya ortak özellikler gibi özet bir formda temsil etmeye çalışır (The Royal Society, 2017:123). Denetimsiz öğrenme, denetimli öğrenmenin aksine herhangi bir sınıflandırma veya etiketlenmeye maruz kalmamış bir eğitim verisi ile eğitilmez. Denetimsiz öğrenme yöntemi, eğitilmemiş veriler üzerinden bir korelasyon ve ilişki arar. Bulunan bağıntılar sonucu, birbiri ile ilişkisi olan verileri kendi içinde kategorize eder. Girdi verisinin hangi sınıfa ait olduğu, algoritmalar tarafından sınıflandırma işlemleri ile öğrenilir. Algoritma, daha fazla yeni veriyi değerlendirdikçe, sınıflandırma gücü ve performansı artarak, daha rafine sonuçlar üretir. Makine öğrenmesinin bu dalı, veri görselleştirme, veri sıkıştırma veya veri dengeleme amacıyla veya eldeki verilerdeki korelasyonları daha iyi anlamak için, herhangi bir hedef değişkenin yardımı olmadan, girdi verilerinin ilgili dönüşümlerini bulmaktan oluşur. Denetimsiz öğrenme, veri analitiğinin ekmeği ve tereyağıdır. Bu 7 yüzden denetimli öğrenme sorununu çözmeye çalışmadan önce veri kümesini daha iyi anlamak için gerekli bir adımdır (Chollet, 2018:94). Eğitim verisi kompleks bir yapıda ise veriler için denetimsiz öğrenme teknikleri kullanılmalıdır. Böylelikle veri setinin içindeki karmaşıklığı farklı segmentler üzerinden müdahale etme fırsatı oluşturacaktır. Örneğin farklı gruplardaki müşterileri araçları veya yapıları kendi içinde segmentlere ayırarak, spesifik tetkiklerde bulunmak için kullanılabilir. K-Means Algoritması, Temel Bileşenler Analizi, Birliktelik Kurallarının Algoritmaları (örn. Apriori Algoritması) ve Hiyerarşik Kümeleme gibi öğrenme algoritmaları denetimsiz makine öğrenmesi algoritmaları arasında en yaygın biçimde kullanılan algoritmalardı. Denetimsiz öğrenim algoritmaları kendi içinde uygulama yapılarıyla temel olarak kümeleme ve boyut azaltma gibi görev yapılarından oluşur. 1.1.2.1 Kümeleme Kümeleme, keşifsel veri analizi için en yaygın kullanılan yöntemlerden biridir. Sosyal bilimlerden biyolojiye ve bilgisayar bilimlerine kadar tüm disiplinlerde, insanlar veri noktaları arasında anlamlı gruplar belirleyerek verileri hakkında ilk sezgiyi elde etmeye çalışırlar. Örneğin, biyologlar, genleri farklı deneylerde ifadelerindeki benzerliklere dayanarak kümelendirir; perakendeciler, müşterileri hedeflenen pazarlama amacıyla, müşteri profili temelinde kümelendirir ve gökbilimciler, yıldızları uzaysal yakınlıklarına göre kümeler (Shwartz, 2014:307). Analiz sonrasında ortaya çıkabilecek her küme, belirli bir benzerlik derecesini paylaşan ancak diğer kümelerdeki nesnelere daha benzemeyen bir grup nesneyi tanımlar, bu nedenle kümeleme bazen "denetimsiz sınıflandırma" olarak da tanımlanmaktadır (Raschka, 2015:3). 1.1.2.2 Boyut Azaltma Denetimsiz öğrenmenin bir diğer alt görev alanı, boyutsallığın azaltılmasıdır. Çoğunlukla, yüksek boyutlu veriler için sınırlı depolama alanı ve algoritmaların hesaplama performansında zorluk oluşturabilecek durumlarda kullanılır (Raschka, 2015:7). 8 Veri yapısının çok sayıda özniteliğe sahip olduğu durumlarda, karmaşıklığı ortadan kaldırmak için daha düşük boyutlu bir yapı genellikle arzu edilir. Boyutsal azaltma (veya manifold öğrenme) tekniklerine ilişkin temel prosedürler şunlardır: • Hesaplamalı: Veriler üzerindeki işlemleri hızlandırmak için ilk verileri bir önişleme yöntemi ile sıkıştırmak. • Görselleştirme: Girdi verilerini iki veya üç boyutlu boşluklara senkronize ederek keşif analizi için verileri görselleştirmek. • Özellik çıkarma: Daha minimal ve daha güçlü veya daha ergonomik bir özellik/öznitelik kümesi oluşmasını sağlamak (Mohri, 2012:347). Boyut azaltması, verideki gürültüyü temizlemek için özniteliklerin ön işlemesinde kullanılırken, ilgili bilgilerin çoğunu koruyup, verileri daha küçük boyutlu alt bir alana sıkıştırabilen ve belirli algoritmaların tahmin performansının düşmesini engelleyen yaygın bir yaklaşımdır. Boyut azaltma amacıyla temel olarak sık kullanılan yöntemler arasında Temel Bileşenler Analizi, Faktör Analizi, Çok Boyutlu Ölçekleme ve Isomap yer almaktadır. 1.1.3 Yarı-Denetimli Öğrenme Bu yaklaşım özellikle çok sayıda etiketlenmemiş veri olması ve verileri etiketleme maliyetinin oldukça yüksek olduğu uygulamalarda tercih edilir. Adından da anlaşılacağı gibi yarı-denetimli öğrenme, denetimli ve denetimsiz öğrenmenin ortasında yer alır. Aslında, yarı-denetimli öğrenme stratejilerinin çoğu, denetimli veya denetimsiz öğrenmeyi diğer öğrenme paradigmasına özgü ek bilgileri içerecek şekilde genişletmeye dayanır (Zhu, 2009:9). Yarı denetimli öğrenme, uygun bir işlev veya sınıflandırıcı oluşturmak için etiketlenmiş ve etiketlenmemiş verileri birleştirerek, denetlenen algoritmaların performansını artırmak için önerilen algoritmaların bir çerçevesidir (Design, 2004:251). Literatürde yarı-denetimli öğrenmeye Maeireizo (2004), “birlikte eğitim”, Yarowsky (1995), “kendi kendine eğitim” ve Nigam (2000), “üretken modeller” ile farklı yaklaşımlar önermiştir. 9 1.1.4 Pekiştirmeli Öğrenme Pekiştirmeli öğrenmede amaç, çevre ile etkileşimlere dayalı olarak kendi performansını artıran bir sistemi geliştirmektir (Raschka, 2015:6). Bir pekiştirmeli öğrenme sistemi, açıkça öğretilmekten ziyade eylemlerinin sonuçlarından öğrenir. Pekiştirmeli öğrenme diğer öğrenme tekniklerinin aksine, her iterasyon bir önceki iterasyondan geri bildirim alarak modelini sürekli olarak geliştirme döngüsündedir. Diğer bir ifadeyle, eylemlerini geçmiş deneyimlerini dikkate alarak gerçekleştirir. Bu durum tıpkı insan dünyasındaki deneme yoluyla öğrenme paradigmasına benzer. Hatalardan ders çıkartarak öğrenme kolaylaşır çünkü ceza (maliyet, zaman kaybı, pişmanlık, acı, vb.) durumuna düşmekten kaçınılır (Mueller, 2016:169). Nitekim pekiştirmeli öğrenme “tecrübeli öğrenme” olarak ifade edilebilir. Pekiştirmeli öğrenmenin bir önceki iterasyondan geri bildirim alarak eylemlerini gerçekleştirmesi, muhtemelen en iyi şekilde satranç veya bir video oyunun yapısı ile açıklanabilir. Sanal alanda bir oyuncu, farklı koşullar altında çeşitli eylemlerin sonuçlarını tecrübeler ve oyun alanına daha aşina olur. Öğrenilen bu değerler ile sonraki davranışlarını etkileyerek performansını iyileştirir. Satranç durumunda ise yenilgiden kaçınmak da benzer şekilde olumlu bir ödüle dönüşür (Theobald, 2017:15). 1.2 BANKACILIKTA KREDİ RİSKİ VE ÖNEMİ BDDK’ya göre kredi riski, kredi müşterisinin yapılan sözleşme gereklerine uymayarak yükümlülüğünü kısmen veya tamamen zamanında yerine getirememesinden dolayı bankanın maruz kalabileceği zarar olasılığı olarak tanımlanmıştır (2012:1). Jorion, “Financial Risk Manager Handbook, Wiley Finance Series” adlı eserinde kredi riski için karşı tarafın sözleşmeden doğan yükümlülüklerini yerine getirememesinden kaynaklanan ekonomik kayıp risk olarak tanımlamıştır (2009:431). Mandacı, “Türk Bankacılık Sektörünün Taşıdığı Riskler ve Finansal Krizi Asmada Kullanılan Risk Ölçüm Teknikleri” çalışmasında kredi riskini, ödenmeme veya geç ödemeden dolayı net kar ve özvarlığın piyasa değerindeki olası değişim olarak ifade etmiştir. (2003: 71). Coyle, “Introduction to Currency Risk” adlı eserinde kredi riski için kredi verenin, borcun ödenmemesi veya geç ödenmesi sonucu zararla karşılaşma olasılığı tanımını yapmıştır 10 (2000:6). Sinkey’e göre ise kredi riski, “Commercial Bank Financial Management” adlı eserinde borç ödemesindeki belirsizlik olarak ifade edilmiştir (1998: 190). Yanlış müşteri seçimi, sözleşmedeki eksiklikler, müşterinin mali gücünün sorumluluklarını yerine getiremeyecek kadar yetersiz olması, gelir/borç ödeme dengesine uymayacak kadar yüksek kredi limiti tahsisi, alınan teminatların yetersiz olması ve ekonomik faktörler nedeniyle krediler tahsil edilememe riski taşımaktadır (Bhargava, 2000:8). Kredi riski, banka ile müşteri arasında yapılan kontrat gereği müşterinin üstlendiği yükümlülüklerini sözleşmede belirlenen süre zarfında eksiksiz yerine getirememe durumudur. Diğer bir ifadeyle, müşterinin bankadan almış olduğu faizli kredinin sözleşme yükümlülüklerine göre zamanında bankaya geri ödeyememe (temerrüde düşme) durumudur. Bankaların finansal getirileri göz önünde bulundurulduğunda, kredi riski için ayrılan likidite ile diğer risk tipleri için ayrılan likidite arasında yüksek fark vardır. Dolayısıyla banka için kredi riskinin diğer risklere kıyasla daha önem arz ettiği söylenebilir. Kredi riski, bankaların karşılaştığı en büyük risktir (Apostolik, 2009:18). 2008 küresel ekonomik krizi, kredi riskinin kritik öneme sahip olduğuna emsal bir durumdur. Nitekim 2008’de gerçekleşen küresel ekonomik krizinin başlangıcına sebep olduğu düşünülen mortgage piyasasının, yanlış müşteri seçimi ile aniden değer kaybetmesi ve ipotekli satışın yapılmasıyla da kişisel iflasların artmasını tetiklemiştir. Yanlış kredi risk politikalarının zincirleme etkileri ile ekonomide durgunluktan işsizliğin artmasına kadar kötü sonuçlar doğurabilmektedir. 2008 yılında ABD’nin yanlış kredi risk politikaları sebebiyle küresel ekonomi çökmeye kadar ilerlemiştir. Yapılan yanlış kredi risk politikalarıyla, düşük kredi notuna sahip müşteriler için mortgage kredisi verilerek, temerrüde düşme oranı yüksek olan bu müşterilerin nihayet kredilerini temerrüde düşürmeye başlamıştır. Bankalar, temerrüde düşen müşterilerin mülklerine haciz koyarak, emlak piyasasında fiyatların düşmesine sebep olmuştur. Küresel olarak bankalar, sigorta şirketleri, yatırımcılar ve birçok finansal ve finansal olmayan kurumlar bu fonlara olan yatırımlarıyla büyük mali kayıplar vererek ekonomide durgunluğun yaşanmasına neden olmuştur. 11 Yanlış kredi risk politikalarının, finansal ve finansal olmayan sektörler üzerinde ciddi izler bırakması sonucu risk ölçümünün önemi ön plana çıkarak, bankacılık risklerine yönelik düzenlemelerle ilgili uluslararası çalışmaların hız kazanmasına sebep olmuştur. Bankacılık denetim ve düzenleme konularında ortak çalışma imkanları ve uluslararası finansal istikrarın sağlanması amacıyla, G10 ülkelerinin merkez bankası yöneticileri tarafından üye 17 ülke ile birlikte 1974 yılında İsviçre’nin Basel kentinde Basel Komitesi kurulmuştur. 1988 yılında başlatılan Basel I anlaşması ile komite, kredi riskine odaklanmış ve yayınladığı Sermaye Ölçümü ve Sermaye Standartlarının Uluslararası Düzeyde Uyumlaştırılması ile üye ve üye olmayan ülkelerin bankalarının 1992 yıl sonuna kadar birlikte uyum sağlamaları gereken, sermaye yeterlilik rasyosunun minimum %8 oranını koruması gerektiği belirlenmiştir. Basel I’in sınırlamaları ortadan kaldırmak için komite, Haziran 2004’te Basel II anlaşmasını gerçekleştirmiştir. Basel I’de sadece kredi riskine odaklı düzenlemeler yapılırken, Basel II’de operasyonel ve piyasa riskini de kapsayan yeni bir düzenleme sağlanmıştır. Kredi riskinin tahmini için Basel II düzenlemeleriyle Standart Yaklaşım, İçsel Derecelendirmeye Dayalı Yaklaşım ve Gelişmiş İçsel Derecelendirmeye Dayalı Yaklaşım ile üç ayrı metodoloji tanımlanmıştır. Basel komitesinin temel amacı ve stratejisi, denetleyici bir yaklaşımdan en iyi uygulamaya yönelik gelişmiş içsel derecelendirmeye dayalı yaklaşıma geçen bankalara sermaye teşvikleri sunmaktır (Brown, 2014:4). Bu bağlamda İçsel Derecelendirmeye Dayalı Yaklaşım (Internal Ratings Based - IRB) ve Gelişmiş İçsel Derecelendirmeye Dayalı Yaklaşım (Advanced Internal Ratings Based – AIRB) versiyonları ile bankalar, kendi iç risk derecelendirmelerini farklı derecelerde geliştirmelerine ve kullanmalarına izin vermektedir. İçsel Derecelendirmeye Dayalı yaklaşım aşağıdaki dört temel parametreye dayanmaktadır: i. Temerrüt Olasılığı (Probabilty of Default - PD): Bir kredinin 12 aylık süre zarfında geri ödenmeme olasılığıdır. 12 ii. Temerrüt Halinde Kayıp (Loss Given Default - LGD): Borçlunun temerrüde düşmesi halinde maruz kalma yüzdesi olarak ifade edilen tahmini ekonomik kayıptır. iii. Temerrüt Halinde Risk Tutarı (Exposure at default - EAD): Borçlunun temerrüde düşmesi halinde bankaya ödemek zorunda olduğu beklenen brüt (ekonomik) miktardır. iv. Vade (Maturity - M): Bir kredinin veya başka bir finansal aracın nihai ödeme tarihine kadar geçen süredir (Brown, 2014:4). Yukarıdaki parametrelerinin yardımları ile banka, beklenen kredi zararını hesaplayabilmektedir. 𝐵𝑒𝑘𝑙𝑒𝑛𝑒𝑛 𝐾𝑟𝑒𝑑𝑖 𝑍𝑎𝑟𝑎𝑟𝚤 (𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑 𝑙𝑜𝑠𝑠 − 𝐸𝐿) = 𝑃𝐷 × 𝐿𝐺𝐷 × 𝐸𝐴𝐷 (1.1) Şekil 1.3: İçsel Değerlendirmeye Dayalı Yaklaşım Türleri (Brown, 2014:4) Finansal kurumlar için temel ve gelişmiş olarak iki İçsel Değerlendirmeye Dayalı Yaklaşım seçeneği mevcuttur (Basel Bankacılık Denetimi Komitesi, 2001a:34). İki yaklaşım arasındaki fark, parametrelerin banka tarafından ölçülme derecesidir. Temel yaklaşımda (IRB), denetleyici incelemeye tabi olarak banka tarafından sadece PD dahili olarak tahmin edilirken, Gelişmiş IRB yaklaşımında, dört parametrenin tamamı banka tarafından hesaplanacak ve denetim incelemesine tabi tutulacaktır (Schuermann, 2004:3). 13 Çalışmaya konu olan Temerrüt Olasılığı parametresi, 12 ay içinde borçlunun temerrüde düşme olasılığı incelemektedir. Bu bağlamda temel yaklaşım olan İçsel Değerlendirmeye Dayalı Yaklaşım esas alınarak PD tahmini hesaplanacaktır. Çalışma kapsamında, kredi başvurusunda bulunan her bir müşteri için gelecek 12 aylık süre zarfında, temerrüt olasılığının tahminlemesi için kullanılan algoritmalar arasında performans ölçülerinin yardımıyla en uygun model ve tekniğin belirlenmesi amaçlanmıştır. 1.3 LİTERATÜRDE KREDİ RİSK ANALİTİĞİ Geçen yüzyıla kadar uzanan kredi risk analitiği üzerine yapılan araştırma ve geliştirmeler, günümüzde de finans alanında kritik öneme sahip araştırma konusu olmaya devam etmektedir. Küresel mali krizler sonucunda önem kazanan düzenleyici odaklar sebebiyle, kredi risk analitiği süreci akademik ve iş dünyasında da rağbet görmeye devam etmektedir. Kredi risk analitiğindeki genel yaklaşım, geçmiş ve şimdiki müşteriye ait özellikler ve potansiyel başarısızlıkları arasındaki ilişkiyi analiz ederek sınıflandırmaktır. Bu bağlamda yeni başvuru sahiplerinin veya mevcut müşterilerin iyi veya kötü olarak sınıflandırılmasında uygulanabilecek sınıflandırıcıların belirlenmesi için kullanılabilir (Wang, 2005:820). Geleneksel olarak kredi risk analitiğinde temerrüt olasılığının tahmininde Lojistik Regresyon ve Diskriminant Analizi gibi teknikler kullanılmaktadır. Destek Vektör Makineleri, kredi kartı müşterilerinin sınıflandırılmasında kimin temerrüde düşeceğinin hesaplamasında başarılıdır. Ayrıca test edildiğinde ve geleneksel tekniklerle kıyaslandığında temerrüt riskini belirlemede en önemli özellikleri keşfetmede rekabetçi oldukları bulunmuştur (Bellotti, 2009:3302). Destek Vektör Makinelerinin kredi puanlamasında önemli ölçüde daha iyi sonuçlar verdiği gösterilmiştir (Gestel, 2003:11). Destek Vektör Makineleri, regresyon modelinden önemli ölçüde daha iyi performans göstermiştir (Yao, 2017: 687). Kredi puanlama tekniklerinde sınıflandırıcı algoritmaların Lojistik Regresyondan daha önemli düzeyde iyi performanslar gösterdiği görülmüştür. Ayrıca, Yapay Sinir 14 Ağları kredi puanlama veri setlerinde, aşırı öğrenen makinelerden daha iyi performans gösterdiği bulunmuştur (Lesssmann, 2015:124). Kredi skorlamada Diskriminant Analiz, Lojistik Regresyon, Yapay Sinir Ağları, sınıflandırma ağaçları ve bayes sınıflandırıcı gibi birçok algoritmadan yararlanılmaktadır. Yapay Sinir Ağlarının diğer beş yönteme göre daha doğru sonuçlar gerçekleştirdiği görülmüştür (Yeh, 2009:2479). 1994 yılında Altman ve meslektaşları, geleneksel istatistiki stres ve iflas tahmini ile alternatif bir sinir ağı algoritması arasında ilk karşılaştırmalı analiz yöntemini gerçekleştirerek, iki yöntem için birleşik yaklaşımın doğruluğunun önemli ölçüde artırdığını saptadılar (1994:527). Zhou ve Wang daha iyi tahmin için karar ağaçlarına ağırlık tahsis etmeyi önermektedir (2012:1523). Hamori ve arkadaşları, PD analizinde sinir ağı yöntemleriyle Torbalama (Bagging), Rassal Orman ve Artırma (Boosting) ile tahmin doğruluğu ve sınıflandırma yeteneğini incelemiş ve karşılaştırmıştır. Çalışmada makine öğrenme algoritmaları arasında Artırmanın daha iyi performans sağladığını buldular (2018:12). Temerrüt olasılığının düşük olduğu portföyler, düşük risk olarak kabul edilirken, temerrüde düşen sınıflar arasında bir dengesizlik problemi ile karşılaşılabilir. Sınıf dengesizliği oluşturan portföyler için Gradyan Artırma ve Rassal Karar Ormanları sınıflandırıcı tekniklerinin iyi performans gösterdiği bulunmuştur (Brown, 2012:3453). Doğruluk oranı söz konusu olduğunda K-En Yakın Komşu, Rassal Orman ve Yapay Sinir Ağları algoritmaları iyi performans gösterir (Zhang, 2017:372). Torbalama, Artırma ve Rassal Orman benzer prosedürleri içermesine rağmen, Rassal Orman genellikle daha iyi doğruluk ve hata oranları üretmiştir (Barboza, 2017:415). Kavcıoğlu, kurumsal kredileri skorlamada klasik yöntemler ile yapay sinir ağlarını karşılaştırarak, eğitim veri setinde yapay sinir ağlarının lojistik regresyona kıyasla daha başarılı sonuçlar ürettiğini saptamıştır. Verinin boyutu ve kalitesini dikkate alarak Yapay Sinir Ağları gibi makine öğrenmesi algoritmalarının daha iyi performans gösterdiği bulgusuna ulaşılmıştır (2019:241). 15 Yeşilyurt ve Şeker, kredi skorlama algoritmalarının karşılaştırmaları için yapmış oldukları literatür araştırmaları sonucu elde edilen algoritma karşılaştırma tablosuna aşağıda yer verilmiştir. Tablo 1.1: Algoritma Başarılarının Karşılaştırılması (Yeşilyurt, 2018:11) YSA (Yapay Sinir Ağları) > Karar Ağacı C4.5 (Karar Ağacı) > YSA Lojistik Regresyon > Çoklu Diskriminant Analizi DVM (Destek Vektör Makineleri) > Lojistik Regresyon YSA > Lojistik Regresyon YSA ≅ Lojistik Regresyon > Doğrusal Diskriminant Analizi YSA > Genetik Programlama > DVM Demirbulut ve meslektaşları, istatistiksel ve makine öğrenmesi algoritmalarıyla kredi skorlama yöntemlerini ele alarak karşılaştırma analizleri yapmışlardır. Sınıflandırma başarısı AUC (Area Under Curve) değeriyle ölçülerek, YSA modelinin en başarılı algoritma olduğu bulgusuna ulaşılmıştır (2017:283). Literatürde kredi temerrüt riskinin skorlanması için birçok farklı istatistiksel ve makine öğrenmesi algoritmalarının karşılaştırmaları mevcut olmakla birlikte, bu çalışmalar bulgularında en başarılı algoritmalar, sektör bilgisiyle incelenerek, çalışmaya konu olan karşılaştırma algoritmaları belirlenmiştir. 16 İKİNCİ BÖLÜM METODOLOJİ 2.1 ÇALIŞMADA KULLANILAN SINIFLANDIRMA ALGORİTMALARI Çalışmanın bu bölümünde, temerrüt riskinin sınıflandırılması kapsamında, denetimli makine öğrenmesi algoritmalarından sınıflandırma amacıyla kullanılanlar ele alınacak olup, ilgili algoritmaların sınıflandırma yeteneklerinin arkasında bulunan teknik farklılıklara değinilecektir. 2.1.1 Lojistik Regresyon (Logistic Regression) Lojistik Regresyon, hedef değişkeninin olası iki değer alması (dikotom) durumunda, öznitelik değişkenlerinin bir lojistik fonksiyon olarak tanımlanması ve hedef değişkeni ile arasındaki ilişkinin regresyon analizi yardımıyla incelenerek, hedef değişkeni için sonucun olasılık değerinin logaritmasının tahmin edilmesidir. Öznitelik değişkenlerinin lojistik fonksiyon olarak tanımlanması için aşağıdaki sınırlayıcı fonksiyondan yararlanılmaktadır. 1 𝜋 = (2.1) 1 + ℯ−𝛽.𝑥 Her olası 𝜋 değeri için sonuç her zaman Şekil 2.1’deki gibi 0 ile 1 aralığında sınırlı bir olasılık olacaktır. Şekil 2.1: Lojistik Regresyon Sınıflandırma Grafiği Bu bağlamda, regresyon denklemi sınırlayıcı fonksiyon yardımı ile aşağıdaki gibidir. 17 𝜋 𝑙𝑜𝑔𝑖𝑡 (𝜋) ≡ log ( ) = 𝛽 + 𝛽 𝑥 + 𝛽 𝑥 𝑇 1 − 𝜋 0 1 1 2 2 +⋯+ 𝛽𝑛𝑥𝑛 = 𝛽. 𝑥 (2.2) Lojistik Regresyon denkleminde, 𝜋 bir olayın gerçekleşme olasılığını, 𝛽0 ve 𝛽𝑛 model sabit katsayısı ve öznitelik değişkenlerine ait model katsayılarını, 𝑥𝑛 regresyon modelinde yer alan girdi özniteliklerine ait değerleri ifade eder. 𝜋 Bir olayın gerçekleşme olasılığının gerçekleşmeme olasılığına olan oranı ( ) 1−𝜋 𝜋 diğer bir ifadeyle odds oranı değeri (0, +∞) arasındaki değerleri aldığı için 𝑙𝑜𝑔( ) 1−𝜋 dönüşümü uygulanarak (−∞,+∞) arasındaki değerler alması sağlanır. Eşitlikteki her iki tarafın üstel fonksiyonu alınarak (2.7)’daki olasılık fonksiyonuna ulaşılır. 𝜋 𝑙𝑜𝑔 ( ) = 𝛽. 𝑥 (2.3) 1 − 𝜋 𝜋 ( ) = ℯ𝛽.𝑥 (2.4) 1 − 𝜋 𝜋 = (1 − 𝜋)ℯ𝛽.𝑥 (2.5) 𝜋(1 + ℯ𝛽.𝑥) = ℯ𝛽.𝑥 (2.6) ℯ𝛽.𝑥 1 𝜋 = = (2.7) 1 + ℯ𝛽.𝑥 1 + ℯ−𝛽.𝑥 Log dönüşümü oranları (logit) doğrusal yapıda olduğu için iki sınıfa ait ayrışımı Şekil 2.2’deki gibi doğrusal bir karar sınırı ile tahmin eder. Burada “iyi” temerrüde düşmeyen müşterileri temsil ederken, “kötü” temerrüde düşen müşterileri ifade etmektedir. Şekil 2.2: Lojistik Regresyon Karar Sınırı 18 Yukarıda bahsedilen logit dönüşümüne alternatif olarak literatürde probit ve cloglog dönüşümleri de önerilmektedir. Şekil 2.3: Popüler Dönüşümler Lojistik Regresyonun yapısı lineer regresyona benzerlik gösterse de teknik olarak ayrık sınıfları öngören bir sınıflandırma aracıdır. Bu bağlamda, Lojistik Regresyon, özellikle tüketici kredisi endüstrisinde yaygın olarak kullanılan bir algoritmadır (Hand, 2009:1541). Temerrüt riskinin tahmininde, bir müşterinin kredi ödemelerindeki davranış yapısının iyi veya kötü ödeme durumuna bağlı olarak ikili durumu incelenir. Bu iki yanıt modeli için, hedef değişken y iki olası değerden birini alabilir: müşteri kötü bir ödeyici ise y=1; iyi bir ödeyici ise y=0 (Brown, 2014:30). 2.1.2 Yapay Sinir Ağları (Neural Network) Yapay sinir ağları, hedef ve öznitelik değişkenleri arasındaki ilişkiyi analiz katmanları aracılığıyla işlemek için daha esnek bir tasarım sunan bir makine öğrenme algoritmasıdır. Temel olarak girdi katmanı, gizli (ara) katman ve çıktı katmanından oluşan bir yapıdadır. YSA, biyolojik sinir ağlarını taklit eden sentetik yapılardır (Eğrioğlu, 2009:10590). Dolayısıyla belirlenmiş bir modelin parametrelerini tahmin etmek yerine, beyin gibi biyolojik sinir sistemlerinin bilgi işlem biçiminden ilham alınarak tasarlanmıştır. Bu tasarım esasen insan beyinleri değil, hayvan beyinlerinin paralel mimarisi dikkate alınarak modellenmiştir (Bell, 2014:91). 19 Şekil 2.4: Biyolojik Sinir Ağı ve Yapay Sinir Ağı Görseli (Dangeti, 2017:241) Biyolojik Sinir Ağları ile Yapay Sinir Ağları arasındaki terminolojiler aşağıdaki gibidir; Tablo 2.1: BSS’nin YSA’daki Terminolojik Karşılıkları (Öztürk, 2018:28) Biyolojik Sinir Sistemi (BSS) Yapay Sinir Ağı (YSA) Nöron İşlem Elemanı Dentrit Toplama Fonksiyonu Hücre Gövdesi Aktivasyon Fonksiyonu Akson Eleman Çıkışı Sinaps Ağırlıklar Yapay Sinir Ağlarının yapısı, girdiler, ağırlıklar, toplam fonksiyonu, aktivasyon fonksiyonu ve çıkış fonksiyonu olarak beş bölümden oluşmaktadır. YSA üzerindeki her bir nöron, bir işleme alınma durumunu ifade etmektedir. Ağın öğrenme işlemini gerçekleştirmek için dışarıdan veya gereksinime göre diğer hücrelerden nöronlara gelen girdiler (Xj), işlenerek bir sonraki nöron için çıkış değerini iletir. Girdilerin çıktı üzerindeki etkisinin hesaplanabilmesi için her bir girdinin eğitim sırasında geldikleri bağlantıların ağırlığıyla çarpılarak bir parametre (ağırlık/Wj) üretilir. Çıkan sonuç, girdi değerlerinden bağımsız ve modelin fit edilmesine yardımcı olan bias (b) değişkeni ile toplanarak, Tablo 2.2’de bulunan toplama fonksiyonları (toplam, çarpım, maksimum, minimum, vd.) ile beslenir. Toplama fonksiyonları aracılığıyla, elde edilen net girdi, Tablo 2.3’de bulunan aktivasyon fonksiyonları (sigmoid, tanjant hiperbolik, doğrusal, relu, vd.) ile beslenerek bir veri çıktısı elde edilir. 20 Şekil 2.5: Solda Tek Gizli Katmanlı ve Sağda Çok Katmanlı Sinir Ağı Yapısı Bir gizli katmandaki nörona ait çıktının fonksiyonel olarak gösterimi aşağıdaki gibidir; 𝑛 ℎ𝑖 = 𝑓(𝑏𝑖 +∑𝑤𝑖𝑗𝑥𝑗) (2.8) 𝑗=1 (2.8) denkleminde ℎ𝑖 gizli katman nöronuna ait çıktıyı, 𝑏𝑖 bias değerini, 𝑤𝑖𝑗 girdi değişkenlerine ait ağırlıkların gizli nöron i ile bağlantılı ağırlık matrisini, 𝑥𝑗 her bir girdi değerini ve 𝑓 aktivasyon fonksiyonunu ifade eder. Tablo 2.2: Toplama Fonksiyonları Örnekleri (Öztemel, 2006:50) Toplama Fonksiyonu Açıklama Ağırlık değerleri ile girdi değerlerinin 𝑛 çarpımlarından sonra hesaplanan her Toplam 𝑛𝑒𝑡 =∑𝑤𝑗𝑥𝑗 𝑗=1 bir değerin birbirleriyle toplanması ile net girdinin elde edilmesidir. Ağırlık değerleri ile girdi değerlerinin 𝑛 çarpımlarından sonra hesaplanan her Çarpım 𝑛𝑒𝑡 =∏𝑤𝑗𝑥𝑗 𝑗=1 bir değerin birbirleriyle çarpılması ile net girdinin elde edilmesidir. 21 Ağırlık değerleri ile girdi değerlerinin Maksimum 𝑛𝑒𝑡 = max(𝑤𝑗𝑥𝑗) çarpımlarının sonucu en büyük çarpım değeri net girdi olarak kabul edilir. Ağırlık değerleri ile girdi değerlerinin Minimum 𝑛𝑒𝑡 = min(𝑤𝑗𝑥𝑗) çarpımlarının sonucu en küçük çarpım değeri net girdi olarak kabul edilir. Ağırlık değerleri ile girdi değerlerinin 𝑛 çarpımlarından sonra bulunan pozitif Çoğunluk 𝑛𝑒𝑡 =∑𝑆𝑔𝑛(𝑤𝑗𝑥𝑗) ile negatif değerlerin sayısı arasından 𝑗=1 büyük olan sayının net girdi olarak kabul edilmesidir Daha önce toplama işlemiyle 𝑛 hesaplanan girdi değerlerine yeni Kümülatif 𝑛𝑒𝑡 = (𝑒𝑠𝑘𝑖) +∑𝑤𝑗𝑥𝑗 hesaplanan değerlerin de eklenerek Toplam 𝑗=1 kümülatif olarak toplanmasıyla elde edilen net girdi değeridir. Çalışmaya konu olan temerrüt riski tahmininde net girdinin hesaplanması için Tablo 2.2’de bulunan toplama fonksiyonları arasından ağırlıklı olarak kullanılan toplam fonksiyonu kullanılmıştır. Çıkış katmanındaki aktivasyon fonksiyonu ile bir yanıt olasılığı elde etmek için Tablo 2.3’de bulunan aktivasyon fonksiyonları arasından ikili bir tahminleme olan sigmoid aktivasyon fonksiyonu kullanılmıştır. 22 Tablo 2.3: Bazı Aktivasyon Fonksiyonları Aktivasyon Fonksiyonu Açıklama Sigmoid Fonksiyonu 𝟏 𝒇(𝒏𝒆𝒕) = 𝟏 + 𝓮−𝒏𝒆𝒕 Doğrusal olmayışı sebebiyle YSA uygulamalarında sıkça kullanılan bir aktivasyon fonksiyonudur. Sürekli ve türevi alınabilir bir fonksiyon olmasıyla beraber kayıp aktivasyon değeri oluşturmaz. Fakat gradyan kaybı problemi mevcuttur. Aralık değeri (0,1) arasındadır. Tanjant Hiperbolik Fonksiyonu Sigmoid fonksiyonuna benzer bir yapıya 𝓮𝒏𝒆𝒕 − 𝓮−𝒏𝒆𝒕 𝒇(𝒏𝒆𝒕) = sahiptir. Ancak fonksiyon aralığı (-1,1) 𝓮𝒏𝒆𝒕 + 𝓮−𝒏𝒆𝒕 arasındadır. Dolayısıyla daha çok değer alarak türevinin daha dik bir yapıda olmasına, böylelikle daha hızlı öğrenme ve sınıflandırma işlemi gerçekleştirmesine sebebiyet vermektedir. Sigmoid fonksiyonu gibi gradyan kaybı vermektedir. Aralık değeri (-1,1) arasındadır. 23 Doğrusal Fonksiyon Doğrusal problemler çözmek amacıyla 𝒇(𝒏𝒆𝒕) = 𝒏𝒆𝒕 kullanılan bu fonksiyon, sigmoid fonksiyonu gibi ikili değerler üretmeyerek birden fazla çıkışa izin verir. Ancak türevi sabit olduğu için modelin eğitiminde gerçekleştirilen geriye yayılıma (backpropagation) izin vermemektedir. Dolayısıyla giriş nöronlarındaki hangi ağırlıkların daha iyi bir tahmin sağlayabileceğini anlamak mümkün değildir. Aralık değeri (-∞, ∞) arasındadır. ReLu (Rectified Linear Unit – ReLu) Doğrultulmuş 𝒏𝒆𝒕 < 𝟎 𝒊𝒔𝒆 𝟎 𝒇(𝒏𝒆𝒕) = { Lineer Birim pozitif eksende doğrusal 𝒏𝒆𝒕 ≥ 𝟎 𝒊𝒔𝒆 𝒏𝒆𝒕 fonksiyon ile aynı özelliklere sahip gibi görünse de aslında doğrusal olmayan bir yapıdadır. Fonksiyon aralıkları itibariyle negatif değerleri sıfıra dönüştürerek verilerin eğitiminin azalmasına ve böylelikle öğrenmenin zayıf kalmasına neden olabilmektedir. Sigmoid ve Tanjant Hiperbolik fonksiyonlardaki gibi gradyan kaybı vermemektir. Aralık değeri [0, ∞) arasındadır. Toplam fonksiyonu ve aktivasyon fonksiyonu seçimleri sonrası nihai YSA denklem yapısı aşağıdaki gibidir. 𝑛ℎ 𝜋 = 𝑓𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑏 +∑𝑣𝑗ℎ𝑗) (2.9) 𝑗=1 Denklem (2.9)’de; 𝜋 çıktı değerini, 𝑓𝑠𝑖𝑔𝑚𝑜𝑖𝑑 sigmoid (lojistik) fonksiyonunu, 𝑏 bias sabitini, 𝑛ℎ gizli katmandaki nöron sayısını, 𝑣𝑗 ağırlık vektörünü, ℎ𝑗 gizli nöronun çıktı değeri üzerindeki ağırlığını temsil eder. 24 2.1.3 Karar Ağacı (Decision Tree) Denetimli bir öğrenme tekniği olan karar ağaçları hem sınıflandırma hem de regresyon için kullanılabilen, ağaç benzeri bir yapıda düzenlenmiş bir dizi kural tabanlı hiyerarşik bir sınıflandırma algoritmasıdır. Karar ağaçları, heterojen yapıdaki nicel veya nitel veri setlerini, hedef değişkene dayalı homojen alt gruplara ayırarak hedef değişkene ait değerlerin tahminini gerçekleştiren, uygulanabilir bir model kurmayı hedefler. Örneğin, bir kredi riski vaka çalışmasında, kredi başvurusunda bulunan müşteriye ait borç, yaş, gelir ve medeni durum bilgileri bulunabilir. Karar ağacı, her bir başvuranı iyi veya kötü bir kredi riski olarak tahmin edebilen (sınıflandırabilen) bir dizi metin kuralı veya grafiksel bir ağaç olarak bir model oluşturur (Zhang, 2002:11). Karar ağaçları için grafik gösterimi son derece sezgisel olduğundan, kullanıcılar diğer algoritmalara göre karar ağacındaki verileri kolaylıkla inceleyebilir ve yorumlayabilir. Şekil 2.6: Karar Ağacı Örneği Şekil 2.6’deki gibi karar ağaçları temel olarak kök karar düğümü, iç karar düğümleri (üst ve alt düğümler) ve yaprak düğümünden oluşmaktadır. Bir başlangıç noktası görevi gören kök karar düğümü, belirlenen kritere (karar kuralı) göre dallanarak alt gruplara ayrılır ve iç karar düğümlerini oluşturur. İç karar düğümleri içerisindeki veriler homojen olana kadar dallanma işlemine devam edilerek alt gruplara ayrılır. Nihai uç yaprağa ulaşıldığında test işlemi sona ererek bir çıktı elde edilir. 25 Dolayısıyla karar ağaçlarının oluşumundaki eğitim süreci kural indüksiyon algoritmalarına benzeyen bir tür tümevarım yöntemidir. Diğer bir ifadeyle, veri setinin hedef değişken üzerinden sahip olduğu tüm kombinasyonları için kural indüksiyonları yardımıyla gerçekleştirdiği bir tümevarım yöntemidir. Her bir karar düğümünde kullanılan bölme kriteri, verimli bir karar ağacının dizayn edilmesi için oldukça önem arz etmektedir. Bu bağlamda karar düğümlerindeki dallanmalar, verilerin safsızlığına göre belirlenir. Safsızlık, her bir düğümdeki verilerin, her sınıfa ne kadar iyi böldüğünü gösteren bir ölçüdür. Safsızlığı ölçmede kategorik hedefler için genellikle Entropi ve Gini ölçüleri kullanılırken, sürekli hedefler için varyans azaltma veya F testine ait p-değeri gibi ölçüler kullanılır. İlgili çalışma dahilinde kullanılan hedef değişkenin kategorik olması sebebiyle Entropi ölçüsü incelenecektir. Bilgi teorisinden gelen ve farklı sınıflar arasındaki verilerin varyans ölçüsünü açıklayan entropi denklem (2.10)’da gösterilmektedir. 𝑛 𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) = −∑𝑝𝑖 log2 𝑝𝑖 (2.10) 𝑖=1 Shannon’un (2.10)’daki entropi denkleminde 𝑆 entropiyi, 𝑛 sınıf sayısını ve 𝑝𝑖 gerçekleşebilecek her bir sınıfa ait olasılığı temsil eder. Bir karar düğümünde bulunan veriler %100 homojen olarak sınıflandırıldıysa, entropi değeri sıfır olacaktır. Ancak sınıflandırma eşit yapıda bölünmüş ise entropi seviyesi 1 olacaktır. Nitekim entropi seviyesinin düşük değerde olması, sınıflandırmanın iyi olduğu göstergesidir. Entropinin alternatifi olan Gini safsızlığı ise bir yanlış sınıflandırma ölçüsüdür. Diğer bir ifadeyle sınıflandırmanın heterojenliğini ölçen Gini safsızlığı aşağıdaki formül ile hesaplanmaktadır. 𝑛 𝐺𝑖𝑛𝑖 = 1 −∑(𝑝 )2𝑖 (2.11) 𝑖=1 Burada 𝑖 sınıf sayısını ve 𝑝𝑖 sınıflandırma olasılığını temsil eder. Gini safsızlığında logaritmik hesaplama uygulanmadığı için entropiye göre daha hızlı hesaplama olanağı sunar ve 0 ile 1 arasında değerler alır. Yanlış sınıflandırma oranı 26 yükseldikçe bu değer 1’e yaklaşırken, tüm öğelerin belirli bir sınıfa ait olduğu veya yalnızca bir sınıfa sahip olduğu zaman bu oran 0 olacaktır. Eğer sınıflar eşit olarak dağıtılmış ise Gini safsızlığı 0.5’i gösterecektir. Nitekim Gini değerinin düşük olması, doğru sınıflandırma oranının yüksek olduğu anlamına gelmektedir. Entropi ve Gini gibi safsızlık ölçülerinin sınıflandırmadaki önemi dikkate alındığında, ağacın başlangıç düğümü olan kök karar düğümünde konumlanacak özelliğin belirlenmesi, ağacın verimliliği için oldukça önemlidir. Bu bağlamda kök düğümünde konumlanacak özelliğin belirlenmesi için veri setinin bir özellik üzerinde en iyi sınıflandırmayı sağlayan, bilgi kazancı değerine ihtiyaç vardır. Bilgi kazancı ise tüm popülasyona ait safsızlık (Entropi veya Gini) değeri ile alt düğümlerde bulunan veri kümesinin özelliklerine ait safsızlık değeri arasındaki farktır. Entropiye dayalı bilgi kazancına ilişkin denklem aşağıdaki gibidir. 𝑛 𝑁𝑗 𝐵𝑖𝑙𝑔𝑖 𝐾𝑎𝑧𝑎𝑛𝑐𝚤 (𝐷𝑝, 𝑓) = 𝑆(𝐷𝑝) −∑ 𝑆(𝐷𝑗) (2.12) 𝑁 𝑖=1 (2.12)’deki denklemde 𝑓 bölünmeyi gerçekleştiren özelliği, 𝐷𝑝 üst düğüme ait veri kümesini, 𝐷𝑗 j’ninci alt düğüme ait veri kümesini, 𝑆 entropiyi, 𝑁 toplam gözlem sayısını, 𝑁𝑗 j’ninci alt düğüme ait gözlem sayısını ifade etmektedir. Her özellik için hesaplanan bilgi kazanç değeri arasından en yüksek olan özellik, kök düğüm olarak kabul edilir. Verimli bir ağacın dizayn edilmesi için safsızlık ve bilgi kazancı ölçüleri ile Karar Ağacı eğitilirken, kök düğümden son bölünmeye kadar safsızlık seviyesinin düşürülmesi hedeflenir. 2.1.4 Destek Vektör Makineleri (Support Vector Machine) Yüksek boyutlara sahip veri türleri için sınıflandırma veya regresyon analizini gerçekleştirmede ekstra avantajlara sahip denetimli öğrenme yöntemi olan Destek Vektör Makineleri, iki sınıfın optimal bölünmesinde karar fonksiyonunun tahmin edilmesi, diğer bir ifadeyle n boyutlu bir uzayda optimal bir sınıflandırma için hiperdüzlemin belirlenmesine dayanmaktadır. Destek Vektör Makineleri, doğrusal ayrılabilen ve doğrusal ayrılamayan veri türleri için farklı prensipler sunmakla birlikte, ilgili çalışma kapsamında kullanılan doğrusal ayrılabilen DVM incelenecektir. 27 Destek Vektör Makinelerinde veri kümelerini ayırmak için Şekil 2.7’teki gibi sonsuz hiperdüzlemler çizmek mümkündür. Ancak hangi hiperdüzlemin en ideal sınıflandırma koşulunu sağladığını belirlemek için hiperdüzlemler ile destek vektörleri arasındaki mesafe incelenir. Bu mesafe marj olarak adlandırılıp, marjın maksimum olduğu hiperdüzlem, optimum hiperdüzlem olarak kabul edilir. Şekil 2.7: İki Sınıflı Bir Problem için Hiperdüzlemler (Kavzoğlu, 2010:76) DVM ile sınıflandırmalar genellikle -1 ve +1 etiketleri ile iki ayrı sınıfı temsil etmektedir. Bu bağlamda, iki sınıflı doğrusal olarak ayrılabilen bir sınıflandırma işleminde, eğitim verisini (𝑥𝑖, 𝑦𝑖) en iyi şekilde ayıracak hiperdüzlemin bulunması kapsamında sınırlara ait eşitsizlikler aşağıdaki gibidir: 𝑤 ∙ 𝑥𝑖 + 𝑏 ≥ +1, ℎ𝑒𝑟 𝑦𝑖 = +1 𝑖ç𝑖𝑛 (2.13) 𝑤 ∙ 𝑥𝑖 + 𝑏 ≤ −1, ℎ𝑒𝑟 𝑦𝑖 = −1 𝑖ç𝑖𝑛 (2.14) Burada 𝑥 𝜖 𝑅𝑛 olup n-boyutlu girdi vektörünü, 𝑦𝑖 𝜖 {−1,+1} sınıf etiketlerini, 𝑤 ağırlık vektörünü ve 𝑏 eğilim değerini göstermektedir. Bu eşitsizlikler, Eşitlik (2.15)’te verildiği gibi tek bir eşitsizlikte birleştirilebilir (Ayhan, 2014:180). ∀𝑖 𝑖ç𝑖𝑛 𝑦𝑖(〈𝑤, 𝑥𝑖〉 + 𝑏) − 1 ≥ 0 (2.15) Destek vektörleri ve eşitsizliklerin yardımı ile birbirine paralel olarak sınırlayıcı hiperdüzlemlerin belirlenmesi sağlanarak, Şekil 2.8’daki gibi doğrusal olarak ayrılabilen optimum hiperdüzlem elde edilir. 28 Şekil 2.8: Doğrusal Olarak Ayrılabilen Veri Setleri için Hiper-Düzlemin Belirlenmesi (Kavzoğlu, 2010:76) Sonuç olarak, doğrusal olarak ayrılabilen iki sınıflı bir problem için karar fonksiyonu aşağıdaki şekilde yazılabilir (Osuna, 1997:8). 𝑛 𝑓(𝑥) = 𝑠𝑖𝑔𝑛 (∑𝜆𝑖𝑦𝑖(𝑥 ∙ 𝑥𝑖) + 𝑏) (2.16) 𝑖=1 2.1.5 K-En Yakın Komşu (K-Nearest Neighbors) K-En Yakın Komşu algoritması, sınıflandırma ve regresyon için kullanılan parametrik olmayan bir denetimli öğrenme tekniğidir. Eğitim sürecini verilerin kaydını tutarak gerçekleştirdiğinden diğer makine öğrenme yöntemlerine göre daha tembel bir öğrenme tekniğine sahiptir. Basit yapılarına rağmen, uydu görüntüleri, el yazıları, elektrokardiyogram görüntüleri gibi birçok sınıflandırma çalışmalarında başarılı sonuçlar elde etmektedir. Algoritma temel olarak, eğitim verilerinin özellik uzayındaki belirli bir k hiperparametresine olan uzaklığına göre oluşturulan sınıflandırmanın, örnek tabanlı öğrenmesine dayanmaktadır. Diğer bir ifadeyle, K-En Yakın Komşu algoritması, “Bana arkadaşını söyle, sana kim olduğunu söyleyeyim.” veya “Üzüm üzüme baka baka kararır.” atasözlerindeki nesne veya insanların, birbirine olan yakınlığından kaynaklanan yapısal benzeşme durumunun mantığını benimsemektedir. 29 Şekil 2.9: K-En Yakın Komşu Örneği K-En Yakın Komşu algoritmasının optimum sonuç üretmesi için en uygun uzaklık matrisinin hesaplanmasına ve optimal sınıflandırmayı sağlayacak komşu sayısına (k hiperparametresine) ihtiyaç vardır. Eğitim veri setindeki gözlemler arasındaki mesafenin tanımlanması ve optimal uzaklık matrisinin hesaplanması için Öklid, Manhattan, Minkowski, Mahalanobis, Kosinüs, Jaccard, Hamming gibi yöntemler kullanılmaktadır. Yaygın kullanımı olan Öklid uzaklığı, iki gözlem arasındaki doğrusal uzaklığı ifade edip aşağıdaki gibi tanımlanmaktadır. 𝑑(𝑦, 𝑥) = 𝑑(𝑥, 𝑦) = √(𝑥1 − 𝑦 )21 + (𝑥2 − 𝑦2)2 +⋯+ (𝑥 2𝑛 − 𝑦𝑛) (2.17) 𝑛 𝑑ö𝑘𝑙𝑖𝑑 = √∑ (𝑥𝑖 − 𝑦 2𝑖) (2.18) 𝑖=1 Burada 𝑥𝑖 ve 𝑦𝑖 iki ayrı gözlemi ifade etmektedir. Öklid uzaklığının genellemesi olan Minkowski uzaklığının ölçümüne aşağıda yer verilmiştir. 𝑛 1/𝑝 𝑑𝑚𝑖𝑛𝑘𝑜𝑤𝑠𝑘𝑖 = (∑ |𝑥𝑖 − 𝑦𝑖| 𝑝) (2.19) 𝑖=1 Yukarıdaki denklemde bulunan 𝑝 değeri 2 olduğunda Öklid uzaklık ölçüsü elde edilirken, 1 olduğunda ikili sınıflandırma problemlerinde yaygın kullanımı olan Manhattan uzaklık ölçüsüne eşdeğer olmaktadır. 30 𝑛 𝑑𝑚𝑎𝑛ℎ𝑎𝑡𝑡𝑎𝑛 =∑ |𝑥𝑖 − 𝑦𝑖| (2.20) 𝑖=1 Optimum sınıflandırma için bir diğer unsur k hiperparametresinin belirlenmesi olup, yüksek değer alması yanlılığı artırırken, düşük değer alması varyansın artmasına neden olmaktadır. İlgili çalışma kapsamında uzaklık matrisinin hesaplanmasında, Öklid uzaklık ölçüsü ve optimal sınıflandırma için k-hiperparametresi deneysel olarak farklı değerler ile belirlenmiştir. 2.1.6 Rassal Orman (Random Forest) Topluluk Öğrenmesine dayanan Rassal Orman (RO) algoritması, Torbalama (Bootstrap Aggregation) tekniğinden yararlanarak, herhangi bir bilgi ölçüsü metodu kullanmadan seçilen rastgele örneklemler ve değişkenlerle inşa edilen karar ağaçları topluluklarıdır. Rassal Orman, torbalama tekniği ile seçilen rastgele örneklemlere ek olarak, ağacın her düğümünde rastgele seçilen değişkenler ile karar ormanını oluşturur. Dolayısıyla Rassal Orman, torbalama yönteminin gelişmiş bir şekli olarak kabul edilebilir (Breiman, 2001:28). Şekil 2.10: Karar Ormanı Diyagramı (Sniatala, 2020:160) 31 Karar ormanını oluşturan ağaçlar, ağacı maksimum boyutta geliştirmek için CART (Classification and Regression Tree) algoritmasından faydalanarak, kök karar düğümünde hangi özelliğin konumlanacağını bilgi kazancı (2.12) ile belirler. Kök karar düğümünde konumlanacak özelliğin belirlenmesinden sonra sınıflandırmaların safsızlığı için gini indeksinden (2.11) yararlanır. Bu prosedür kullanıcı tarafından belirlenen N tane ağaç sayısı oluşturulana kadar yinelenir. Her bir karar düğümünde kullanılacak öznitelik değişkenleri, kullanıcının belirlemesi gereken diğer bir hiperparametre olup toplam öznitelik sayısının karekökü kadar olması tavsiye edilmektedir. Rastgele örneklemler ile inşa edilen her bir ağacın sınıflandırma sonuçları, oylama tekniğine benzer yaklaşımla ortalaması alınarak nihai sınıf kararına ulaşılır. Tahminlerin ortalamasının dikkate alınması, son sınıflandırıcıda varyansın ve sapmanın azalmasına olanak sağlamaktadır. Bu durumla güçlü ve yüksek performansta sınıflandırmalar elde edilmektedir. Ek olarak, RO algoritması eğitim veri setinin belirli bir kısmını ağaçlardan elde edilen sonuçların hata oranlarını değerlendirmek için kullanır. (Out-of-Bag, OOB) olarak adlandırılan bu veri seti, ormana ait genel sınıflandırma başarısını da hata skoruyla tespit ederek, model doğruluğunu ölçümleyebilmektedir. Sahip olduğu bu teknikler ile aşırı öğrenme (overfitting) durumuna dayanıklı olsa da gürültülü verilerin yoğunluğuna göre aşırı öğrenme eğiliminde olabilirler. RO, tıpkı Karar Ağaçları ve Gradyan Artırma algoritmaları gibi öznitelik değişkenlerinin hedef değişken üzerindeki sınıflandırıcı gücünü kullanarak öznitelik önemliliğini hesaplamaktadır. Gini indeksinin büyüklüğüne göre belirlenen öznitelik önemliliği topluluk öğrenmelerinde aşağıdaki gibi hesaplanmaktadır. 1 𝑉𝐼(𝑋𝑗) = ∑(ℎ𝑎𝑡𝑎𝑡(𝐷) − ℎ𝑎𝑡𝑎𝑡(?̃?𝑗)) (2.21) 𝑁 𝑡 Burada 𝑁, RO’da bulunan toplam ağaç sayısını, 𝑡 her bir ağacı, 𝐷 eğitim verilerini ve ?̃?𝑗, 𝑋𝑗 özniteliğinin sahip olduğu verileri temsil etmektedir. Sınıflandırma problemlerinde hata 1 – Doğruluk (Yanlış Sınıflandırma Oranı) ile ölçülürken, regresyon problemlerinde ortalama kare hata (Mean Squared Error) olarak değerlendirilmektedir. 32 2.1.7 Gradyan Artırma (Gradient Boosting) Gradyan Artırma, regresyon veya sınıflandırma modellerinde tahmin edilen değerler ile gözlemlenen değerler arasındaki uyumun iyileştirilmesi için kayıp fonksiyonun türevleri ile model optimizasyonuna izin veren bir makine öğrenme algoritmasıdır. Model optimizasyonunda kullanılan kayıp fonksiyonu için regresyon modellerinde ortalama hata kare kullanılırken, sınıflandırma modellerinde logaritmik kayıp kullanılmaktadır. Şekil 2.11: Gradyan Artırma Algoritmasının Yaygın Bir Örneği (Vasiloudis, 2019,1) Algoritmanın ardındaki yeteneği, artıklardaki örüntüleri model tahmininde parametreleştirilmiş bir yapıda kullanarak, zayıf tahmincileri iyileştirmesi ve algoritmik olarak kayıp fonksiyonunu optimize etmesidir. Bu bağlamda, artık değerlerin bir kayıp fonksiyonunun türevleri olarak toplu etkileşimli iterasyonlarla hem varyansı hem de sapmayı azaltacak şekilde bir öngörü fonksiyonunun doğruluğunu artıran kolektif bir algoritmadır. Gözlemlenen değerler ile tahmin değerleri arasındaki farkın (artıklar) her bir iterasyonda bir parametre görevi görerek tahmindeki sapmayı azaltması aşağıda bulunan adımlar ile gerçekleşmektedir. 33 Tablo 2.4: Gradyan Artırma Sözde Teknik Kodu 1. Temel Modelin Oluşturulması 𝑵 𝒇𝟎(𝒙) = 𝒂𝒓𝒈𝒎𝒊𝒏𝜸∑ 𝑳(𝒚𝒊, 𝜸) 𝒊=𝟏 2. Artıkların Hesaplanarak Model Dahil Edilmesi {(𝒙𝒊𝒚𝒊)} 𝒏 𝒊=𝟏 Eğitim veri seti, 𝑳(𝒚, 𝑭(𝒙)) türevlenebilir kayıp fonksiyonu ve M iterasyon sayısını ifade etmek üzere, • Artıkların hesaplanması: 𝝏𝑳(𝒚𝒊, 𝒇(𝒙𝒊)) 𝒓𝒊𝒎 = −[ ] 𝒊 = 𝟏, 𝟐, … , 𝐍 𝝏𝒇(𝒙𝒊) 𝒇=𝒇𝒎−𝟏 • Sözde artıkları parametreleştirip 𝒉𝒎(𝒙) yeniden eğitilmesi: 𝒏 𝜸𝒎 = 𝒂𝒓𝒈𝐦𝐢𝐧𝛄∑ 𝑳(𝒚𝒊, 𝒇𝒎−𝟏(𝒙𝒊) + 𝜸𝒉𝒎(𝒙)) 𝒊=𝟏 • Modelin güncellenmesi: 𝒇𝒎(𝒙) = 𝒇𝒎−𝟏(𝒙) + 𝜸𝒎𝒉𝒎(𝒙) 3. Nihai Çıktı ?̂?(𝒙) = 𝒇𝑴(𝒙) Yukarıda optimum modelin elde edilmesi için gerçekleştirilen iterasyonlar doğrultusunda nihai gradyan artırma modeli temel olarak aşağıdaki gibi gösterilmektedir. 𝑓𝑀(𝑥) = 𝐺0 + β1𝑇1(𝑥) + β2𝑇2(𝑥) +⋯⋯+ βu𝑇𝑢(𝑥) (2.22) Burada 𝐺0 serideki ilk değeri ifade ederken, 𝑇1,,, 𝑇𝑢 değerleri kalıntıları içeren ağaçları temsil etmektedir. β1,,, βu değerleri ağaçlardaki düğümler için katsayıları ifade etmektedir. 2.2 SINIFLANDIRMALAR İÇİN PERFORMANS ÖLÇÜLERİ Çalışmaya konu olan kredi temerrüt risk tahmininde, temerrüde düşen ve temerrüde düşmeyen olarak ikili sınıflandırmaları gerçekleştiren algoritmaların performansları için karmaşıklık matrisinden elde edilen sınıflandırma ölçüleri ve ROC eğrisinden yararlanılmaktadır. 34 2.2.1 Karmaşıklık Matrisi Karmaşıklık matrisi, algoritmaların doğrulama veya test veri setleri üzerinden gerçekleştirdiği sınıflandırmaların, dört farklı perspektif (A, B, C, D) üzerinden, gerçek gözlemlenen değerler ile karşılaştırıldığı özet matris tablosudur. Tablo 2.5: Karmaşıklık Matrisi Toplam (Tahminlenen) (Tahminlenen) Gözlemlenen Negatif Pozitif Olasılık A B 𝐴 + 𝐵 (Gözlemlenen) Negatif (Doğru Negatif) (Yanlış Pozitif) 𝐴 + 𝐵 + 𝐶 + 𝐷 C D 𝐶 + 𝐷 (Gözlemlenen) Pozitif (Yanlış Negatif) (Doğru Pozitif) 𝐴 + 𝐵 + 𝐶 + 𝐷 Toplam Tahminlenen Değer A + C B + D 𝐴 + 𝐵 + 𝐶 + 𝐷 Sınıflandırma çıktıları birbirleriyle ilişkilendirilerek aşağıdaki performans ölçüleri türetilir. Tablo 2.6: Sınıflandırma Ölçüleri Sınıflandırma Ölçüsü Formül Doğruluk 𝐴 + 𝐷 (Doğru Sınıflandırma Oranı) 𝐴 + 𝐵 + 𝐶 + 𝐷 Hassasiyet 𝐷 (Gerçek Pozitif Oranı) 𝐶 + 𝐷 Özgüllük 𝐴 (Gerçek Negatif Oranı) 𝐴 + 𝐵 1-Özgüllük 𝐵 (Yanlış Pozitif Oranı) 𝐴 + 𝐵 𝐷 Kesinlik 𝐷 + 𝐵 𝐷 (𝐶 + 𝐷) F1 Skoru 2 ∗ 𝐷 (𝐷 + 𝐵) 35 Çalışma kapsamında temerrüde düşenler pozitif, temerrüde düşmeyenler ise negatif olarak değerlendirilmiştir. Bu bağlamda, ilgili performans ölçülerinin çalışma kapsamındaki tanımlamalara aşağıda yer verilmiştir. Doğruluk oranı, temerrüde düşen ve temerrüde düşmeyen olarak gözlemlenen değerler için genel olarak ne oranda doğru tahmin edildiğinin bilgisini veren ölçüttür. Yanlış sınıflandırma oranı ise doğru sınıflandırma oranının tersi olarak, tahmin değerlerinin gözlemlenen gerçek değerlerden ne oranda yanlış sınıflandırmalar yaptığını açıklar. Diğer bir ifadeyle, gerçekte temerrüde düşenlerin, tahmin değerlerinde temerrüde düşmediğini ve gerçekte temerrüde düşmeyenlerin, tahmin değerlerinde temerrüde düştüğünün genel oranıdır. Pozitiflerin genel tahmin başarısını Tip-II hata perspektifiyle inceleyen hassasiyet oranı, gerçekte temerrüde düşenlerin, tahmin değerlerinde ne oranda temerrüde düşenler olarak sınıflandırıldığının bir ölçüsüdür. Temerrüde düşenler için Tip- I hata perspektifiyle hesaplanan diğer bir ölçüt ise, kesinlik oranı olup, tahmin değerinde temerrüde düşen olarak sınıflandırılan müşterilerin gerçekte kaçının temerrüde düştüğü bilgisini doğrulamaktadır. Negatif vakalar için hesaplanan özgüllük oranı, gerçekte temerrüde düşmeyenlerin, tahmin değerlerinde ne oranda temerrüde düşmeyenler olarak sınıflandırıldığının bir ölçüsüdür. ROC eğrisinin yatay ekseninde kullanılan ve tahmin değerlerinin kayıp oranı olan yanlış pozitif oranı (1–Özgüllük), gerçekte temerrüde düşmeyenlerin tahmin değerlerinde ne oranda temerrüde düşenler olarak sınıflandırıldığı ölçüdür. Sınıflandırıcı ölçüler tek boyutlu olmadığı için performans değerlendirmesi de tek bir ölçüt üzerinden değerlendirilmemektedir. Özellikle kredi riski perspektifinde temerrüde düşen ve temerrüde düşmeyenlerin yanlış sınıflandırılması farklı risk yapılarını ortaya çıkardığı için yukarıda tanımlanan ölçüler tek başına değerlendirilmesi kayıp risk perspektifine neden olacaktır. Bu bağlamda, yukarıda hesaplanan hassasiyet ve kesinlik ölçütlerinin harmonik ortalamasıyla elde edilen bir diğer ölçü ise F1 skoru olup, öncelikle Tip-I ve Tip-II hata perspektifleriyle hesaplanan hassasiyet ve kesinlik ölçütlerinin sınıflandırma performansını karşılaştırmak için kullanılmaktadır. Ayrıca, sınıflandırıcı algoritmaların performanslarının karşılaştırılmasında yaygın olarak kullanılan F1 skoru, modelin genel başarısını da karakterize etmektedir. 36 2.2.2 ROC (Receiver Operating Characteristic) Eğrisi Dikotom bir ölçümü tahmin etmek için kullanılan ROC eğrisi, karmaşıklık matrisinden elde edilen gerçek pozitif oranı ve yanlış pozitif oranı ölçülerinden yararlanarak, optimum kesim skorunu belirlemeye yardımcı olur. İki ölçü arasında içsel bir etkileşim bulunduğundan, dikey eksende gerçek pozitif fraksiyonu ve yatay eksende yanlış pozitif fraksiyonu olmak üzere, tipik olarak Şekil 2.12’de görüldüğü gibi bir eğri elde edilmektedir. Şekil 2.12: ROC Eğrisi Örneği (Dinov, 2018,488) ROC eğrisinde sınıflandırma başarısı için gerçekte pozitif olarak gözlemlenen değerlerin, tahminlenen pozitif oranlar (gerçek pozitif oran ve yanlış pozitif oran) arasında gerçek pozitif oranda birikmesi istenilmektedir. Dolayısıyla, gerçekte negatif olan değerlerin, pozitif olarak tahminlenmesinin (yanlış pozitif oran) düşük oranda olması beklenir. Bu bağlamda, Şekil 2.12’de bulunan kesikli mavi çizgi, yanlış pozitif fraksiyonun bulunmadığını, bu yüzden %100 olarak gerçek pozitifler ile mükemmel bir sınıflandırıcıyı ifade etmektedir. Yeşil çizgi, gerçek verilerle eğitilmiş bir modelin genelde benzer yapıda olduğu sınıflandırıcıyı ve kesikli siyah diyagonal çizgi tahmin değeri öngöremeyen bir sınıflandırıcıyı temsil etmektedir. 37 Çalışma kapsamında, farklı sınıflandırıcıların ve girdi değişkenlerin temerrüde düşen ve temerrüde düşmeyen müşteriler için yaptıkları sınıflandırmaların ayırt edici gücünü kavramak için kullanılan Gini Katsayısı, PD modellerinde yaygın olarak kullanılan bir ölçüt olup, 0 ile 1 arasında değerler almaktadır. 𝐺𝑖𝑛𝑖 = 2 ∗ (AUC − 1) (2.23) ROC eğrisinin altında kalan alan (AUC) ile hesaplanan Gini Katsayısı için eğrinin altında kalan alan büyüdükçe, test verisi için sınıflandırmanın doğruluğu da artarak 1’e yaklaşır. 2.3 ÖRNEKLEMİN BELİRLENMESİ Finansal kurumlar, maruz kalacağı riskleri tam olarak belirlemeleri için değerli bilgileri kapsayan, doğru ve güçlü modellerin kurulmasına ihtiyaç duyar. Bu kontekste, verilerden mümkün olabildiğince bilgilendirici iç görüyü keşfetmek için örnekleme ve veri kalitesi ve temizliği teknikleri uygulanır. Kredi riski perspektifinden örnekleme ihtiyacı, büyük hacimli verilerin işlenmesinin zaman alıcı olmasından, dengesiz sınıf dağılımına sahip olmasından (temerrüde düşen/düşmeyen) ve hedef kitleyi en iyi temsil edecek zamansal aralığın belirlenmesinden kaynaklanmaktadır. Özellikle sınıf dağılımının dengesiz yapıda olduğu bir veri seti ile model oluşturmanın, kitledeki yoğunluğun davranışına eğilimli yönde sonuçlar ürettiği görülmektedir. Buna benzer yanlı tahminlerin oluşumuna engel olmak için sınıf dağılımı dengede tutularak yanlılık ortadan kaldırılmaktadır. Diğer yandan örneklemin belirlendiği zaman çizelgeleri de mevsimsellik açısından aynı derece önemlidir. Küresel ekonomik koşullar veya bayramlar gibi harcama eğilimi farklı eğilimler gösterebilmektedir. Bu doğrultuda normal iş dönemi belirlenerek örneklem yapısı dengelenmelidir. Yukarıda bulunan yaklaşımlar doğrultusunda, hedef kitleyi temsil edecek bir örneklem kümesi elde etmek için tabakalı örnekleme yöntemi kullanılarak, birbirine benzer alt gruplar oluşturulmaktadır. Bu adımla veri kümesindeki denge sağlanarak, tahminlerde hatayı azaltmak amaçlanmaktadır. 38 2.4 DEĞİŞKEN İNDİRGEME METOTLARI Yapılan kredi risk tanımlarından yola çıkarak, müşteriye ait demografik bilgiler, tarihsel olarak banka ile ilişkili ürün sayısı ve boyut bilgileri, ödeme performansları, temerrüt geçmişi ve dış kaynaklardan elde edilen kredi puanları gibi birçok parametre, müşterinin kredi risk profilinin oluşturulmasında kullanılan risk faktörleridir. Bu doğrultuda veri kümesinde bulunan tüm değişkenler içinde, hedef profili tanımlayıcı güce sahip olan değişkenlerin belirlenmesinde, istatistiksel teknikler kullanılarak değişken indirgeme yöntemleri gerçekleştirilmektedir. Çağımızda sıklıkla karşılaştığımız büyük boyutlu veri setlerindeki karmaşıklığın azaltılması için veri kalitesi ve temizliği işlemleri, sütun olarak değişkenler için de uygulanma ihtiyacı duymaktadır. Bu işlemler model performansını artırırken işlem süresinde de iyileştirmeler sağlayabilmektedir. 2.4.1 Kayıp ve Aykırı (Uç) Değerler Tespiti Büyük veri kümelerinde doğal olarak ortaya çıkan problem, verilerdeki eksik değerlerin varlığıdır. Bunun nedeni, insan atıf hatası, bilgilerin işlenebilir olmaması ve kişisel bilgilerin gizliliği kapsamında açıklanmaması gibi bir dizi nedenden kaynaklanabilmektedir. Karar ağaçları gibi algoritmalar bu tür kayıp veriler ile doğrudan başa çıkarak anlamlı yaklaşımlar sergileyebilirler. Ancak diğer algoritmalar için aynı durum söz konusu olmayabilir. Bu noktada kayıp değerler için bir ön işleme ihtiyacı duyulur. Geçmişten günümüze kayıp veriler için birçok ön işleme metodu geliştirilmiştir. Kayıp verilere müdahale etmeden analizde yer verme, silerek analiz dışı bırakma, yaklaşık değer atama veya istatistiksel metotlar ile değer atama, kayıp verileri ön işlemede kullanılan metotlardan bazılarıdır. Kayıp değerler özellikle finansal risk konularında yüksek derecede öneme sahip olabilirler. Örneğin müşteriye ait eksik bir bilgi kendi içinde dolandırıcılık davranışı gösterebilir. Kayıp değerleri içinde barındıran bir bilginin silinmesi için kayıp değerlerin yoğunluğu ile karar verilebilir. Diğer yandan kayıp değerlere yaklaşık veya istatistiksel metotlar ile değer atama tekniklerinde tutarlı olmak gerekmektedir. Bu kontekste, %70 oranında kayıp veri yoğunluğuna sahip değişkenler için bir eleme eşik değeri 39 belirlenmiştir. Eşik değerin altında kalan ve kayıp veri barındıran değişkenler için Karar Ağacı algoritması ile kayıp veriler için bir tahminsel atama işlemi esas alınmıştır. Büyük veri kümelerinde ortaya çıkan bir diğer problem ise aykırı değerlerin görülmesidir. Bunun nedeni tıpkı kayıp verilerdeki insan atıf hatasından kaynaklanabileceği gibi gözlemler içinde geçerli ancak boyut dışı bir değere sahip olmasından kaynaklanır. Örneğin bir şirkette çalışanların maaşları analiz edilirken, yöneticinin maaşı ile ofis personellerin maaşları arasında olağandışı bir gözlem olarak kabul edilebilir. Bu tür olağandışı gözlemler ile model eğitmenin sakıncaları olabileceği için aykırı değerler yaklaşık değer atama yöntemleriyle dönüştürülebilir veya analiz dışı bırakılabilirler. 2.4.2 Varyans Eşiği Değişkenlerin dağılımına göre belirlenen varyans eşikleme, değişkenlerin indirgenmesine yönelik en temel yaklaşımlardan biridir. Büyük boyutlu veri setlerinde varyans eşikleme tekniğinin, değişken indirgeme sürecinin ilk adımlarında uygulanması önerilerek, özellikle model süre performansına pozitif etki ettiği söylenebilmektedir. Tekniğin motive noktası, düşük varyansa sahip olan değişkenlerin, yüksek varyansa sahip olan değişkenlere göre model için daha az kullanışlı olmasıdır. Nitekim bir değişkene ait değerlerin neredeyse tamamının aynı değere sahip olması, yaklaşık sıfır varyans özelliğini taşıdığı anlamına gelebileceği için model için anlamlı bir etkisinin olmayacağı öngörülmektedir. Bu bağlamda, değişkenlerin her birine ait varyans değeri hesaplanarak, belirlenen eşik değerine göre değişken indirgeme işlemi gerçekleştirilir. 2.4.3 Kanıt Ağırlığı Dönüşümü Başlangıçta krediler için skor kartı geliştirmelerinde kullanılan Kanıt Ağırlığının (Weight of Evidence), son yıllarda kredi riski modellerinde segmentasyon ve değişken seçiminde kullanımı yaygınlaşmıştır. Özellikle PD modellemede temerrüt riskini tahmin etmeye yönelik kullanılan Kanıt Ağırlığı, öznitelik değişkeni içindeki niteliklerin (grupların) hedef değişken üzerinden tahmin yeteneğini ifade eder. WOE değeri, iyi ve kötü riskin ayrıştırılması için gruplandırmanın gücünü kullanarak, benzer yapıda bulunan nitelikleri aynı grupta birleştirir. Nitelik bazında hesaplanan WOE dönüşümü aşağıdaki formül ile elde edilmektedir. 40 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 𝑁𝑖 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 𝑝 𝑁𝑖 𝑇𝑜𝑝𝑙𝑎𝑚 𝑊𝑂𝐸𝑖 = ln ( )𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟 = ln (2.24) 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟 𝑝 𝑖 𝑁𝑖 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟 ( 𝑁𝑇𝑜𝑝𝑙𝑎𝑚 ) 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 𝑁𝑖 = Gruptaki temerrüde düşmeyenlerin sayısı 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 𝑁𝑇𝑜𝑝𝑙𝑎𝑚 = Toplam temerrüde düşmeyenlerin sayısı 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟 𝑁𝑖 = Gruptaki temerrüde düşenlerin sayısı 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟 𝑁𝑇𝑜𝑝𝑙𝑎𝑚 = Toplam temerrüde düşenlerin sayısı WOE perspektifi log-odds yaklaşımına dayandığı için Lojistik Regresyon algoritması için oldukça uygun bir yapıdadır. Logit dönüşümü tüm olayların (iyi ve kötü) olasılıklarını ifade ettiği için WOE dönüşümleri her bir niteliği standartlaştırır. Bu durum Lojistik Regresyonda kullanılan parametrelerle karşılaştırma imkânı sunar. Müşteri yaşına göre WOE hesaplanmasının örneğine Tablo 2.6’te yer verilmiştir. Tablo 2.7: WOE Hesaplaması Örneği Temerrüde Temerrüde Temerrüde Temerrüde Aralık Grup Düşmeyenler Düşenlerin WOE IV Düşmeyenler Düşenler Oranı Oranı 18-25 1 185 202 %9 %45 -1.568 0.556 26-35 2 305 143 %15 %32 -0.722 0.118 36-45 3 550 75 %28 %17 0.513 0.057 46≥ 4 941 31 %48 %7 1.933 0.785 Toplam 1981 451 1.516 2.4.4 Bilgi Değeri Bilgi Değeri (Information Value), öznitelik değişkenlerinin hedef değişken üzerindeki tahmin performanslarına göre modeldeki önemi sıralanarak, değişkenin ayırt edici tanısal bilgi miktarını ifade etmektedir. Bilgi değeri ne kadar büyükse, ayırt etme özelliği de o kadar güçlüdür. Tüm bilgi değerleri için alt sınır 0 olmakla beraber üst sınırı yoktur. 41 Kredi riski modellemesinde Kullback sapma ölçüsü olarak adlandırılan bilgi değeri, kredilerini ödeme durumuna göre belirlenen iyi ve kötü müşteriler arasındaki dağılım farkını ölçümler. Değerlendirilen her niteliğe ait indekse (i) ve toplam niteliklerin sayısına (k) göre aşağıdaki gibi hesaplanmaktadır. 𝑘 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟 𝑁 𝑁 𝐼𝑉 =∑( 𝑖 𝑖 )𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 − 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟 ∗ 𝑊𝑂𝐸𝑖 (2.25) 𝑁 𝑖=1 𝑇𝑜𝑝𝑙𝑎𝑚 𝑁𝑇𝑜𝑝𝑙𝑎𝑚 Temel olarak 0.02’den küçük olan bir bilgi değeri modelleme için kullanışlı olmayabilir. 0.02 ila 0.1 arasındaki bilgi değeri zayıf bir ayırt etme özelliğine sahip olduğunu gösterirken, 0.1 ila 0.3 arasındaki bilgi değeri modelleme için kabul edilebilir. 0.3 veya daha büyük bir bilgi değeri ayırt etme özelliğinin güçlü olduğunu ifade eder. Değer 1’e yaklaştıkça gerçek olmayacak kadar güçlü bir durum söz konusu olduğunda şüpheli yaklaşılmalıdır. 2.4.5 Değişken Kümeleme Değişkenlerin indirgemesinde kullanılan bir diğer yaklaşım, değişken kümeleme tekniğidir. Özellikle değişkenler arasındaki yüksek korelasyonu veya kovaryansın tanımlanmasında oldukça yetenekli olan bu teknik, birbirine benzer yönde hareket eden değişkenleri bir kümede toplayarak, değişkenlerden ayrık veya hiyerarşik kümeler elde eder. Her küme içerisinden tahmin gücü yüksek düzeyde olan değişken belirlenerek, küme içerisinde bulunan değişkenleri analitik yapısı gereği temsilen seçilir. Dolayısıyla değişken kümeleme tekniği kullanılarak hem değişkenlerin indirgenmesi hem de çoklu bağlantının önlenmesi sağlanmış olur. Algoritmanın uygulanmasında SAS’ın VARCLUS prosedürü ile elde edilen kümelerin toplam varyansını maksimize etmesi beklenmektedir. Prosedür, temel bileşenler analizinden faydalanarak, birbirine benzer yönde hareket eden değişkenleri bir kümede ve ilişkili olmayan değişkenleri ayrı bir kümede tutar. Bu işlemle beraber gerekli bulunmayan değişkenlerin elenerek boyutun indirgenmesi sağlanır. VARCLUS prosedürü ile yapılan kümeleme işleminden sonra alt boyutların incelenmesi için belirlenen eşik değerini kullanarak, ikinci özdeğerin bu değerin altında olması beklenir. Eğer ikinci özdeğer bu eşik değerden yüksek ise küme birden fazla boyuta sahiptir ve bölünerek tekrar eşik değer kontrolü yapılır. Bu durum Şekil 2.13’de 5 değişkenli ilk 42 küme, 4 ayrı bölünmeyle gösterilmiştir. İlk bölünmede X1 ve X4 açıklanan belirli bir varyasyon yüzdesine sahip olarak eşik değerin altında bir küme oluşturmuştur. Diğer değişken kümesi (X2, X3, X5) eşik değerin üstünde kaldığı için tekrar bölünme uygulanmış ve eşik değerin altında iki ayrı küme elde edilmiştir. Bu durum aynı zamanda maksimum küme sayısına ulaşıldığını ifade etmektedir. Şekil 2.13: VARCLUS Kümeleme Prosedürü Örneği VARCLUS prosedüründen elde edilen çıktı tablosu, maksimum küme sayısını, her kümeye ait değişken bilgisini ve değişken seçimi yapılabilmesi için kümenin R2’sini, en yakın kümenin R2’sini ve kümenin 1–R2’sini vermektedir. 1 − 𝑅2 2 𝑘𝑒𝑛𝑑𝑖 𝑘ü𝑚𝑒𝑠𝑖1 − 𝑅 = 2 (2.26) 1 − 𝑅𝑒𝑛 𝑦𝑎𝑘𝚤𝑛 𝑘ü𝑚𝑒 Değişken seçim sürecinde, küme içinde en yüksek korelasyona sahip olan değişkenin aynı zamanda diğer kümeler arası korelasyonunun düşük olması tercih edilmelidir. Bu kontekste, en düşük 1–R2 oranı kümeyi en iyi temsil eden değişken olarak kabul edilebilir. Ancak kredi riski perspektifinde, hedef değişkeni ile daha net ilişkisel yapıda olan değişken sektör bilgisiyle sürece dahil edilebilir. 2.4.6 LASSO (En Küçük Mutlak Daralma ve Seçim Operatörü) Literatürde ilk defa 1996 yılında Robert Tibshirani tarafından kullanılan LASSO yöntemi, regresyon modeline dahil edilen λ ceza parametresiyle, tahmin gücüne bağlı olarak aday tahmincilerin katsayılarının mutlak boyutunu daraltmaktadır. Katsayılara uygulanan cezalandırma işlemi, tahmin gücü yüksek düzeyde olan değişkenlerin katsayılarını küçültürken, düşük düzeydeki tahmincilerin katsayılarını sıfıra kadar 43 indirebilmektedir. Bu yöntem ile katsayıları sıfıra indirilen değişkenlerin model performansına katkı sağlamadığı kabul edilerek, değişken indirgeme işlemi de gerçekleştirilmiş olur. 2 𝑛 𝑝 𝑝 𝐿𝐴𝑆𝑆𝑂 = min [∑(𝑦𝑖 − 𝛽0 −∑𝑥𝑖𝑗𝛽𝑗) + 𝜆∑|𝛽𝑗|] (2.27) 𝑖=1 𝑗=1 𝑗=1 LASSO regresyonu içerisinde bulunan sabit ceza parametresi (λ), k-katlamalı çapraz doğrulama yöntemi ile elde edilmektedir. Sabit ceza parametresinin belirlenmesi için uygulanan çapraz doğrulama işlemi, ek olarak modelin aşırı öğrenmesinin de önüne geçmektedir. Bu bağlamda LASSO yöntemi, nihai değişkenlerin belirlenmesi, modelin geliştirilmesi ve nihai modelinin seçilmesinde oldukça faydalı bir teknik olarak değerlendirilmektedir. 44 ÜÇÜNCÜ BÖLÜM VERİ KALİTESİ VE MODEL GELİŞTİRME 3.1 VERİ SETLERİNİN TANIMLANMASI Analizlerde modele girdi olacak veri kümesi, Kaggle’ın açık erişiminde bulunan Home Credit tarafından sağlanmaktadır. Merkezi Hollanda’da bulunan şirket, 1997’de Çek Cumhuriyeti’nde kurulmuş ve Slovakya, Rusya, Çin, Vietnam, Kazakistan, Hindistan, Endonezya ve Filipinler olmak üzere 9 ülkede faaliyet göstermektedir. Şirketin kredi verme kitlesi öncelikli olarak kredi geçmişi çok az olan veya hiç olmayan kişilerden oluşmaktadır. Bu politikayla daha fazla müşteriyi hedefleyen şirket ne kadar çok kredi sunarsa o kadar yüksek riskli konut kredisine maruz kalacaktır. Bir müşterinin temerrüde düşme olasılığını belirlemek, bu noktada şirket için kritik bir karar olmaktadır. Hedef kitlenin temerrüt olasılığını belirlemek için çok çeşitli geçmiş bilgilerinden yararlanılmaktadır. Analitik girdileri kapsayan temel veri kümesi, yedi farklı veri setinden meydana gelmektedir. Başvuru veri seti, tüm başvuru sahiplerinin daha önce temerrüde düşüp düşmediği gibi statik verilerin ve demografik bilgilerin bulunduğu diğer bazı bilgileri içerir. Diğer veri setleri kredi bürosundaki önceki başvuru bilgileri, kredi kartı bakiye ve ödeme bilgileri, daha önce alınan kredi bilgileri, müşterilerin daha önce almış olduğu konut kredilerine ait davranışsal bilgileri, önceki konut kredilerine ait ödeme geçmişi bilgileri ve kredi bürosundan gelen aylık davranışsal bilgilerden oluşmaktadır. Bu veri setlerinden elde edilen 1460 açıklayıcı (öznitelik) değişken, 307510 gözleme sahiptir. Çalışma kapsamında, hedef değişken değerlerindeki temerrüde düşenler 1, temerrüde düşmeyenler 0 olarak tanımlanmıştır. 3.2 KULLANILAN YAZILIM VE PROGRAMLAMA DİLLERİ Birçok farklı sektörün analitik yazılım ihtiyacını karşılayan SAS’ın, özellikle finans sektöründeki ürünlerinin kullanımı oldukça yaygın olup, kredi skorlama modelleri için sahip olduğu modüller sayesinde analitik ve bütünlük avantajı sağlamaktadır. Uygulama kapsamında, SAS Enterprise Guide ürünü ile analitik girdi veri seti 45 oluşturulmuş ve diğer analitik geliştirmeler ve makine öğrenmesi algoritmaları SAS Enterprise Miner modülleri kullanılarak gerçekleştirilmiştir. 3.3 ÖZNİTELİK SEÇİMİ (DEĞİŞKEN İNDİRGEME) Analitik modellerde girdi olarak kullanılacak değişkenlerin belirlenmesi, model tahmin gücünü doğrudan etkileyen faktördür. Aynı zamanda girdi olarak kullanılacak gözlemler içinde bu durum geçerlidir. Bu iki perspektifle, temel veri seti üzerinden hem satır (gözlem) hem de sütun (değişken) bazlı indirgeme işlemi bir boyut azaltma tekniğidir. Diğer bir ifadeyle, temel veri seti üzerinden örneklem belirleme ve değişken indirgeme işlemleri, yatay ve dikey perspektifle boyut azaltma teknikleridir. Bu kontekste, aşağıda uygulanan istatistiksel veri analizleri ile modelin tahmin performansını güçlendirecek değişkenler ve örneklem elde edilmiştir. 3.3.1 Kayıp Değer Oranı ile Öznitelik Seçimi Örneklem öncesi yapılan değişken indirgeme sürecine kayıp değer elemesiyle başlanmaktadır. Buradaki öncelik analitik değerlendirilebilirliğine olanak sağlayacak bir model veri kümesi elde etmektir. Bu yaklaşımla, kayıp değerler analizi uygulanmış ve değişken bazında kayıp değer oranları elde edilmiştir. Mevcutta sahip olunan 1460 değişken içerisinden 461 değişkenin, eşik değeri olarak belirlenen %70’in üstünde kayıp gözleme sahip olduğu tespit edilerek analiz dışı bırakılmıştır. Tablo 3.1: Kayıp Değer Oranı ile Öznitelik Seçimi Sahip Olunan Eleme Sonrası Belirlenen Eşik Değeri Öznitelik Sayısı Öznitelik Sayısı 1460 %70'in Altında Kayıp Değer Oranı 999 3.3.2 Varyans Eşiği ile Öznitelik Seçimi Bir diğer değişken indirgeme metodu değişkenlerin dağılımı ile ilgilidir. Eğer bir değişkenin dağılımı yaklaşık sıfır varyans özelliğini taşıyorsa, bu değişkenin hedef değişken üzerinde anlamlı bir etkisi beklenmemektedir. Diğer bir ifadeyle, değişkene ait değerlerin neredeyse tamamı aynı değere sahip ise değişkenin modele katkısının yüksek olmayacağı öngörülmektedir. Bu bağlamda, değişkenlerin dağılımları için 0.01’lik varyans eşik değeri belirlenmiş ve her bir değişkenin kendi içinde %99 oranda aynı 46 değerlere sahip olması durumunda analiz dışı bırakılmasına karar verilmiştir. İncelenen 999 değişken içinden 86 değişkenin %99 oranında aynı değerlere sahip olduğu analiz edilmiştir. Eleme sonrası kalan değişken sayısına Tablo 3.2’de yer verilmiştir. Tablo 3.2: Varyans Oranı ile Öznitelik Seçimi Sahip Olunan Eleme Sonrası Belirlenen Eşik Değeri Öznitelik Sayısı Öznitelik Sayısı 999 0.01’in Üstünde Varyans Oranı 913 3.3.3 Bilgi Değeri (IV) ile Öznitelik Seçimi Bilgi değeri, öznitelik değişkenlerinin hedef değişkeni ayırt edici tahmin gücünü değerlendirmek için kullanılan kullanılırken, bu bölümde değişkenlerin indirgenmesi için kullanılmıştır. SAS Enterprise Miner ortamında Interactive Grouping düğümü yardımıyla gerçekleştirilen bu işlem ile her bir açıklayıcı değişkenin ayırt edici Bilgi Değeri elde edilmiştir. Düğüm, ayrıca Bilgi Değerine alternatif olarak her açıklayıcı değişken için Gini katsayısını hesaplar. Değişkenlerin anlamlılık gücünü ölçmek için her iki istatistiksel analiz de kullanılabilmektedir. Analiz sonucunda düğüm, temerrüt riskini ayrıştırmak için her bir açıklayıcı değişkeni, hedef değişken üzerinden farklı risk gruplarına göre ağırlıklandırır. Temerrüde düşenler ile düşmeyenler oranını karşılaştırmaya dayanan gruplandırma işleminden bir WOE (Kanıt Ağırlığı) değeri elde edilir. Çalışmanın bu sürecinde, Gini katsayısı ve WOE’li halleriyle gruplandırılmış değişkenler bir ölçü olarak incelenmiştir. Değişkenlerin açıklayıcı ölçütü olarak Bilgi Değeri kullanılmış ve çalışma konusu olan temerrüt olasılığı kapsamında, öznitelik değişkenlerinin iyi ve kötü kredileri ayırt etme yeteneğine göre önem sırası oluşturulmuştur. Değişkenlerin ayrıştırıcı gücü için belirlenen 0.1’lik eşik değerinin altında kalan 866 değişken elenerek analiz dışı bırakılmıştır. Tablo 3.3: Bilgi Değeri (IV) ile Öznitelik Seçimi Sahip Olunan Eleme Sonrası Belirlenen Eşik Değeri Öznitelik Sayısı Öznitelik Sayısı 913 0.1’in Üstünde Bilgi Değeri Oranı 47 47 3.3.4 Aykırı (Uç) Değerlerin Elemesi Tahmin çıktılarının kalitesi, büyük ölçüde girdi değerlerinin kalitesi tarafından belirlenmektedir. Bu yaklaşımla, aykırı değerlerin geliştirdiğimiz modelde istatistiksel varsayımları ihlal etmemesi için veri kümesinden kaldırılması veya dönüştürülmesi son derece önemlidir. Bununla beraber, kayıp değerlerin tahmini veya doldurulması gibi analitik süreçlerde de sapmalara neden olmaması için aykırı değerlerin temizliği kritik öneme sahiptir. Çalışma kapsamında aykırı değerlerin tespiti için her bir açıklayıcı değişkene ait ortalama, minimum, maksimum ve 90’ıncı yüzdelik dilimi incelendiğinde, gözlemler arasındaki değişkenliğin yüksek olduğu belirlenmiştir. Aykırı değerlerin, örnekleme olan etkisini azaltması için 90’ıncı yüzdelik dilimin üzerinde bulunan 11692 gözlem, aykırı değer olarak kabul edilerek analiz dışı bırakılmıştır. Eleme sonrası kalan gözlem sayısına Tablo 3.4’de yer verilmiştir. Tablo 3.4: Aykırı (Uç) Değerlerin Elemesi Sahip Olunan Eleme Sonrası Belirlenen Eşik Değeri Gözlem Sayısı Gözlem Sayısı 307510 90. Yüzdelik Dilim 295818 3.3.5 Örneklemin Belirlenmesi Kredi riski modellemesinde, temerrüt sayısı genellikle temerrüt olmayan popülasyona göre önemli ölçüde düşüktür. İyi ve kötü kredilerin sınıf dağılımındaki bu dengesiz durum, model geliştirme sürecinde verimsizliğe neden olabileceğinden, genellikle temerrüde düşenler ile düşmeyenler arasında tabakalı örneklem yöntemiyle dengeli bir yol izlenmektedir. Bu bağlamda ham veri setinde bulunan 295818 müşteriye ait sınıf dağılımı incelenmiş ve temerrüde düşmeyenlerin sayısının temerrüde düşenlere oranla yaklaşık 12 kat daha fazla olduğu tespit edilmiştir. Tüm popülasyonun %92’sini oluşturan iyi kredilerin, model geliştirme sürecinde sapmaya neden olmaması için tabakalı örneklem metodolojisiyle her iki sınıftan eşit sayıda örneklem belirlenmiştir. Elde edilen veri kümesine düşen gözlem sayısına Tablo 3.5’te, örneklem öncesi popülasyonun ve nihai olarak elde edilen popülasyonun grafik dağılımına Grafik 3.1’de yer verilmiştir. 48 Tablo 3.5: Örneklemin Belirlenmesi Sahip Olunan Örneklem Sonrası Belirlenen Örnekleme Yöntemi Gözlem Sayısı Gözlem Sayısı 295818 1:1’lik (%50 İYİ + %50 KÖTÜ) Tabakalı Örnekleme 47374 Grafik 3.1: Örneklem Öncesi ve Örneklem Sonrasına Ait İYİ-KÖTÜ Dağılımı Veri kalitesi ve model geliştirme bölümünde, nihai örneklem seti üzerinden kayıp değerlerin tahmini ve değişken indirgeme işlemlerine devam edilmiş olup, makine öğrenmesinin temel alt yapısını oluşturan verilerin bölünme işlemi gerçekleştirilmiştir. Bu kontekste, modellerin eğitilmesi ve en iyi ağırlıkların elde edilmesi için veri setinin %60’ı eğitim, eğitilen modellerin aşırı öğrenmesini önlemek ve sınıflandırma performansını değerlendirmek için %20’si doğrulama ve modelin tahmin yeteneğini ölçmek için %20’si test veri seti olarak ayrılmıştır. 3.3.6 Kayıp Değerlerin Atamasında Ağaç Tabanlı Yaklaşım Analitik model verisini zenginleştirmek için kayıp değerlerin doldurulması veya tahmin edilme işlemi, değişkenlerin yapısına doğrudan etki ettiği için bu süreçte tutarlı olmak oldukça önemlidir. Kredi riski perspektifinden, kayıp değerlerin doğru atamasının yapılmaması, müşterilerin risk sınıfını doğrudan etkileyeceği gibi elde edilecek kâr ve müşteri kaybı gibi risk sonuçlarını doğurabilir. Bu bağlamda, kayıp değerler için yapılacak tahmin atamalarındaki sapmanın minimum düzeyde olması için müşterilerin statik ve davranışsal bilgilerinden benzerliklerine göre tahminsel atama gerçekleştiren 49 ağaç tabanlı atama tekniği uygulanmıştır. Her değişken için kayıp değerler yerine atanacak değeri, veri setindeki diğer değişkenlere bağlı olarak tahmin eden bir Karar Ağacının, ortalama, medyan veya olasılık dağılımı gibi yöntemlere göre daha tutarlı değerler ürettiği görülmüştür. Örneklem içinde bulunan 47 değişkene ait kayıp değerlerin oranları tekrar incelenmiş ve belirlenen %30’luk eşik değerinin üstünde kayıp değere sahip olan değişkenler, ağaç tabanlı kayıp değerlerin atamasında daha tutarlı sonuçlar üretmesi için girdi olarak kullanılmamıştır. Analitik model verisinin geliştirilme sürecine, örneklem veri setindeki kayıp verilerin atama işlemiyle birlikte, değişken indirgeme adımları ile devam edilmiştir. 3.3.7 Değişken Kümeleme Tekniği ile Öznitelik Seçimi Değişken kümeleme, aralarında yüksek düzeyde ilişki barındıran değişkenlerin elenmesi için oldukça iyi sonuçlar üreten güçlü bir tekniktir. Analitik model veri kümesinin temel yapısını, sınıflandırma gücü yüksek düzeyde olan değişkenler ile ortaya çıkaran bu teknik, oluşabilecek çoklu bağlantı sorununun da önüne geçmektedir. İlgili çalışma kapsamında, SAS Enterprise Miner’ın Variable Clustering düğümü kullanılarak, birbirine benzer yönde hareket eden değişkenler, aralarındaki korelasyonu dikkate alarak bir kümede konumlandırılmıştır. Aynı kümede bulunan değişkenler birbirleri arasında yüksek düzeyde korelasyona sahip iken, diğer kümelerde bulunan değişkenler ile düşük düzeyde bir ilişkiye sahiptirler. Gerçekleştirilen değişken kümeleme analizi sonucunda elde edilen küme sayısı ve kümelere düşen değişken sayısına Grafik 3.2’de yer verilmiştir. Grafik 3.2: Değişken Kümeleme Tekniği ile Küme Bazında Değişken Sayısı 50 Değişken kümeleme tekniği ile elde edilen kümelerin, değişken bazında gösterimine Grafik 3.3’de yer verilmiştir. Grafik 3.3: Değişken Kümeleme Grafiği Analiz sonucunda düğüm, söz konusu kümelere ve değişkenlere ilişkin, R2 oranını, diğer en yakın kümenin R2 oranını ve 1-R2 oranıyla 3 farklı istatistik bilgisi vermektedir. Sahip olunan bu bilgiler doğrultusunda, istatistiki olarak benzer bilgi değeri taşıyan kümelenmiş değişkenler içinden temsilci değişkenler 1-R2 oranı ile belirlenmiştir. Her kümede minimum 1-R2 oranına sahip olan değişken, temsilci değişken olarak seçilmiştir. Tablo 3.6: Değişken Kümeleme ile Öznitelik Seçimi Sahip Olunan Eleme Sonrası Belirlenen Eleme Kriteri Öznitelik Sayısı Öznitelik Sayısı 47 Korelasyon ile Değişken Kümeleme 17 Değişken kümeleme tekniği ile elde edilen 17 değişkene ilişkin korelasyon matrisi incelenmiş olup, aralarındaki ilişkinin %75’in altında olduğu görülmüş ve korelasyon sebebiyle herhangi bir elemeye gidilmemiştir. 51 Grafik 3.4: Değişken Kümeleme Sonrası Korelasyon Matrisi 3.3.8 LASSO ile Nihai Özniteliklerin Belirlenmesi Uygulanan birçok farklı değişken indirgeme teknikleriyle elde edilen 17 değişken arasından, modelleme öncesi nihai değişkenlerin belirlenme işlemi LASSO tekniği ile gerçekleştirilmiştir. K-katlamalı çapraz doğrulama yöntemiyle model performansına ve makine öğrenmesi tekniğine pozitif katkı sağlayan LASSO, geleneksel yaklaşımlara göre makine öğrenmesi tekniklerinde çoklu fayda sağlayan bir teknik haline gelmiştir. Bu bağlamda, eğitim veri seti 10 parçaya bölünerek k-katlamalı çapraz doğrulama ile modelin tahmine dayalı performansı değerlendirilmiştir. Sahip olduğu λ ceza parametresiyle katsayıların mutlak boyutunu daraltan LASSO tekniği, uygulama kapsamında düşük düzeydeki tahmincilerin elenerek analiz dışı bırakılmasını sağlamıştır. Toplamda 17 değişken ile gerçekleştirilen LASSO analizine ait katsayıların daraltılma adımlarına Grafik 3.5’te yer verilmiştir. 52 Grafik 3.5: Katsayıların Daraltılma Grafiği Değişkenlerin modelde yer almasında göre katsayı değerlerinin adım adım değişikliğini gösteren grafiğin (Standardized Coefficient), dikey çizgisi, eğitim ve doğrulama verisi üzerinden optimal modele karşılık gelen adımı ifade etmektedir. Ek olarak, eğitim veri setinin 10 parçaya bölümlenmesiyle gerçekleştirilen k-katlamalı çapraz doğrulamadan elde edilen çıktılara iç grafikte (CV PRESS) yer verilmiştir. Minimum kalıntı kareler toplamına sahip modeli, optimal model olarak seçen k-katlamalı çapraz doğrulama tekniği, yine grafiğin dikey çizgisine karşılık gelen adımında elde etmiştir. Modellemenin optimal noktasında sahip olunan 9 öngörücü ve nihai model girdi değişkenlerine ilişkin açıklamalarına Tablo 3.7’de yer verilmiştir. Diğer tüm girdi değişkenleri, katsayı değerlerinin sıfır olması sebebiyle elenerek analiz dışı bırakılmıştır. Ek olarak, nihai girdi değişkenleri için nihai korelasyon kontrolü gerçekleştirilmiş olup, aralarındaki ilişkinin %30’un altında olduğu görülmüş ve herhangi bir elemeye gidilmemiştir. 53 Tablo 3.7: Nihai Öznitelikler ve Açıklamaları Öznitelik Açıklama Başvuru sahibinin ilgili başvurudan kaç gün önce bir iş yerine A_DAYS_EMPLOYED istihdam edildiği gün sayısıdır İlgili başvuru için harici veri kaynağından elde edilen başvuru A_EXT_SOURCE_MEAN sahibine ait skor puanlarının ortalaması A_LOAN_RATE İlgili başvuru için istenilen kredi tutarının verilen kredi tutarına oranı İlgili başvuru sahibinin yaşadığı şehri dikkate alarak Home Credit’in A_RRCWC bölgedeki reyting oranı İlgili başvuru sahibinin Kredi Kayıt Bürosundaki aktif olan ortalama B_CA_A_MEAN kredi sayısının, ödenmemiş kredilerin sayısına oranı İlgili başvuru için Kredi Kayıt Bürosundaki aktif olan kredi B_DCE_MAX ürünlerinin ödemelerine kalan maksimum gün sayısı İlgili başvuru sahibinin bir önceki kredide gerçekleştirdiği minimum IP_AP_MIN_MIN ödeme miktarının, aktif kredilerine yaptığı minimum ödeme miktarına oranı PA_NCS_R_MEAN Önceki başvuruların sözleşmelerine ilişkin ortalama reddedilme oranı İlgili başvuru sahibinin başvuruda bulunduğu önceki bankada düzenli PA_NPRT_W_MEAN hesabı bulunmama durumunun ortalaması 3.4 MODEL GELİŞTİRME Çalışmanın bu bölümünde değişken indirgeme teknikleri ile elde edilen nihai öznitelik değişkenleri kullanılarak, kredilerin temerrüt riski (0-1) yukarıda ele alınan sınıflandırma algoritmaları ile belirlenmeye çalışılacak ve kullanılan algoritmaların sınıflandırma performansları karşılaştırılacaktır. 3.4.1 Lojistik Regresyon ile Model Geliştirme Nihai öznitelik değişkenleri ile kurulan Lojistik Regresyon modelinde backward (geriye doğru eleme) metodu kullanılarak, %95 güven düzeyinde değişkenlerin 54 anlamlılığı test edilmiştir. Tekniğin ilk adımında nihai değişkenler arasından B_DCE_MAX değişkenine ait p değerinin 0.5422 olması sebebiyle elenerek modelden çıkartılmıştır. İkinci adımda kurulan modelde tüm değişkenlerin önemlilik değerleri 0.05’ten küçük olması sebebiyle backward yöntemi optimal Lojistik Regresyon modelini aşağıdaki değişkenler ile elde etmiştir. Tablo 3.8: Lojistik Regresyon Katsayıları Parametre Tahmini Katsayı Standart Hata Wald X2 Pr > X2 Intercept 1.8792 0.0909 426.92 <.0001 A_EXT_SOURCE_MEAN -4.5121 0.093 2354.49 <.0001 A_RRCWC 0.1466 0.0265 30.68 <.0001 A_DAYS_EMPLOYED 0.000099 6.91E-06 207.3 <.0001 A_LOAN_RATE -2.009 0.5996 11.23 0.0008 B_CA_A_MEAN 0.3665 0.046 63.54 <.0001 IP_AP_MIN_MIN -0.00002 1.95E-06 96.7 <.0001 PA_NCS_R_MEAN 0.7549 0.0693 118.72 <.0001 PA_NPRT_W_MEAN 0.5806 0.0704 67.92 <.0001 Yukarıdaki kurulan Lojistik Regresyon modeli kullanılarak eğitim ve doğrulama veri setleriyle gerçekleştirilen sınıflandırma oranlarına aşağıda yer verilmiştir. Tablo 3.9: Eğitim ve Doğrulama Veri Setleri ile Lojistik Regresyona Ait Sınıflandırma Oranları Gerçek Değer Tahmin Değeri Eğitim Doğrulama Temerrüde Düşmeyen Temerrüde Düşmeyen %33.97 %33.71 Temerrüde Düşen Temerrüde Düşmeyen %17.09 %16.91 Temerrüde Düşmeyen Temerrüde Düşen %16.03 %16.29 Temerrüde Düşen Temerrüde Düşen %32.91 %33.09 55 B_DCE_MAX değişkeninin modelden çıkarılarak elde edilen optimal Lojistik Regresyon modeline göre eğitim veri setleriyle gerçekleştirilen sınıflandırma oranlarındaki doğruluk başarısı, gerçekte temerrüde düşmeyenlerin tahmin değerinde temerrüde düşmeyenler olarak sınıflandırılmasında ve gerçekte temerrüde düşenlerin tahmin değerlerinde temerrüde düşen olarak sınıflandırılmasında yanlış sınıflandırma oranlarına nispeten daha iyi sonuç vermiştir. Benzer oranlar doğrulama veri setiyle gerçekleştirilen tahminlerde de görülmekte olup, kurulan model ile eğitim ve doğrulama veri setleri arasında başarılı bir uyum olduğu söylenebilir. Ek olarak, Lojistik Regresyon modeli eğitim veri setiyle gerçekleştirdiği tahminlerin %66.88’inde doğru sınıflandırma oranı elde ederken, doğrulama veri setiyle %66.80 oranında doğru sınıflandırma başarısı göstermiştir. 3.4.2 Yapay Sinir Ağları ile Model Geliştirme Yapay Sinir Ağları modeli, nihai 9 değişken ile 2 katman üzerinden 20 nöron oluşturacak şekilde, tanjant hiperbolik aktivasyon fonksiyonu kullanılarak, 300 iterasyon ile eğitim ve doğrulama veri setleri üzerinden elde edilmiştir. Doğrulama veri setiyle belirlenen optimum model, 139. iterasyonda minimum doğrulama hatasını elde ederek durdurulmuştur. Elde edilen optimum YSA modeline ait girdi değişkenleri ve gizli nöronların girdi ve çıktı ağırlıklarına Tablo 3.10’da yer verilmiştir. Tablo 3.10: YSA Modeline Ait Girdi ve Çıktı Ağırlıkları Parametre X Y Rol Katman LOAN_STATUS=1 400 175 Hedef Değişken Output A_EXT_SOURCE_MEAN 0 35 Öznitelik 0 A_RRCWC 0 70 Öznitelik 0 A_DAYS_EMPLOYED 0 105 Öznitelik 0 A_LOAN_RATE 0 140 Öznitelik 0 B_CA_A_MEAN 0 175 Öznitelik 0 B_DCE_MAX 0 210 Öznitelik 0 IP_AP_MIN_MIN 0 245 Öznitelik 0 PA_NCS_R_MEAN 0 280 Öznitelik 0 PA_NPRT_W_MEAN 0 315 Öznitelik 0 H1 133.33 31.82 Gizli Nöron 1 H2 133.33 63.64 Gizli Nöron 1 56 H3 133.33 95.45 Gizli Nöron 1 H4 133.33 127.27 Gizli Nöron 1 H5 133.33 159.09 Gizli Nöron 1 H6 133.33 190.91 Gizli Nöron 1 H7 133.33 222.73 Gizli Nöron 1 H8 133.33 254.55 Gizli Nöron 1 H9 133.33 286.36 Gizli Nöron 1 H10 133.33 318.18 Gizli Nöron 1 H11 266.67 31.82 Gizli Nöron 2 H12 266.67 63.64 Gizli Nöron 2 H13 266.67 95.45 Gizli Nöron 2 H14 266.67 127.27 Gizli Nöron 2 H15 266.67 159.09 Gizli Nöron 2 H16 266.67 190.91 Gizli Nöron 2 H17 266.67 222.73 Gizli Nöron 2 H18 266.67 254.55 Gizli Nöron 2 H19 266.67 286.36 Gizli Nöron 2 H20 266.67 318.18 Gizli Nöron 2 Yukarıda optimum YSA modeliyle eğitim ve doğrulama veri setiyle elde edilen sınıflandırma oranlarına aşağıda yer verilmiştir. Tablo 3.11: Eğitim ve Doğrulama Veri Setleri ile YSA Sınıflandırma Oranları Gerçek Değer Tahmin Değeri Eğitim Doğrulama Temerrüde Düşmeyen Temerrüde Düşmeyen %33.68 %33.47 Temerrüde Düşen Temerrüde Düşmeyen %16.07 %15.82 Temerrüde Düşmeyen Temerrüde Düşen %16.32 %16.53 Temerrüde Düşen Temerrüde Düşen %33.93 %34.18 İlgili eğitim ve doğrulama veri setleriyle gerçekleştirilen sınıflandırma oranlarına incelendiğinde, Lojistik Regresyona göre nispeten yakın değerlere sahip olsa da YSA’nın her iki veri setiyle temerrüde düşenler için gerçekleştirdiği sınıflandırma başarısının daha iyi değerlere sahip olduğu görülmektedir. Ek olarak, eğitim veri setiyle gerçekleştirilen tahminlerin toplam doğruluk oranı %67.61 iken, doğrulama veri setleriyle bu oran %67.65 kadardır. 57 3.4.3 Karar Ağacı ile Model Geliştirme Karar Ağacı algoritmasında bulunan düğümlerin bölünme kuralı, hedef değişkenin dikotom yapıda olması sebebiyle entropi ölçüsüyle gerçekleştirilmiştir. Bu kontekste, algoritmanın uygulanmasında maksimum dallanma için 2, maksimum düğüm derinliği için 10, her yaprak düğümünde eğitim için gözlem sayısının minimum 5 olacak şekilde hiperparametreler belirlenmiş olup, eğitim ve doğrulama veri setleriyle elde edilen önemlilik oranlarına aşağıda yer verilmiştir. Tablo 3.12: Eğitim ve Doğrulama Veri Setleri ile Karar Ağacına Göre Değişkenlerin Önemlilik Oranları Eğitim Hata Eğitim Doğrulama Doğrulama Öznitelik Kareler Önemlilik Hata Kareler Önemlilik Toplamı Oranı Toplamı Oranı A_EXT_SOURCE_MEAN 43.65 1 25.05 1 A_DAYS_EMPLOYED 11.50 0.26 5.71 0.23 A_LOAN_RATE 11.21 0.26 5.09 0.20 B_CA_A_MEAN 8.82 0.20 3.71 0.15 PA_NCS_R_MEAN 8.63 0.20 4.82 0.19 IP_AP_MIN_MIN 8.49 0.19 3.50 0.14 B_DCE_MAX 6.43 0.15 1.48 0.06 PA_NPRT_W_MEAN 4.76 0.11 2.77 0.11 A_RRCWC 3.07 0.07 1.35 0.05 Karar Ağacının entropi ile değişkenlerin sınıflandırma başarısına göre önemlilik oranlarının hesapladığı yukarıdaki değerler, hedef değişken üzerinden sahip olduğu tüm kombinasyonlarla birlikte, belirli eşik değerler üzerinden kural indüksiyonlarıyla her bir düğümde hesaplanma örneğine aşağıda yer verilmiştir. 58 Şekil 3.1: Düğüm Kuralları Örneği Yukarıdaki kural indüksiyonlarıyla gerçekleştirilen Karar Ağacı algoritmasının eğitim ve doğrulama veri setleriyle gerçekleştirdiği sınıflandırma oranlarına aşağıda yer verilmiştir. Tablo 3.13: Eğitim ve Doğrulama Veri Setleri ile Karar Ağacına Ait Sınıflandırma Oranları Gerçek Değer Tahmin Değeri Eğitim Doğrulama Temerrüde Düşmeyen Temerrüde Düşmeyen %34.31 %33.11 Temerrüde Düşen Temerrüde Düşmeyen %15.28 %15.82 Temerrüde Düşmeyen Temerrüde Düşen %15.69 %16.89 Temerrüde Düşen Temerrüde Düşen %34.72 %34.18 Sınıflandırma oranları incelendiğinde, Karar Ağacı algoritmasının eğitim veri setleriyle gerçekleştirdiği tahminlerin Lojistik Regresyon ve YSA’ya göre daha başarılı olduğu gözlemlenmektedir. Eğitim veri setiyle gerçekleştirilen tahminlerin doğruluk oranı %69.03 iken, doğrulama için %67.29’dur. Bu bağlamda, doğrulama veri setindeki oran YSA’nın doğrulama veri setiyle elde edilen doğruluk oranının altında kaldığı gözlemlenmiştir. 59 3.4.4 Destek Vektör Makineleri ile Model Geliştirme Destek Vektör Makineleri ile hedef değişkene ait iki sınıf arasındaki marjı maksimize etmek için doğrusal çekirdek fonksiyonu kullanılarak, 16. iterasyonda optimum model elde edilmiştir. İlgili nihai değişkenlerin etkileşimleriyle, iç çarpım değeri, sapma değeri, oluşturulan destek vektörlerin sayısı, marjın maksimum olduğu hiperdüzlemdeki vektörlerin sayısı gibi optimum modele ait çıktılara aşağıda yer verilmiştir. Tablo 3.14: SVM Optimum Model Oranları Etkileşime Giren Değişken Sayısı 9 Ağırlıkların İç Çarpımı 22.40476 Sapma -0.63578 Toplam Bolluk (Kısıt İhlalleri) 21115.17 En Uzun Vektör Normu 2.275462 Destek Vektörlerin Sayısı 21158 Marj Üzerindeki Destek Vektörlerinin Sayısı 21123 Eğitim veri setiyle, yukarıdaki oranlar ile elde edilen optimal modelin doğrulama veri seti oranlarıyla birlikte sınıflandırma başarısına aşağıda yer verilmiştir. Tablo 3.15: Eğitim ve Doğrulama Veri Setleri ile SVM Sınıflandırma Oranları Gerçek Değer Tahmin Değeri Eğitim Doğrulama Temerrüde Düşmeyen Temerrüde Düşmeyen %34.29 %34.00 Temerrüde Düşen Temerrüde Düşmeyen %17.37 %17.02 Temerrüde Düşmeyen Temerrüde Düşen %15.71 %16.00 Temerrüde Düşen Temerrüde Düşen %32.63 %32.99 SVM algoritmasının sınıflandırma oranları incelendiğinde, eğitim veri setinde doğru sınıflandırma oranı %66.92 iken, doğrulama veri setinde bu oran %66.99’dur. SVM ve Lojistik Regresyon algoritmasının doğru sınıflandırma oranları incelendiğinde birbirlerine oldukça yakın değerlere sahip olduğu görülmektedir. 60 3.4.5 K-En Yakın Komşu ile Model Geliştirme Algoritmanın eğitim veri seti üzerinden öğrenme becerisi için SAS Enterprise Miner’ın MBR (Memory-Based Reasoning) düğümünün yeteneklerinden faydalanarak, bellek tabanlı akıl yürütme ile boyut indirgeme ağacı (RD-Tree) metodu kullanılmıştır. Veri setinden kümülatif olarak azalacak şekilde elde edilen alt kümelerin, çok boyutlu uzayda ikili ağaçlara bölünmesiyle gerçekleştirilen RD-Tree metodu, en yakın komşuları bulmak için pratik ve hızlı bir yöntemdir. Bu bağlamda, maksimum bölünme için 100 küme grubu oluşturulurken, gözlemlerin tahmini için komşu sayısı (k) 200 olarak belirlenmiştir. Ek olarak, hedef değişken ile nihai değişkenler arasındaki korelasyonunun mutlak değeri ağırlıklandırılarak optimum model elde edilmiştir. İlgili eğitim veri setinin öğrenme becerisi ve doğrulama veri setiyle gerçekleştirilen sınıflandırmalara oranlarına aşağıda yer verilmiştir. Tablo 3.16: Eğitim ve Doğrulama Veri Setleri ile KNN Algoritmasına Ait Sınıflandırma Oranları Gerçek Değer Tahmin Değeri Eğitim Doğrulama Temerrüde Düşmeyen Temerrüde Düşmeyen %27.36 %26.83 Temerrüde Düşen Temerrüde Düşmeyen %17.81 %17.99 Temerrüde Düşmeyen Temerrüde Düşen %22.64 %23.17 Temerrüde Düşen Temerrüde Düşen %32.19 %32.01 Algoritma, eğitim veri setiyle toplamda %59.55 doğrulma veri setiyle toplamda %58.84 oranında doğru sınıflandırma oranına sahiptir. K-En Yakın Komşu algoritmasının her iki veri setiyle gerçekleştirdiği doğru sınıflandırmaların diğer algoritmalara görece daha başarısız performansa sahip olduğu görülmektedir. 3.4.6 Rassal Orman ile Model Geliştirme Rassal orman algoritması, maksimum 50 ağaç ve 10 düğüm derinliği ile her ağaçta veri setindeki rastgele gözlemlerin %60’ı kullanılmış olup, Kayıp Azaltma (Loss Reduciton) tekniği ile değişken önemliliği belirlenmiştir. Bu doğrultuda geliştirilen Rassal Orman modeline ilişkin çıktılara aşağıda yer verilmiştir. 61 Tablo 3.17: Rassal Orman Algoritmasına Göre Değişkenlerin Önemlilik Oranları Bölme Eğitim: Eğitim: OOB: OOB: Doğrulama: Doğrulama: Öznitelik Kural Gini Marj Gini Marj Gini Marj Sayısı İndirgeme İndirgeme İndirgeme İndirgeme İndirgeme İndirgeme A_EXT_SOURCE_MEAN 62 0.034060 0.068119 0.033156 0.067198 0.033509 0.067658 A_DAYS_EMPLOYED 28 0.003701 0.007402 0.003415 0.007131 0.003882 0.007548 B_CA_A_MEAN 17 0.002363 0.004726 0.002078 0.004441 0.002497 0.004857 A_LOAN_RATE 22 0.001094 0.002187 0.000952 0.002037 0.001033 0.002106 PA_NCS_R_MEAN 13 0.001094 0.002188 0.001067 0.002144 0.001033 0.002098 IP_AP_MIN_MIN 21 0.000846 0.001693 0.000537 0.001397 0.000848 0.001716 PA_NPRT_W_MEAN 9 0.000752 0.001504 0.000770 0.001525 0.000632 0.001380 B_DCE_MAX 3 0.000073 0.000147 0.000006 0.000083 0.000062 0.000141 A_RRCWC 0 0 0 0 0 0 0 Tablo 3.17’de eğitim %60, OOB (Out of Bag) %40 ve doğrulama veri setleriyle gerçekleştirilen girdi değişkenlerinin Rassal Ormanlar ile sınıflandırma sonuçlarına göre önemlilik oranları bulunmaktadır. “A_RRCWC” değişkeninin Rassal Orman algoritmasına göre hedef değişken üzerinde herhangi bir önemliliği olmadığı, bölünme kuralına sahip olmamasıyla anlaşılmaktadır. Bu bağlamda, girdi değişkeni olarak kullanılmayarak modelden çıkarılmıştır. Tabloda bulunan “Gini Reduction” alanları, modelin sınıflandırma başarısını Gini oranlarıyla verirken, “Margin Reduction” alanları, gerçek sınıfın olasılığı ile diğer sınıfların maksimum olasılığının çıkarılmasıyla elde edilen marj oranını ifade etmektedir. Her iki oranda yüksek değerler tercih edilmekle beraber, çalışma kapsamında veri setlerinin oranlarındaki uyum dikkate alınarak, model geliştirme sonlandırılmıştır. Ek olarak, Rassal Ormanların, değişkenlerin açıklayıcı oranlarına göre seçilebilir yapısıyla, veri madenciliği algoritmaları mimarisine oldukça uygun olduğu söylenebilir. Algoritmanın, eğitim verisiyle öğrenme başarısının ölçümü için bir diğer teknik, her yeni ağaçta oluşan yaprak düğüm sayısının yaklaşık olarak eşit oranlarda artış göstermesidir. Bu kapsamda, Rassal Ormanlar ile elde edilen ağaçların sahip olduğu yaprak düğümü sayısına, aşağıdaki grafikte artış oranlarıyla birlikte yer verilmiştir. 62 Grafik 3.6: Yaprak Grafiği Grafik 3.6 incelendiğinde, yaprak düğüm sayısındaki artış oranları yaklaşık olarak eşit oranlara sahip olduğu görülmektedir. Tablo 3.18: Eğitim ve Doğrulama Veri Setleri ile Rassal Orman Algoritmasına Ait Sınıflandırma Oranları Gerçek Değer Tahmin Değeri Eğitim Doğrulama Temerrüde Düşmeyen Temerrüde Düşmeyen %35.15 %34.63 Temerrüde Düşen Temerrüde Düşmeyen %18.71 %18.22 Temerrüde Düşmeyen Temerrüde Düşen %14.84 %15.37 Temerrüde Düşen Temerrüde Düşen %31.29 %31.78 Rassal ormanların, eğitim ve doğrulama veri setleriyle temerrüde düşmeyenler için gerçekleştirdiği doğru tahmin oranları, her ne kadar başarılı olsa da toplam doğru sınıflandırma oranı K-En Yakın Komşu haricinde diğer algoritmalara görece daha düşük kalmıştır. Eğitim veri seti için bu oran toplamda %66.44 olurken, doğrulama veri setinde %66.41’dir. 3.4.7 Lojistik Regresyon (WOE) ile Model Geliştirme Nihai 9 değişkenin, hedef değişkene ait iyi ve kötü kredi dağılımları üzerinden açıklayıcı gücünün hesaplandığı WOE değerleriyle Scorecard düğümü yardımıyla 63 Lojistik Regresyon modeli geliştirilerek, ham haliyle kurulan Lojistik Regresyon modeli kıyaslanmıştır. Nihai değişkenlerin WOE’li halleriyle gerçekleştirilen Lojistik Regresyon algoritmasında backward tekniği kullanılmıştır. Bu kapsamda, ilgili değişkenlerin modeldeki anlamlılığı ile eğitim ve doğrulama veri setleriyle gerçekleştirilen sınıflandırma oranlarına aşağıda yer verilmiştir. Tablo 3.19: Lojistik Regresyon (WOE) Katsayıları Parametre Tahmini Katsayı Standart Hata Wald X2 Pr > X2 Intercept -0.00069 0.013 0 0.9574 WOE_PA_NCS_R_MEAN -0.4966 0.0544 83.37 <.0001 WOE_PA_NPRT_W_MEAN -0.3833 0.0675 32.27 <.0001 WOE_A_EXT_SOURCE_MEAN -0.8322 0.0181 2109.12 <.0001 WOE_A_RRCWC -0.4222 0.0666 40.24 <.0001 WOE_B_CA_A_MEAN -0.3432 0.0487 49.69 <.0001 WOE_A_DAYS_EMPLOYED -0.528 0.0371 202.08 <.0001 WOE_A_LOAN_RATE -0.6329 0.0442 205.23 <.0001 WOE_B_DCE_MAX -0.3843 0.063 37.26 <.0001 Yukarıda değişkenlerin WOE’li halleriyle kurulan Lojistik Regresyon modelinde nihai 9 değişkenin modelde anlamlı olduğu görülmekte olup herhangi bir elemeye gidilmemiştir. Eğitim verileri üzerinden geliştirilen modelin tahmin oranları ile doğrulama verisine ait tahmin oranlarına Tablo 3.20’de yer verilmiştir. Tablo 3.20: Eğitim ve Doğrulama Veri Setleri ile Lojistik Regresyon (WOE) Algoritmasına Ait Sınıflandırma Oranları Gerçek Değer Tahmin Değeri Eğitim Doğrulama Temerrüde Düşmeyen Temerrüde Düşmeyen %34.24 %33.73 Temerrüde Düşen Temerrüde Düşmeyen %16.63 %16.36 Temerrüde Düşmeyen Temerrüde Düşen %15.76 %16.27 Temerrüde Düşen Temerrüde Düşen %33.37 %33.64 64 Değişkenlerin WOE’li halleriyle kurulan Lojistik Regresyon modelinin, eğitim ve doğrulama veri setleriyle gerçekleştirdiği sınıflandırma oranları gözlemlendiğinde, ham halleriyle kurulan Lojistik Regresyon modelinin sınıflandırma oranlarına göre daha başarılı olduğu görülmektedir. Eğitim veri setinin toplam doğru sınıflandırma oranı %67.61 olurken, doğrulama verinde bu oran %67.37’dir. Ek olarak, WOE’li Lojistik Regresyon modelinin YSA modeline ait sınıflandırma performansında benzer oranlara sahip olduğu söylenebilir. 3.4.8 Gradyan Artırma ile Model Geliştirme Gradyan Artırma algoritması ile model geliştirme sürecinde, eğitim veri setinin %70’i, 0.1 oranında öğrenme hızına sahip olacak şekilde daralma değeri tanımlanmıştır. Ek olarak, maksimum 30 dallanma kuralı ve 10 düğüm derinliği ile sınırlandırılarak 300 iterasyon ile algoritma optimum modeli elde etmiştir. Belirlenen hiperparametreler üzerinden eğitim ve doğrulama veri seti ile elde edilen değişkenlerin önemlilik oranlarına Tablo 3.21‘de yer verilmiştir. Tablo 3.21: Gradyan Artırma Algoritmasına Göre Değişkenlerin Önemlilik Oranları Eğitim: Doğrulama: Öznitelik Bölme Kural Sayısı Önemlilik Oranı Önemlilik Oranı A_EXT_SOURCE_MEAN 114 1 1 A_LOAN_RATE 152 0.54456251 0.457866369 A_DAYS_EMPLOYED 88 0.317967324 0.259472756 IP_AP_MIN_MIN 73 0.249623648 0.208416438 B_CA_A_MEAN 24 0.19997376 0.180501344 PA_NCS_R_MEAN 14 0.178122265 0.168224794 B_DCE_MAX 65 0.25380576 0.148651308 A_RRCWC 8 0.091933353 0.139179555 PA_NPRT_W_MEAN 11 0.118126583 0.088401028 65 Yukarıda önemlilik oranlarıyla bulunan nihai 9 değişken ile eğitim ve doğrulama veri setiyle gerçekleştirilen hatalı sınıflandırmaların grafiksel gösterimine aşağıda yer verilmiştir. Grafik 3.7: Eğitim ve Doğrulama Veri Setleri ile Gradyan Artıma Algoritmasına Ait Yanlış Sınıflandırma Grafiği Grafiğe göre eğitim ve doğrulama veri seti ile gerçekleştirilen tahminlerin yanlış sınıflandırma oranları arasında iyi oranda uyumlu olduğu gözlemlenmektedir. Ayrıca, 298. iterasyon ile yanlış sınıflandırma oranı 0.04 oranında azalarak, optimum modeli 0.31’in altında bir değer ile elde etmiştir. Bu kontekste, geliştirilen model ile eğitim ve doğrulama veri setlerinin tahmin başarısı, aşağıdaki sınıflandırma oranlarıyla detaylandırılmıştır. Tablo 3.22: Eğitim ve Doğrulama Veri Setleri ile Gradyan Artırma Algoritmasına Ait Sınıflandırma Oranları Gerçek Değer Tahmin Değeri Eğitim Doğrulama Temerrüde Düşmeyen Temerrüde Düşmeyen %35.08 %34.93 Temerrüde Düşen Temerrüde Düşmeyen %15.84 %15.53 Temerrüde Düşmeyen Temerrüde Düşen %14.91 %15.07 Temerrüde Düşen Temerrüde Düşen %34.17 %34.47 66 Temerrüde düşenler ve temerrüde düşmeyenler için gerçekleştirilen tahmin oranlarının, Gradyan Artırma algoritmasıyla eğitim ve doğrulama veri setiyle en iyi oranlara sahip olduğu gözlemlenmektedir. Toplamda eğitim veri setinin doğru sınıflandırma oranı %69.51 olurken, doğrulama veri setiyle bu oran %69.53’tür. 3.5 PERFORMANS DEĞERLENDİRME Belirlenen nihai değişkenler ile eğitim, doğrulama ve test veri setleri üzerinden algoritmalar iyi ve kötü müşterileri sınıflandırarak, karmaşıklık matrisleri elde edilmiştir. Test veri seti üzerinden her bir algoritmaya ait karmaşıklık matrisinden elde edilen sınıflandırma ölçülerinin sonuçlarına Tablo 3.23’de yer verilmiştir. Tablo 3.23: Algoritmalara Ait Sınıflandırma Sonuçları Model Algoritmaları Doğruluk Hassasiyet Özgüllük Kesinlik F1 Skoru Gradyan Artırma %68.59 %68.09 %69.09 %68.77 %68.43 Lojistik Regresyon %67.74 %67.10 %68.39 %67.97 %67.53 (WOE) Yapay Sinir Ağları %67.71 %67.73 %67.69 %67.70 %67.71 Lojistik Regresyon %67.11 %65.79 %68.43 %67.57 %66.67 Destek Vektör Makineleri %67.03 %65.20 %68.85 %67.57 %66.41 Rassal Orman %66.31 %62.39 %70.23 %67.69 %64.93 Karar Ağacı %66.56 %66.82 %66.30 %66.47 %66.65 K-En Yakın Komşu %58.85 %63.13 %54.57 %58.15 %60.53 Yukarıdaki oranlar incelendiğinde, K-En Yakın Komşu algoritması temerrüde düşenler ile temerrüde düşmeyenlerin sınıflandırılmasında diğer algoritmalara görece daha başarısız sonuçlar vermektedir. Sınıflandırma başarısının genel performans bilgisini veren doğruluk oranı için K-En Yakın Komşu algoritması haricinde diğer algoritmalar birbirlerine yakın değerlere sahip olsa da Gradyan Artırma algoritmasının en başarılı sınıflandırma oranına sahip olduğu söylenebilir. Tip-II hata perspektifiyle, gerçekte temerrüde düşen müşteriler için algoritmaların sınıflandırma başarısını ölçen hassasiyet oranı için Gradyan Artırma algoritması en başarılı sonucu verse de Yapay Sinir Ağları 67 algoritması ve WOE’li Lojistik Regresyon algoritmalarıyla yakın oranlara sahiptir. Diğer hata perspektifi (Tip-I) ile algoritmaların temerrüde düşen olarak gerçekleştirdiği sınıflandırma tahmininde ne oranda başarılı olduğu kesinlik ölçüsünde, Gradyan Artırma algoritması diğer algoritmalara görece daha başarılı bir sonuç vermiştir. Temerrüde düşmeyen müşterilerin Tip-I hata perspektifi ile hesaplanan özgüllük ölçüsünde, Rassal Orman algoritmasının sınıflandırma performansı yüksek olsa da genel sınıflandırma başarısı düşük kalmıştır. Ek olarak, bu ölçüde Destek Vektör Makineleri ve Gradyan Artırma algoritmalarının sınıflandırma yeteneklerinin de iyi sonuçlar verdiği görülmüştür. Karmaşıklık matrisinden elde edilen yukarıdaki ölçüler yardımıyla, sınıflandırma başarısının değerlendirilmesinde sıklıkla kullanılan F1 skor oranı hesaplanmış olup, Gradyan Artırma algoritmasının en iyi oranla sınıflandırma yeteneğine sahip olduğu gözlemlenmiştir. Ek olarak, WOE’li halleriyle kurulan Lojistik Regresyon modelinin, değişkenlerin ham haliyle inşa edilmiş Lojistik Regresyon modeline göre daha başarılı sınıflandırma oranlarına sahip olduğu görülmektedir. Algoritmaların sınıflandırma performanslarının incelenmesinde kullanılan bir diğer ölçü ROC eğrisi olup, ilgili algoritmalara ait eğitim, doğrulama ve test verisinden elde edilen ROC eğrilerine Grafik 3.8’de yer verilmiştir. Grafik 3.8: Eğitim, Doğrulama ve Test Verilerinin Algoritmalar için ROC Eğrisi 68 Algoritmaların, eğitim, doğrulama ve test veri setleriyle temerrüde düşen ve temerrüde düşmeyen müşteriler için gerçekleştirmiş olduğu sınıflandırma yetenekleri, ROC eğri oranlarınca incelenmiş olup, modellerin sınıflandırma uyumunda aşırı öğrenme veya eksik öğrenme davranışı görülmemiştir. Modellerin performans gücü değerlendirmeleri, test verisinden elde edilen ROC eğrisinin altında kalan alanın büyüklüğüne göre belirlenmiştir. Grafik 3.9: Test Verisinin Algoritmalar için ROC Eğrisi Bu kapsamda, Hassasiyet ve 1-Özgüllük oranlarının farklı eşik değerlerine göre hesaplanan ROC eğrisi incelendiğinde, K-En Yakın Komşu algoritmasının diğer algoritmalara görece daha az başarılı bir sınıflandırma oranına sahip olduğu görülmektedir. İlgili görseldeki algoritmaların ROC eğri oranlarına Tablo 3.24’de yer verilmiştir. Tablo 3.24: Algoritmalara Ait ROC Eğrisi Oranları Model Algoritmaları ROC Eğrisi Gradyan Artırma 0.75 Lojistik Regresyon (WOE) 0.74 Yapay Sinir Ağları 0.74 Lojistik Regresyon 0.73 69 Destek Vektör Makineleri 0.73 Rassal Orman 0.72 Karar Ağacı 0.72 K-En Yakın Komşu 0.62 ROC eğrisine göre, K-En Yakın Komşu haricinde diğer algoritmaların model performans gücü nispeten birbirine yakın değerlere sahip olsa da Gradyan Artırma algoritmasının sınıflandırmadaki başarısının daha yüksek olduğu söylenebilir. Yapay Sinir Ağları ve WOE’li Lojistik Regresyon modeli benzer sınıflandırma performansı gösterirken, WOE’li Lojistik Regresyon analizine ait ROC değerinin, değişkenlerin ham haliyle gerçekleştirilen Lojistik Regresyon analizinin ROC değerine göre de daha başarılı olduğu görülmektedir. Ek olarak, Destek Vektör Makineleri ile geleneksel Lojistik Regresyon modeli birbirlerine yakın oranlarda sonuçlar üretirken, ağaç tabanlı algoritmaların (Rassal Orman, Karar Ağacı) genel sınıflandırma başarısı nispeten daha düşük kalmıştır. Özellikle Rassal Orman algoritmasının temerrüde düşmeyen müşteriler için gerçekleştirmiş olduğu sınıflandırma başarısı dikkat çekse de diğer sınıflandırma ölçülerinde ki yeteneğinin zayıf oranlarda olduğu gözlemlenmiştir. 70 SONUÇ Yapılan çalışma kapsamında, Home Credit müşterilerine ait kredi kullanım bilgilerini içeren veriler kullanılarak, veri kalitesi ve model ön işleme çalışmaları gerçekleştirilmiştir. Yeni başvuru sahiplerinin veya aktif kredilerin temerrüt risk oranını değerlendirmek amacıyla, ilgili istatistiksel ve makine öğrenmesi algoritmaları uygulanmış olup, algoritmaların iyi ve kötü müşterileri ayrıştırıcı gücünün belirlenmesi performans ölçüleriyle sağlanmıştır. Öznitelik seçimi kapsamında istatistiksel hatalardan arınma ve sınıflandırma gücü yüksek olan değişkenlerin belirlenmesi için çeşitli değişken indirgeme tekniklerinden faydalanılmıştır. İlgili algoritmalarda girdi değişkeni olarak kullanılacak nihai özniteliklerin belirlenmesi için LASSO Regresyonu değişken indirgeme tekniği olarak kullanılmış olup, değişken seçiminde geleneksel Regresyon tekniklerinden (bacward, forward, stepwise) farklı bir yol izlenmiştir. LASSO Regresyonun sahip olduğu ceza parametresi sayesinde, hedef değişken üzerindeki sınıflandırma gücü yüksek olan değişkenler modelde kalmayı başararak nihai girdi olarak belirlenmiştir. Ek olarak, nihai değişkenlerin IGN düğümü yardımıyla elde edilen WOE’li dönüştürülmüş yapılarıyla, Scorecard düğümü üzerinden Lojistik Regresyon modeli kurulmuştur. Böylelikle değişkenlerin WOE’li yapıları üzerinden gerçekleştirilen Lojistik Regresyon modeli, sınıflandırma performansları değerlendirilecek yedi algoritmanın karşılaştırılmasında sürece dahil edilmiştir. Ham veri kümesinin %60’ı eğitim, %20’si doğrulama ve %20’si test veri seti olacak şekilde ayrılarak, makine öğrenmesi teknikleri bu veri setleri üzerinden gerçekleştirilmiştir. Ayrıca, veri kalitesi ve değişken indirgeme çalışmalarının yaklaşık %60’ı ham veri kümesi üzerinden gerçekleştirilirken, %40’ı eğitim ve doğrulama veri kümeleri ile gerçekleştirilmiştir. Algoritmalar için optimum performansı sağlayan hiperparametreler, eğitim ve doğrulama veri setleri üzerinden belirlenirken, nihai model geliştirme ve performans karşılaştırmaları test veri seti üzerinden incelenmiştir. Yukarıdaki bulgular doğrultusunda, karmaşıklık matrisinden elde edilen doğruluk, hassasiyet, özgünlük, kesinlik ve F1 skor ölçüleri, ROC eğrisiyle birlikte 71 incelenerek, sekiz algoritmanın makine öğrenmesi yetenekleriyle gerçekleştirdiği performansları değerlendirilmiştir. Home Credit müşterilerinin temerrüt riskini değerlendirmek için en iyi sınıflandırma başarısını her bir veri setinde sağlayan modelin, Gradyan Artırma algoritması olduğu gözlemlenmiştir. Gradyan Artırma algoritmasına alternatif olarak en yakın performans başarısı gösteren WOE’li Lojistik Regresyon ve Yapay Sinir Ağlarının kullanılması uygun olsa da modelin yorumlanabilirlik özelliği açısından WOE’li Lojistik Regresyon modeli önerilmektedir. Gradyan Artırma algoritmasının performans başarısı, nihai değişkenlere ait artıklardaki örüntü bilgisini parametreleştirip, algoritmik olarak kayıp fonksiyonu optimize etmesinden kaynaklanmaktadır. Bu kontekste, Gradyan Artırma algoritmasının çalışma kapsamındaki performansını dikkate alarak, ikili sınıflandırma problemlerini çözmek için oldukça başarılı olan XGBoost, AdaBoost ve CatBoost gibi artırma (Boosting) algoritmaları, gelecek çalışmalarda karşılaştırmaya dahil edilebilir. 72 KAYNAKLAR ALTMAN, E.I., MARCO, G., & VARETTO, F., (1994), "Corporate distress diagnosis: Comparisons using linear discriminant analysis and neural networks (the Italian experience)", Journal of Banking & Finance 18, 505-529. APOSTOLIK, R., DONOHUE, C., WENT, P., and Global Association of Risk Professionals, Foundations of Banking Risk: An Overview of Banking, Banking Risks, and Risk-Based Banking Regulation, Hoboken, New Jersey: John Wiley & Sons, Inc., (2009). AYHAN, S., & ERDOĞMUŞ, Ş., (2014), “Destek Vektör Makineleriyle Sınıflandırma Problemlerinin Çözümü İçin Çekirdek Fonksiyonu Seçimi”, Eskişehir Osmangazi Üniversitesi İktisadi ve İdari Bilimler Dergisi, Nisan, 9(1), s.175-201. BARBOZA, F., KIMURA, H., & ALTMAN, E., (2017), “Machine learning models and bankruptcy prediction”, Expert Systems with Applications 83: 405–417. BASEL COMMITTEE ON BANKING SUPERVISION, (2001a). The New Basel Capital Accord. Jan. Available at: http://www.bis.org/publ/bcbsca03.pdf. s.34. BDDK, (2012), “Bankaların İç Denetim ve Risk Yönetimi Sistemleri Hakkında Yönetmelik”, https://www.resmigazete.gov.tr/eskiler/2012/06/20120628-17.htm (Erişim Tarihi: 24 Haziran 2020). BDDK, (2016), Bankaların Kredi Yönetimine İlişkin Rehber, BBDK Kurul Kararı Sayı: 6827, 2016, s.14 BELL, J., Machine Learning Hands-On for Developers and Technical Professionals, John Wiley & Sons, Inc., Indianapolis, Indiana, (2014). BELLOTTI, T., & CROOK, J., (2009), “Support Vector Machines for Credit Scoring and Discovery of Significant Features”, Expert Systems with Applications, 3302–3308. BHARGAVA, A., (Şubat 2000), "Credit Risk Management Systems in Banks", ICICI Bank, s.8., www.garp.com / library/Meets/bhargava.pdf, (27.11.2005). BREIMAN, L., (2001), “Random Forests, Machine learning”, Kluwer Academic Publishers, 45(1), 5-32. BROWN, I., & MUES, C., (2012), “An experimental comparison of classification algorithms for imbalanced credit scoring data sets”, Expert Systems with Applications 39: 3446–3453. BROWN, I., Developing Credit Risk Models Using SAS Enterprise MinerTM and SAS/STAT: Theory and Applications, Cary, NC: SAS Institute Inc, (2014). CHOLLET, F., Deep Learning with Python, Manning Publications Co., Shelter Island, NY, USA, (2018). COYLE, B., Introduction to Currency Risk, Financial World Publishing, UK, (2000). 73 DANGETI, P., Statistics for Machine Learning, Build supervised, unsupervised, and reinforcement learning models using both Python and R, Packt Publishing, Birmingham UK, (2017). DEMİRBULUT, Y., AKTAŞ, M., KALIPSIZ, O., & BAYRACI, S. (2017). “İstatistiksel ve Makine Öğrenimi Yöntemleriyle Kredi Skorlama”, CEUR-WS (s. 273- 284). Antalya: Turkish National Software Engineering Symposium. DESIGN I. T., GABRYS B., PETRAKIEVA L., (2004), “Combining labelled and unlabelled data”, International Journal on Approximate Reasoning, vol. 35, p. 251-273. DİNOV, IVO D., Data Science and Predictive Analytics: Biomedical and Health Applications Using R, Springer, Cham, Switzerland, (2018). EĞRİOGLU, E., ALADAĞ, C.H., YOLCU, U., USLU, V.R., & BAŞARAN, M.A., (2009), “A new approach based on artificial neural networks for high order multivariate fuzzy time series”, Expert Systems with Applications, 36(7), 10589-10594. GESTEL, V., TONY, I., BAESENS, B., GARCIA, I.J., & DIJCKE. P.V., (2003), “A support vector machine approach to credit scoring”, 73–82. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.93.6492&rep=rep1&type=pf (Erişim Tarihi: 7 Haziran 2018). HAMORİ, S., KAWAİ, M., KUME, T., MURAKAMİ, Y., & WATANABE, C., (2018), “Ensemble Learning or Deep Learning? Application to Default Risk Analysis”, Journal of Risk and Financial Management 11: 12. HAND, D., & ZHOU, F., (2009), “Evaluating models for classifying customers in retail banking collections”, Journal of the Operational Research Society, 61, 1540– 1547. JORION, P., Financial Risk Manager Handbook, Wiley Finance Series, 5. Baskı, s.431 (2009). KAVCIOĞLU, Ş. (2019). “Kurumsal kredi skorlamasında klasik yöntemlerle yapay sinir ağı karşılaştırması”, İstanbul İktisat Dergisi - Istanbul Journal of Economics, 69(2), 207-245. KAVZOĞLU, T., & ÇÖLKESEN, İ., (2010), “Destek Vektör Makineleri ile Uydu Görüntülerinin Sınıflandırılmasında Kernel Fonksiyonlarının Etkilerinin İncelenmesi”, Harita Dergisi Temmuz 2010 Sayı 144, s.73-82. LESSMANN, S., BAESENS, B., SEOW, H.V., & THOMAS, L.C., (2015), “Benchmarking State-of-the-Art Classification Algorithms for Credit Scoring: An Update of Research”, European Journal of Operational Research, Vol.247, 124–136. LINDHOLM, A., WAHLSTRÖM, N., LINDSTEN, F., SCHÖN, T. B., (2019), “Supervised Machine Learning”, Version (12 May 2019), s.7 http://www.it.uu.se/edu/course/homepage/sml/literature/lecture_notes.pdf (Erişim Tarihi: 13 Mayıs 2019). 74 LUI, H., (2017), “Which Machine Learning Algorithm Should I Use?”, https://blogs.sas.com/content/subconsciousmusings/2017/04/12/machine-learning- algorithm-use/ (Erişim Tarihi: 12 Mayıs 2020). MAEIREIZO B., LITMAN D., HWA R., (2004), “Co-training for predicting emotions with spoken dialogue data”, Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions, Companion Volume to the proceeding of 42nd Annual Meeting of the Association for Computational Linguistics (ACL), July, Barcelona, Spain. MANDACI P.E., (2003), “Türk Bankacılık Sektörünün Taşıdığı Riskler ve Finansal Krizi Asmada Kullanılan Risk Ölçüm Teknikleri”, Dokuz Eylül Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, s.71. MARKOFF J., (2015), “A Learning Advance in Artificial İntelligence Rivals Human Abilities”, New York Times, https://www.nytimes.com/2015/12/11/science/an- advance-in-artificial-intelligence-rivals-human-vision-abilities.html (Erişim Tarihi: 22 Mart 2019). MOHRI, M., ROSTAMIZADEH, A., TALWALKAR, A., Foundations of Machine Learning, Second Edition, The MIT Press, London, (2012). MUELLER, J.P., MASSARON, L., Machine Learning For Dummies, John Wiley & Sons, Inc., Hoboken, New Jersey, (2016). NICULESCU-MIZIL, A., & CARUANA, R., (2005), “Predicting Good Probabilities With Supervised Learning”, Proceedings of the 22nd international conference on Machine learning, 07–11 August 2005, Bonn, 625-632. NIGAM K., MCCALLUM A. K., THRUN S., MITCHELL T., (2000), “Text classification from labeled and unlabeled documents using EM”, International Journal of Machine Learning, vol. 39 no. 2-3, s. 103-134. OSUNA, E.E., FREUND, R., GİROSİ, F., (1997), “Support Vector Machines: Training and Applications”, A.I. Memo No. 1602, C.B.C.L. Paper No. 144, Massachusetts Institute of Technology and Artificial Intelligence Laboratory, Massachusetts. OUYANG, Y., HU, M., HUET, A., LI, Z., Mining Over Air: Wireless Communication Networks Analytics, Springer, Cham, Switzerland, (2015). ÖZTEMEL, E., Yapay Sinir Ağları, Papatya Yayıncılık, İstanbul, (2006). ÖZTÜRK, K., ŞAHİN, M.E., (2018), “Yapay Sinir Ağları ve Yapay Zekâ’ya Genel Bir Bakış”, Takvim-i Vekayi, Cilt: 6 No: 2 Sayfa: 25-36. RASCHKA, S., Python Machine Learning, Packt Publishing Ltd., Birmingham, UK., (2015). SCHUERMANN, T., (2004), “What do we know about loss given default?”, Wharton Financial Institutions Center, Vol.Feb. s.3 SHWARTZ, S. S., BEN-DAVID, S., Understanding Machine Learning: From Theory to Algorithms, Cambridge University Press, UK, (2014). 75 SINKEY J.F.Jr., Commercial Bank Financial Management, Prentice Hall, U.S.A., (1998). SNİATALA, P., HADİ AMİNİ M., BOROOJENİ K.G, Fundamentals of Brooks- lyengar Distributed Sensing Algorithm, Springer, Switzerland, (2020). THE ROYAL SOCIETY, (2017) “Machine Learning: The Power And Promise Of Computers That Learn By Example”, s.16-21, www.royalsociety.org/machine- learning (Erişim Tarihi: 5 Ocak 2019). THEOBALD, O., Machine Learning for Absolute Beginners, Second Edition, (2017). VASİLOUDİS, T., http://tvas.me/articles/2019/08/26/Block-Distributed- Gradient-Boosted-Trees.html (Erişim Tarihi: 2019/10/05) WANG, Y., WANG, S., ve LAI, K.K., (2005), “A New Fuzzy Support Vector Machine to Evaluate Credit Risk”, IEEE Transactions on Fuzzy Systems, Vol.13: 820- 831. YAO, X., CROOK, J., & ANDREEVA, G., (2017), “Enhancing two-stage modelling methodology for loss given default with support vector machines”, European Journal of Operational Research 263: 679-689. YAROWSKY D., (1995), “Unsupervised word sense disambiguation rivaling supervised methods”, Proceedings of the 33rd Annual Meeting on Association for Computational Linguistics. YEŞİLYURT, A., ŞEKER, Ş. E., (2018), “Skorlama Algoritmaları”, YBS Ansiklopedi, Cilt 5, Sayı 1, Mayıs 2018 7-13. YEH, I. C., & LIEN, C., (2009), “The Comparisons of Data Mining Techniques for the Predictive Accuracy of Probability of Default of Credit Card Clients”, Expert Systems with Applications, Vol.36, 2473-2480. ZHANG, C., ZHANG, S., Association Rule Mining - Models and Algorithms, Springer, Berlin, (2002). ZHANG, W., (2017), “Machine Learning Approaches to Predicting Company Bankruptcy”, Journal of Financial Risk Management 6: 364-374. ZHOU, L., & WANG, H., (2012), “Loan Default Prediction on Large Imbalanced Data Using Random Forests”, TELKOMNIKA Indonesian Journal of Electrical Engineering, Vol.10, No.6, October 2012, 1519-1525 ZHU, X., GOLDBERG, A. B., Introduction to Semi-Supervised Learning, Morgan & Claypool Publishers, (2009). 76 EKLER Ek I. IGN Düğümü Yardımıyla Nihai Değişkenlerin WOE Gruplandırılması A_EXT_SOURCE_MEAN Değişkeni için WOE Dönüşümü 77 A_EXT_SOURCE_MEAN Değişkeni için WOE Dönüşümü 78 A_LOAN_RATE Değişkeni için WOE Dönüşümü 79 B_CA_A_MEAN Değişkeni için WOE Dönüşümü 80 B_DCE_MAX Değişkeni için WOE Dönüşümü 81 IP_AP_MIN_MIN Değişkeni için WOE Dönüşümü 82 PA_NCS_R_MEAN Değişkeni için WOE Dönüşümü 83 PA_NPRT_W_MEAN Değişkeni için WOE Dönüşümü 84 B_RRCWC Değişkeni için WOE Dönüşümü 85 Ek II. Algoritmalar için Hiperparametreler Gradyan Artırma Lojistik Regresyon (WOE) 86 Yapay Sinir Ağları Lojistik Regresyon Destek Vektör Makineleri Rassal Orman 87 Karar Ağacı K-En Yakın Komşu 88