T.C. 
BURSA ULUDAĞ ÜNİVERSİTESİ 
SOSYAL BİLİMLER ENSTİTÜSÜ 
EKONOMETRİ ANABİLİM DALI 
İSTATİSTİK BİLİM DALI 
 
 
 
 
MAKİNE ÖĞRENMESİ ALGORİTMALARI İLE KREDİ 
TEMERRÜT RİSKİNİ TAHMİN ETME 
 
(YÜKSEK LİSANS TEZİ) 
 
 
 
 
Toprak Enes TÜTÜNCÜ 
 
 
 
 
 
BURSA - 2022
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
T.C. 
BURSA ULUDAĞ ÜNİVERSİTESİ 
SOSYAL BİLİMLER ENSTİTÜSÜ 
EKONOMETRİ ANABİLİM DALI 
İSTATİSTİK BİLİM DALI 
 
 
 
MAKİNE ÖĞRENMESİ ALGORİTMALARI İLE KREDİ 
TEMERRÜT RİSKİNİ TAHMİN ETME 
 
(YÜKSEK LİSANS TEZİ) 
 
 
 
Toprak Enes TÜTÜNCÜ 
 
 
 
Danışman:   
Prof. Dr. Sevda GÜRSAKAL 
 
 
BURSA – 2022 
 
 
ÖZET 
 
Yazar Adı ve Soyadı       : Toprak Enes TÜTÜNCÜ 
Üniversite                         : Bursa Uludağ Üniversitesi 
Enstitüsü                          : Sosyal Bilimler Enstitüsü 
Anabilim : Ekonometri 
Bilim/Sanat Dalı : İstatistik 
Tezin Niteliği : Yüksek Lisans Tezi 
Sayfa Sayısı : x + 88 
Mezuniyet Tarihi : 25/07/2022 
Tez Danışmanı : Prof. Dr. Sevda GÜRSAKAL 
 
MAKİNE ÖĞRENMESİ ALGORİTMALARI İLE KREDİ TEMERRÜT 
RİSKİNİ TAHMİN ETME 
Bankalar ve çeşitli finans kuruluşları tarafından karşılanan kredilerin, müşteri 
tarafından geri ödenememesi hem kredi veren kuruluşun sermaye kaybını hem de genel 
ekonomide oluşabilecek çeşitli risk faktörlerini beraberinde getirmektedir. Bu süreçte, 
oldukça kritik öneme sahip olan kredi riskinin doğru yönetilebilmesi ve uluslararası 
finans istikrarının sağlanması için Basel Komitesi ve BDDK (Bankacılık Düzenleme ve 
Denetleme Kurumu) gibi finans denetimi kuruluşları, kredi veren kurumların kredi verme 
karar aşamasında çeşitli regülasyon politikaları belirlemektedir. Ayrıca, kredi veren 
kurumlar analitik risk birimleri aracılığıyla kredi değerlendirme modelleri geliştirerek, 
müşterilere ait kredi risk skorunu hesaplamaktadır.  
Bu araştırmada, makine öğrenmesi yöntemiyle kredi skorlama sistemlerinde 
kullanılabilecek en başarılı tahmini gerçekleştiren algoritmanın belirlenmesi 
amaçlanmıştır. Bu kapsamda, Gradyan Artırma, Yapay Sinir Ağları, Lojistik Regresyon, 
Rassal Orman, Karar Ağacı, Destek Vektör Makineleri, K-En Yakın Komşu ve WOE 
dönüşümleriyle Lojistik Regresyon algoritmaları için modeller kurulmuş ve temerrüde 
düşen ve temerrüde düşmeyen müşteriler için en iyi sınıflandırma performansı gösteren 
Gradyan Artırma algoritması olmuştur.  
Analitik veri kalitesi ve model geliştirme süreçlerinde SAS Enterprise Guide ve 
SAS Enterprise Miner yazılım programları kullanılmıştır. 
 
 
Anahtar Sözcükler: Kredi Riski, Makine Öğrenmesi, Gradyan Artırma, Yapay 
Sinir Ağları, Lojistik Regresyon, Rassal Orman, Karar Ağacı, Destek Vektör 
Makineleri, K-En Yakın Komşu  
i 
 
ABSTRACT 
 
Name and Surname : Toprak Enes TÜTÜNCÜ 
University : Bursa Uludağ University 
Institution : Social Science Institution 
Field : Econometrics 
Branch : Statistics 
Degree Awarded : Master 
Page Number : x + 88 
Degree Date : 25/07/2022 
Supervisor : Prof. Dr. Sevda GÜRSAKAL 
 
PREDICTING DEFAULT PROBABILITY IN CREDIT RISK WITH MACHINE 
LEARNING ALGORITHMS 
Failure to repay the loans provided by banks and various financial foundations by 
the customer, entails both the capital loss of the lending institution and various risk factors 
that may occur in the general economy. In this context, financial control institutions such 
as the Basel Committee and BRSA (Turkish Banking Regulatory and Supervision 
Agency) have determined various regulatory policies during the phase of lending decision 
of the lending institutions in order to ensure the appropriate management of loan risk, 
which have critical importance, and to ensure international financial stability. In addition, 
lending institutions develop credit evaluation models via analytical risk units and 
calculate the credit risk score of customers. 
In this study, it is aimed to determine the algorithm that makes the most successful 
estimation that can be used in credit scoring systems with the machine learning method. 
Within this scope, models for algorithms with Gradient Boosting, Artificial Neural 
Networks, Logistic Regression, Random Forest, Decision Tree, Support Vector 
Machines, K-Nearest Neighbor and WOE transformations Logistic Regression were 
established and Gradient Boosting algorithm has shown the best classification 
performance for defaulters and non-defaulters. 
In analytical data quality and model development processes, SAS Enterprise 
Guide and SAS Enterprise Miner software programs were used. 
 
 
Key Words: Credit Risk, Machine Learning, Gradient Boosting, Neural 
Network, Logistic Regression, Random Forest, Decision Tree, Support Vector Machine, 
K-Nearest Neighbor  
ii 
 
ÖNSÖZ 
 
Yüksek Lisans eğitimime başladığım ilk günümden bu çalışmanın tüm aşamasına kadar 
desteklerini ve rehberliğini esirgemeyen, kıymetli fikirleriyle katkıda bulunan değerli 
hocam ve tez danışmanım Prof. Dr. Sevda Gürsakal’a sonsuz teşekkürlerimi sunarım. 
Analitik Danışman & Veri Bilimci olarak başladığım iş hayatımda daima yanımda olan 
ve desteklerini esirgemeyen kıymetli dostlarım Can Lütfü Yılmazer ve Mesut Aytekin’e 
teşekkürlerimi bir borç bilirim. 
Her koşulda yanımda olan sevgili aileme… 
Sonsuz teşekkürler... 
 
Toprak Enes TÜTÜNCÜ Bursa, 2022 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
iii 
 
İÇİNDEKİLER 
Sayfa 
ÖZET…………………………………………………………………………………......i 
ABSTRACT……………………………………………………………………………..ii 
ÖNSÖZ………………………………………………………………………………….iii 
İÇİNDEKİLER………………………………………………………………………….iv 
TABLOLAR…………………………………………………………………………....vii 
ŞEKİLLER …………………………………………………………………………....viii 
GRAFİKLER …………………………………………………………………………...ix 
KISALTMALAR ..……………………………………………………………………....x 
GİRİŞ …………………………………………………………………………………...1 
 
 
 
BİRİNCİ BÖLÜM 
MAKİNE ÖĞRENMESİ VE KREDİ RİSKİ 
 
1.1 MAKİNE ÖĞRENMESİ .......................................................................................... 3 
1.1.1 Denetimli Öğrenme .............................................................................................. 4 
1.1.1.1 Sınıflandırma ................................................................................................. 5 
1.1.1.2 Regresyon ...................................................................................................... 6 
1.1.1.3 Tahmin ........................................................................................................... 7 
1.1.2 Denetimsiz Öğrenme ............................................................................................ 7 
1.1.2.1 Kümeleme ...................................................................................................... 8 
1.1.2.2 Boyut Azaltma ............................................................................................... 8 
1.1.3 Yarı-Denetimli Öğrenme ...................................................................................... 9 
1.1.4 Pekiştirmeli Öğrenme ......................................................................................... 10 
1.2 BANKACILIKTA KREDİ RİSKİ VE ÖNEMİ ................................................... 10 
1.3 LİTERATÜRDE KREDİ RİSK ANALİTİĞİ ...................................................... 14 
 
 
iv 
 
İKİNCİ BÖLÜM 
METODOLOJİ 
 
2.1 ÇALIŞMADA KULLANILAN SINIFLANDIRMA ALGORİTMALARI ....... 17 
2.1.1 Lojistik Regresyon (Logistic Regression) .......................................................... 17 
2.1.2 Yapay Sinir Ağları (Neural Network) ................................................................ 19 
2.1.3 Karar Ağacı (Decision Tree) .............................................................................. 25 
2.1.4 Destek Vektör Makineleri (Support Vector Machine) ....................................... 27 
2.1.5 K-En Yakın Komşu (K-Nearest Neighbors) ...................................................... 29 
2.1.6 Rassal Orman (Random Forest) ......................................................................... 31 
2.1.7 Gradyan Artırma (Gradient Boosting) ............................................................... 33 
2.2 SINIFLANDIRMALAR İÇİN PERFORMANS ÖLÇÜLERİ ............................ 34 
2.2.1 Karmaşıklık Matrisi ............................................................................................ 35 
2.2.2 ROC (Receiver Operating Characteristic) Eğrisi ............................................... 37 
2.3 ÖRNEKLEMİN BELİRLENMESİ ....................................................................... 38 
2.4 DEĞİŞKEN İNDİRGEME METOTLARI ........................................................... 39 
2.4.1 Kayıp ve Aykırı (Uç) Değerler Tespiti............................................................... 39 
2.4.2 Varyans Eşiği ..................................................................................................... 40 
2.4.3 Kanıt Ağırlığı Dönüşümü ................................................................................... 40 
2.4.4 Bilgi Değeri ........................................................................................................ 41 
2.4.5 Değişken Kümeleme .......................................................................................... 42 
2.4.6 LASSO (En Küçük Mutlak Daralma ve Seçim Operatörü) ............................... 43 
 
ÜÇÜNCÜ BÖLÜM 
VERİ KALİTESİ VE MODEL GELİŞTİRME 
 
3.1 VERİ SETLERİNİN TANIMLANMASI ............................................................. 45 
3.2 KULLANILAN YAZILIM VE PROGRAMLAMA DİLLERİ .......................... 45 
3.3 ÖZNİTELİK SEÇİMİ (DEĞİŞKEN İNDİRGEME) .......................................... 46 
3.3.1 Kayıp Değer Oranı ile Öznitelik Seçimi ............................................................ 46 
3.3.2 Varyans Eşiği ile Öznitelik Seçimi .................................................................... 46 
v 
 
3.3.3 Bilgi Değeri (IV) ile Öznitelik Seçimi ............................................................... 47 
3.3.4 Aykırı (Uç) Değerlerin Elemesi ......................................................................... 48 
3.3.5 Örneklemin Belirlenmesi ................................................................................... 48 
3.3.6 Kayıp Değerlerin Atamasında Ağaç Tabanlı Yaklaşım ..................................... 49 
3.3.7 Değişken Kümeleme Tekniği ile Öznitelik Seçimi ............................................ 50 
3.3.8 LASSO ile Nihai Özniteliklerin Belirlenmesi .................................................... 52 
3.4 MODEL GELİŞTİRME ......................................................................................... 54 
3.4.1 Lojistik Regresyon ile Model Geliştirme ........................................................... 54 
3.4.2 Yapay Sinir Ağları ile Model Geliştirme ........................................................... 56 
3.4.3 Karar Ağacı ile Model Geliştirme ...................................................................... 58 
3.4.4 Destek Vektör Makineleri ile Model Geliştirme ................................................ 60 
3.4.5 K-En Yakın Komşu ile Model Geliştirme .......................................................... 61 
3.4.6 Rassal Orman ile Model Geliştirme ................................................................... 61 
3.4.7 Lojistik Regresyon (WOE) ile Model Geliştirme .............................................. 63 
3.4.8 Gradyan Artırma ile Model Geliştirme .............................................................. 65 
3.5 PERFORMANS DEĞERLENDİRME ................................................................. 67 
SONUÇ ........................................................................................................................... 71 
KAYNAKLAR .............................................................................................................. 73 
EKLER ........................................................................................................................... 77 
Ek I. IGN Düğümü Yardımıyla Nihai Değişkenlerin WOE Gruplandırılması .......... 77 
Ek II. Algoritmalar için Hiperparametreler ................................................................ 86 
 
 
 
 
 
 
 
 
 
 
 
 
vi 
 
TABLOLAR 
 
Tablo 1.1: Algoritma Başarılarının Karşılaştırılması ............................................... 16 
Tablo 2.1: BSS’nin YSA’daki Terminolojik Karşılıkları .......................................... 20 
Tablo 2.2: Toplama Fonksiyonları Örnekleri ............................................................ 21 
Tablo 2.3: Bazı Aktivasyon Fonksiyonları .................................................................. 23 
Tablo 2.4: Gradyan Artırma Sözde Teknik Kodu ..................................................... 34 
Tablo 2.5: Karmaşıklık Matrisi ................................................................................... 35 
Tablo 2.6: Sınıflandırma Ölçüleri ................................................................................ 35 
Tablo 2.7: WOE Hesaplaması Örneği ......................................................................... 41 
Tablo 3.1: Kayıp Değer Oranı ile Öznitelik Seçimi ................................................... 46 
Tablo 3.2: Varyans Oranı ile Öznitelik Seçimi ........................................................... 47 
Tablo 3.3: Bilgi Değeri (IV) ile Öznitelik Seçimi ........................................................ 47 
Tablo 3.4: Aykırı (Uç) Değerlerin Elemesi ................................................................. 48 
Tablo 3.5: Örneklemin Belirlenmesi ........................................................................... 49 
Tablo 3.6: Değişken Kümeleme ile Öznitelik Seçimi ................................................. 51 
Tablo 3.7: Nihai Öznitelikler ve Açıklamaları ........................................................... 54 
Tablo 3.8: Lojistik Regresyon Katsayıları .................................................................. 55 
Tablo 3.9: Eğitim ve Doğrulama Veri Setleri ile Lojistik Regresyona Ait 
Sınıflandırma Oranları ................................................................................................. 55 
Tablo 3.10: YSA Modeline Ait Girdi ve Çıktı Ağırlıkları ......................................... 56 
Tablo 3.11: Eğitim ve Doğrulama Veri Setleri ile YSA Sınıflandırma Oranları .... 57 
Tablo 3.12: Eğitim ve Doğrulama Veri Setleri ile Karar Ağacına Göre 
Değişkenlerin Önemlilik Oranları ............................................................................... 58 
Tablo 3.13: Eğitim ve Doğrulama Veri Setleri ile Karar Ağacına Ait Sınıflandırma 
Oranları .......................................................................................................................... 59 
Tablo 3.14: SVM Optimum Model Oranları .............................................................. 60 
Tablo 3.15: Eğitim ve Doğrulama Veri Setleri ile SVM Sınıflandırma Oranları ... 60 
Tablo 3.16: Eğitim ve Doğrulama Veri Setleri ile KNN Algoritmasına Ait 
Sınıflandırma Oranları ................................................................................................. 61 
Tablo 3.17: Rassal Orman Algoritmasına Göre Değişkenlerin Önemlilik Oranları
 ......................................................................................................................................... 62 
Tablo 3.18: Eğitim ve Doğrulama Veri Setleri ile Rassal Orman Algoritmasına Ait 
Sınıflandırma Oranları ................................................................................................. 63 
Tablo 3.19: Lojistik Regresyon (WOE) Katsayıları................................................... 64 
Tablo 3.20: Eğitim ve Doğrulama Veri Setleri ile Lojistik Regresyon (WOE) 
Algoritmasına Ait Sınıflandırma Oranları ................................................................. 64 
Tablo 3.21: Gradyan Artırma Algoritmasına Göre Değişkenlerin Önemlilik 
Oranları .......................................................................................................................... 65 
Tablo 3.22: Eğitim ve Doğrulama Veri Setleri ile Gradyan Artırma Algoritmasına 
Ait Sınıflandırma Oranları .......................................................................................... 66 
Tablo 3.23: Algoritmalara Ait Sınıflandırma Sonuçları ........................................... 67 
Tablo 3.24: Algoritmalara Ait ROC Eğrisi Oranları ................................................ 69 
 
vii 
 
ŞEKİLLER 
 
Şekil 1.1: Denetimli Makine Öğrenmesi Döngüsü ve Geleneksel Modelleme ........... 5 
Şekil 1.2: İkili Sınıflandırma .......................................................................................... 6 
Şekil 1.3: İçsel Değerlendirmeye Dayalı Yaklaşım Türleri ....................................... 13 
Şekil 2.1: Lojistik Regresyon Sınıflandırma Grafiği ................................................. 17 
Şekil 2.2: Lojistik Regresyon Karar Sınırı ................................................................. 18 
Şekil 2.3: Popüler Dönüşümler .................................................................................... 19 
Şekil 2.4: Biyolojik Sinir Ağı ve Yapay Sinir Ağı Görseli ......................................... 20 
Şekil 2.5: Solda Tek Gizli Katmanlı ve Sağda Çok Katmanlı Sinir Ağı Yapısı ...... 21 
Şekil 2.6: Karar Ağacı Örneği...................................................................................... 25 
Şekil 2.7: İki Sınıflı Bir Problem için Hiperdüzlemler .............................................. 28 
Şekil 2.8: Doğrusal Olarak Ayrılabilen Veri Setleri için Hiper-Düzlemin 
Belirlenmesi ................................................................................................................... 29 
Şekil 2.9: K-En Yakın Komşu Örneği ......................................................................... 30 
Şekil 2.11: Karar Ormanı Diyagramı ......................................................................... 31 
Şekil 2.12: Gradyan Artırma Algoritmasının Yaygın Bir Örneği ............................ 33 
Şekil 2.14: ROC Eğrisi Örneği ..................................................................................... 37 
Şekil 2.15: VARCLUS Kümeleme Prosedürü Örneği ............................................... 43 
Şekil 3.1: Düğüm Kuralları Örneği ............................................................................. 59 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
viii 
 
GRAFİKLER 
 
Grafik 3.1: Örneklem Öncesi ve Örneklem Sonrasına Ait İYİ-KÖTÜ Dağılımı .... 49 
Grafik 3.2: Değişken Kümeleme Tekniği ile Küme Bazında Değişken Sayısı ......... 50 
Grafik 3.3: Değişken Kümeleme Grafiği .................................................................... 51 
Grafik 3.4: Değişken Kümeleme Sonrası Korelasyon Matrisi .................................. 52 
Grafik 3.5: Katsayıların Daraltılma Grafiği .............................................................. 53 
Grafik 3.6: Yaprak Grafiği .......................................................................................... 63 
Grafik 3.7: Eğitim ve Doğrulama Veri Setleri ile Gradyan Artıma Algoritmasına 
Ait Yanlış Sınıflandırma Grafiği ................................................................................. 66 
Grafik 3.8: Eğitim, Doğrulama ve Test Verilerinin Algoritmalar için ROC Eğrisi68 
Grafik 3.9: Test Verisinin Algoritmalar için ROC Eğrisi ......................................... 69 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ix 
 
KISALTMALAR 
ABD AMERİKA BİRLEŞİK DEVLETLERİ 
AIRB ADVANCED INTERNAL RATINGS BASED 
AUC THE AREA UNDER THE CURVE 
BDDK BANKACILIK DÜZENLEME VE DENETLEME KURUMU 
BSS BİYOLOJİK SİNİR SİSTEMİ  
CART CLASSIFICATION AND REGRESSION TREE 
DVM DESTEK VEKTÖR MAKİNELERİ 
DT DECISION TREE 
EAD EXPOSURE AT DEFAULT 
EL EXPECTED LOSS 
GB GRADIENT BOOSTING 
IGN INTERACTIVE GROUPING NODE 
IRB INTERNAL RATINGS BASED 
IV INFORMATION VALUE 
KNN K-NEAREST NEIGHBORS 
LASSO LEAST ABSOLUTE SHRINKAGE AND SELECTION OPERATOR 
LGD LOSS GIVEN DEFAULT 
LR LOGISTIC REGRESSION 
M MATURITY 
MBR MEMORY-BASED REASONING 
NN NEURAL NETWORK 
OOB OUT OF BAG 
PD PROBABILTY OF DEFAULT 
RELU RECTIFIED LINEAR UNIT 
RF RANDOM FOREST 
ROC RECEIVER OPERATING CHARACTERISTIC 
SAS STATISTICAL ANALYSIS SOFTWARE 
SVM SUPPORT VECTOR MACHINES 
WOE WEIGHT OF EVIDENCE 
YSA YAPAY SİNİR AĞLARI 
 
x 
 
GİRİŞ 
Geleceğin bilinmezliğine olan merak ve kontrol altına alma isteği, insanoğlunun 
doğal arzularından bir tanesidir. Geleceğe ışık tutmak ise sadece belirli bir düzeyde 
mevcuttur. Gelecek için risk hala gizemli bir düzeyde kendini saklıyor olacaktır. 
Riske karşı ortaya çıkan doğal savunma, geçmişin sonuçlarından öğrenerek 
yargısal bir tahminleme ile yapılmaktadır. Günümüzde risk boyutunun doğru 
ölçümlenmesi bilgisayarlar ve istatistik bilimi ile daha objektif temellere dayalı ampirik 
bir yöntem üzerinden makine öğrenmesi teknikleri kullanılarak gerçekleştirilmektedir. 
Sürdürülebilir yaşam ve çalışma hayatının sürekliliğinin sağlanması için sahip 
olunan kaynakların etkin ve verimli düzeyde kullanılması, yapılacak olan risk tahminleri 
ile önlem alınmasına bağlıdır. Dolayısıyla riskin yönetimi her sektör için kritik önem arz 
etmektedir. Bu durumda ortaya çıkan en önemli risk tiplerinden biri de finansal risktir. 
Bu kapsamda, finans sektörü için sürdürülebilirlik hayati önem arz etmektedir. 
Alternatif durumlara bağlı olan finansal riskte, getirinin geleceği bir önlem 
mekanizmasına ihtiyaç duyar. Finans sektörünün temelini oluşturan bankalar ana gelir 
kaynaklarını müşterileri için verdiği kredilerin faizi ile oluştururken, müşterilerin 
kredileri zamanında ödeyebilme durumuna bağlı bir karşılıklı ilişki içerisinde olduklarını 
bilirler. Bu yüzden bireysel veya kurumsal müşterilerine kredi vermeden önce haklarında 
nitel ve nicel verileri kullanarak, müşterilerin risk profilini uyguladıkları modeller ile 
kredi riski bağlamında ortaya çıkarırlar. Bu önlem mekanizmasıyla, riski minimum 
düzeyde tutarak kredi faaliyetlerini yönetmeye çalışırlar. Risk yönetiminde başarısız 
oldukları takdirde sadece kendi yapısını etkilemekle kalmaz, finanse ettiği mevduat 
sahipleri ve fon kaynaklarını da riske maruz bırakmış olurlar. Bu bağlamda, kredi 
politikalarının doğru yönetilmesi, risk ekosisteminde oldukça önemli yer tutmaktadır.  
Artan nüfus sayısı ile tüketimin de artması, beraberinde kredi endüstrisinin 
genişlemesine sebep olmaktadır. Kredi talebinin artmasına yönelik bankaların 
kredilendirme faaliyetlerinde hızlı ve etkin kararlar alınmasına olanak sağlayan makine 
öğrenmesi teknikleri ile risk ekosisteminde optimum modeller inşa edilmektedir. Bu 
doğrultuda Lojistik Regresyon, Yapay Sinir Ağları, Karar Ağaçları gibi birçok algoritma 
kullanılmasına rağmen, hangi tekniğin en iyi performansı sağladığına dair bir konsensüse 
1 
 
 
varılmamıştır. Bu sebeple, algoritmalar ile kurulan modellerin sınıflandırma başarıları, 
çeşitli istatistiksel ve makine öğrenmesi teknikleriyle ölçülerek, en iyi sınıflandırma 
performansı sağlayan model, optimum model belirlenmektedir. 
Bu çalışmada, müşterilere ait bireysel kredilerin riskini hesaplayarak, temerrüt 
oranını değerlendirmek amacıyla yedi farklı istatistiksel ve makine öğrenmesi 
algoritmaları kullanılmıştır. Araştırma kapsamında, modelde öznitelik değişkeni olarak 
girdi görevi görecek değişkenler farklı değişken indirgeme teknikleri kullanılarak 
belirlenmiştir. Nihai değişken seçimi için LASSO Regresyonu kullanılmış olup, ilgili 
tekniğin ceza parametresinin en güçlü sınıflandırıcı öznitelik değişkenlerin 
keşfedilmesini sağlamıştır. Nihai öznitelik değişkenleri ile temerrüt risk oranının 
tahminlemesi için Lojistik Regresyon, Yapay Sinir Ağları, Karar Ağacı, Destek Vektör 
Makineleri, K-En Yakın Komşular, Rassal Orman, Gradyan Artırma ve WOE 
dönüşümleri gerçekleştirilmiş haliyle Lojistik Regresyon algoritmaları kullanılmıştır. 
Elde edilen sonuçlar, Doğruluk, Hassasiyet, Özgüllük, Kesinlik, F1 skoru ve ROC eğrisi 
olmak üzere altı farklı ölçüye göre algoritmalar arasında performans karşılaştırılması 
yapılmıştır. 
Çalışmanın devam eden bölümlerinde sırasıyla; Bölüm 1’de; makine öğrenmesi 
tekniklerinin temel yapıları ve bankacılıkta kredi risk analitiği ve önemi hakkında literatür 
taramaları yapılarak ele alınmıştır. Bölüm 2’de; Temerrüt Olasılığı (Probability of 
Default (PD)) modeli için uygulanacak olan makine öğrenmesi algoritmaları, performans 
ölçüleri, örneklemin belirlenmesi ve değişken indirgeme teknikleri ile izlenilecek 
metodolojiye yer verilmiştir. Bölüm 3’de; veri setinin ön işleme süreciyle modele dahil 
olacak değişkenlerin belirlenmesi için değişken eleme teknikleri ve kredi ödemesinde 
gecikme olan kitle kadar gecikme olmayan kitle ile dengelenmiş veri kümesi 
oluşturulmuştur. Dengelenmiş veri kümesine nihai değişken eleme teknikleri 
uygulanarak, uygun görülen değişkenler ile alternatif modeller kurulmuş ve performans 
kıyaslamaları gerçekleştirilmiştir. Bu doğrultuda uygulanan makine öğrenmesi 
algoritmaların performansları hakkında değerlendirmeler, öneriler ile birlikte sonuç 
bölümünde detaylandırılmıştır. 
 
2 
 
 
BİRİNCİ BÖLÜM 
MAKİNE ÖĞRENMESİ VE KREDİ RİSKİ 
 
1.1 MAKİNE ÖĞRENMESİ 
Başlangıçta bilgisayarların öğrenmesini sağlayan tekniklerin geliştirilmesi için 
kullanılan makine öğrenmesi, zamanla yapay zekânın bir yöntemi haline gelmiştir.  
Dartmouth’da matematik profesörü olan John McCarthy, 1956 yılında verdiği 
konferansta, yapay zekâyı “akıllı makineler yapma bilim ve mühendisliği” olarak 
tanımlamıştı. Bu doğrultuda yapay zekâ, makineleri akıllı yapma bilimi ise makine 
öğrenmesinin de bilgisayarların örneklerden öğrenerek belirli görevleri akıllıca 
yürütmesine izin veren bir teknoloji olduğu söylenebilir. 
Geleneksel programlama yaklaşımları, bir sorunun çözümünü belirleyen adım 
adım kodlanmış kurallara dayanırken, makine öğrenmesi sistemleri bir görev olarak 
belirlenir. Dolayısıyla bu sistemler önceden programlanmış kurallara uymak yerine, 
verilerden öğrenerek karmaşık süreçleri yürütebilme imkânı sağlar. Bu görevi nasıl 
gerçekleştirebileceğine veya örüntülerin tespit edileceğine örnek olarak büyük bir veri 
kümesi işleme alınır. Daha sonra sistem istenen çıktıya nasıl ulaşacağını öğrenir. 
Diğer bir ifadeyle makine öğrenmesi, bilgisayar algoritmalarının veri ve 
bilgilerden bağımsız olarak öğrenmek için kullanıldığı yapay zekanın bir alt kümesi 
olarak düşünülebilir. Makine öğrenmesinde bilgisayarların açıkça programlanması 
gerekmez, algoritmalarını kendi başlarına değiştirebilir ve geliştirebilirler. 
Makine Öğrenme algoritmaları, “eğitim verileri” olarak da bilinen örnek veri 
setini kullanarak otomatik olarak bir matematiksel model oluşturur ve bu kararları almak 
için özel olarak programlanma ihtiyacı duymaz. Öğrenmenin en temel örneği verilere düz 
bir çizginin yerleştirilmesi olabilir, ancak makine öğrenmesi genellikle düz çizgilere göre 
çok daha esnek modellerle ilgilenir. Bunu yapmasının amacı, modelin öğrenmede 
kullanılmayan veriler hakkında kendi içinde yeni sonuçlar çıkarmak içindir. Bir modeli 
1000 köpek yavrusu resmi verisinden öğrenirsek, model doğru bir şekilde seçilirse, başka 
bir görüntünün (öğrenme için kullanılan 1000 köpek yavrusu resmi dışında) bir köpek 
3 
 
 
yavrusu tasvir edip etmediğini söyleyebilir. Bu genelleme olarak bilinir (Lindholm, 
2019:7). 
Son yıllarda alandaki teknik gelişmeler, verilerin kullanılabilirliğinin artması ve 
artan bilgi işlem gücünün bir sonucu olarak makine öğrenmesinin yeteneklerinde önemli 
ilerlemeler görülmüştür. Bu ilerlemelerin bir sonucu olarak, sadece birkaç yıl önce doğru 
sonuçlar elde etmek için mücadele eden sistemlerin artık belirli görevlerde insanlardan 
daha iyi performans gösterebileceği kanıtlanmıştır. Günümüzde bazı görevlerde 
insanlardan daha iyi performans gösterebilen ses ve nesne tanıma sistemleri 
bulunmaktadır. Örneğin, 2015 yılında araştırmacılar, tek tek el yazısı rakamları tanımaya 
odaklanan dar bir vizyonla ilgili görevde insan yeteneklerini aşan bir makine öğrenme 
sistemi oluşturmuşlardır (Markoff, 2015:1). 
Makine öğrenmesi sağlık hizmeti, finans, insan kaynakları, satış ve pazarlama, 
lojistik ve üretim gibi birçok alanda kullanılarak sağlığımız, üretkenliğimiz ve refahımız 
için küresel zorlukları ele almayı ve verimliliği artırarak küresel ekonomiye trilyonlarca 
dolar eklemeyi vaat ediyor (The Royal Society, 2017:16).  
Makine öğrenmesi teknikleri denetimli öğrenme, denetimsiz öğrenme, yarı – 
denetimli öğrenme ve pekiştirmeli öğrenme olarak dört ana başlıkta incelenebilir. 
1.1.1 Denetimli Öğrenme 
Denetimli öğrenmedeki esas amaç, öngörülemeyen veya gelecekteki veriler 
hakkında tahminlerde bulunmamızı sağlayan etiketli eğitim verilerinden bir model 
öğrenmektir (Raschka, 2015:3). 
Denetimli öğrenme, öngörülemeyen verileri tahmin etmek için etiketli eğitim veri 
setinde bulunan geçmiş bilgilerden yararlanarak öğrenme işlemi gerçekleştirir. Örneğin 
geçmiş dönemdeki satışlardan oluşan bir veri kümesi ile gelecekteki fiyatları tahmin 
etmek için kullanılabilir. Denetimli öğrenme de etiketlenmiş eğitim verileri ve istenen 
çıktı değişkeninden oluşan bir girdi değişkeni mevcuttur. Girdi ile çıktıyı eşleştiren işlevi 
öğrenmek üzere eğitim verilerini analiz etmek için bir algoritma kullanılır. Bu çıkarımsal 
işlev, görünmeyen durumlarda sonuçları tahmin etmek için eğitim verilerinden genelleme 
yaparak yeni ve bilinmeyen örnekleri eşleştirir (Lui, 2017:1). 
4 
 
 
 
Şekil 1.1: Denetimli Makine Öğrenmesi Döngüsü ve Geleneksel Modelleme 
Günümüzde denetimli öğrenme, makine öğrenmesi algoritmalarında en yaygın 
biçimde kullanılan Doğrusal Regresyon Modeli, Lojistik Regresyon, Karar Ağaçları, 
Destek Vektör Makineleri, Topluluk Öğrenme Yöntemleri ve Yapay Sinir Ağları gibi 
öğrenim algoritmalarını içinde barındırır (Niculescu-Mizil, 2005:626). Bu algoritmalar 
kendi içinde uygulama amaçlarına ve yapılarına göre sınıflandırma, regresyon ve tahmin 
yaklaşımları şeklinde görevlere ayrılır. 
1.1.1.1 Sınıflandırma 
Sınıflandırma, hedefin, geçmiş gözlemlere dayalı yeni örneklerin kategorik sınıf 
etiketlerini öngörmek olduğu, denetimli öğrenmenin bir alt kategorisidir. Bu sınıf 
etiketleri, örneklerin grup üyelikleri olarak anlaşılabilen ayrık, sıralanmamış değerlerden 
oluşur (Raschka, 2015:3). 
Sınıflandırma amacıyla kullanılan algoritmalar, yapısal veya yapısal olmayan 
veriler üzerine uygulanarak, gözlemlenen değerlerden bir sonuç çıkarıp yeni gözlemin 
hangi kategoriye ait olduğunu ikili sınıflandırma, çoklu sınıflandırma veya çoklu etiket 
sınıflandırma gibi yöntemler kullanarak belirler. 
5 
 
 
Sınıflandırma yöntemleri örnekler üzerinden ifade edilecek olursa: iki boyutlu 
sınıflandırma için batan veya batmayan olarak kredi durumu düşünülebilir1. Çoklu 
sınıflandırma için denizde yaşayan canlı türleri (balıklar, kabuklu canlılar, yumuşak 
gövdeli canlılar vd.) veya ikiden fazla segmente ayrılmış müşterilerin ayrıştırılması 
olabilir. Sınıflandırma işlemini görsel veri işleme veya yapısal bilgileri kullanarak 
gerçekleştirmek mümkündür. Bir diğer yöntem olan çoklu etiket sınıflandırması için bir 
kitabın hem tıp hem spor hem de istatistik ile ilgili olabileceği düşünülerek 
örneklendirilebilir. 
 
Şekil 1.2: İkili Sınıflandırma 
Günümüzde sınıflandırma yöntemlerinde Lojistik Regresyon, Boosting, Karar 
Ağacı, Rassal Orman, Naive Bayes, En Yakın Komşu ve Destek Vektör Makineleri en 
çok tercih edilen algoritmalardır. 
1.1.1.2 Regresyon 
Denetimli öğrenmenin diğer bir alt kategorisi olan regresyon, veri kümesinde 
bulunan değişkenlerin boyut değerleri arasında bir ilişki arar. Örneğin, ebeveynlerin boy 
uzunluğu ile çocukların boy uzunluğu arasındaki ilişki veya ikinci el araba fiyatının 
enflasyon ile arasındaki matematiksel bağıntı bulunabilir. 
 
 
1 Şekil 1.2’de iki boyutlu bir veri seti için ikili sınıflandırma görevi kavramsal olarak gösterilmektedir. 
6 
 
 
En yaygın olarak regresyon analizi, öznitelik değişkenleri verildiğinde, hedef 
değişkeninin koşullu beklentisini, yani öznitelik değişkenleri sabitlendiğinde hedef 
değişkeninin ortalama değerini tahmin eder (Ouyang, 2018:14). Bu yaklaşımla denetimli 
öğrenme teknikleriyle her gözlem, eğitim veri setinden öğrendiklerinden yola çıkarak reel 
bir değer tahmininde bulunur. 
Günümüzde regresyon yöntemlerinde Lineer Regresyon, Çoklu Lineer 
Regresyon, Polinomal Regresyon, Destek Vektör Regresyonu en sık tercih edilen 
algoritmalardır. 
1.1.1.3 Tahmin 
Denetimli öğrenmenin bir diğer alt kategorisi olan tahmin, geçmiş ve şimdiki 
verilere dayanarak, gelecek hakkında tahminler yapma sürecidir. En yaygın olarak 
eğilimleri analiz etmek için kullanılır. Yaygın bir örnek, şimdiki ve geçmiş yıllardaki satış 
verilerine dayanarak gelecek yıl için satış tahmini yapılması olabilir (Lui, 2017:1). 
1.1.2 Denetimsiz Öğrenme 
Denetimsiz öğrenme, etiketlenmemiş verileri kullanan makine öğrenmesinin 
diğer bir yaklaşım türüdür. Genellikle veri noktalarını birbirine daha fazla veya daha az 
benzeyen özellikler belirlemeye çalışarak verileri kümeler veya ortak özellikler gibi özet 
bir formda temsil etmeye çalışır (The Royal Society, 2017:123). 
Denetimsiz öğrenme, denetimli öğrenmenin aksine herhangi bir sınıflandırma 
veya etiketlenmeye maruz kalmamış bir eğitim verisi ile eğitilmez. Denetimsiz öğrenme 
yöntemi, eğitilmemiş veriler üzerinden bir korelasyon ve ilişki arar. Bulunan bağıntılar 
sonucu, birbiri ile ilişkisi olan verileri kendi içinde kategorize eder. Girdi verisinin hangi 
sınıfa ait olduğu, algoritmalar tarafından sınıflandırma işlemleri ile öğrenilir. Algoritma, 
daha fazla yeni veriyi değerlendirdikçe, sınıflandırma gücü ve performansı artarak, daha 
rafine sonuçlar üretir. 
Makine öğrenmesinin bu dalı, veri görselleştirme, veri sıkıştırma veya veri 
dengeleme amacıyla veya eldeki verilerdeki korelasyonları daha iyi anlamak için, 
herhangi bir hedef değişkenin yardımı olmadan, girdi verilerinin ilgili dönüşümlerini 
bulmaktan oluşur. Denetimsiz öğrenme, veri analitiğinin ekmeği ve tereyağıdır. Bu 
7 
 
 
yüzden denetimli öğrenme sorununu çözmeye çalışmadan önce veri kümesini daha iyi 
anlamak için gerekli bir adımdır (Chollet, 2018:94). 
Eğitim verisi kompleks bir yapıda ise veriler için denetimsiz öğrenme teknikleri 
kullanılmalıdır. Böylelikle veri setinin içindeki karmaşıklığı farklı segmentler üzerinden 
müdahale etme fırsatı oluşturacaktır. Örneğin farklı gruplardaki müşterileri araçları veya 
yapıları kendi içinde segmentlere ayırarak, spesifik tetkiklerde bulunmak için 
kullanılabilir. 
K-Means Algoritması, Temel Bileşenler Analizi, Birliktelik Kurallarının 
Algoritmaları (örn. Apriori Algoritması) ve Hiyerarşik Kümeleme gibi öğrenme 
algoritmaları denetimsiz makine öğrenmesi algoritmaları arasında en yaygın biçimde 
kullanılan algoritmalardı. Denetimsiz öğrenim algoritmaları kendi içinde uygulama 
yapılarıyla temel olarak kümeleme ve boyut azaltma gibi görev yapılarından oluşur. 
1.1.2.1 Kümeleme 
Kümeleme, keşifsel veri analizi için en yaygın kullanılan yöntemlerden biridir. 
Sosyal bilimlerden biyolojiye ve bilgisayar bilimlerine kadar tüm disiplinlerde, insanlar 
veri noktaları arasında anlamlı gruplar belirleyerek verileri hakkında ilk sezgiyi elde 
etmeye çalışırlar. Örneğin, biyologlar, genleri farklı deneylerde ifadelerindeki 
benzerliklere dayanarak kümelendirir; perakendeciler, müşterileri hedeflenen pazarlama 
amacıyla, müşteri profili temelinde kümelendirir ve gökbilimciler, yıldızları uzaysal 
yakınlıklarına göre kümeler (Shwartz, 2014:307). 
Analiz sonrasında ortaya çıkabilecek her küme, belirli bir benzerlik derecesini 
paylaşan ancak diğer kümelerdeki nesnelere daha benzemeyen bir grup nesneyi tanımlar, 
bu nedenle kümeleme bazen "denetimsiz sınıflandırma" olarak da tanımlanmaktadır 
(Raschka, 2015:3). 
1.1.2.2 Boyut Azaltma 
Denetimsiz öğrenmenin bir diğer alt görev alanı, boyutsallığın azaltılmasıdır. 
Çoğunlukla, yüksek boyutlu veriler için sınırlı depolama alanı ve algoritmaların 
hesaplama performansında zorluk oluşturabilecek durumlarda kullanılır (Raschka, 
2015:7). 
8 
 
 
Veri yapısının çok sayıda özniteliğe sahip olduğu durumlarda, karmaşıklığı 
ortadan kaldırmak için daha düşük boyutlu bir yapı genellikle arzu edilir. Boyutsal 
azaltma (veya manifold öğrenme) tekniklerine ilişkin temel prosedürler şunlardır: 
• Hesaplamalı: Veriler üzerindeki işlemleri hızlandırmak için ilk verileri bir 
önişleme yöntemi ile sıkıştırmak. 
• Görselleştirme: Girdi verilerini iki veya üç boyutlu boşluklara senkronize ederek 
keşif analizi için verileri görselleştirmek. 
• Özellik çıkarma: Daha minimal ve daha güçlü veya daha ergonomik bir 
özellik/öznitelik kümesi oluşmasını sağlamak (Mohri, 2012:347). 
Boyut azaltması, verideki gürültüyü temizlemek için özniteliklerin ön işlemesinde 
kullanılırken, ilgili bilgilerin çoğunu koruyup, verileri daha küçük boyutlu alt bir alana 
sıkıştırabilen ve belirli algoritmaların tahmin performansının düşmesini engelleyen 
yaygın bir yaklaşımdır. 
Boyut azaltma amacıyla temel olarak sık kullanılan yöntemler arasında Temel 
Bileşenler Analizi, Faktör Analizi, Çok Boyutlu Ölçekleme ve Isomap yer almaktadır. 
1.1.3 Yarı-Denetimli Öğrenme 
Bu yaklaşım özellikle çok sayıda etiketlenmemiş veri olması ve verileri etiketleme 
maliyetinin oldukça yüksek olduğu uygulamalarda tercih edilir. Adından da anlaşılacağı 
gibi yarı-denetimli öğrenme, denetimli ve denetimsiz öğrenmenin ortasında yer alır. 
Aslında, yarı-denetimli öğrenme stratejilerinin çoğu, denetimli veya denetimsiz 
öğrenmeyi diğer öğrenme paradigmasına özgü ek bilgileri içerecek şekilde genişletmeye 
dayanır (Zhu, 2009:9). 
Yarı denetimli öğrenme, uygun bir işlev veya sınıflandırıcı oluşturmak için 
etiketlenmiş ve etiketlenmemiş verileri birleştirerek, denetlenen algoritmaların 
performansını artırmak için önerilen algoritmaların bir çerçevesidir (Design, 2004:251). 
Literatürde yarı-denetimli öğrenmeye Maeireizo (2004), “birlikte eğitim”, 
Yarowsky (1995), “kendi kendine eğitim” ve Nigam (2000), “üretken modeller” ile farklı 
yaklaşımlar önermiştir. 
 
9 
 
 
1.1.4 Pekiştirmeli Öğrenme 
Pekiştirmeli öğrenmede amaç, çevre ile etkileşimlere dayalı olarak kendi 
performansını artıran bir sistemi geliştirmektir (Raschka, 2015:6). Bir pekiştirmeli 
öğrenme sistemi, açıkça öğretilmekten ziyade eylemlerinin sonuçlarından öğrenir. 
Pekiştirmeli öğrenme diğer öğrenme tekniklerinin aksine, her iterasyon bir önceki 
iterasyondan geri bildirim alarak modelini sürekli olarak geliştirme döngüsündedir. Diğer 
bir ifadeyle, eylemlerini geçmiş deneyimlerini dikkate alarak gerçekleştirir. Bu durum 
tıpkı insan dünyasındaki deneme yoluyla öğrenme paradigmasına benzer. Hatalardan ders 
çıkartarak öğrenme kolaylaşır çünkü ceza (maliyet, zaman kaybı, pişmanlık, acı, vb.) 
durumuna düşmekten kaçınılır (Mueller, 2016:169). Nitekim pekiştirmeli öğrenme 
“tecrübeli öğrenme” olarak ifade edilebilir. 
Pekiştirmeli öğrenmenin bir önceki iterasyondan geri bildirim alarak eylemlerini 
gerçekleştirmesi, muhtemelen en iyi şekilde satranç veya bir video oyunun yapısı ile 
açıklanabilir. Sanal alanda bir oyuncu, farklı koşullar altında çeşitli eylemlerin 
sonuçlarını tecrübeler ve oyun alanına daha aşina olur. Öğrenilen bu değerler ile sonraki 
davranışlarını etkileyerek performansını iyileştirir. Satranç durumunda ise yenilgiden 
kaçınmak da benzer şekilde olumlu bir ödüle dönüşür (Theobald, 2017:15). 
1.2 BANKACILIKTA KREDİ RİSKİ VE ÖNEMİ 
BDDK’ya göre kredi riski, kredi müşterisinin yapılan sözleşme gereklerine 
uymayarak yükümlülüğünü kısmen veya tamamen zamanında yerine getirememesinden 
dolayı bankanın maruz kalabileceği zarar olasılığı olarak tanımlanmıştır (2012:1). Jorion, 
“Financial Risk Manager Handbook, Wiley Finance Series” adlı eserinde kredi riski için 
karşı tarafın sözleşmeden doğan yükümlülüklerini yerine getirememesinden kaynaklanan 
ekonomik kayıp risk olarak tanımlamıştır (2009:431). Mandacı, “Türk Bankacılık 
Sektörünün Taşıdığı Riskler ve Finansal Krizi Asmada Kullanılan Risk Ölçüm 
Teknikleri” çalışmasında kredi riskini, ödenmeme veya geç ödemeden dolayı net kar ve 
özvarlığın piyasa değerindeki olası değişim olarak ifade etmiştir. (2003: 71). Coyle, 
“Introduction to Currency Risk” adlı eserinde kredi riski için kredi verenin, borcun 
ödenmemesi veya geç ödenmesi sonucu zararla karşılaşma olasılığı tanımını yapmıştır 
10 
 
 
(2000:6). Sinkey’e göre ise kredi riski, “Commercial Bank Financial Management” adlı 
eserinde borç ödemesindeki belirsizlik olarak ifade edilmiştir (1998: 190).  
Yanlış müşteri seçimi, sözleşmedeki eksiklikler, müşterinin mali gücünün 
sorumluluklarını yerine getiremeyecek kadar yetersiz olması, gelir/borç ödeme dengesine 
uymayacak kadar yüksek kredi limiti tahsisi, alınan teminatların yetersiz olması ve 
ekonomik faktörler nedeniyle krediler tahsil edilememe riski taşımaktadır (Bhargava, 
2000:8). 
Kredi riski, banka ile müşteri arasında yapılan kontrat gereği müşterinin üstlendiği 
yükümlülüklerini sözleşmede belirlenen süre zarfında eksiksiz yerine getirememe 
durumudur. Diğer bir ifadeyle, müşterinin bankadan almış olduğu faizli kredinin 
sözleşme yükümlülüklerine göre zamanında bankaya geri ödeyememe (temerrüde düşme) 
durumudur. 
Bankaların finansal getirileri göz önünde bulundurulduğunda, kredi riski için 
ayrılan likidite ile diğer risk tipleri için ayrılan likidite arasında yüksek fark vardır. 
Dolayısıyla banka için kredi riskinin diğer risklere kıyasla daha önem arz ettiği 
söylenebilir. Kredi riski, bankaların karşılaştığı en büyük risktir (Apostolik, 2009:18). 
2008 küresel ekonomik krizi, kredi riskinin kritik öneme sahip olduğuna emsal bir 
durumdur. Nitekim 2008’de gerçekleşen küresel ekonomik krizinin başlangıcına sebep 
olduğu düşünülen mortgage piyasasının, yanlış müşteri seçimi ile aniden değer 
kaybetmesi ve ipotekli satışın yapılmasıyla da kişisel iflasların artmasını tetiklemiştir.  
Yanlış kredi risk politikalarının zincirleme etkileri ile ekonomide durgunluktan 
işsizliğin artmasına kadar kötü sonuçlar doğurabilmektedir. 2008 yılında ABD’nin yanlış 
kredi risk politikaları sebebiyle küresel ekonomi çökmeye kadar ilerlemiştir. Yapılan 
yanlış kredi risk politikalarıyla, düşük kredi notuna sahip müşteriler için mortgage kredisi 
verilerek, temerrüde düşme oranı yüksek olan bu müşterilerin nihayet kredilerini 
temerrüde düşürmeye başlamıştır. Bankalar, temerrüde düşen müşterilerin mülklerine 
haciz koyarak, emlak piyasasında fiyatların düşmesine sebep olmuştur. Küresel olarak 
bankalar, sigorta şirketleri, yatırımcılar ve birçok finansal ve finansal olmayan kurumlar 
bu fonlara olan yatırımlarıyla büyük mali kayıplar vererek ekonomide durgunluğun 
yaşanmasına neden olmuştur. 
11 
 
 
Yanlış kredi risk politikalarının, finansal ve finansal olmayan sektörler üzerinde 
ciddi izler bırakması sonucu risk ölçümünün önemi ön plana çıkarak, bankacılık risklerine 
yönelik düzenlemelerle ilgili uluslararası çalışmaların hız kazanmasına sebep olmuştur. 
Bankacılık denetim ve düzenleme konularında ortak çalışma imkanları ve 
uluslararası finansal istikrarın sağlanması amacıyla, G10 ülkelerinin merkez bankası 
yöneticileri tarafından üye 17 ülke ile birlikte 1974 yılında İsviçre’nin Basel kentinde 
Basel Komitesi kurulmuştur. 1988 yılında başlatılan Basel I anlaşması ile komite, kredi 
riskine odaklanmış ve yayınladığı Sermaye Ölçümü ve Sermaye Standartlarının 
Uluslararası Düzeyde Uyumlaştırılması ile üye ve üye olmayan ülkelerin bankalarının 
1992 yıl sonuna kadar birlikte uyum sağlamaları gereken, sermaye yeterlilik rasyosunun 
minimum %8 oranını koruması gerektiği belirlenmiştir.  
Basel I’in sınırlamaları ortadan kaldırmak için komite, Haziran 2004’te Basel II 
anlaşmasını gerçekleştirmiştir. Basel I’de sadece kredi riskine odaklı düzenlemeler 
yapılırken, Basel II’de operasyonel ve piyasa riskini de kapsayan yeni bir düzenleme 
sağlanmıştır. Kredi riskinin tahmini için Basel II düzenlemeleriyle Standart Yaklaşım, 
İçsel Derecelendirmeye Dayalı Yaklaşım ve Gelişmiş İçsel Derecelendirmeye Dayalı 
Yaklaşım ile üç ayrı metodoloji tanımlanmıştır. 
Basel komitesinin temel amacı ve stratejisi, denetleyici bir yaklaşımdan en iyi 
uygulamaya yönelik gelişmiş içsel derecelendirmeye dayalı yaklaşıma geçen bankalara 
sermaye teşvikleri sunmaktır (Brown, 2014:4). Bu bağlamda İçsel Derecelendirmeye 
Dayalı Yaklaşım (Internal Ratings Based - IRB) ve Gelişmiş İçsel Derecelendirmeye 
Dayalı Yaklaşım (Advanced Internal Ratings Based – AIRB) versiyonları ile bankalar, 
kendi iç risk derecelendirmelerini farklı derecelerde geliştirmelerine ve kullanmalarına 
izin vermektedir. 
İçsel Derecelendirmeye Dayalı yaklaşım aşağıdaki dört temel parametreye 
dayanmaktadır: 
i. Temerrüt Olasılığı (Probabilty of Default - PD): Bir kredinin 12 aylık süre 
zarfında geri ödenmeme olasılığıdır. 
12 
 
 
ii. Temerrüt Halinde Kayıp (Loss Given Default - LGD): Borçlunun 
temerrüde düşmesi halinde maruz kalma yüzdesi olarak ifade edilen 
tahmini ekonomik kayıptır. 
iii. Temerrüt Halinde Risk Tutarı (Exposure at default - EAD): Borçlunun 
temerrüde düşmesi halinde bankaya ödemek zorunda olduğu beklenen 
brüt (ekonomik) miktardır. 
iv. Vade (Maturity - M): Bir kredinin veya başka bir finansal aracın nihai 
ödeme tarihine kadar geçen süredir (Brown, 2014:4). 
Yukarıdaki parametrelerinin yardımları ile banka, beklenen kredi zararını 
hesaplayabilmektedir. 
𝐵𝑒𝑘𝑙𝑒𝑛𝑒𝑛 𝐾𝑟𝑒𝑑𝑖 𝑍𝑎𝑟𝑎𝑟𝚤 (𝐸𝑥𝑝𝑒𝑐𝑡𝑒𝑑 𝑙𝑜𝑠𝑠 − 𝐸𝐿) = 𝑃𝐷 × 𝐿𝐺𝐷 × 𝐸𝐴𝐷         (1.1) 
 
Şekil 1.3: İçsel Değerlendirmeye Dayalı Yaklaşım Türleri (Brown, 2014:4) 
Finansal kurumlar için temel ve gelişmiş olarak iki İçsel Değerlendirmeye Dayalı 
Yaklaşım seçeneği mevcuttur (Basel Bankacılık Denetimi Komitesi, 2001a:34). İki 
yaklaşım arasındaki fark, parametrelerin banka tarafından ölçülme derecesidir. Temel 
yaklaşımda (IRB), denetleyici incelemeye tabi olarak banka tarafından sadece PD dahili 
olarak tahmin edilirken, Gelişmiş IRB yaklaşımında, dört parametrenin tamamı banka 
tarafından hesaplanacak ve denetim incelemesine tabi tutulacaktır (Schuermann, 2004:3). 
13 
 
 
Çalışmaya konu olan Temerrüt Olasılığı parametresi, 12 ay içinde borçlunun 
temerrüde düşme olasılığı incelemektedir. Bu bağlamda temel yaklaşım olan İçsel 
Değerlendirmeye Dayalı Yaklaşım esas alınarak PD tahmini hesaplanacaktır.  
Çalışma kapsamında, kredi başvurusunda bulunan her bir müşteri için gelecek 12 
aylık süre zarfında, temerrüt olasılığının tahminlemesi için kullanılan algoritmalar 
arasında performans ölçülerinin yardımıyla en uygun model ve tekniğin belirlenmesi 
amaçlanmıştır. 
1.3 LİTERATÜRDE KREDİ RİSK ANALİTİĞİ 
Geçen yüzyıla kadar uzanan kredi risk analitiği üzerine yapılan araştırma ve 
geliştirmeler, günümüzde de finans alanında kritik öneme sahip araştırma konusu olmaya 
devam etmektedir. Küresel mali krizler sonucunda önem kazanan düzenleyici odaklar 
sebebiyle, kredi risk analitiği süreci akademik ve iş dünyasında da rağbet görmeye devam 
etmektedir.  
Kredi risk analitiğindeki genel yaklaşım, geçmiş ve şimdiki müşteriye ait 
özellikler ve potansiyel başarısızlıkları arasındaki ilişkiyi analiz ederek sınıflandırmaktır. 
Bu bağlamda yeni başvuru sahiplerinin veya mevcut müşterilerin iyi veya kötü olarak 
sınıflandırılmasında uygulanabilecek sınıflandırıcıların belirlenmesi için kullanılabilir 
(Wang, 2005:820). 
Geleneksel olarak kredi risk analitiğinde temerrüt olasılığının tahmininde Lojistik 
Regresyon ve Diskriminant Analizi gibi teknikler kullanılmaktadır. Destek Vektör 
Makineleri, kredi kartı müşterilerinin sınıflandırılmasında kimin temerrüde düşeceğinin 
hesaplamasında başarılıdır. Ayrıca test edildiğinde ve geleneksel tekniklerle 
kıyaslandığında temerrüt riskini belirlemede en önemli özellikleri keşfetmede rekabetçi 
oldukları bulunmuştur (Bellotti, 2009:3302).  
Destek Vektör Makinelerinin kredi puanlamasında önemli ölçüde daha iyi 
sonuçlar verdiği gösterilmiştir (Gestel, 2003:11). Destek Vektör Makineleri, regresyon 
modelinden önemli ölçüde daha iyi performans göstermiştir (Yao, 2017: 687).  
Kredi puanlama tekniklerinde sınıflandırıcı algoritmaların Lojistik Regresyondan 
daha önemli düzeyde iyi performanslar gösterdiği görülmüştür. Ayrıca, Yapay Sinir 
14 
 
 
Ağları kredi puanlama veri setlerinde, aşırı öğrenen makinelerden daha iyi performans 
gösterdiği bulunmuştur (Lesssmann, 2015:124). 
Kredi skorlamada Diskriminant Analiz, Lojistik Regresyon, Yapay Sinir Ağları, 
sınıflandırma ağaçları ve bayes sınıflandırıcı gibi birçok algoritmadan yararlanılmaktadır. 
Yapay Sinir Ağlarının diğer beş yönteme göre daha doğru sonuçlar gerçekleştirdiği 
görülmüştür (Yeh, 2009:2479). 
1994 yılında Altman ve meslektaşları, geleneksel istatistiki stres ve iflas tahmini 
ile alternatif bir sinir ağı algoritması arasında ilk karşılaştırmalı analiz yöntemini 
gerçekleştirerek, iki yöntem için birleşik yaklaşımın doğruluğunun önemli ölçüde 
artırdığını saptadılar (1994:527). 
Zhou ve Wang daha iyi tahmin için karar ağaçlarına ağırlık tahsis etmeyi 
önermektedir (2012:1523). Hamori ve arkadaşları, PD analizinde sinir ağı yöntemleriyle 
Torbalama (Bagging), Rassal Orman ve Artırma (Boosting) ile tahmin doğruluğu ve 
sınıflandırma yeteneğini incelemiş ve karşılaştırmıştır. Çalışmada makine öğrenme 
algoritmaları arasında Artırmanın daha iyi performans sağladığını buldular (2018:12). 
Temerrüt olasılığının düşük olduğu portföyler, düşük risk olarak kabul edilirken, 
temerrüde düşen sınıflar arasında bir dengesizlik problemi ile karşılaşılabilir. Sınıf 
dengesizliği oluşturan portföyler için Gradyan Artırma ve Rassal Karar Ormanları 
sınıflandırıcı tekniklerinin iyi performans gösterdiği bulunmuştur (Brown, 2012:3453). 
Doğruluk oranı söz konusu olduğunda K-En Yakın Komşu, Rassal Orman ve 
Yapay Sinir Ağları algoritmaları iyi performans gösterir (Zhang, 2017:372). 
Torbalama, Artırma ve Rassal Orman benzer prosedürleri içermesine rağmen, 
Rassal Orman genellikle daha iyi doğruluk ve hata oranları üretmiştir (Barboza, 
2017:415). 
Kavcıoğlu, kurumsal kredileri skorlamada klasik yöntemler ile yapay sinir 
ağlarını karşılaştırarak, eğitim veri setinde yapay sinir ağlarının lojistik regresyona 
kıyasla daha başarılı sonuçlar ürettiğini saptamıştır. Verinin boyutu ve kalitesini dikkate 
alarak Yapay Sinir Ağları gibi makine öğrenmesi algoritmalarının daha iyi performans 
gösterdiği bulgusuna ulaşılmıştır (2019:241). 
15 
 
 
Yeşilyurt ve Şeker, kredi skorlama algoritmalarının karşılaştırmaları için yapmış 
oldukları literatür araştırmaları sonucu elde edilen algoritma karşılaştırma tablosuna 
aşağıda yer verilmiştir. 
Tablo 1.1: Algoritma Başarılarının Karşılaştırılması (Yeşilyurt, 2018:11) 
YSA (Yapay Sinir Ağları)  > Karar Ağacı 
C4.5 (Karar Ağacı) > YSA 
Lojistik Regresyon > Çoklu Diskriminant Analizi 
DVM (Destek Vektör Makineleri) > Lojistik Regresyon 
YSA > Lojistik Regresyon 
YSA ≅ Lojistik Regresyon > Doğrusal Diskriminant Analizi 
YSA > Genetik Programlama > DVM 
Demirbulut ve meslektaşları, istatistiksel ve makine öğrenmesi algoritmalarıyla 
kredi skorlama yöntemlerini ele alarak karşılaştırma analizleri yapmışlardır. 
Sınıflandırma başarısı AUC (Area Under Curve) değeriyle ölçülerek, YSA modelinin en 
başarılı algoritma olduğu bulgusuna ulaşılmıştır (2017:283). 
Literatürde kredi temerrüt riskinin skorlanması için birçok farklı istatistiksel ve 
makine öğrenmesi algoritmalarının karşılaştırmaları mevcut olmakla birlikte, bu 
çalışmalar bulgularında en başarılı algoritmalar, sektör bilgisiyle incelenerek, çalışmaya 
konu olan karşılaştırma algoritmaları belirlenmiştir.  
 
 
 
 
 
 
 
16 
 
 
İKİNCİ BÖLÜM 
METODOLOJİ 
 
2.1 ÇALIŞMADA KULLANILAN SINIFLANDIRMA ALGORİTMALARI 
Çalışmanın bu bölümünde, temerrüt riskinin sınıflandırılması kapsamında, 
denetimli makine öğrenmesi algoritmalarından sınıflandırma amacıyla kullanılanlar ele 
alınacak olup, ilgili algoritmaların sınıflandırma yeteneklerinin arkasında bulunan teknik 
farklılıklara değinilecektir. 
2.1.1 Lojistik Regresyon (Logistic Regression) 
Lojistik Regresyon, hedef değişkeninin olası iki değer alması (dikotom) 
durumunda, öznitelik değişkenlerinin bir lojistik fonksiyon olarak tanımlanması ve hedef 
değişkeni ile arasındaki ilişkinin regresyon analizi yardımıyla incelenerek, hedef 
değişkeni için sonucun olasılık değerinin logaritmasının tahmin edilmesidir. Öznitelik 
değişkenlerinin lojistik fonksiyon olarak tanımlanması için aşağıdaki sınırlayıcı 
fonksiyondan yararlanılmaktadır. 
1
𝜋 =                                                            (2.1) 
1 + ℯ−𝛽.𝑥
Her olası 𝜋 değeri için sonuç her zaman Şekil 2.1’deki gibi 0 ile 1 aralığında sınırlı 
bir olasılık olacaktır.  
 
Şekil 2.1: Lojistik Regresyon Sınıflandırma Grafiği 
Bu bağlamda, regresyon denklemi sınırlayıcı fonksiyon yardımı ile aşağıdaki 
gibidir. 
17 
 
 
𝜋
𝑙𝑜𝑔𝑖𝑡 (𝜋) ≡ log ( ) = 𝛽 + 𝛽 𝑥 + 𝛽 𝑥 𝑇
1 − 𝜋 0 1 1 2 2
+⋯+ 𝛽𝑛𝑥𝑛 = 𝛽. 𝑥          (2.2) 
Lojistik Regresyon denkleminde,  𝜋 bir olayın gerçekleşme olasılığını, 𝛽0 ve 𝛽𝑛 
model sabit katsayısı ve öznitelik değişkenlerine ait model katsayılarını, 𝑥𝑛 regresyon 
modelinde yer alan girdi özniteliklerine ait değerleri ifade eder. 
𝜋
Bir olayın gerçekleşme olasılığının gerçekleşmeme olasılığına olan oranı ( ) 
1−𝜋
𝜋
diğer bir ifadeyle odds oranı değeri (0, +∞) arasındaki değerleri aldığı için 𝑙𝑜𝑔( ) 
1−𝜋
dönüşümü uygulanarak (−∞,+∞) arasındaki değerler alması sağlanır. Eşitlikteki her iki 
tarafın üstel fonksiyonu alınarak (2.7)’daki olasılık fonksiyonuna ulaşılır. 
𝜋
𝑙𝑜𝑔 ( ) = 𝛽. 𝑥                                                        (2.3) 
1 − 𝜋
𝜋
( ) = ℯ𝛽.𝑥                                                        (2.4) 
1 − 𝜋
𝜋 = (1 − 𝜋)ℯ𝛽.𝑥                                                        (2.5) 
𝜋(1 + ℯ𝛽.𝑥) = ℯ𝛽.𝑥                                                        (2.6) 
ℯ𝛽.𝑥 1
𝜋 =  =                                                   (2.7) 
1 + ℯ𝛽.𝑥 1 + ℯ−𝛽.𝑥
Log dönüşümü oranları (logit) doğrusal yapıda olduğu için iki sınıfa ait ayrışımı 
Şekil 2.2’deki gibi doğrusal bir karar sınırı ile tahmin eder. Burada “iyi” temerrüde 
düşmeyen müşterileri temsil ederken, “kötü” temerrüde düşen müşterileri ifade 
etmektedir. 
 
Şekil 2.2: Lojistik Regresyon Karar Sınırı 
18 
 
 
Yukarıda bahsedilen logit dönüşümüne alternatif olarak literatürde probit ve 
cloglog dönüşümleri de önerilmektedir. 
 
Şekil 2.3: Popüler Dönüşümler 
Lojistik Regresyonun yapısı lineer regresyona benzerlik gösterse de teknik olarak 
ayrık sınıfları öngören bir sınıflandırma aracıdır. Bu bağlamda, Lojistik Regresyon, 
özellikle tüketici kredisi endüstrisinde yaygın olarak kullanılan bir algoritmadır (Hand, 
2009:1541). 
Temerrüt riskinin tahmininde, bir müşterinin kredi ödemelerindeki davranış 
yapısının iyi veya kötü ödeme durumuna bağlı olarak ikili durumu incelenir. Bu iki yanıt 
modeli için, hedef değişken y iki olası değerden birini alabilir: müşteri kötü bir ödeyici 
ise y=1; iyi bir ödeyici ise y=0 (Brown, 2014:30). 
2.1.2 Yapay Sinir Ağları (Neural Network) 
Yapay sinir ağları, hedef ve öznitelik değişkenleri arasındaki ilişkiyi analiz 
katmanları aracılığıyla işlemek için daha esnek bir tasarım sunan bir makine öğrenme 
algoritmasıdır. Temel olarak girdi katmanı, gizli (ara) katman ve çıktı katmanından 
oluşan bir yapıdadır. YSA, biyolojik sinir ağlarını taklit eden sentetik yapılardır 
(Eğrioğlu, 2009:10590). Dolayısıyla belirlenmiş bir modelin parametrelerini tahmin 
etmek yerine, beyin gibi biyolojik sinir sistemlerinin bilgi işlem biçiminden ilham 
alınarak tasarlanmıştır. Bu tasarım esasen insan beyinleri değil, hayvan beyinlerinin 
paralel mimarisi dikkate alınarak modellenmiştir (Bell, 2014:91).  
19 
 
 
 
Şekil 2.4: Biyolojik Sinir Ağı ve Yapay Sinir Ağı Görseli (Dangeti, 2017:241) 
Biyolojik Sinir Ağları ile Yapay Sinir Ağları arasındaki terminolojiler aşağıdaki 
gibidir; 
Tablo 2.1: BSS’nin YSA’daki Terminolojik Karşılıkları (Öztürk, 2018:28) 
Biyolojik Sinir Sistemi (BSS) Yapay Sinir Ağı (YSA) 
Nöron İşlem Elemanı 
Dentrit Toplama Fonksiyonu 
Hücre Gövdesi Aktivasyon Fonksiyonu 
Akson Eleman Çıkışı 
Sinaps Ağırlıklar 
Yapay Sinir Ağlarının yapısı, girdiler, ağırlıklar, toplam fonksiyonu, aktivasyon 
fonksiyonu ve çıkış fonksiyonu olarak beş bölümden oluşmaktadır. YSA üzerindeki her 
bir nöron, bir işleme alınma durumunu ifade etmektedir. Ağın öğrenme işlemini 
gerçekleştirmek için dışarıdan veya gereksinime göre diğer hücrelerden nöronlara gelen 
girdiler (Xj), işlenerek bir sonraki nöron için çıkış değerini iletir. Girdilerin çıktı 
üzerindeki etkisinin hesaplanabilmesi için her bir girdinin eğitim sırasında geldikleri 
bağlantıların ağırlığıyla çarpılarak bir parametre (ağırlık/Wj) üretilir. Çıkan sonuç, girdi 
değerlerinden bağımsız ve modelin fit edilmesine yardımcı olan bias (b) değişkeni ile 
toplanarak, Tablo 2.2’de bulunan toplama fonksiyonları (toplam, çarpım, maksimum, 
minimum, vd.) ile beslenir. Toplama fonksiyonları aracılığıyla, elde edilen net girdi, 
Tablo 2.3’de bulunan aktivasyon fonksiyonları (sigmoid, tanjant hiperbolik, doğrusal, 
relu, vd.) ile beslenerek bir veri çıktısı elde edilir.  
20 
 
 
 
Şekil 2.5: Solda Tek Gizli Katmanlı ve Sağda Çok Katmanlı Sinir Ağı Yapısı 
Bir gizli katmandaki nörona ait çıktının fonksiyonel olarak gösterimi aşağıdaki 
gibidir; 
𝑛
ℎ𝑖 = 𝑓(𝑏𝑖 +∑𝑤𝑖𝑗𝑥𝑗)                                                   (2.8) 
𝑗=1
(2.8) denkleminde ℎ𝑖 gizli katman nöronuna ait çıktıyı, 𝑏𝑖 bias değerini, 𝑤𝑖𝑗 girdi 
değişkenlerine ait ağırlıkların gizli nöron i ile bağlantılı ağırlık matrisini, 𝑥𝑗 her bir girdi 
değerini ve 𝑓 aktivasyon fonksiyonunu ifade eder. 
Tablo 2.2: Toplama Fonksiyonları Örnekleri (Öztemel, 2006:50) 
Toplama Fonksiyonu Açıklama 
Ağırlık değerleri ile girdi değerlerinin 
𝑛
çarpımlarından sonra hesaplanan her 
Toplam 𝑛𝑒𝑡 =∑𝑤𝑗𝑥𝑗  
𝑗=1 bir değerin birbirleriyle toplanması ile 
net girdinin elde edilmesidir. 
Ağırlık değerleri ile girdi değerlerinin 
𝑛
çarpımlarından sonra hesaplanan her 
Çarpım 𝑛𝑒𝑡 =∏𝑤𝑗𝑥𝑗  
𝑗=1 bir değerin birbirleriyle çarpılması ile 
net girdinin elde edilmesidir. 
21 
 
 
Ağırlık değerleri ile girdi değerlerinin 
Maksimum 𝑛𝑒𝑡 = max(𝑤𝑗𝑥𝑗) çarpımlarının sonucu en büyük çarpım 
değeri net girdi olarak kabul edilir. 
Ağırlık değerleri ile girdi değerlerinin 
Minimum 𝑛𝑒𝑡 = min(𝑤𝑗𝑥𝑗) çarpımlarının sonucu en küçük çarpım 
değeri net girdi olarak kabul edilir. 
Ağırlık değerleri ile girdi değerlerinin 
𝑛 çarpımlarından sonra bulunan pozitif 
Çoğunluk 𝑛𝑒𝑡 =∑𝑆𝑔𝑛(𝑤𝑗𝑥𝑗) ile negatif değerlerin sayısı arasından 
𝑗=1
büyük olan sayının net girdi olarak 
kabul edilmesidir 
Daha önce toplama işlemiyle 
𝑛 hesaplanan girdi değerlerine yeni 
Kümülatif 
𝑛𝑒𝑡 = (𝑒𝑠𝑘𝑖) +∑𝑤𝑗𝑥𝑗  hesaplanan değerlerin de eklenerek 
Toplam 𝑗=1
kümülatif olarak toplanmasıyla elde 
edilen net girdi değeridir. 
Çalışmaya konu olan temerrüt riski tahmininde net girdinin hesaplanması için 
Tablo 2.2’de bulunan toplama fonksiyonları arasından ağırlıklı olarak kullanılan toplam 
fonksiyonu kullanılmıştır.  
Çıkış katmanındaki aktivasyon fonksiyonu ile bir yanıt olasılığı elde etmek için 
Tablo 2.3’de bulunan aktivasyon fonksiyonları arasından ikili bir tahminleme olan 
sigmoid aktivasyon fonksiyonu kullanılmıştır. 
 
 
22 
 
 
Tablo 2.3: Bazı Aktivasyon Fonksiyonları 
Aktivasyon Fonksiyonu Açıklama 
Sigmoid Fonksiyonu 
𝟏
𝒇(𝒏𝒆𝒕) =  
𝟏 + 𝓮−𝒏𝒆𝒕 Doğrusal olmayışı sebebiyle YSA 
 
uygulamalarında sıkça kullanılan bir 
aktivasyon fonksiyonudur. Sürekli ve türevi 
alınabilir bir fonksiyon olmasıyla beraber kayıp 
aktivasyon değeri oluşturmaz. Fakat gradyan 
kaybı problemi mevcuttur. Aralık değeri (0,1) 
arasındadır. 
 
 
Tanjant Hiperbolik Fonksiyonu 
Sigmoid fonksiyonuna benzer bir yapıya 
𝓮𝒏𝒆𝒕 − 𝓮−𝒏𝒆𝒕
𝒇(𝒏𝒆𝒕) =  sahiptir. Ancak fonksiyon aralığı (-1,1) 
𝓮𝒏𝒆𝒕 + 𝓮−𝒏𝒆𝒕
arasındadır. Dolayısıyla daha çok değer alarak 
 
türevinin daha dik bir yapıda olmasına, 
böylelikle daha hızlı öğrenme ve sınıflandırma 
işlemi gerçekleştirmesine sebebiyet 
vermektedir. Sigmoid fonksiyonu gibi gradyan 
kaybı vermektedir. Aralık değeri (-1,1) 
arasındadır. 
 
23 
 
 
 
Doğrusal Fonksiyon Doğrusal problemler çözmek amacıyla 
𝒇(𝒏𝒆𝒕) = 𝒏𝒆𝒕 kullanılan bu fonksiyon, sigmoid fonksiyonu 
 gibi ikili değerler üretmeyerek birden fazla 
çıkışa izin verir. Ancak türevi sabit olduğu için 
modelin eğitiminde gerçekleştirilen geriye 
yayılıma (backpropagation) izin 
vermemektedir. Dolayısıyla giriş 
nöronlarındaki hangi ağırlıkların daha iyi bir 
tahmin sağlayabileceğini anlamak mümkün 
değildir. Aralık değeri (-∞, ∞) arasındadır. 
 
ReLu  (Rectified Linear Unit – ReLu) Doğrultulmuş 
𝒏𝒆𝒕 < 𝟎 𝒊𝒔𝒆 𝟎
𝒇(𝒏𝒆𝒕) = {  Lineer Birim pozitif eksende doğrusal 
𝒏𝒆𝒕 ≥ 𝟎 𝒊𝒔𝒆 𝒏𝒆𝒕
fonksiyon ile aynı özelliklere sahip gibi 
 
görünse de aslında doğrusal olmayan bir 
yapıdadır. Fonksiyon aralıkları itibariyle 
negatif değerleri sıfıra dönüştürerek verilerin 
eğitiminin azalmasına ve böylelikle 
öğrenmenin zayıf kalmasına neden 
olabilmektedir. Sigmoid ve Tanjant Hiperbolik 
fonksiyonlardaki gibi gradyan kaybı 
 vermemektir. Aralık değeri [0, ∞) arasındadır. 
Toplam fonksiyonu ve aktivasyon fonksiyonu seçimleri sonrası nihai YSA 
denklem yapısı aşağıdaki gibidir. 
𝑛ℎ
𝜋 = 𝑓𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑏 +∑𝑣𝑗ℎ𝑗)                                          (2.9) 
𝑗=1
Denklem (2.9)’de; 𝜋 çıktı değerini, 𝑓𝑠𝑖𝑔𝑚𝑜𝑖𝑑 sigmoid (lojistik) fonksiyonunu, 𝑏 
bias sabitini, 𝑛ℎ gizli katmandaki nöron sayısını, 𝑣𝑗  ağırlık vektörünü, ℎ𝑗  gizli nöronun 
çıktı değeri üzerindeki ağırlığını temsil eder. 
24 
 
 
2.1.3 Karar Ağacı (Decision Tree) 
Denetimli bir öğrenme tekniği olan karar ağaçları hem sınıflandırma hem de 
regresyon için kullanılabilen, ağaç benzeri bir yapıda düzenlenmiş bir dizi kural tabanlı 
hiyerarşik bir sınıflandırma algoritmasıdır. Karar ağaçları, heterojen yapıdaki nicel veya 
nitel veri setlerini, hedef değişkene dayalı homojen alt gruplara ayırarak hedef değişkene 
ait değerlerin tahminini gerçekleştiren, uygulanabilir bir model kurmayı hedefler. 
Örneğin, bir kredi riski vaka çalışmasında, kredi başvurusunda bulunan müşteriye ait 
borç, yaş, gelir ve medeni durum bilgileri bulunabilir. Karar ağacı, her bir başvuranı iyi 
veya kötü bir kredi riski olarak tahmin edebilen (sınıflandırabilen) bir dizi metin kuralı 
veya grafiksel bir ağaç olarak bir model oluşturur (Zhang, 2002:11).  
Karar ağaçları için grafik gösterimi son derece sezgisel olduğundan, kullanıcılar 
diğer algoritmalara göre karar ağacındaki verileri kolaylıkla inceleyebilir ve 
yorumlayabilir. 
 
Şekil 2.6: Karar Ağacı Örneği 
Şekil 2.6’deki gibi karar ağaçları temel olarak kök karar düğümü, iç karar 
düğümleri (üst ve alt düğümler) ve yaprak düğümünden oluşmaktadır. Bir başlangıç 
noktası görevi gören kök karar düğümü, belirlenen kritere (karar kuralı) göre dallanarak 
alt gruplara ayrılır ve iç karar düğümlerini oluşturur. İç karar düğümleri içerisindeki 
veriler homojen olana kadar dallanma işlemine devam edilerek alt gruplara ayrılır. Nihai 
uç yaprağa ulaşıldığında test işlemi sona ererek bir çıktı elde edilir. 
25 
 
 
Dolayısıyla karar ağaçlarının oluşumundaki eğitim süreci kural indüksiyon 
algoritmalarına benzeyen bir tür tümevarım yöntemidir. Diğer bir ifadeyle, veri setinin 
hedef değişken üzerinden sahip olduğu tüm kombinasyonları için kural indüksiyonları 
yardımıyla gerçekleştirdiği bir tümevarım yöntemidir. 
Her bir karar düğümünde kullanılan bölme kriteri, verimli bir karar ağacının 
dizayn edilmesi için oldukça önem arz etmektedir. Bu bağlamda karar düğümlerindeki 
dallanmalar, verilerin safsızlığına göre belirlenir. Safsızlık, her bir düğümdeki verilerin, 
her sınıfa ne kadar iyi böldüğünü gösteren bir ölçüdür. Safsızlığı ölçmede kategorik 
hedefler için genellikle Entropi ve Gini ölçüleri kullanılırken, sürekli hedefler için 
varyans azaltma veya F testine ait p-değeri gibi ölçüler kullanılır. İlgili çalışma dahilinde 
kullanılan hedef değişkenin kategorik olması sebebiyle Entropi ölçüsü incelenecektir. 
Bilgi teorisinden gelen ve farklı sınıflar arasındaki verilerin varyans ölçüsünü 
açıklayan entropi denklem (2.10)’da gösterilmektedir. 
𝑛
𝐸𝑛𝑡𝑟𝑜𝑝𝑖(𝑆) = −∑𝑝𝑖 log2 𝑝𝑖                                          (2.10) 
𝑖=1
Shannon’un (2.10)’daki entropi denkleminde 𝑆 entropiyi, 𝑛 sınıf sayısını ve 𝑝𝑖 
gerçekleşebilecek her bir sınıfa ait olasılığı temsil eder. Bir karar düğümünde bulunan 
veriler %100 homojen olarak sınıflandırıldıysa, entropi değeri sıfır olacaktır. Ancak 
sınıflandırma eşit yapıda bölünmüş ise entropi seviyesi 1 olacaktır. Nitekim entropi 
seviyesinin düşük değerde olması, sınıflandırmanın iyi olduğu göstergesidir. 
Entropinin alternatifi olan Gini safsızlığı ise bir yanlış sınıflandırma ölçüsüdür. 
Diğer bir ifadeyle sınıflandırmanın heterojenliğini ölçen Gini safsızlığı aşağıdaki formül 
ile hesaplanmaktadır. 
𝑛
𝐺𝑖𝑛𝑖 = 1 −∑(𝑝 )2𝑖                                                       (2.11) 
𝑖=1
Burada 𝑖 sınıf sayısını ve 𝑝𝑖 sınıflandırma olasılığını temsil eder.  
Gini safsızlığında logaritmik hesaplama uygulanmadığı için entropiye göre daha 
hızlı hesaplama olanağı sunar ve 0 ile 1 arasında değerler alır. Yanlış sınıflandırma oranı 
26 
 
 
yükseldikçe bu değer 1’e yaklaşırken, tüm öğelerin belirli bir sınıfa ait olduğu veya 
yalnızca bir sınıfa sahip olduğu zaman bu oran 0 olacaktır. Eğer sınıflar eşit olarak 
dağıtılmış ise Gini safsızlığı 0.5’i gösterecektir. Nitekim Gini değerinin düşük olması, 
doğru sınıflandırma oranının yüksek olduğu anlamına gelmektedir. 
Entropi ve Gini gibi safsızlık ölçülerinin sınıflandırmadaki önemi dikkate 
alındığında, ağacın başlangıç düğümü olan kök karar düğümünde konumlanacak özelliğin 
belirlenmesi, ağacın verimliliği için oldukça önemlidir. Bu bağlamda kök düğümünde 
konumlanacak özelliğin belirlenmesi için veri setinin bir özellik üzerinde en iyi 
sınıflandırmayı sağlayan, bilgi kazancı değerine ihtiyaç vardır. Bilgi kazancı ise tüm 
popülasyona ait safsızlık (Entropi veya Gini) değeri ile alt düğümlerde bulunan veri 
kümesinin özelliklerine ait safsızlık değeri arasındaki farktır. Entropiye dayalı bilgi 
kazancına ilişkin denklem aşağıdaki gibidir. 
𝑛
𝑁𝑗
𝐵𝑖𝑙𝑔𝑖 𝐾𝑎𝑧𝑎𝑛𝑐𝚤 (𝐷𝑝, 𝑓) = 𝑆(𝐷𝑝) −∑ 𝑆(𝐷𝑗)                              (2.12) 𝑁
𝑖=1
(2.12)’deki denklemde 𝑓 bölünmeyi gerçekleştiren özelliği, 𝐷𝑝 üst düğüme ait 
veri kümesini, 𝐷𝑗  j’ninci alt düğüme ait veri kümesini, 𝑆 entropiyi, 𝑁 toplam gözlem 
sayısını, 𝑁𝑗 j’ninci alt düğüme ait gözlem sayısını ifade etmektedir. 
 Her özellik için hesaplanan bilgi kazanç değeri arasından en yüksek olan özellik, 
kök düğüm olarak kabul edilir. Verimli bir ağacın dizayn edilmesi için safsızlık ve bilgi 
kazancı ölçüleri ile Karar Ağacı eğitilirken, kök düğümden son bölünmeye kadar safsızlık 
seviyesinin düşürülmesi hedeflenir. 
2.1.4 Destek Vektör Makineleri (Support Vector Machine) 
Yüksek boyutlara sahip veri türleri için sınıflandırma veya regresyon analizini 
gerçekleştirmede ekstra avantajlara sahip denetimli öğrenme yöntemi olan Destek Vektör 
Makineleri, iki sınıfın optimal bölünmesinde karar fonksiyonunun tahmin edilmesi, diğer 
bir ifadeyle n boyutlu bir uzayda optimal bir sınıflandırma için hiperdüzlemin 
belirlenmesine dayanmaktadır. Destek Vektör Makineleri, doğrusal ayrılabilen ve 
doğrusal ayrılamayan veri türleri için farklı prensipler sunmakla birlikte, ilgili çalışma 
kapsamında kullanılan doğrusal ayrılabilen DVM incelenecektir. 
27 
 
 
Destek Vektör Makinelerinde veri kümelerini ayırmak için Şekil 2.7’teki gibi 
sonsuz hiperdüzlemler çizmek mümkündür. Ancak hangi hiperdüzlemin en ideal 
sınıflandırma koşulunu sağladığını belirlemek için hiperdüzlemler ile destek vektörleri 
arasındaki mesafe incelenir. Bu mesafe marj olarak adlandırılıp, marjın maksimum 
olduğu hiperdüzlem, optimum hiperdüzlem olarak kabul edilir.  
 
Şekil 2.7: İki Sınıflı Bir Problem için Hiperdüzlemler (Kavzoğlu, 2010:76) 
DVM ile sınıflandırmalar genellikle -1 ve +1 etiketleri ile iki ayrı sınıfı temsil 
etmektedir. Bu bağlamda, iki sınıflı doğrusal olarak ayrılabilen bir sınıflandırma 
işleminde, eğitim verisini (𝑥𝑖, 𝑦𝑖) en iyi şekilde ayıracak hiperdüzlemin bulunması 
kapsamında sınırlara ait eşitsizlikler aşağıdaki gibidir: 
𝑤 ∙ 𝑥𝑖 + 𝑏 ≥ +1,    ℎ𝑒𝑟   𝑦𝑖 = +1  𝑖ç𝑖𝑛                                (2.13) 
𝑤 ∙ 𝑥𝑖 + 𝑏 ≤ −1,    ℎ𝑒𝑟   𝑦𝑖 = −1  𝑖ç𝑖𝑛                                (2.14) 
Burada 𝑥 𝜖 𝑅𝑛 olup n-boyutlu girdi vektörünü, 𝑦𝑖  𝜖 {−1,+1} sınıf etiketlerini, 𝑤 
ağırlık vektörünü ve 𝑏 eğilim değerini göstermektedir. Bu eşitsizlikler, Eşitlik (2.15)’te 
verildiği gibi tek bir eşitsizlikte birleştirilebilir (Ayhan, 2014:180). 
∀𝑖 𝑖ç𝑖𝑛 𝑦𝑖(〈𝑤, 𝑥𝑖〉 + 𝑏) − 1 ≥ 0                                      (2.15) 
Destek vektörleri ve eşitsizliklerin yardımı ile birbirine paralel olarak sınırlayıcı 
hiperdüzlemlerin belirlenmesi sağlanarak, Şekil 2.8’daki gibi doğrusal olarak ayrılabilen 
optimum hiperdüzlem elde edilir. 
28 
 
 
 
Şekil 2.8: Doğrusal Olarak Ayrılabilen Veri Setleri için Hiper-Düzlemin 
Belirlenmesi (Kavzoğlu, 2010:76) 
 Sonuç olarak, doğrusal olarak ayrılabilen iki sınıflı bir problem için karar 
fonksiyonu aşağıdaki şekilde yazılabilir (Osuna, 1997:8). 
𝑛
𝑓(𝑥) = 𝑠𝑖𝑔𝑛 (∑𝜆𝑖𝑦𝑖(𝑥 ∙ 𝑥𝑖) + 𝑏)                                   (2.16) 
𝑖=1
2.1.5 K-En Yakın Komşu (K-Nearest Neighbors) 
K-En Yakın Komşu algoritması, sınıflandırma ve regresyon için kullanılan 
parametrik olmayan bir denetimli öğrenme tekniğidir. Eğitim sürecini verilerin kaydını 
tutarak gerçekleştirdiğinden diğer makine öğrenme yöntemlerine göre daha tembel bir 
öğrenme tekniğine sahiptir. Basit yapılarına rağmen, uydu görüntüleri, el yazıları, 
elektrokardiyogram görüntüleri gibi birçok sınıflandırma çalışmalarında başarılı sonuçlar 
elde etmektedir. Algoritma temel olarak, eğitim verilerinin özellik uzayındaki belirli bir 
k hiperparametresine olan uzaklığına göre oluşturulan sınıflandırmanın, örnek tabanlı 
öğrenmesine dayanmaktadır. 
Diğer bir ifadeyle, K-En Yakın Komşu algoritması, “Bana arkadaşını söyle, sana 
kim olduğunu söyleyeyim.” veya “Üzüm üzüme baka baka kararır.” atasözlerindeki nesne 
veya insanların, birbirine olan yakınlığından kaynaklanan yapısal benzeşme durumunun 
mantığını benimsemektedir. 
 
29 
 
 
 
Şekil 2.9: K-En Yakın Komşu Örneği 
K-En Yakın Komşu algoritmasının optimum sonuç üretmesi için en uygun uzaklık 
matrisinin hesaplanmasına ve optimal sınıflandırmayı sağlayacak komşu sayısına (k 
hiperparametresine) ihtiyaç vardır. Eğitim veri setindeki gözlemler arasındaki mesafenin 
tanımlanması ve optimal uzaklık matrisinin hesaplanması için Öklid, Manhattan, 
Minkowski, Mahalanobis, Kosinüs, Jaccard, Hamming gibi yöntemler kullanılmaktadır. 
Yaygın kullanımı olan Öklid uzaklığı, iki gözlem arasındaki doğrusal uzaklığı ifade edip 
aşağıdaki gibi tanımlanmaktadır. 
𝑑(𝑦, 𝑥) = 𝑑(𝑥, 𝑦) = √(𝑥1 − 𝑦 )21 + (𝑥2 − 𝑦2)2 +⋯+ (𝑥 2𝑛 − 𝑦𝑛)         (2.17) 
𝑛
𝑑ö𝑘𝑙𝑖𝑑 = √∑ (𝑥𝑖 − 𝑦 2𝑖)                                     (2.18) 
𝑖=1
Burada 𝑥𝑖 ve 𝑦𝑖 iki ayrı gözlemi ifade etmektedir. Öklid uzaklığının genellemesi 
olan Minkowski uzaklığının ölçümüne aşağıda yer verilmiştir. 
𝑛 1/𝑝
𝑑𝑚𝑖𝑛𝑘𝑜𝑤𝑠𝑘𝑖 = (∑ |𝑥𝑖 − 𝑦𝑖|
𝑝)                               (2.19) 
𝑖=1
Yukarıdaki denklemde bulunan 𝑝 değeri 2 olduğunda Öklid uzaklık ölçüsü elde 
edilirken, 1 olduğunda ikili sınıflandırma problemlerinde yaygın kullanımı olan 
Manhattan uzaklık ölçüsüne eşdeğer olmaktadır. 
30 
 
 
𝑛
𝑑𝑚𝑎𝑛ℎ𝑎𝑡𝑡𝑎𝑛 =∑ |𝑥𝑖 − 𝑦𝑖|                                         (2.20) 
𝑖=1
Optimum sınıflandırma için bir diğer unsur k hiperparametresinin belirlenmesi 
olup, yüksek değer alması yanlılığı artırırken, düşük değer alması varyansın artmasına 
neden olmaktadır. İlgili çalışma kapsamında uzaklık matrisinin hesaplanmasında, Öklid 
uzaklık ölçüsü ve optimal sınıflandırma için k-hiperparametresi deneysel olarak farklı 
değerler ile belirlenmiştir. 
2.1.6 Rassal Orman (Random Forest) 
Topluluk Öğrenmesine dayanan Rassal Orman (RO) algoritması, Torbalama 
(Bootstrap Aggregation) tekniğinden yararlanarak, herhangi bir bilgi ölçüsü metodu 
kullanmadan seçilen rastgele örneklemler ve değişkenlerle inşa edilen karar ağaçları 
topluluklarıdır. Rassal Orman, torbalama tekniği ile seçilen rastgele örneklemlere ek 
olarak, ağacın her düğümünde rastgele seçilen değişkenler ile karar ormanını oluşturur. 
Dolayısıyla Rassal Orman, torbalama yönteminin gelişmiş bir şekli olarak kabul edilebilir 
(Breiman, 2001:28). 
 
Şekil 2.10: Karar Ormanı Diyagramı (Sniatala, 2020:160) 
 
31 
 
 
Karar ormanını oluşturan ağaçlar, ağacı maksimum boyutta geliştirmek için 
CART (Classification and Regression Tree) algoritmasından faydalanarak, kök karar 
düğümünde hangi özelliğin konumlanacağını bilgi kazancı (2.12) ile belirler. Kök karar 
düğümünde konumlanacak özelliğin belirlenmesinden sonra sınıflandırmaların safsızlığı 
için gini indeksinden (2.11) yararlanır. Bu prosedür kullanıcı tarafından belirlenen N tane 
ağaç sayısı oluşturulana kadar yinelenir. Her bir karar düğümünde kullanılacak öznitelik 
değişkenleri, kullanıcının belirlemesi gereken diğer bir hiperparametre olup toplam 
öznitelik sayısının karekökü kadar olması tavsiye edilmektedir. 
Rastgele örneklemler ile inşa edilen her bir ağacın sınıflandırma sonuçları, oylama 
tekniğine benzer yaklaşımla ortalaması alınarak nihai sınıf kararına ulaşılır. Tahminlerin 
ortalamasının dikkate alınması, son sınıflandırıcıda varyansın ve sapmanın azalmasına 
olanak sağlamaktadır. Bu durumla güçlü ve yüksek performansta sınıflandırmalar elde 
edilmektedir. 
Ek olarak, RO algoritması eğitim veri setinin belirli bir kısmını ağaçlardan elde 
edilen sonuçların hata oranlarını değerlendirmek için kullanır. (Out-of-Bag, OOB) olarak 
adlandırılan bu veri seti, ormana ait genel sınıflandırma başarısını da hata skoruyla tespit 
ederek, model doğruluğunu ölçümleyebilmektedir. Sahip olduğu bu teknikler ile aşırı 
öğrenme (overfitting) durumuna dayanıklı olsa da gürültülü verilerin yoğunluğuna göre 
aşırı öğrenme eğiliminde olabilirler. 
RO, tıpkı Karar Ağaçları ve Gradyan Artırma algoritmaları gibi öznitelik 
değişkenlerinin hedef değişken üzerindeki sınıflandırıcı gücünü kullanarak öznitelik 
önemliliğini hesaplamaktadır. Gini indeksinin büyüklüğüne göre belirlenen öznitelik 
önemliliği topluluk öğrenmelerinde aşağıdaki gibi hesaplanmaktadır. 
1
𝑉𝐼(𝑋𝑗) = ∑(ℎ𝑎𝑡𝑎𝑡(𝐷) − ℎ𝑎𝑡𝑎𝑡(?̃?𝑗))                             (2.21) 𝑁
𝑡
Burada 𝑁, RO’da bulunan toplam ağaç sayısını, 𝑡 her bir ağacı, 𝐷 eğitim verilerini 
ve ?̃?𝑗, 𝑋𝑗 özniteliğinin sahip olduğu verileri temsil etmektedir. Sınıflandırma 
problemlerinde hata 1 – Doğruluk (Yanlış Sınıflandırma Oranı) ile ölçülürken, regresyon 
problemlerinde ortalama kare hata (Mean Squared Error) olarak değerlendirilmektedir.  
32 
 
 
2.1.7 Gradyan Artırma (Gradient Boosting) 
Gradyan Artırma, regresyon veya sınıflandırma modellerinde tahmin edilen 
değerler ile gözlemlenen değerler arasındaki uyumun iyileştirilmesi için kayıp 
fonksiyonun türevleri ile model optimizasyonuna izin veren bir makine öğrenme 
algoritmasıdır. Model optimizasyonunda kullanılan kayıp fonksiyonu için regresyon 
modellerinde ortalama hata kare kullanılırken, sınıflandırma modellerinde logaritmik 
kayıp kullanılmaktadır. 
 
Şekil 2.11: Gradyan Artırma Algoritmasının Yaygın Bir Örneği (Vasiloudis, 2019,1) 
Algoritmanın ardındaki yeteneği, artıklardaki örüntüleri model tahmininde 
parametreleştirilmiş bir yapıda kullanarak, zayıf tahmincileri iyileştirmesi ve algoritmik 
olarak kayıp fonksiyonunu optimize etmesidir. Bu bağlamda, artık değerlerin bir kayıp 
fonksiyonunun türevleri olarak toplu etkileşimli iterasyonlarla hem varyansı hem de 
sapmayı azaltacak şekilde bir öngörü fonksiyonunun doğruluğunu artıran kolektif bir 
algoritmadır. 
Gözlemlenen değerler ile tahmin değerleri arasındaki farkın (artıklar) her bir 
iterasyonda bir parametre görevi görerek tahmindeki sapmayı azaltması aşağıda bulunan 
adımlar ile gerçekleşmektedir. 
 
 
33 
 
 
Tablo 2.4: Gradyan Artırma Sözde Teknik Kodu 
1. Temel Modelin Oluşturulması 
𝑵
𝒇𝟎(𝒙) = 𝒂𝒓𝒈𝒎𝒊𝒏𝜸∑ 𝑳(𝒚𝒊, 𝜸) 
𝒊=𝟏
2. Artıkların Hesaplanarak Model Dahil Edilmesi 
{(𝒙𝒊𝒚𝒊)}
𝒏
𝒊=𝟏 Eğitim veri seti, 𝑳(𝒚, 𝑭(𝒙)) türevlenebilir kayıp fonksiyonu ve M iterasyon sayısını 
ifade etmek üzere, 
• Artıkların hesaplanması:  
𝝏𝑳(𝒚𝒊, 𝒇(𝒙𝒊))
𝒓𝒊𝒎 = −[ ]       𝒊 = 𝟏, 𝟐, … , 𝐍 𝝏𝒇(𝒙𝒊) 𝒇=𝒇𝒎−𝟏
• Sözde artıkları parametreleştirip 𝒉𝒎(𝒙) yeniden eğitilmesi: 
𝒏
𝜸𝒎 = 𝒂𝒓𝒈𝐦𝐢𝐧𝛄∑ 𝑳(𝒚𝒊, 𝒇𝒎−𝟏(𝒙𝒊) + 𝜸𝒉𝒎(𝒙)) 
𝒊=𝟏
• Modelin güncellenmesi: 
𝒇𝒎(𝒙) = 𝒇𝒎−𝟏(𝒙) + 𝜸𝒎𝒉𝒎(𝒙) 
3. Nihai Çıktı 
?̂?(𝒙) = 𝒇𝑴(𝒙) 
Yukarıda optimum modelin elde edilmesi için gerçekleştirilen iterasyonlar 
doğrultusunda nihai gradyan artırma modeli temel olarak aşağıdaki gibi gösterilmektedir. 
𝑓𝑀(𝑥) = 𝐺0 + β1𝑇1(𝑥) + β2𝑇2(𝑥) +⋯⋯+ βu𝑇𝑢(𝑥)                    (2.22) 
Burada 𝐺0 serideki ilk değeri ifade ederken, 𝑇1,,, 𝑇𝑢 değerleri kalıntıları içeren 
ağaçları temsil etmektedir. β1,,, βu değerleri ağaçlardaki düğümler için katsayıları 
ifade etmektedir.  
2.2 SINIFLANDIRMALAR İÇİN PERFORMANS ÖLÇÜLERİ  
Çalışmaya konu olan kredi temerrüt risk tahmininde, temerrüde düşen ve 
temerrüde düşmeyen olarak ikili sınıflandırmaları gerçekleştiren algoritmaların 
performansları için karmaşıklık matrisinden elde edilen sınıflandırma ölçüleri ve ROC 
eğrisinden yararlanılmaktadır. 
34 
 
 
2.2.1 Karmaşıklık Matrisi 
Karmaşıklık matrisi, algoritmaların doğrulama veya test veri setleri üzerinden 
gerçekleştirdiği sınıflandırmaların, dört farklı perspektif (A, B, C, D) üzerinden, gerçek 
gözlemlenen değerler ile karşılaştırıldığı özet matris tablosudur. 
Tablo 2.5: Karmaşıklık Matrisi 
Toplam 
(Tahminlenen) (Tahminlenen) 
 Gözlemlenen 
Negatif Pozitif 
Olasılık 
A  B  𝐴 + 𝐵
(Gözlemlenen) Negatif  
(Doğru Negatif) (Yanlış Pozitif) 𝐴 + 𝐵 + 𝐶 + 𝐷
C  D  𝐶 + 𝐷
(Gözlemlenen) Pozitif  
(Yanlış Negatif) (Doğru Pozitif) 𝐴 + 𝐵 + 𝐶 + 𝐷
Toplam Tahminlenen Değer A + C B + D 𝐴 + 𝐵 + 𝐶 + 𝐷 
Sınıflandırma çıktıları birbirleriyle ilişkilendirilerek aşağıdaki performans 
ölçüleri türetilir. 
Tablo 2.6: Sınıflandırma Ölçüleri 
Sınıflandırma Ölçüsü Formül 
Doğruluk 𝐴 + 𝐷
 
(Doğru Sınıflandırma Oranı) 𝐴 + 𝐵 + 𝐶 + 𝐷
Hassasiyet 𝐷
 
(Gerçek Pozitif Oranı) 𝐶 + 𝐷
Özgüllük 𝐴
 
(Gerçek Negatif Oranı) 𝐴 + 𝐵
1-Özgüllük 𝐵
 
(Yanlış Pozitif Oranı) 𝐴 + 𝐵
𝐷
Kesinlik  
𝐷 + 𝐵
𝐷
(𝐶 +  𝐷)
F1 Skoru 2 ∗  
𝐷
(𝐷 +  𝐵)
35 
 
 
Çalışma kapsamında temerrüde düşenler pozitif, temerrüde düşmeyenler ise 
negatif olarak değerlendirilmiştir. Bu bağlamda, ilgili performans ölçülerinin çalışma 
kapsamındaki tanımlamalara aşağıda yer verilmiştir. 
Doğruluk oranı, temerrüde düşen ve temerrüde düşmeyen olarak gözlemlenen 
değerler için genel olarak ne oranda doğru tahmin edildiğinin bilgisini veren ölçüttür. 
Yanlış sınıflandırma oranı ise doğru sınıflandırma oranının tersi olarak, tahmin 
değerlerinin gözlemlenen gerçek değerlerden ne oranda yanlış sınıflandırmalar yaptığını 
açıklar. Diğer bir ifadeyle, gerçekte temerrüde düşenlerin, tahmin değerlerinde temerrüde 
düşmediğini ve gerçekte temerrüde düşmeyenlerin, tahmin değerlerinde temerrüde 
düştüğünün genel oranıdır. Pozitiflerin genel tahmin başarısını Tip-II hata perspektifiyle 
inceleyen hassasiyet oranı, gerçekte temerrüde düşenlerin, tahmin değerlerinde ne oranda 
temerrüde düşenler olarak sınıflandırıldığının bir ölçüsüdür. Temerrüde düşenler için Tip-
I hata perspektifiyle hesaplanan diğer bir ölçüt ise, kesinlik oranı olup, tahmin değerinde 
temerrüde düşen olarak sınıflandırılan müşterilerin gerçekte kaçının temerrüde düştüğü 
bilgisini doğrulamaktadır. Negatif vakalar için hesaplanan özgüllük oranı, gerçekte 
temerrüde düşmeyenlerin, tahmin değerlerinde ne oranda temerrüde düşmeyenler olarak 
sınıflandırıldığının bir ölçüsüdür. ROC eğrisinin yatay ekseninde kullanılan ve tahmin 
değerlerinin kayıp oranı olan yanlış pozitif oranı (1–Özgüllük), gerçekte temerrüde 
düşmeyenlerin tahmin değerlerinde ne oranda temerrüde düşenler olarak sınıflandırıldığı 
ölçüdür. 
Sınıflandırıcı ölçüler tek boyutlu olmadığı için performans değerlendirmesi de tek 
bir ölçüt üzerinden değerlendirilmemektedir. Özellikle kredi riski perspektifinde 
temerrüde düşen ve temerrüde düşmeyenlerin yanlış sınıflandırılması farklı risk yapılarını 
ortaya çıkardığı için yukarıda tanımlanan ölçüler tek başına değerlendirilmesi kayıp risk 
perspektifine neden olacaktır.  
Bu bağlamda, yukarıda hesaplanan hassasiyet ve kesinlik ölçütlerinin harmonik 
ortalamasıyla elde edilen bir diğer ölçü ise F1 skoru olup, öncelikle Tip-I ve Tip-II hata 
perspektifleriyle hesaplanan hassasiyet ve kesinlik ölçütlerinin sınıflandırma 
performansını karşılaştırmak için kullanılmaktadır. Ayrıca, sınıflandırıcı algoritmaların 
performanslarının karşılaştırılmasında yaygın olarak kullanılan F1 skoru, modelin genel 
başarısını da karakterize etmektedir. 
36 
 
 
2.2.2 ROC (Receiver Operating Characteristic) Eğrisi 
Dikotom bir ölçümü tahmin etmek için kullanılan ROC eğrisi, karmaşıklık 
matrisinden elde edilen gerçek pozitif oranı ve yanlış pozitif oranı ölçülerinden 
yararlanarak, optimum kesim skorunu belirlemeye yardımcı olur. İki ölçü arasında içsel 
bir etkileşim bulunduğundan, dikey eksende gerçek pozitif fraksiyonu ve yatay eksende 
yanlış pozitif fraksiyonu olmak üzere, tipik olarak Şekil 2.12’de görüldüğü gibi bir eğri 
elde edilmektedir. 
 
Şekil 2.12: ROC Eğrisi Örneği (Dinov, 2018,488) 
ROC eğrisinde sınıflandırma başarısı için gerçekte pozitif olarak gözlemlenen 
değerlerin, tahminlenen pozitif oranlar (gerçek pozitif oran ve yanlış pozitif oran) 
arasında gerçek pozitif oranda birikmesi istenilmektedir. Dolayısıyla, gerçekte negatif 
olan değerlerin, pozitif olarak tahminlenmesinin (yanlış pozitif oran) düşük oranda olması 
beklenir. Bu bağlamda, Şekil 2.12’de bulunan kesikli mavi çizgi, yanlış pozitif 
fraksiyonun bulunmadığını, bu yüzden %100 olarak gerçek pozitifler ile mükemmel bir 
sınıflandırıcıyı ifade etmektedir. Yeşil çizgi, gerçek verilerle eğitilmiş bir modelin 
genelde benzer yapıda olduğu sınıflandırıcıyı ve kesikli siyah diyagonal çizgi tahmin 
değeri öngöremeyen bir sınıflandırıcıyı temsil etmektedir. 
37 
 
 
Çalışma kapsamında, farklı sınıflandırıcıların ve girdi değişkenlerin temerrüde 
düşen ve temerrüde düşmeyen müşteriler için yaptıkları sınıflandırmaların ayırt edici 
gücünü kavramak için kullanılan Gini Katsayısı, PD modellerinde yaygın olarak 
kullanılan bir ölçüt olup, 0 ile 1 arasında değerler almaktadır.  
𝐺𝑖𝑛𝑖 = 2 ∗ (AUC − 1)                                               (2.23) 
ROC eğrisinin altında kalan alan (AUC) ile hesaplanan Gini Katsayısı için eğrinin 
altında kalan alan büyüdükçe, test verisi için sınıflandırmanın doğruluğu da artarak 1’e 
yaklaşır.  
2.3 ÖRNEKLEMİN BELİRLENMESİ 
Finansal kurumlar, maruz kalacağı riskleri tam olarak belirlemeleri için değerli 
bilgileri kapsayan, doğru ve güçlü modellerin kurulmasına ihtiyaç duyar. Bu kontekste, 
verilerden mümkün olabildiğince bilgilendirici iç görüyü keşfetmek için örnekleme ve 
veri kalitesi ve temizliği teknikleri uygulanır.  
Kredi riski perspektifinden örnekleme ihtiyacı, büyük hacimli verilerin 
işlenmesinin zaman alıcı olmasından, dengesiz sınıf dağılımına sahip olmasından 
(temerrüde düşen/düşmeyen) ve hedef kitleyi en iyi temsil edecek zamansal aralığın 
belirlenmesinden kaynaklanmaktadır. Özellikle sınıf dağılımının dengesiz yapıda olduğu 
bir veri seti ile model oluşturmanın, kitledeki yoğunluğun davranışına eğilimli yönde 
sonuçlar ürettiği görülmektedir. Buna benzer yanlı tahminlerin oluşumuna engel olmak 
için sınıf dağılımı dengede tutularak yanlılık ortadan kaldırılmaktadır. Diğer yandan 
örneklemin belirlendiği zaman çizelgeleri de mevsimsellik açısından aynı derece 
önemlidir. Küresel ekonomik koşullar veya bayramlar gibi harcama eğilimi farklı 
eğilimler gösterebilmektedir. Bu doğrultuda normal iş dönemi belirlenerek örneklem 
yapısı dengelenmelidir. 
Yukarıda bulunan yaklaşımlar doğrultusunda, hedef kitleyi temsil edecek bir 
örneklem kümesi elde etmek için tabakalı örnekleme yöntemi kullanılarak, birbirine 
benzer alt gruplar oluşturulmaktadır. Bu adımla veri kümesindeki denge sağlanarak, 
tahminlerde hatayı azaltmak amaçlanmaktadır. 
 
38 
 
 
2.4 DEĞİŞKEN İNDİRGEME METOTLARI 
Yapılan kredi risk tanımlarından yola çıkarak, müşteriye ait demografik bilgiler, 
tarihsel olarak banka ile ilişkili ürün sayısı ve boyut bilgileri, ödeme performansları, 
temerrüt geçmişi ve dış kaynaklardan elde edilen kredi puanları gibi birçok parametre, 
müşterinin kredi risk profilinin oluşturulmasında kullanılan risk faktörleridir. Bu 
doğrultuda veri kümesinde bulunan tüm değişkenler içinde, hedef profili tanımlayıcı güce 
sahip olan değişkenlerin belirlenmesinde, istatistiksel teknikler kullanılarak değişken 
indirgeme yöntemleri gerçekleştirilmektedir.  
Çağımızda sıklıkla karşılaştığımız büyük boyutlu veri setlerindeki karmaşıklığın 
azaltılması için veri kalitesi ve temizliği işlemleri, sütun olarak değişkenler için de 
uygulanma ihtiyacı duymaktadır. Bu işlemler model performansını artırırken işlem 
süresinde de iyileştirmeler sağlayabilmektedir. 
2.4.1 Kayıp ve Aykırı (Uç) Değerler Tespiti 
Büyük veri kümelerinde doğal olarak ortaya çıkan problem, verilerdeki eksik 
değerlerin varlığıdır. Bunun nedeni, insan atıf hatası, bilgilerin işlenebilir olmaması ve 
kişisel bilgilerin gizliliği kapsamında açıklanmaması gibi bir dizi nedenden 
kaynaklanabilmektedir. 
Karar ağaçları gibi algoritmalar bu tür kayıp veriler ile doğrudan başa çıkarak 
anlamlı yaklaşımlar sergileyebilirler. Ancak diğer algoritmalar için aynı durum söz 
konusu olmayabilir. Bu noktada kayıp değerler için bir ön işleme ihtiyacı duyulur. 
Geçmişten günümüze kayıp veriler için birçok ön işleme metodu geliştirilmiştir. Kayıp 
verilere müdahale etmeden analizde yer verme, silerek analiz dışı bırakma, yaklaşık değer 
atama veya istatistiksel metotlar ile değer atama, kayıp verileri ön işlemede kullanılan 
metotlardan bazılarıdır. 
Kayıp değerler özellikle finansal risk konularında yüksek derecede öneme sahip 
olabilirler. Örneğin müşteriye ait eksik bir bilgi kendi içinde dolandırıcılık davranışı 
gösterebilir. Kayıp değerleri içinde barındıran bir bilginin silinmesi için kayıp değerlerin 
yoğunluğu ile karar verilebilir. Diğer yandan kayıp değerlere yaklaşık veya istatistiksel 
metotlar ile değer atama tekniklerinde tutarlı olmak gerekmektedir. Bu kontekste, %70 
oranında kayıp veri yoğunluğuna sahip değişkenler için bir eleme eşik değeri 
39 
 
 
belirlenmiştir. Eşik değerin altında kalan ve kayıp veri barındıran değişkenler için Karar 
Ağacı algoritması ile kayıp veriler için bir tahminsel atama işlemi esas alınmıştır. 
Büyük veri kümelerinde ortaya çıkan bir diğer problem ise aykırı değerlerin 
görülmesidir. Bunun nedeni tıpkı kayıp verilerdeki insan atıf hatasından 
kaynaklanabileceği gibi gözlemler içinde geçerli ancak boyut dışı bir değere sahip 
olmasından kaynaklanır. Örneğin bir şirkette çalışanların maaşları analiz edilirken, 
yöneticinin maaşı ile ofis personellerin maaşları arasında olağandışı bir gözlem olarak 
kabul edilebilir. Bu tür olağandışı gözlemler ile model eğitmenin sakıncaları olabileceği 
için aykırı değerler yaklaşık değer atama yöntemleriyle dönüştürülebilir veya analiz dışı 
bırakılabilirler. 
2.4.2 Varyans Eşiği 
Değişkenlerin dağılımına göre belirlenen varyans eşikleme, değişkenlerin 
indirgenmesine yönelik en temel yaklaşımlardan biridir. Büyük boyutlu veri setlerinde 
varyans eşikleme tekniğinin, değişken indirgeme sürecinin ilk adımlarında uygulanması 
önerilerek, özellikle model süre performansına pozitif etki ettiği söylenebilmektedir.  
Tekniğin motive noktası, düşük varyansa sahip olan değişkenlerin, yüksek 
varyansa sahip olan değişkenlere göre model için daha az kullanışlı olmasıdır. Nitekim 
bir değişkene ait değerlerin neredeyse tamamının aynı değere sahip olması, yaklaşık sıfır 
varyans özelliğini taşıdığı anlamına gelebileceği için model için anlamlı bir etkisinin 
olmayacağı öngörülmektedir. Bu bağlamda, değişkenlerin her birine ait varyans değeri 
hesaplanarak, belirlenen eşik değerine göre değişken indirgeme işlemi gerçekleştirilir. 
2.4.3 Kanıt Ağırlığı Dönüşümü 
Başlangıçta krediler için skor kartı geliştirmelerinde kullanılan Kanıt Ağırlığının 
(Weight of Evidence), son yıllarda kredi riski modellerinde segmentasyon ve değişken 
seçiminde kullanımı yaygınlaşmıştır. Özellikle PD modellemede temerrüt riskini tahmin 
etmeye yönelik kullanılan Kanıt Ağırlığı, öznitelik değişkeni içindeki niteliklerin 
(grupların) hedef değişken üzerinden tahmin yeteneğini ifade eder. WOE değeri, iyi ve 
kötü riskin ayrıştırılması için gruplandırmanın gücünü kullanarak, benzer yapıda bulunan 
nitelikleri aynı grupta birleştirir. Nitelik bazında hesaplanan WOE dönüşümü aşağıdaki 
formül ile elde edilmektedir. 
40 
 
 
𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟
𝑁𝑖
𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 
𝑝   𝑁𝑖 𝑇𝑜𝑝𝑙𝑎𝑚  𝑊𝑂𝐸𝑖 = ln ( )𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟 = ln         (2.24) 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟  𝑝  𝑖  𝑁𝑖
𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟 
( 𝑁𝑇𝑜𝑝𝑙𝑎𝑚 )
𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟
𝑁𝑖 = Gruptaki temerrüde düşmeyenlerin sayısı 
𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 
𝑁𝑇𝑜𝑝𝑙𝑎𝑚 = Toplam temerrüde düşmeyenlerin sayısı 
𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟
𝑁𝑖        = Gruptaki temerrüde düşenlerin sayısı 
𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟 
𝑁𝑇𝑜𝑝𝑙𝑎𝑚       = Toplam temerrüde düşenlerin sayısı 
WOE perspektifi log-odds yaklaşımına dayandığı için Lojistik Regresyon 
algoritması için oldukça uygun bir yapıdadır. Logit dönüşümü tüm olayların (iyi ve kötü) 
olasılıklarını ifade ettiği için WOE dönüşümleri her bir niteliği standartlaştırır. Bu durum 
Lojistik Regresyonda kullanılan parametrelerle karşılaştırma imkânı sunar. Müşteri 
yaşına göre WOE hesaplanmasının örneğine Tablo 2.6’te yer verilmiştir. 
Tablo 2.7: WOE Hesaplaması Örneği 
Temerrüde Temerrüde 
Temerrüde Temerrüde 
Aralık Grup Düşmeyenler Düşenlerin WOE IV 
Düşmeyenler Düşenler 
Oranı Oranı 
18-25 1 185 202 %9 %45 -1.568 0.556 
26-35 2 305 143 %15 %32 -0.722 0.118 
36-45 3 550 75 %28 %17 0.513 0.057 
46≥ 4 941 31 %48 %7 1.933 0.785 
Toplam  1981 451    1.516 
2.4.4 Bilgi Değeri 
Bilgi Değeri (Information Value), öznitelik değişkenlerinin hedef değişken 
üzerindeki tahmin performanslarına göre modeldeki önemi sıralanarak, değişkenin ayırt 
edici tanısal bilgi miktarını ifade etmektedir. Bilgi değeri ne kadar büyükse, ayırt etme 
özelliği de o kadar güçlüdür. Tüm bilgi değerleri için alt sınır 0 olmakla beraber üst sınırı 
yoktur.  
41 
 
 
Kredi riski modellemesinde Kullback sapma ölçüsü olarak adlandırılan bilgi 
değeri, kredilerini ödeme durumuna göre belirlenen iyi ve kötü müşteriler arasındaki 
dağılım farkını ölçümler. Değerlendirilen her niteliğe ait indekse (i) ve toplam niteliklerin 
sayısına (k) göre aşağıdaki gibi hesaplanmaktadır. 
𝑘 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟
𝑁 𝑁
𝐼𝑉 =∑( 𝑖 𝑖 )𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑚𝑒𝑦𝑒𝑛𝑙𝑒𝑟 − 𝑇𝑒𝑚𝑒𝑟𝑟ü𝑑𝑒 𝐷üş𝑒𝑛𝑙𝑒𝑟 ∗ 𝑊𝑂𝐸𝑖              (2.25) 
𝑁
𝑖=1 𝑇𝑜𝑝𝑙𝑎𝑚
𝑁𝑇𝑜𝑝𝑙𝑎𝑚
Temel olarak 0.02’den küçük olan bir bilgi değeri modelleme için kullanışlı 
olmayabilir. 0.02 ila 0.1 arasındaki bilgi değeri zayıf bir ayırt etme özelliğine sahip 
olduğunu gösterirken, 0.1 ila 0.3 arasındaki bilgi değeri modelleme için kabul edilebilir. 
0.3 veya daha büyük bir bilgi değeri ayırt etme özelliğinin güçlü olduğunu ifade eder. 
Değer 1’e yaklaştıkça gerçek olmayacak kadar güçlü bir durum söz konusu olduğunda 
şüpheli yaklaşılmalıdır. 
2.4.5 Değişken Kümeleme 
Değişkenlerin indirgemesinde kullanılan bir diğer yaklaşım, değişken kümeleme 
tekniğidir. Özellikle değişkenler arasındaki yüksek korelasyonu veya kovaryansın 
tanımlanmasında oldukça yetenekli olan bu teknik, birbirine benzer yönde hareket eden 
değişkenleri bir kümede toplayarak, değişkenlerden ayrık veya hiyerarşik kümeler elde 
eder. Her küme içerisinden tahmin gücü yüksek düzeyde olan değişken belirlenerek, 
küme içerisinde bulunan değişkenleri analitik yapısı gereği temsilen seçilir. Dolayısıyla 
değişken kümeleme tekniği kullanılarak hem değişkenlerin indirgenmesi hem de çoklu 
bağlantının önlenmesi sağlanmış olur. 
Algoritmanın uygulanmasında SAS’ın VARCLUS prosedürü ile elde edilen 
kümelerin toplam varyansını maksimize etmesi beklenmektedir. Prosedür, temel 
bileşenler analizinden faydalanarak, birbirine benzer yönde hareket eden değişkenleri bir 
kümede ve ilişkili olmayan değişkenleri ayrı bir kümede tutar. Bu işlemle beraber gerekli 
bulunmayan değişkenlerin elenerek boyutun indirgenmesi sağlanır. VARCLUS 
prosedürü ile yapılan kümeleme işleminden sonra alt boyutların incelenmesi için 
belirlenen eşik değerini kullanarak, ikinci özdeğerin bu değerin altında olması beklenir. 
Eğer ikinci özdeğer bu eşik değerden yüksek ise küme birden fazla boyuta sahiptir ve 
bölünerek tekrar eşik değer kontrolü yapılır. Bu durum Şekil 2.13’de 5 değişkenli ilk 
42 
 
 
küme, 4 ayrı bölünmeyle gösterilmiştir. İlk bölünmede X1 ve X4 açıklanan belirli bir 
varyasyon yüzdesine sahip olarak eşik değerin altında bir küme oluşturmuştur. Diğer 
değişken kümesi (X2, X3, X5) eşik değerin üstünde kaldığı için tekrar bölünme 
uygulanmış ve eşik değerin altında iki ayrı küme elde edilmiştir. Bu durum aynı zamanda 
maksimum küme sayısına ulaşıldığını ifade etmektedir. 
 
Şekil 2.13: VARCLUS Kümeleme Prosedürü Örneği 
VARCLUS prosedüründen elde edilen çıktı tablosu, maksimum küme sayısını, 
her kümeye ait değişken bilgisini ve değişken seçimi yapılabilmesi için kümenin R2’sini, 
en yakın kümenin R2’sini ve kümenin 1–R2’sini vermektedir. 
1 − 𝑅2
2 𝑘𝑒𝑛𝑑𝑖 𝑘ü𝑚𝑒𝑠𝑖1 − 𝑅 = 2                                           (2.26) 1 − 𝑅𝑒𝑛 𝑦𝑎𝑘𝚤𝑛 𝑘ü𝑚𝑒
Değişken seçim sürecinde, küme içinde en yüksek korelasyona sahip olan 
değişkenin aynı zamanda diğer kümeler arası korelasyonunun düşük olması tercih 
edilmelidir. Bu kontekste, en düşük 1–R2 oranı kümeyi en iyi temsil eden değişken olarak 
kabul edilebilir. Ancak kredi riski perspektifinde, hedef değişkeni ile daha net ilişkisel 
yapıda olan değişken sektör bilgisiyle sürece dahil edilebilir. 
2.4.6 LASSO (En Küçük Mutlak Daralma ve Seçim Operatörü) 
Literatürde ilk defa 1996 yılında Robert Tibshirani tarafından kullanılan LASSO 
yöntemi, regresyon modeline dahil edilen λ ceza parametresiyle, tahmin gücüne bağlı 
olarak aday tahmincilerin katsayılarının mutlak boyutunu daraltmaktadır. Katsayılara 
uygulanan cezalandırma işlemi, tahmin gücü yüksek düzeyde olan değişkenlerin 
katsayılarını küçültürken, düşük düzeydeki tahmincilerin katsayılarını sıfıra kadar 
43 
 
 
indirebilmektedir. Bu yöntem ile katsayıları sıfıra indirilen değişkenlerin model 
performansına katkı sağlamadığı kabul edilerek, değişken indirgeme işlemi de 
gerçekleştirilmiş olur.  
2
𝑛 𝑝 𝑝
𝐿𝐴𝑆𝑆𝑂 = min [∑(𝑦𝑖 − 𝛽0 −∑𝑥𝑖𝑗𝛽𝑗) + 𝜆∑|𝛽𝑗|]                   (2.27) 
𝑖=1 𝑗=1 𝑗=1
LASSO regresyonu içerisinde bulunan sabit ceza parametresi (λ), k-katlamalı 
çapraz doğrulama yöntemi ile elde edilmektedir. Sabit ceza parametresinin belirlenmesi 
için uygulanan çapraz doğrulama işlemi, ek olarak modelin aşırı öğrenmesinin de önüne 
geçmektedir. Bu bağlamda LASSO yöntemi, nihai değişkenlerin belirlenmesi, modelin 
geliştirilmesi ve nihai modelinin seçilmesinde oldukça faydalı bir teknik olarak 
değerlendirilmektedir. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
44 
 
 
ÜÇÜNCÜ BÖLÜM 
VERİ KALİTESİ VE MODEL GELİŞTİRME 
 
3.1 VERİ SETLERİNİN TANIMLANMASI 
Analizlerde modele girdi olacak veri kümesi, Kaggle’ın açık erişiminde bulunan 
Home Credit tarafından sağlanmaktadır. Merkezi Hollanda’da bulunan şirket, 1997’de 
Çek Cumhuriyeti’nde kurulmuş ve Slovakya, Rusya, Çin, Vietnam, Kazakistan, 
Hindistan, Endonezya ve Filipinler olmak üzere 9 ülkede faaliyet göstermektedir. Şirketin 
kredi verme kitlesi öncelikli olarak kredi geçmişi çok az olan veya hiç olmayan kişilerden 
oluşmaktadır. Bu politikayla daha fazla müşteriyi hedefleyen şirket ne kadar çok kredi 
sunarsa o kadar yüksek riskli konut kredisine maruz kalacaktır. Bir müşterinin temerrüde 
düşme olasılığını belirlemek, bu noktada şirket için kritik bir karar olmaktadır. Hedef 
kitlenin temerrüt olasılığını belirlemek için çok çeşitli geçmiş bilgilerinden 
yararlanılmaktadır. 
Analitik girdileri kapsayan temel veri kümesi, yedi farklı veri setinden meydana 
gelmektedir. Başvuru veri seti, tüm başvuru sahiplerinin daha önce temerrüde düşüp 
düşmediği gibi statik verilerin ve demografik bilgilerin bulunduğu diğer bazı bilgileri 
içerir. Diğer veri setleri kredi bürosundaki önceki başvuru bilgileri, kredi kartı bakiye ve 
ödeme bilgileri, daha önce alınan kredi bilgileri, müşterilerin daha önce almış olduğu 
konut kredilerine ait davranışsal bilgileri, önceki konut kredilerine ait ödeme geçmişi 
bilgileri ve kredi bürosundan gelen aylık davranışsal bilgilerden oluşmaktadır. Bu veri 
setlerinden elde edilen 1460 açıklayıcı (öznitelik) değişken, 307510 gözleme sahiptir. 
Çalışma kapsamında, hedef değişken değerlerindeki temerrüde düşenler 1, temerrüde 
düşmeyenler 0 olarak tanımlanmıştır. 
3.2 KULLANILAN YAZILIM VE PROGRAMLAMA DİLLERİ 
Birçok farklı sektörün analitik yazılım ihtiyacını karşılayan SAS’ın, özellikle 
finans sektöründeki ürünlerinin kullanımı oldukça yaygın olup, kredi skorlama modelleri 
için sahip olduğu modüller sayesinde analitik ve bütünlük avantajı sağlamaktadır. 
Uygulama kapsamında, SAS Enterprise Guide ürünü ile analitik girdi veri seti 
45 
 
 
oluşturulmuş ve diğer analitik geliştirmeler ve makine öğrenmesi algoritmaları SAS 
Enterprise Miner modülleri kullanılarak gerçekleştirilmiştir. 
3.3  ÖZNİTELİK SEÇİMİ (DEĞİŞKEN İNDİRGEME) 
Analitik modellerde girdi olarak kullanılacak değişkenlerin belirlenmesi, model 
tahmin gücünü doğrudan etkileyen faktördür. Aynı zamanda girdi olarak kullanılacak 
gözlemler içinde bu durum geçerlidir. Bu iki perspektifle, temel veri seti üzerinden hem 
satır (gözlem) hem de sütun (değişken) bazlı indirgeme işlemi bir boyut azaltma 
tekniğidir. Diğer bir ifadeyle, temel veri seti üzerinden örneklem belirleme ve değişken 
indirgeme işlemleri, yatay ve dikey perspektifle boyut azaltma teknikleridir. 
Bu kontekste, aşağıda uygulanan istatistiksel veri analizleri ile modelin tahmin 
performansını güçlendirecek değişkenler ve örneklem elde edilmiştir. 
3.3.1 Kayıp Değer Oranı ile Öznitelik Seçimi 
Örneklem öncesi yapılan değişken indirgeme sürecine kayıp değer elemesiyle 
başlanmaktadır. Buradaki öncelik analitik değerlendirilebilirliğine olanak sağlayacak bir 
model veri kümesi elde etmektir. Bu yaklaşımla, kayıp değerler analizi uygulanmış ve 
değişken bazında kayıp değer oranları elde edilmiştir. Mevcutta sahip olunan 1460 
değişken içerisinden 461 değişkenin, eşik değeri olarak belirlenen %70’in üstünde kayıp 
gözleme sahip olduğu tespit edilerek analiz dışı bırakılmıştır.  
Tablo 3.1: Kayıp Değer Oranı ile Öznitelik Seçimi 
Sahip Olunan Eleme Sonrası 
Belirlenen Eşik Değeri 
Öznitelik Sayısı Öznitelik Sayısı 
1460 %70'in Altında Kayıp Değer Oranı 999 
3.3.2 Varyans Eşiği ile Öznitelik Seçimi 
Bir diğer değişken indirgeme metodu değişkenlerin dağılımı ile ilgilidir. Eğer bir 
değişkenin dağılımı yaklaşık sıfır varyans özelliğini taşıyorsa, bu değişkenin hedef 
değişken üzerinde anlamlı bir etkisi beklenmemektedir. Diğer bir ifadeyle, değişkene ait 
değerlerin neredeyse tamamı aynı değere sahip ise değişkenin modele katkısının yüksek 
olmayacağı öngörülmektedir. Bu bağlamda, değişkenlerin dağılımları için 0.01’lik 
varyans eşik değeri belirlenmiş ve her bir değişkenin kendi içinde %99 oranda aynı 
46 
 
 
değerlere sahip olması durumunda analiz dışı bırakılmasına karar verilmiştir. İncelenen 
999 değişken içinden 86 değişkenin %99 oranında aynı değerlere sahip olduğu analiz 
edilmiştir. Eleme sonrası kalan değişken sayısına Tablo 3.2’de yer verilmiştir. 
Tablo 3.2: Varyans Oranı ile Öznitelik Seçimi 
Sahip Olunan Eleme Sonrası 
Belirlenen Eşik Değeri 
Öznitelik Sayısı Öznitelik Sayısı 
999 0.01’in Üstünde Varyans Oranı 913 
3.3.3 Bilgi Değeri (IV) ile Öznitelik Seçimi 
Bilgi değeri, öznitelik değişkenlerinin hedef değişkeni ayırt edici tahmin gücünü 
değerlendirmek için kullanılan kullanılırken, bu bölümde değişkenlerin indirgenmesi için 
kullanılmıştır. SAS Enterprise Miner ortamında Interactive Grouping düğümü yardımıyla 
gerçekleştirilen bu işlem ile her bir açıklayıcı değişkenin ayırt edici Bilgi Değeri elde 
edilmiştir. Düğüm, ayrıca Bilgi Değerine alternatif olarak her açıklayıcı değişken için 
Gini katsayısını hesaplar. Değişkenlerin anlamlılık gücünü ölçmek için her iki istatistiksel 
analiz de kullanılabilmektedir. Analiz sonucunda düğüm, temerrüt riskini ayrıştırmak için 
her bir açıklayıcı değişkeni, hedef değişken üzerinden farklı risk gruplarına göre 
ağırlıklandırır. Temerrüde düşenler ile düşmeyenler oranını karşılaştırmaya dayanan 
gruplandırma işleminden bir WOE (Kanıt Ağırlığı) değeri elde edilir. Çalışmanın bu 
sürecinde, Gini katsayısı ve WOE’li halleriyle gruplandırılmış değişkenler bir ölçü olarak 
incelenmiştir. 
Değişkenlerin açıklayıcı ölçütü olarak Bilgi Değeri kullanılmış ve çalışma konusu 
olan temerrüt olasılığı kapsamında, öznitelik değişkenlerinin iyi ve kötü kredileri ayırt 
etme yeteneğine göre önem sırası oluşturulmuştur. Değişkenlerin ayrıştırıcı gücü için 
belirlenen 0.1’lik eşik değerinin altında kalan 866 değişken elenerek analiz dışı 
bırakılmıştır. 
Tablo 3.3: Bilgi Değeri (IV) ile Öznitelik Seçimi 
Sahip Olunan Eleme Sonrası 
Belirlenen Eşik Değeri 
Öznitelik Sayısı Öznitelik Sayısı 
913 0.1’in Üstünde Bilgi Değeri Oranı 47 
 
47 
 
 
3.3.4 Aykırı (Uç) Değerlerin Elemesi 
Tahmin çıktılarının kalitesi, büyük ölçüde girdi değerlerinin kalitesi tarafından 
belirlenmektedir. Bu yaklaşımla, aykırı değerlerin geliştirdiğimiz modelde istatistiksel 
varsayımları ihlal etmemesi için veri kümesinden kaldırılması veya dönüştürülmesi son 
derece önemlidir. Bununla beraber, kayıp değerlerin tahmini veya doldurulması gibi 
analitik süreçlerde de sapmalara neden olmaması için aykırı değerlerin temizliği kritik 
öneme sahiptir.  
Çalışma kapsamında aykırı değerlerin tespiti için her bir açıklayıcı değişkene ait 
ortalama, minimum, maksimum ve 90’ıncı yüzdelik dilimi incelendiğinde, gözlemler 
arasındaki değişkenliğin yüksek olduğu belirlenmiştir. Aykırı değerlerin, örnekleme olan 
etkisini azaltması için 90’ıncı yüzdelik dilimin üzerinde bulunan 11692 gözlem, aykırı 
değer olarak kabul edilerek analiz dışı bırakılmıştır. Eleme sonrası kalan gözlem sayısına 
Tablo 3.4’de yer verilmiştir. 
Tablo 3.4: Aykırı (Uç) Değerlerin Elemesi 
Sahip Olunan Eleme Sonrası 
Belirlenen Eşik Değeri 
Gözlem Sayısı Gözlem Sayısı 
307510 90. Yüzdelik Dilim 295818 
3.3.5 Örneklemin Belirlenmesi 
Kredi riski modellemesinde, temerrüt sayısı genellikle temerrüt olmayan 
popülasyona göre önemli ölçüde düşüktür. İyi ve kötü kredilerin sınıf dağılımındaki bu 
dengesiz durum, model geliştirme sürecinde verimsizliğe neden olabileceğinden, 
genellikle temerrüde düşenler ile düşmeyenler arasında tabakalı örneklem yöntemiyle 
dengeli bir yol izlenmektedir.  
Bu bağlamda ham veri setinde bulunan 295818 müşteriye ait sınıf dağılımı 
incelenmiş ve temerrüde düşmeyenlerin sayısının temerrüde düşenlere oranla yaklaşık 12 
kat daha fazla olduğu tespit edilmiştir. Tüm popülasyonun %92’sini oluşturan iyi 
kredilerin, model geliştirme sürecinde sapmaya neden olmaması için tabakalı örneklem 
metodolojisiyle her iki sınıftan eşit sayıda örneklem belirlenmiştir. Elde edilen veri 
kümesine düşen gözlem sayısına Tablo 3.5’te, örneklem öncesi popülasyonun ve nihai 
olarak elde edilen popülasyonun grafik dağılımına Grafik 3.1’de yer verilmiştir.  
48 
 
 
Tablo 3.5: Örneklemin Belirlenmesi 
Sahip Olunan Örneklem Sonrası 
Belirlenen Örnekleme Yöntemi 
Gözlem Sayısı Gözlem Sayısı 
295818 1:1’lik (%50 İYİ + %50 KÖTÜ) Tabakalı Örnekleme 47374 
 
 
Grafik 3.1: Örneklem Öncesi ve Örneklem Sonrasına Ait İYİ-KÖTÜ Dağılımı 
Veri kalitesi ve model geliştirme bölümünde, nihai örneklem seti üzerinden kayıp 
değerlerin tahmini ve değişken indirgeme işlemlerine devam edilmiş olup, makine 
öğrenmesinin temel alt yapısını oluşturan verilerin bölünme işlemi gerçekleştirilmiştir. 
Bu kontekste, modellerin eğitilmesi ve en iyi ağırlıkların elde edilmesi için veri setinin 
%60’ı eğitim, eğitilen modellerin aşırı öğrenmesini önlemek ve sınıflandırma 
performansını değerlendirmek için %20’si doğrulama ve modelin tahmin yeteneğini 
ölçmek için %20’si test veri seti olarak ayrılmıştır. 
3.3.6 Kayıp Değerlerin Atamasında Ağaç Tabanlı Yaklaşım 
Analitik model verisini zenginleştirmek için kayıp değerlerin doldurulması veya 
tahmin edilme işlemi, değişkenlerin yapısına doğrudan etki ettiği için bu süreçte tutarlı 
olmak oldukça önemlidir. Kredi riski perspektifinden, kayıp değerlerin doğru atamasının 
yapılmaması, müşterilerin risk sınıfını doğrudan etkileyeceği gibi elde edilecek kâr ve 
müşteri kaybı gibi risk sonuçlarını doğurabilir. Bu bağlamda, kayıp değerler için 
yapılacak tahmin atamalarındaki sapmanın minimum düzeyde olması için müşterilerin 
statik ve davranışsal bilgilerinden benzerliklerine göre tahminsel atama gerçekleştiren 
49 
 
 
ağaç tabanlı atama tekniği uygulanmıştır. Her değişken için kayıp değerler yerine 
atanacak değeri, veri setindeki diğer değişkenlere bağlı olarak tahmin eden bir Karar 
Ağacının, ortalama, medyan veya olasılık dağılımı gibi yöntemlere göre daha tutarlı 
değerler ürettiği görülmüştür. Örneklem içinde bulunan 47 değişkene ait kayıp değerlerin 
oranları tekrar incelenmiş ve belirlenen %30’luk eşik değerinin üstünde kayıp değere 
sahip olan değişkenler, ağaç tabanlı kayıp değerlerin atamasında daha tutarlı sonuçlar 
üretmesi için girdi olarak kullanılmamıştır.  
Analitik model verisinin geliştirilme sürecine, örneklem veri setindeki kayıp 
verilerin atama işlemiyle birlikte, değişken indirgeme adımları ile devam edilmiştir. 
3.3.7 Değişken Kümeleme Tekniği ile Öznitelik Seçimi 
Değişken kümeleme, aralarında yüksek düzeyde ilişki barındıran değişkenlerin 
elenmesi için oldukça iyi sonuçlar üreten güçlü bir tekniktir. Analitik model veri 
kümesinin temel yapısını, sınıflandırma gücü yüksek düzeyde olan değişkenler ile ortaya 
çıkaran bu teknik, oluşabilecek çoklu bağlantı sorununun da önüne geçmektedir. 
İlgili çalışma kapsamında, SAS Enterprise Miner’ın Variable Clustering düğümü 
kullanılarak, birbirine benzer yönde hareket eden değişkenler, aralarındaki korelasyonu 
dikkate alarak bir kümede konumlandırılmıştır. Aynı kümede bulunan değişkenler 
birbirleri arasında yüksek düzeyde korelasyona sahip iken, diğer kümelerde bulunan 
değişkenler ile düşük düzeyde bir ilişkiye sahiptirler. 
Gerçekleştirilen değişken kümeleme analizi sonucunda elde edilen küme sayısı ve 
kümelere düşen değişken sayısına Grafik 3.2’de yer verilmiştir. 
 
Grafik 3.2: Değişken Kümeleme Tekniği ile Küme Bazında Değişken Sayısı 
50 
 
 
Değişken kümeleme tekniği ile elde edilen kümelerin, değişken bazında 
gösterimine Grafik 3.3’de yer verilmiştir.  
 
Grafik 3.3: Değişken Kümeleme Grafiği 
Analiz sonucunda düğüm, söz konusu kümelere ve değişkenlere ilişkin, R2 
oranını, diğer en yakın kümenin R2 oranını ve 1-R2 oranıyla 3 farklı istatistik bilgisi 
vermektedir. Sahip olunan bu bilgiler doğrultusunda, istatistiki olarak benzer bilgi değeri 
taşıyan kümelenmiş değişkenler içinden temsilci değişkenler 1-R2 oranı ile belirlenmiştir. 
Her kümede minimum 1-R2 oranına sahip olan değişken, temsilci değişken olarak 
seçilmiştir. 
Tablo 3.6: Değişken Kümeleme ile Öznitelik Seçimi 
Sahip Olunan Eleme Sonrası 
Belirlenen Eleme Kriteri 
Öznitelik Sayısı Öznitelik Sayısı 
47 Korelasyon ile Değişken Kümeleme 17 
Değişken kümeleme tekniği ile elde edilen 17 değişkene ilişkin korelasyon matrisi 
incelenmiş olup, aralarındaki ilişkinin %75’in altında olduğu görülmüş ve korelasyon 
sebebiyle herhangi bir elemeye gidilmemiştir.  
 
 
 
51 
 
 
 
Grafik 3.4: Değişken Kümeleme Sonrası Korelasyon Matrisi 
3.3.8 LASSO ile Nihai Özniteliklerin Belirlenmesi 
Uygulanan birçok farklı değişken indirgeme teknikleriyle elde edilen 17 değişken 
arasından, modelleme öncesi nihai değişkenlerin belirlenme işlemi LASSO tekniği ile 
gerçekleştirilmiştir. K-katlamalı çapraz doğrulama yöntemiyle model performansına ve 
makine öğrenmesi tekniğine pozitif katkı sağlayan LASSO, geleneksel yaklaşımlara göre 
makine öğrenmesi tekniklerinde çoklu fayda sağlayan bir teknik haline gelmiştir. Bu 
bağlamda, eğitim veri seti 10 parçaya bölünerek k-katlamalı çapraz doğrulama ile 
modelin tahmine dayalı performansı değerlendirilmiştir. 
Sahip olduğu λ ceza parametresiyle katsayıların mutlak boyutunu daraltan 
LASSO tekniği, uygulama kapsamında düşük düzeydeki tahmincilerin elenerek analiz 
dışı bırakılmasını sağlamıştır. Toplamda 17 değişken ile gerçekleştirilen LASSO 
analizine ait katsayıların daraltılma adımlarına Grafik 3.5’te yer verilmiştir.  
 
 
52 
 
 
 
Grafik 3.5: Katsayıların Daraltılma Grafiği 
Değişkenlerin modelde yer almasında göre katsayı değerlerinin adım adım 
değişikliğini gösteren grafiğin (Standardized Coefficient), dikey çizgisi, eğitim ve 
doğrulama verisi üzerinden optimal modele karşılık gelen adımı ifade etmektedir. Ek 
olarak, eğitim veri setinin 10 parçaya bölümlenmesiyle gerçekleştirilen k-katlamalı 
çapraz doğrulamadan elde edilen çıktılara iç grafikte (CV PRESS) yer verilmiştir. 
Minimum kalıntı kareler toplamına sahip modeli, optimal model olarak seçen k-katlamalı 
çapraz doğrulama tekniği, yine grafiğin dikey çizgisine karşılık gelen adımında elde 
etmiştir. 
Modellemenin optimal noktasında sahip olunan 9 öngörücü ve nihai model girdi 
değişkenlerine ilişkin açıklamalarına Tablo 3.7’de yer verilmiştir. Diğer tüm girdi 
değişkenleri, katsayı değerlerinin sıfır olması sebebiyle elenerek analiz dışı bırakılmıştır. 
Ek olarak, nihai girdi değişkenleri için nihai korelasyon kontrolü gerçekleştirilmiş olup, 
aralarındaki ilişkinin %30’un altında olduğu görülmüş ve herhangi bir elemeye 
gidilmemiştir. 
53 
 
 
Tablo 3.7: Nihai Öznitelikler ve Açıklamaları 
Öznitelik Açıklama 
Başvuru sahibinin ilgili başvurudan kaç gün önce bir iş yerine 
A_DAYS_EMPLOYED 
istihdam edildiği gün sayısıdır 
İlgili başvuru için harici veri kaynağından elde edilen başvuru 
A_EXT_SOURCE_MEAN 
sahibine ait skor puanlarının ortalaması 
A_LOAN_RATE İlgili başvuru için istenilen kredi tutarının verilen kredi tutarına oranı 
İlgili başvuru sahibinin yaşadığı şehri dikkate alarak Home Credit’in 
A_RRCWC 
bölgedeki reyting oranı 
İlgili başvuru sahibinin Kredi Kayıt Bürosundaki aktif olan ortalama 
B_CA_A_MEAN 
kredi sayısının, ödenmemiş kredilerin sayısına oranı 
İlgili başvuru için Kredi Kayıt Bürosundaki aktif olan kredi 
B_DCE_MAX 
ürünlerinin ödemelerine kalan maksimum gün sayısı 
İlgili başvuru sahibinin bir önceki kredide gerçekleştirdiği minimum 
IP_AP_MIN_MIN ödeme miktarının, aktif kredilerine yaptığı minimum ödeme 
miktarına oranı 
PA_NCS_R_MEAN Önceki başvuruların sözleşmelerine ilişkin ortalama reddedilme oranı 
İlgili başvuru sahibinin başvuruda bulunduğu önceki bankada düzenli 
PA_NPRT_W_MEAN 
hesabı bulunmama durumunun ortalaması 
3.4 MODEL GELİŞTİRME 
Çalışmanın bu bölümünde değişken indirgeme teknikleri ile elde edilen nihai 
öznitelik değişkenleri kullanılarak, kredilerin temerrüt riski (0-1) yukarıda ele alınan 
sınıflandırma algoritmaları ile belirlenmeye çalışılacak ve kullanılan algoritmaların 
sınıflandırma performansları karşılaştırılacaktır. 
3.4.1 Lojistik Regresyon ile Model Geliştirme 
Nihai öznitelik değişkenleri ile kurulan Lojistik Regresyon modelinde backward 
(geriye doğru eleme) metodu kullanılarak, %95 güven düzeyinde değişkenlerin 
54 
 
 
anlamlılığı test edilmiştir. Tekniğin ilk adımında nihai değişkenler arasından 
B_DCE_MAX değişkenine ait p değerinin 0.5422 olması sebebiyle elenerek modelden 
çıkartılmıştır. İkinci adımda kurulan modelde tüm değişkenlerin önemlilik değerleri 
0.05’ten küçük olması sebebiyle backward yöntemi optimal Lojistik Regresyon modelini 
aşağıdaki değişkenler ile elde etmiştir.  
Tablo 3.8: Lojistik Regresyon Katsayıları 
 
Parametre Tahmini Katsayı Standart Hata Wald X2 Pr > X2 
 
Intercept 1.8792 0.0909 426.92 <.0001 
 
A_EXT_SOURCE_MEAN -4.5121 0.093 2354.49 <.0001 
 
A_RRCWC 0.1466 0.0265 30.68 <.0001 
 
A_DAYS_EMPLOYED 0.000099 6.91E-06 207.3 <.0001 
 
A_LOAN_RATE -2.009 0.5996 11.23 0.0008 
 
B_CA_A_MEAN 0.3665 0.046 63.54 <.0001 
 
IP_AP_MIN_MIN -0.00002 1.95E-06 96.7 <.0001 
 
PA_NCS_R_MEAN 0.7549 0.0693 118.72 <.0001 
 
PA_NPRT_W_MEAN 0.5806 0.0704 67.92 <.0001 
Yukarıdaki kurulan Lojistik Regresyon modeli kullanılarak eğitim ve doğrulama 
veri setleriyle gerçekleştirilen sınıflandırma oranlarına aşağıda yer verilmiştir. 
Tablo 3.9: Eğitim ve Doğrulama Veri Setleri ile Lojistik Regresyona Ait 
Sınıflandırma Oranları 
Gerçek Değer Tahmin Değeri Eğitim Doğrulama 
Temerrüde Düşmeyen Temerrüde Düşmeyen %33.97 %33.71 
Temerrüde Düşen Temerrüde Düşmeyen %17.09 %16.91 
Temerrüde Düşmeyen Temerrüde Düşen %16.03 %16.29 
Temerrüde Düşen Temerrüde Düşen %32.91 %33.09 
55 
 
 
B_DCE_MAX değişkeninin modelden çıkarılarak elde edilen optimal Lojistik 
Regresyon modeline göre eğitim veri setleriyle gerçekleştirilen sınıflandırma 
oranlarındaki doğruluk başarısı, gerçekte temerrüde düşmeyenlerin tahmin değerinde 
temerrüde düşmeyenler olarak sınıflandırılmasında ve gerçekte temerrüde düşenlerin 
tahmin değerlerinde temerrüde düşen olarak sınıflandırılmasında yanlış sınıflandırma 
oranlarına nispeten daha iyi sonuç vermiştir. Benzer oranlar doğrulama veri setiyle 
gerçekleştirilen tahminlerde de görülmekte olup, kurulan model ile eğitim ve doğrulama 
veri setleri arasında başarılı bir uyum olduğu söylenebilir. Ek olarak, Lojistik Regresyon 
modeli eğitim veri setiyle gerçekleştirdiği tahminlerin %66.88’inde doğru sınıflandırma 
oranı elde ederken, doğrulama veri setiyle %66.80 oranında doğru sınıflandırma başarısı 
göstermiştir. 
3.4.2 Yapay Sinir Ağları ile Model Geliştirme 
Yapay Sinir Ağları modeli, nihai 9 değişken ile 2 katman üzerinden 20 nöron 
oluşturacak şekilde, tanjant hiperbolik aktivasyon fonksiyonu kullanılarak, 300 iterasyon 
ile eğitim ve doğrulama veri setleri üzerinden elde edilmiştir. Doğrulama veri setiyle 
belirlenen optimum model, 139. iterasyonda minimum doğrulama hatasını elde ederek 
durdurulmuştur. Elde edilen optimum YSA modeline ait girdi değişkenleri ve gizli 
nöronların girdi ve çıktı ağırlıklarına Tablo 3.10’da yer verilmiştir. 
Tablo 3.10: YSA Modeline Ait Girdi ve Çıktı Ağırlıkları 
Parametre X Y Rol Katman 
LOAN_STATUS=1 400 175 Hedef Değişken Output 
A_EXT_SOURCE_MEAN 0 35 Öznitelik 0 
A_RRCWC 0 70 Öznitelik 0 
A_DAYS_EMPLOYED 0 105 Öznitelik 0 
A_LOAN_RATE 0 140 Öznitelik 0 
B_CA_A_MEAN 0 175 Öznitelik 0 
B_DCE_MAX 0 210 Öznitelik 0 
IP_AP_MIN_MIN 0 245 Öznitelik 0 
PA_NCS_R_MEAN 0 280 Öznitelik 0 
PA_NPRT_W_MEAN 0 315 Öznitelik 0 
H1 133.33 31.82 Gizli Nöron 1 
H2 133.33 63.64 Gizli Nöron 1 
56 
 
 
H3 133.33 95.45 Gizli Nöron 1 
H4 133.33 127.27 Gizli Nöron 1 
H5 133.33 159.09 Gizli Nöron 1 
H6 133.33 190.91 Gizli Nöron 1 
H7 133.33 222.73 Gizli Nöron 1 
H8 133.33 254.55 Gizli Nöron 1 
H9 133.33 286.36 Gizli Nöron 1 
H10 133.33 318.18 Gizli Nöron 1 
H11 266.67 31.82 Gizli Nöron 2 
H12 266.67 63.64 Gizli Nöron 2 
H13 266.67 95.45 Gizli Nöron 2 
H14 266.67 127.27 Gizli Nöron 2 
H15 266.67 159.09 Gizli Nöron 2 
H16 266.67 190.91 Gizli Nöron 2 
H17 266.67 222.73 Gizli Nöron 2 
H18 266.67 254.55 Gizli Nöron 2 
H19 266.67 286.36 Gizli Nöron 2 
H20 266.67 318.18 Gizli Nöron 2 
Yukarıda optimum YSA modeliyle eğitim ve doğrulama veri setiyle elde edilen 
sınıflandırma oranlarına aşağıda yer verilmiştir. 
Tablo 3.11: Eğitim ve Doğrulama Veri Setleri ile YSA Sınıflandırma Oranları 
Gerçek Değer Tahmin Değeri Eğitim Doğrulama 
Temerrüde Düşmeyen Temerrüde Düşmeyen %33.68 %33.47 
Temerrüde Düşen Temerrüde Düşmeyen %16.07 %15.82 
Temerrüde Düşmeyen Temerrüde Düşen %16.32 %16.53 
Temerrüde Düşen Temerrüde Düşen %33.93 %34.18 
İlgili eğitim ve doğrulama veri setleriyle gerçekleştirilen sınıflandırma oranlarına 
incelendiğinde, Lojistik Regresyona göre nispeten yakın değerlere sahip olsa da YSA’nın 
her iki veri setiyle temerrüde düşenler için gerçekleştirdiği sınıflandırma başarısının daha 
iyi değerlere sahip olduğu görülmektedir. Ek olarak, eğitim veri setiyle gerçekleştirilen 
tahminlerin toplam doğruluk oranı %67.61 iken, doğrulama veri setleriyle bu oran 
%67.65 kadardır. 
57 
 
 
3.4.3 Karar Ağacı ile Model Geliştirme 
Karar Ağacı algoritmasında bulunan düğümlerin bölünme kuralı, hedef 
değişkenin dikotom yapıda olması sebebiyle entropi ölçüsüyle gerçekleştirilmiştir. Bu 
kontekste, algoritmanın uygulanmasında maksimum dallanma için 2, maksimum düğüm 
derinliği için 10, her yaprak düğümünde eğitim için gözlem sayısının minimum 5 olacak 
şekilde hiperparametreler belirlenmiş olup, eğitim ve doğrulama veri setleriyle elde 
edilen önemlilik oranlarına aşağıda yer verilmiştir. 
Tablo 3.12: Eğitim ve Doğrulama Veri Setleri ile Karar Ağacına Göre 
Değişkenlerin Önemlilik Oranları 
Eğitim Hata Eğitim Doğrulama Doğrulama 
Öznitelik Kareler Önemlilik Hata Kareler Önemlilik 
Toplamı Oranı Toplamı Oranı 
A_EXT_SOURCE_MEAN 43.65 1 25.05 1 
A_DAYS_EMPLOYED 11.50 0.26 5.71 0.23 
A_LOAN_RATE 11.21 0.26 5.09 0.20 
B_CA_A_MEAN 8.82 0.20 3.71 0.15 
PA_NCS_R_MEAN 8.63 0.20 4.82 0.19 
IP_AP_MIN_MIN 8.49 0.19 3.50 0.14 
B_DCE_MAX 6.43 0.15 1.48 0.06 
PA_NPRT_W_MEAN 4.76 0.11 2.77 0.11 
A_RRCWC 3.07 0.07 1.35 0.05 
Karar Ağacının entropi ile değişkenlerin sınıflandırma başarısına göre önemlilik 
oranlarının hesapladığı yukarıdaki değerler, hedef değişken üzerinden sahip olduğu tüm 
kombinasyonlarla birlikte, belirli eşik değerler üzerinden kural indüksiyonlarıyla her bir 
düğümde hesaplanma örneğine aşağıda yer verilmiştir. 
58 
 
 
 
Şekil 3.1: Düğüm Kuralları Örneği 
Yukarıdaki kural indüksiyonlarıyla gerçekleştirilen Karar Ağacı algoritmasının 
eğitim ve doğrulama veri setleriyle gerçekleştirdiği sınıflandırma oranlarına aşağıda yer 
verilmiştir. 
Tablo 3.13: Eğitim ve Doğrulama Veri Setleri ile Karar Ağacına Ait Sınıflandırma 
Oranları 
Gerçek Değer Tahmin Değeri Eğitim Doğrulama 
Temerrüde Düşmeyen Temerrüde Düşmeyen %34.31 %33.11 
Temerrüde Düşen Temerrüde Düşmeyen %15.28 %15.82 
Temerrüde Düşmeyen Temerrüde Düşen %15.69 %16.89 
Temerrüde Düşen Temerrüde Düşen %34.72 %34.18 
Sınıflandırma oranları incelendiğinde, Karar Ağacı algoritmasının eğitim veri 
setleriyle gerçekleştirdiği tahminlerin Lojistik Regresyon ve YSA’ya göre daha başarılı 
olduğu gözlemlenmektedir. Eğitim veri setiyle gerçekleştirilen tahminlerin doğruluk 
oranı %69.03 iken, doğrulama için %67.29’dur. Bu bağlamda, doğrulama veri setindeki 
oran YSA’nın doğrulama veri setiyle elde edilen doğruluk oranının altında kaldığı 
gözlemlenmiştir. 
59 
 
 
3.4.4 Destek Vektör Makineleri ile Model Geliştirme 
Destek Vektör Makineleri ile hedef değişkene ait iki sınıf arasındaki marjı 
maksimize etmek için doğrusal çekirdek fonksiyonu kullanılarak, 16. iterasyonda 
optimum model elde edilmiştir. İlgili nihai değişkenlerin etkileşimleriyle, iç çarpım 
değeri, sapma değeri, oluşturulan destek vektörlerin sayısı, marjın maksimum olduğu 
hiperdüzlemdeki vektörlerin sayısı gibi optimum modele ait çıktılara aşağıda yer 
verilmiştir. 
Tablo 3.14: SVM Optimum Model Oranları 
Etkileşime Giren Değişken Sayısı 9 
Ağırlıkların İç Çarpımı 22.40476 
Sapma -0.63578 
Toplam Bolluk (Kısıt İhlalleri) 21115.17 
En Uzun Vektör Normu 2.275462 
Destek Vektörlerin Sayısı 21158 
Marj Üzerindeki Destek Vektörlerinin Sayısı 21123 
Eğitim veri setiyle, yukarıdaki oranlar ile elde edilen optimal modelin doğrulama 
veri seti oranlarıyla birlikte sınıflandırma başarısına aşağıda yer verilmiştir. 
Tablo 3.15: Eğitim ve Doğrulama Veri Setleri ile SVM Sınıflandırma Oranları 
Gerçek Değer Tahmin Değeri Eğitim Doğrulama 
Temerrüde Düşmeyen Temerrüde Düşmeyen %34.29 %34.00 
Temerrüde Düşen Temerrüde Düşmeyen %17.37 %17.02 
Temerrüde Düşmeyen Temerrüde Düşen %15.71 %16.00 
Temerrüde Düşen Temerrüde Düşen %32.63 %32.99 
SVM algoritmasının sınıflandırma oranları incelendiğinde, eğitim veri setinde 
doğru sınıflandırma oranı %66.92 iken, doğrulama veri setinde bu oran %66.99’dur. 
SVM ve Lojistik Regresyon algoritmasının doğru sınıflandırma oranları incelendiğinde 
birbirlerine oldukça yakın değerlere sahip olduğu görülmektedir. 
60 
 
 
3.4.5 K-En Yakın Komşu ile Model Geliştirme 
Algoritmanın eğitim veri seti üzerinden öğrenme becerisi için SAS Enterprise 
Miner’ın MBR (Memory-Based Reasoning) düğümünün yeteneklerinden faydalanarak, 
bellek tabanlı akıl yürütme ile boyut indirgeme ağacı (RD-Tree) metodu kullanılmıştır. 
Veri setinden kümülatif olarak azalacak şekilde elde edilen alt kümelerin, çok boyutlu 
uzayda ikili ağaçlara bölünmesiyle gerçekleştirilen RD-Tree metodu, en yakın komşuları 
bulmak için pratik ve hızlı bir yöntemdir. Bu bağlamda, maksimum bölünme için 100 
küme grubu oluşturulurken, gözlemlerin tahmini için komşu sayısı (k) 200 olarak 
belirlenmiştir. Ek olarak, hedef değişken ile nihai değişkenler arasındaki korelasyonunun 
mutlak değeri ağırlıklandırılarak optimum model elde edilmiştir. 
İlgili eğitim veri setinin öğrenme becerisi ve doğrulama veri setiyle 
gerçekleştirilen sınıflandırmalara oranlarına aşağıda yer verilmiştir. 
Tablo 3.16: Eğitim ve Doğrulama Veri Setleri ile KNN Algoritmasına Ait 
Sınıflandırma Oranları 
Gerçek Değer Tahmin Değeri Eğitim Doğrulama 
Temerrüde Düşmeyen Temerrüde Düşmeyen %27.36 %26.83 
Temerrüde Düşen Temerrüde Düşmeyen %17.81 %17.99 
Temerrüde Düşmeyen Temerrüde Düşen %22.64 %23.17 
Temerrüde Düşen Temerrüde Düşen %32.19 %32.01 
Algoritma, eğitim veri setiyle toplamda %59.55 doğrulma veri setiyle toplamda 
%58.84 oranında doğru sınıflandırma oranına sahiptir. K-En Yakın Komşu 
algoritmasının her iki veri setiyle gerçekleştirdiği doğru sınıflandırmaların diğer 
algoritmalara görece daha başarısız performansa sahip olduğu görülmektedir. 
3.4.6 Rassal Orman ile Model Geliştirme 
Rassal orman algoritması, maksimum 50 ağaç ve 10 düğüm derinliği ile her ağaçta 
veri setindeki rastgele gözlemlerin %60’ı kullanılmış olup, Kayıp Azaltma (Loss 
Reduciton) tekniği ile değişken önemliliği belirlenmiştir. Bu doğrultuda geliştirilen 
Rassal Orman modeline ilişkin çıktılara aşağıda yer verilmiştir. 
61 
 
 
Tablo 3.17: Rassal Orman Algoritmasına Göre Değişkenlerin Önemlilik Oranları 
Bölme Eğitim: Eğitim: OOB: OOB: Doğrulama: Doğrulama: 
Öznitelik Kural Gini Marj Gini Marj Gini Marj 
Sayısı İndirgeme İndirgeme İndirgeme İndirgeme İndirgeme İndirgeme 
A_EXT_SOURCE_MEAN 62 0.034060 0.068119 0.033156 0.067198 0.033509 0.067658 
A_DAYS_EMPLOYED 28 0.003701 0.007402 0.003415 0.007131 0.003882 0.007548 
B_CA_A_MEAN 17 0.002363 0.004726 0.002078 0.004441 0.002497 0.004857 
A_LOAN_RATE 22 0.001094 0.002187 0.000952 0.002037 0.001033 0.002106 
PA_NCS_R_MEAN 13 0.001094 0.002188 0.001067 0.002144 0.001033 0.002098 
IP_AP_MIN_MIN 21 0.000846 0.001693 0.000537 0.001397 0.000848 0.001716 
PA_NPRT_W_MEAN 9 0.000752 0.001504 0.000770 0.001525 0.000632 0.001380 
B_DCE_MAX 3 0.000073 0.000147 0.000006 0.000083 0.000062 0.000141 
A_RRCWC 0 0 0 0 0 0 0 
Tablo 3.17’de eğitim %60, OOB (Out of Bag) %40 ve doğrulama veri setleriyle 
gerçekleştirilen girdi değişkenlerinin Rassal Ormanlar ile sınıflandırma sonuçlarına göre 
önemlilik oranları bulunmaktadır. “A_RRCWC” değişkeninin Rassal Orman 
algoritmasına göre hedef değişken üzerinde herhangi bir önemliliği olmadığı, bölünme 
kuralına sahip olmamasıyla anlaşılmaktadır. Bu bağlamda, girdi değişkeni olarak 
kullanılmayarak modelden çıkarılmıştır.  
Tabloda bulunan “Gini Reduction” alanları, modelin sınıflandırma başarısını Gini 
oranlarıyla verirken, “Margin Reduction” alanları, gerçek sınıfın olasılığı ile diğer 
sınıfların maksimum olasılığının çıkarılmasıyla elde edilen marj oranını ifade etmektedir. 
Her iki oranda yüksek değerler tercih edilmekle beraber, çalışma kapsamında veri 
setlerinin oranlarındaki uyum dikkate alınarak, model geliştirme sonlandırılmıştır. Ek 
olarak, Rassal Ormanların, değişkenlerin açıklayıcı oranlarına göre seçilebilir yapısıyla, 
veri madenciliği algoritmaları mimarisine oldukça uygun olduğu söylenebilir.  
Algoritmanın, eğitim verisiyle öğrenme başarısının ölçümü için bir diğer teknik, 
her yeni ağaçta oluşan yaprak düğüm sayısının yaklaşık olarak eşit oranlarda artış 
göstermesidir. Bu kapsamda, Rassal Ormanlar ile elde edilen ağaçların sahip olduğu 
yaprak düğümü sayısına, aşağıdaki grafikte artış oranlarıyla birlikte yer verilmiştir. 
62 
 
 
 
Grafik 3.6: Yaprak Grafiği 
Grafik 3.6 incelendiğinde, yaprak düğüm sayısındaki artış oranları yaklaşık olarak 
eşit oranlara sahip olduğu görülmektedir.  
Tablo 3.18: Eğitim ve Doğrulama Veri Setleri ile Rassal Orman Algoritmasına Ait 
Sınıflandırma Oranları 
Gerçek Değer Tahmin Değeri Eğitim Doğrulama 
Temerrüde Düşmeyen Temerrüde Düşmeyen %35.15 %34.63 
Temerrüde Düşen Temerrüde Düşmeyen %18.71 %18.22 
Temerrüde Düşmeyen Temerrüde Düşen %14.84 %15.37 
Temerrüde Düşen Temerrüde Düşen %31.29 %31.78 
Rassal ormanların, eğitim ve doğrulama veri setleriyle temerrüde düşmeyenler 
için gerçekleştirdiği doğru tahmin oranları, her ne kadar başarılı olsa da toplam doğru 
sınıflandırma oranı K-En Yakın Komşu haricinde diğer algoritmalara görece daha düşük 
kalmıştır. Eğitim veri seti için bu oran toplamda %66.44 olurken, doğrulama veri setinde 
%66.41’dir. 
3.4.7 Lojistik Regresyon (WOE) ile Model Geliştirme 
Nihai 9 değişkenin, hedef değişkene ait iyi ve kötü kredi dağılımları üzerinden 
açıklayıcı gücünün hesaplandığı WOE değerleriyle Scorecard düğümü yardımıyla 
63 
 
 
Lojistik Regresyon modeli geliştirilerek, ham haliyle kurulan Lojistik Regresyon modeli 
kıyaslanmıştır. Nihai değişkenlerin WOE’li halleriyle gerçekleştirilen Lojistik Regresyon 
algoritmasında backward tekniği kullanılmıştır. Bu kapsamda, ilgili değişkenlerin 
modeldeki anlamlılığı ile eğitim ve doğrulama veri setleriyle gerçekleştirilen 
sınıflandırma oranlarına aşağıda yer verilmiştir. 
Tablo 3.19: Lojistik Regresyon (WOE) Katsayıları 
Parametre Tahmini Katsayı Standart Hata Wald X2 Pr > X2 
Intercept -0.00069 0.013 0 0.9574 
WOE_PA_NCS_R_MEAN -0.4966 0.0544 83.37 <.0001 
WOE_PA_NPRT_W_MEAN -0.3833 0.0675 32.27 <.0001 
WOE_A_EXT_SOURCE_MEAN -0.8322 0.0181 2109.12 <.0001 
WOE_A_RRCWC -0.4222 0.0666 40.24 <.0001 
WOE_B_CA_A_MEAN -0.3432 0.0487 49.69 <.0001 
WOE_A_DAYS_EMPLOYED -0.528 0.0371 202.08 <.0001 
WOE_A_LOAN_RATE -0.6329 0.0442 205.23 <.0001 
WOE_B_DCE_MAX -0.3843 0.063 37.26 <.0001 
Yukarıda değişkenlerin WOE’li halleriyle kurulan Lojistik Regresyon modelinde 
nihai 9 değişkenin modelde anlamlı olduğu görülmekte olup herhangi bir elemeye 
gidilmemiştir. Eğitim verileri üzerinden geliştirilen modelin tahmin oranları ile 
doğrulama verisine ait tahmin oranlarına Tablo 3.20’de yer verilmiştir. 
Tablo 3.20: Eğitim ve Doğrulama Veri Setleri ile Lojistik Regresyon (WOE) 
Algoritmasına Ait Sınıflandırma Oranları 
Gerçek Değer Tahmin Değeri Eğitim Doğrulama 
Temerrüde Düşmeyen Temerrüde Düşmeyen %34.24 %33.73 
Temerrüde Düşen Temerrüde Düşmeyen %16.63 %16.36 
Temerrüde Düşmeyen Temerrüde Düşen %15.76 %16.27 
Temerrüde Düşen Temerrüde Düşen %33.37 %33.64 
64 
 
 
Değişkenlerin WOE’li halleriyle kurulan Lojistik Regresyon modelinin, eğitim ve 
doğrulama veri setleriyle gerçekleştirdiği sınıflandırma oranları gözlemlendiğinde, ham 
halleriyle kurulan Lojistik Regresyon modelinin sınıflandırma oranlarına göre daha 
başarılı olduğu görülmektedir. Eğitim veri setinin toplam doğru sınıflandırma oranı 
%67.61 olurken, doğrulama verinde bu oran %67.37’dir. Ek olarak, WOE’li Lojistik 
Regresyon modelinin YSA modeline ait sınıflandırma performansında benzer oranlara 
sahip olduğu söylenebilir. 
3.4.8 Gradyan Artırma ile Model Geliştirme 
Gradyan Artırma algoritması ile model geliştirme sürecinde, eğitim veri setinin 
%70’i, 0.1 oranında öğrenme hızına sahip olacak şekilde daralma değeri tanımlanmıştır. 
Ek olarak, maksimum 30 dallanma kuralı ve 10 düğüm derinliği ile sınırlandırılarak 300 
iterasyon ile algoritma optimum modeli elde etmiştir. 
Belirlenen hiperparametreler üzerinden eğitim ve doğrulama veri seti ile elde 
edilen değişkenlerin önemlilik oranlarına Tablo 3.21‘de yer verilmiştir. 
Tablo 3.21: Gradyan Artırma Algoritmasına Göre Değişkenlerin Önemlilik 
Oranları 
Eğitim:  Doğrulama: 
Öznitelik Bölme Kural Sayısı 
Önemlilik Oranı Önemlilik Oranı 
A_EXT_SOURCE_MEAN 114 1 1 
A_LOAN_RATE 152 0.54456251 0.457866369 
A_DAYS_EMPLOYED 88 0.317967324 0.259472756 
IP_AP_MIN_MIN 73 0.249623648 0.208416438 
B_CA_A_MEAN 24 0.19997376 0.180501344 
PA_NCS_R_MEAN 14 0.178122265 0.168224794 
B_DCE_MAX 65 0.25380576 0.148651308 
A_RRCWC 8 0.091933353 0.139179555 
PA_NPRT_W_MEAN 11 0.118126583 0.088401028 
65 
 
 
Yukarıda önemlilik oranlarıyla bulunan nihai 9 değişken ile eğitim ve doğrulama 
veri setiyle gerçekleştirilen hatalı sınıflandırmaların grafiksel gösterimine aşağıda yer 
verilmiştir. 
 
Grafik 3.7: Eğitim ve Doğrulama Veri Setleri ile Gradyan Artıma Algoritmasına 
Ait Yanlış Sınıflandırma Grafiği 
Grafiğe göre eğitim ve doğrulama veri seti ile gerçekleştirilen tahminlerin yanlış 
sınıflandırma oranları arasında iyi oranda uyumlu olduğu gözlemlenmektedir. Ayrıca, 
298. iterasyon ile yanlış sınıflandırma oranı 0.04 oranında azalarak, optimum modeli 
0.31’in altında bir değer ile elde etmiştir. 
Bu kontekste, geliştirilen model ile eğitim ve doğrulama veri setlerinin tahmin 
başarısı, aşağıdaki sınıflandırma oranlarıyla detaylandırılmıştır. 
Tablo 3.22: Eğitim ve Doğrulama Veri Setleri ile Gradyan Artırma Algoritmasına 
Ait Sınıflandırma Oranları 
Gerçek Değer Tahmin Değeri Eğitim Doğrulama 
Temerrüde Düşmeyen Temerrüde Düşmeyen %35.08 %34.93 
Temerrüde Düşen Temerrüde Düşmeyen %15.84 %15.53 
Temerrüde Düşmeyen Temerrüde Düşen %14.91 %15.07 
Temerrüde Düşen Temerrüde Düşen %34.17 %34.47 
66 
 
 
Temerrüde düşenler ve temerrüde düşmeyenler için gerçekleştirilen tahmin 
oranlarının, Gradyan Artırma algoritmasıyla eğitim ve doğrulama veri setiyle en iyi 
oranlara sahip olduğu gözlemlenmektedir. Toplamda eğitim veri setinin doğru 
sınıflandırma oranı %69.51 olurken, doğrulama veri setiyle bu oran %69.53’tür. 
3.5 PERFORMANS DEĞERLENDİRME 
Belirlenen nihai değişkenler ile eğitim, doğrulama ve test veri setleri üzerinden 
algoritmalar iyi ve kötü müşterileri sınıflandırarak, karmaşıklık matrisleri elde edilmiştir. 
Test veri seti üzerinden her bir algoritmaya ait karmaşıklık matrisinden elde edilen 
sınıflandırma ölçülerinin sonuçlarına Tablo 3.23’de yer verilmiştir. 
Tablo 3.23: Algoritmalara Ait Sınıflandırma Sonuçları 
Model Algoritmaları Doğruluk Hassasiyet Özgüllük Kesinlik F1 Skoru 
Gradyan Artırma %68.59 %68.09 %69.09 %68.77 %68.43 
Lojistik Regresyon 
%67.74 %67.10 %68.39 %67.97 %67.53 
(WOE) 
Yapay Sinir Ağları %67.71 %67.73 %67.69 %67.70 %67.71 
Lojistik Regresyon %67.11 %65.79 %68.43 %67.57 %66.67 
Destek Vektör Makineleri %67.03 %65.20 %68.85 %67.57 %66.41 
Rassal Orman %66.31 %62.39 %70.23 %67.69 %64.93 
Karar Ağacı %66.56 %66.82 %66.30 %66.47 %66.65 
K-En Yakın Komşu %58.85 %63.13 %54.57 %58.15 %60.53 
Yukarıdaki oranlar incelendiğinde, K-En Yakın Komşu algoritması temerrüde 
düşenler ile temerrüde düşmeyenlerin sınıflandırılmasında diğer algoritmalara görece 
daha başarısız sonuçlar vermektedir. Sınıflandırma başarısının genel performans bilgisini 
veren doğruluk oranı için K-En Yakın Komşu algoritması haricinde diğer algoritmalar 
birbirlerine yakın değerlere sahip olsa da Gradyan Artırma algoritmasının en başarılı 
sınıflandırma oranına sahip olduğu söylenebilir. Tip-II hata perspektifiyle, gerçekte 
temerrüde düşen müşteriler için algoritmaların sınıflandırma başarısını ölçen hassasiyet 
oranı için Gradyan Artırma algoritması en başarılı sonucu verse de Yapay Sinir Ağları 
67 
 
 
algoritması ve WOE’li Lojistik Regresyon algoritmalarıyla yakın oranlara sahiptir. Diğer 
hata perspektifi (Tip-I) ile algoritmaların temerrüde düşen olarak gerçekleştirdiği 
sınıflandırma tahmininde ne oranda başarılı olduğu kesinlik ölçüsünde, Gradyan Artırma 
algoritması diğer algoritmalara görece daha başarılı bir sonuç vermiştir. Temerrüde 
düşmeyen müşterilerin Tip-I hata perspektifi ile hesaplanan özgüllük ölçüsünde, Rassal 
Orman algoritmasının sınıflandırma performansı yüksek olsa da genel sınıflandırma 
başarısı düşük kalmıştır. Ek olarak, bu ölçüde Destek Vektör Makineleri ve Gradyan 
Artırma algoritmalarının sınıflandırma yeteneklerinin de iyi sonuçlar verdiği 
görülmüştür. Karmaşıklık matrisinden elde edilen yukarıdaki ölçüler yardımıyla, 
sınıflandırma başarısının değerlendirilmesinde sıklıkla kullanılan F1 skor oranı 
hesaplanmış olup, Gradyan Artırma algoritmasının en iyi oranla sınıflandırma yeteneğine 
sahip olduğu gözlemlenmiştir.  
Ek olarak, WOE’li halleriyle kurulan Lojistik Regresyon modelinin, değişkenlerin 
ham haliyle inşa edilmiş Lojistik Regresyon modeline göre daha başarılı sınıflandırma 
oranlarına sahip olduğu görülmektedir. 
Algoritmaların sınıflandırma performanslarının incelenmesinde kullanılan bir 
diğer ölçü ROC eğrisi olup, ilgili algoritmalara ait eğitim, doğrulama ve test verisinden 
elde edilen ROC eğrilerine Grafik 3.8’de yer verilmiştir. 
 
Grafik 3.8: Eğitim, Doğrulama ve Test Verilerinin Algoritmalar için ROC Eğrisi 
68 
 
 
Algoritmaların, eğitim, doğrulama ve test veri setleriyle temerrüde düşen ve 
temerrüde düşmeyen müşteriler için gerçekleştirmiş olduğu sınıflandırma yetenekleri, 
ROC eğri oranlarınca incelenmiş olup, modellerin sınıflandırma uyumunda aşırı öğrenme 
veya eksik öğrenme davranışı görülmemiştir. Modellerin performans gücü 
değerlendirmeleri, test verisinden elde edilen ROC eğrisinin altında kalan alanın 
büyüklüğüne göre belirlenmiştir. 
 
Grafik 3.9: Test Verisinin Algoritmalar için ROC Eğrisi 
Bu kapsamda, Hassasiyet ve 1-Özgüllük oranlarının farklı eşik değerlerine göre 
hesaplanan ROC eğrisi incelendiğinde, K-En Yakın Komşu algoritmasının diğer 
algoritmalara görece daha az başarılı bir sınıflandırma oranına sahip olduğu 
görülmektedir. İlgili görseldeki algoritmaların ROC eğri oranlarına Tablo 3.24’de yer 
verilmiştir. 
Tablo 3.24: Algoritmalara Ait ROC Eğrisi Oranları 
Model Algoritmaları ROC Eğrisi 
Gradyan Artırma 0.75 
Lojistik Regresyon (WOE) 0.74 
Yapay Sinir Ağları 0.74 
Lojistik Regresyon 0.73 
69 
 
 
Destek Vektör Makineleri 0.73 
Rassal Orman 0.72 
Karar Ağacı 0.72 
K-En Yakın Komşu 0.62 
ROC eğrisine göre, K-En Yakın Komşu haricinde diğer algoritmaların model 
performans gücü nispeten birbirine yakın değerlere sahip olsa da Gradyan Artırma 
algoritmasının sınıflandırmadaki başarısının daha yüksek olduğu söylenebilir. Yapay 
Sinir Ağları ve WOE’li Lojistik Regresyon modeli benzer sınıflandırma performansı 
gösterirken, WOE’li Lojistik Regresyon analizine ait ROC değerinin, değişkenlerin ham 
haliyle gerçekleştirilen Lojistik Regresyon analizinin ROC değerine göre de daha başarılı 
olduğu görülmektedir. Ek olarak, Destek Vektör Makineleri ile geleneksel Lojistik 
Regresyon modeli birbirlerine yakın oranlarda sonuçlar üretirken, ağaç tabanlı 
algoritmaların (Rassal Orman, Karar Ağacı) genel sınıflandırma başarısı nispeten daha 
düşük kalmıştır. Özellikle Rassal Orman algoritmasının temerrüde düşmeyen müşteriler 
için gerçekleştirmiş olduğu sınıflandırma başarısı dikkat çekse de diğer sınıflandırma 
ölçülerinde ki yeteneğinin zayıf oranlarda olduğu gözlemlenmiştir. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
70 
 
 
SONUÇ 
Yapılan çalışma kapsamında, Home Credit müşterilerine ait kredi kullanım 
bilgilerini içeren veriler kullanılarak, veri kalitesi ve model ön işleme çalışmaları 
gerçekleştirilmiştir.  
Yeni başvuru sahiplerinin veya aktif kredilerin temerrüt risk oranını 
değerlendirmek amacıyla, ilgili istatistiksel ve makine öğrenmesi algoritmaları 
uygulanmış olup, algoritmaların iyi ve kötü müşterileri ayrıştırıcı gücünün belirlenmesi 
performans ölçüleriyle sağlanmıştır.  
Öznitelik seçimi kapsamında istatistiksel hatalardan arınma ve sınıflandırma gücü 
yüksek olan değişkenlerin belirlenmesi için çeşitli değişken indirgeme tekniklerinden 
faydalanılmıştır. İlgili algoritmalarda girdi değişkeni olarak kullanılacak nihai 
özniteliklerin belirlenmesi için LASSO Regresyonu değişken indirgeme tekniği olarak 
kullanılmış olup, değişken seçiminde geleneksel Regresyon tekniklerinden (bacward, 
forward, stepwise) farklı bir yol izlenmiştir. LASSO Regresyonun sahip olduğu ceza 
parametresi sayesinde, hedef değişken üzerindeki sınıflandırma gücü yüksek olan 
değişkenler modelde kalmayı başararak nihai girdi olarak belirlenmiştir. 
Ek olarak, nihai değişkenlerin IGN düğümü yardımıyla elde edilen WOE’li 
dönüştürülmüş yapılarıyla, Scorecard düğümü üzerinden Lojistik Regresyon modeli 
kurulmuştur. Böylelikle değişkenlerin WOE’li yapıları üzerinden gerçekleştirilen 
Lojistik Regresyon modeli, sınıflandırma performansları değerlendirilecek yedi 
algoritmanın karşılaştırılmasında sürece dahil edilmiştir. 
Ham veri kümesinin %60’ı eğitim, %20’si doğrulama ve %20’si test veri seti 
olacak şekilde ayrılarak, makine öğrenmesi teknikleri bu veri setleri üzerinden 
gerçekleştirilmiştir. Ayrıca, veri kalitesi ve değişken indirgeme çalışmalarının yaklaşık 
%60’ı ham veri kümesi üzerinden gerçekleştirilirken, %40’ı eğitim ve doğrulama veri 
kümeleri ile gerçekleştirilmiştir. Algoritmalar için optimum performansı sağlayan 
hiperparametreler, eğitim ve doğrulama veri setleri üzerinden belirlenirken, nihai model 
geliştirme ve performans karşılaştırmaları test veri seti üzerinden incelenmiştir. 
Yukarıdaki bulgular doğrultusunda, karmaşıklık matrisinden elde edilen 
doğruluk, hassasiyet, özgünlük, kesinlik ve F1 skor ölçüleri, ROC eğrisiyle birlikte 
71 
 
 
incelenerek, sekiz algoritmanın makine öğrenmesi yetenekleriyle gerçekleştirdiği 
performansları değerlendirilmiştir. Home Credit müşterilerinin temerrüt riskini 
değerlendirmek için en iyi sınıflandırma başarısını her bir veri setinde sağlayan modelin, 
Gradyan Artırma algoritması olduğu gözlemlenmiştir. Gradyan Artırma algoritmasına 
alternatif olarak en yakın performans başarısı gösteren WOE’li Lojistik Regresyon ve 
Yapay Sinir Ağlarının kullanılması uygun olsa da modelin yorumlanabilirlik özelliği 
açısından WOE’li Lojistik Regresyon modeli önerilmektedir. 
Gradyan Artırma algoritmasının performans başarısı, nihai değişkenlere ait 
artıklardaki örüntü bilgisini parametreleştirip, algoritmik olarak kayıp fonksiyonu 
optimize etmesinden kaynaklanmaktadır. Bu kontekste, Gradyan Artırma algoritmasının 
çalışma kapsamındaki performansını dikkate alarak, ikili sınıflandırma problemlerini 
çözmek için oldukça başarılı olan XGBoost, AdaBoost ve CatBoost gibi artırma 
(Boosting) algoritmaları, gelecek çalışmalarda karşılaştırmaya dahil edilebilir. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
72 
 
 
KAYNAKLAR 
ALTMAN, E.I., MARCO, G., & VARETTO, F., (1994), "Corporate distress 
diagnosis: Comparisons using linear discriminant analysis and neural networks (the 
Italian experience)", Journal of Banking & Finance 18, 505-529. 
APOSTOLIK, R., DONOHUE, C., WENT, P., and Global Association of Risk 
Professionals, Foundations of Banking Risk: An Overview of Banking, Banking Risks, and 
Risk-Based Banking Regulation, Hoboken, New Jersey: John Wiley & Sons, Inc., (2009). 
AYHAN, S., & ERDOĞMUŞ, Ş., (2014), “Destek Vektör Makineleriyle 
Sınıflandırma Problemlerinin Çözümü İçin Çekirdek Fonksiyonu Seçimi”, Eskişehir 
Osmangazi Üniversitesi İktisadi ve İdari Bilimler Dergisi, Nisan, 9(1), s.175-201. 
BARBOZA, F., KIMURA, H., & ALTMAN, E., (2017), “Machine learning 
models and bankruptcy prediction”, Expert Systems with Applications 83: 405–417. 
BASEL COMMITTEE ON BANKING SUPERVISION, (2001a). The New Basel 
Capital Accord. Jan. Available at: http://www.bis.org/publ/bcbsca03.pdf. s.34. 
BDDK, (2012), “Bankaların İç Denetim ve Risk Yönetimi Sistemleri Hakkında 
Yönetmelik”, https://www.resmigazete.gov.tr/eskiler/2012/06/20120628-17.htm  
(Erişim Tarihi: 24 Haziran 2020). 
BDDK, (2016), Bankaların Kredi Yönetimine İlişkin Rehber, BBDK Kurul Kararı 
Sayı: 6827, 2016, s.14 
BELL, J., Machine Learning Hands-On for Developers and Technical 
Professionals, John Wiley & Sons, Inc., Indianapolis, Indiana, (2014). 
BELLOTTI, T., & CROOK, J., (2009), “Support Vector Machines for Credit 
Scoring and Discovery of Significant Features”, Expert Systems with Applications, 
3302–3308. 
BHARGAVA, A., (Şubat 2000), "Credit Risk Management Systems in Banks", 
ICICI Bank, s.8., www.garp.com / library/Meets/bhargava.pdf, (27.11.2005). 
BREIMAN, L., (2001), “Random Forests, Machine learning”, Kluwer Academic 
Publishers, 45(1), 5-32. 
BROWN, I., & MUES, C., (2012), “An experimental comparison of classification 
algorithms for imbalanced credit scoring data sets”, Expert Systems with Applications 
39: 3446–3453. 
BROWN, I., Developing Credit Risk Models Using SAS Enterprise MinerTM and 
SAS/STAT: Theory and Applications, Cary, NC: SAS Institute Inc, (2014). 
CHOLLET, F., Deep Learning with Python, Manning Publications Co., Shelter 
Island, NY, USA, (2018). 
COYLE, B., Introduction to Currency Risk, Financial World Publishing, UK, 
(2000). 
73 
 
 
DANGETI, P., Statistics for Machine Learning, Build supervised, unsupervised, 
and reinforcement learning models using both Python and R, Packt Publishing, 
Birmingham UK, (2017). 
DEMİRBULUT, Y., AKTAŞ, M., KALIPSIZ, O., & BAYRACI, S. (2017). 
“İstatistiksel ve Makine Öğrenimi Yöntemleriyle Kredi Skorlama”, CEUR-WS (s. 273-
284). Antalya: Turkish National Software Engineering Symposium. 
DESIGN I. T., GABRYS B., PETRAKIEVA L., (2004), “Combining labelled and 
unlabelled data”, International Journal on Approximate Reasoning, vol. 35, p. 251-273. 
DİNOV, IVO D., Data Science and Predictive Analytics: Biomedical and Health 
Applications Using R, Springer, Cham, Switzerland, (2018). 
EĞRİOGLU, E., ALADAĞ, C.H., YOLCU, U., USLU, V.R., & BAŞARAN, 
M.A., (2009), “A new approach based on artificial neural networks for high order 
multivariate fuzzy time series”, Expert Systems with Applications, 36(7), 10589-10594. 
GESTEL, V., TONY, I., BAESENS, B., GARCIA, I.J., & DIJCKE. P.V., (2003), 
“A support vector machine approach to credit scoring”, 73–82. 
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.93.6492&rep=rep1&type=pf 
(Erişim Tarihi: 7 Haziran 2018). 
HAMORİ, S., KAWAİ, M., KUME, T., MURAKAMİ, Y., & WATANABE, C., 
(2018), “Ensemble Learning or Deep Learning? Application to Default Risk Analysis”, 
Journal of Risk and Financial Management 11: 12. 
HAND, D., & ZHOU, F., (2009), “Evaluating models for classifying customers 
in retail banking collections”, Journal of the Operational Research Society, 61, 1540–
1547. 
JORION, P., Financial Risk Manager Handbook, Wiley Finance Series, 5. Baskı, 
s.431 (2009). 
KAVCIOĞLU, Ş. (2019). “Kurumsal kredi skorlamasında klasik yöntemlerle 
yapay sinir ağı karşılaştırması”, İstanbul İktisat Dergisi - Istanbul Journal of Economics, 
69(2), 207-245. 
KAVZOĞLU, T., & ÇÖLKESEN, İ., (2010), “Destek Vektör Makineleri ile Uydu 
Görüntülerinin Sınıflandırılmasında Kernel Fonksiyonlarının Etkilerinin İncelenmesi”, 
Harita Dergisi Temmuz 2010 Sayı 144, s.73-82. 
LESSMANN, S., BAESENS, B., SEOW, H.V., & THOMAS, L.C., (2015), 
“Benchmarking State-of-the-Art Classification Algorithms for Credit Scoring: An 
Update of Research”, European Journal of Operational Research, Vol.247, 124–136. 
LINDHOLM, A., WAHLSTRÖM, N., LINDSTEN, F., SCHÖN, T. B., (2019), 
“Supervised Machine Learning”, Version (12 May 2019), s.7 
http://www.it.uu.se/edu/course/homepage/sml/literature/lecture_notes.pdf (Erişim 
Tarihi: 13 Mayıs 2019). 
74 
 
 
LUI, H., (2017), “Which Machine Learning Algorithm Should I Use?”, 
https://blogs.sas.com/content/subconsciousmusings/2017/04/12/machine-learning-
algorithm-use/ (Erişim Tarihi: 12 Mayıs 2020). 
MAEIREIZO B., LITMAN D., HWA R., (2004), “Co-training for predicting 
emotions with spoken dialogue data”, Proceedings of the ACL 2004 on Interactive Poster 
and Demonstration Sessions, Companion Volume to the proceeding of 42nd Annual 
Meeting of the Association for Computational Linguistics (ACL), July, Barcelona, Spain. 
MANDACI P.E., (2003), “Türk Bankacılık Sektörünün Taşıdığı Riskler ve 
Finansal Krizi Asmada Kullanılan Risk Ölçüm Teknikleri”, Dokuz Eylül Üniversitesi 
Sosyal Bilimler Enstitüsü Dergisi, s.71. 
MARKOFF J., (2015), “A Learning Advance in Artificial İntelligence Rivals 
Human Abilities”, New York Times, https://www.nytimes.com/2015/12/11/science/an-
advance-in-artificial-intelligence-rivals-human-vision-abilities.html (Erişim Tarihi: 22 
Mart 2019). 
MOHRI, M., ROSTAMIZADEH, A., TALWALKAR, A., Foundations of 
Machine Learning, Second Edition, The MIT Press, London, (2012). 
MUELLER, J.P., MASSARON, L., Machine Learning For Dummies, John Wiley 
& Sons, Inc., Hoboken, New Jersey, (2016). 
NICULESCU-MIZIL, A., & CARUANA, R., (2005), “Predicting Good 
Probabilities With Supervised Learning”, Proceedings of the 22nd international 
conference on Machine learning, 07–11 August 2005, Bonn, 625-632. 
NIGAM K., MCCALLUM A. K., THRUN S., MITCHELL T., (2000), “Text 
classification from labeled and unlabeled documents using EM”, International Journal of 
Machine Learning, vol. 39 no. 2-3, s. 103-134. 
OSUNA, E.E., FREUND, R., GİROSİ, F., (1997), “Support Vector Machines: 
Training and Applications”, A.I. Memo No. 1602, C.B.C.L. Paper No. 144, 
Massachusetts Institute of Technology and Artificial Intelligence Laboratory, 
Massachusetts. 
OUYANG, Y., HU, M., HUET, A., LI, Z., Mining Over Air: Wireless 
Communication Networks Analytics, Springer, Cham, Switzerland, (2015). 
ÖZTEMEL, E., Yapay Sinir Ağları, Papatya Yayıncılık, İstanbul, (2006). 
ÖZTÜRK, K., ŞAHİN, M.E., (2018), “Yapay Sinir Ağları ve Yapay Zekâ’ya 
Genel Bir Bakış”, Takvim-i Vekayi, Cilt: 6 No: 2 Sayfa: 25-36. 
RASCHKA, S., Python Machine Learning, Packt Publishing Ltd., Birmingham, 
UK., (2015). 
SCHUERMANN, T., (2004), “What do we know about loss given default?”, 
Wharton Financial Institutions Center, Vol.Feb. s.3 
SHWARTZ, S. S., BEN-DAVID, S., Understanding Machine Learning: From 
Theory to Algorithms, Cambridge University Press, UK, (2014). 
75 
 
 
SINKEY J.F.Jr., Commercial Bank Financial Management, Prentice Hall, U.S.A., 
(1998). 
SNİATALA, P., HADİ AMİNİ M., BOROOJENİ K.G, Fundamentals of Brooks-
lyengar Distributed Sensing Algorithm, Springer, Switzerland, (2020). 
THE ROYAL SOCIETY, (2017) “Machine Learning: The Power And Promise 
Of Computers That Learn By Example”, s.16-21, www.royalsociety.org/machine-
learning (Erişim Tarihi: 5 Ocak 2019). 
THEOBALD, O., Machine Learning for Absolute Beginners, Second Edition, 
(2017). 
VASİLOUDİS, T., http://tvas.me/articles/2019/08/26/Block-Distributed-
Gradient-Boosted-Trees.html (Erişim Tarihi: 2019/10/05) 
WANG, Y., WANG, S., ve LAI, K.K., (2005), “A New Fuzzy Support Vector 
Machine to Evaluate Credit Risk”, IEEE Transactions on Fuzzy Systems, Vol.13: 820-
831. 
YAO, X., CROOK, J., & ANDREEVA, G., (2017), “Enhancing two-stage 
modelling methodology for loss given default with support vector machines”, European 
Journal of Operational Research 263: 679-689. 
YAROWSKY D., (1995), “Unsupervised word sense disambiguation rivaling 
supervised methods”, Proceedings of the 33rd Annual Meeting on Association for 
Computational Linguistics. 
YEŞİLYURT, A., ŞEKER, Ş. E., (2018), “Skorlama Algoritmaları”, YBS 
Ansiklopedi, Cilt 5, Sayı 1, Mayıs 2018 7-13. 
YEH, I. C., & LIEN, C., (2009), “The Comparisons of Data Mining Techniques 
for the Predictive Accuracy of Probability of Default of Credit Card Clients”, Expert 
Systems with Applications, Vol.36, 2473-2480. 
ZHANG, C., ZHANG, S., Association Rule Mining - Models and Algorithms, 
Springer, Berlin, (2002). 
ZHANG, W., (2017), “Machine Learning Approaches to Predicting Company 
Bankruptcy”, Journal of Financial Risk Management 6: 364-374. 
ZHOU, L., & WANG, H., (2012), “Loan Default Prediction on Large Imbalanced 
Data Using Random Forests”, TELKOMNIKA Indonesian Journal of Electrical 
Engineering, Vol.10, No.6, October 2012, 1519-1525 
ZHU, X., GOLDBERG, A. B., Introduction to Semi-Supervised Learning, 
Morgan & Claypool Publishers, (2009). 
 
 
 
76 
 
 
EKLER 
Ek I. IGN Düğümü Yardımıyla Nihai Değişkenlerin WOE Gruplandırılması 
A_EXT_SOURCE_MEAN Değişkeni için WOE Dönüşümü 
 
77 
 
 
A_EXT_SOURCE_MEAN Değişkeni için WOE Dönüşümü 
 
78 
 
 
A_LOAN_RATE Değişkeni için WOE Dönüşümü 
 
79 
 
 
B_CA_A_MEAN Değişkeni için WOE Dönüşümü 
 
80 
 
 
B_DCE_MAX Değişkeni için WOE Dönüşümü 
 
81 
 
 
IP_AP_MIN_MIN Değişkeni için WOE Dönüşümü 
 
82 
 
 
PA_NCS_R_MEAN Değişkeni için WOE Dönüşümü 
 
83 
 
 
PA_NPRT_W_MEAN Değişkeni için WOE Dönüşümü 
 
84 
 
 
B_RRCWC Değişkeni için WOE Dönüşümü 
 
85 
 
 
Ek II. Algoritmalar için Hiperparametreler 
 
Gradyan Artırma Lojistik Regresyon (WOE) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
86 
 
 
Yapay Sinir Ağları Lojistik Regresyon 
 
 
 
Destek Vektör Makineleri Rassal Orman 
 
 
 
87 
 
 
Karar Ağacı K-En Yakın Komşu 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
88