TELEKOMÜNİKASYON SEKTÖRÜNDE 
ÇALIŞAN KAYBI TAHMİNİ İÇİN MAKİNE 
ÖĞRENMESİ MODELİ SEÇİMİ 
Büşra UZAK 
T.C.
BURSA ULUDAĞ ÜNİVERSİTESİ 
FEN BİLİMLERİ ENSTİTÜSÜ 
TELEKOMÜNİKASYON SEKTÖRÜNDE ÇALIŞAN KAYBI TAHMİNİ İÇİN 
MAKİNE ÖĞRENMESİ MODELİ SEÇİMİ 
Büşra UZAK 
0000-0003-0797-5364 
Doç. Dr. Betül YAĞMAHAN 
(Danışman) 
YÜKSEK LİSANS TEZİ 
ENDÜSTRİ MÜHENDİSLİĞİ ANABİLİM DALI 
BURSA – 2022 
Her Hakkı Saklıdır 
TEZ ONAYI 
Büşra UZAK tarafından hazırlanan “Telekomünikasyon Sektöründe Çalışan Kaybı 
Tahmini İçin Makine Öğrenmesi Modeli Seçimi” adlı tez çalışması aşağıdaki jüri 
tarafından oy birliği ile Bursa Uludağ Üniversitesi Fen Bilimleri Enstitüsü Endüstri 
Mühendisliği Anabilim Dalı’nda YÜKSEK LİSANS olarak kabul edilmiştir. 
Danışman: Doç. Dr. Betül YAĞMAHAN 
Başkan : Doç. Dr. Betül YAĞMAHAN   İmza 
0000-0003-1744-3062 
Uludağ Üniversitesi,  
Mühendislik Fakültesi,  
Endüstri Mühendisliği Anabilim Dalı 
Üye : Doç. Dr. Aslı AKSOY   İmza 
0000-0002-2971-2701 
Uludağ Üniversitesi,  
Mühendislik Fakültesi,  
Endüstri Mühendisliği Anabilim Dalı 
Üye : Doç. Dr. Zehra Kamışlı ÖZTÜRK    İmza 
0000-0003-3156-6464  
Eskişehir Teknik Üniversitesi,  
Mühendislik Fakültesi,  
Yöneylem Araştırması Anabilim Dalı 
Yukarıdaki sonucu onaylarım 
  Prof. Dr. Hüseyin Aksel EREN 
              Enstitü Müdürü 
            ../../…. 
B.U.Ü. Fen Bilimleri Enstitüsü tez yazım kurallarına uygun olarak hazırladığım bu 
tez çalışmasında;  
− tez içindeki bütün bilgi ve belgeleri akademik kurallar çerçevesinde elde ettiğimi, 
− görsel, işitsel ve yazılı tüm bilgi ve sonuçları bilimsel ahlak kurallarına uygun olarak 
sunduğumu, 
− başkalarının eserlerinden yararlanılması durumunda ilgili eserlere bilimsel normlara 
uygun olarak atıfta bulunduğumu, 
− atıfta bulunduğum eserlerin tümünü kaynak olarak gösterdiğimi, 
− kullanılan verilerde herhangi bir tahrifat yapmadığımı, 
− ve bu tezin herhangi bir bölümünü bu üniversite veya başka bir üniversitede başka 
bir tez çalışması olarak sunmadığımı 
beyan ederim.  
16/05/2022 
Büşra UZAK 
TEZ YAYINLANMA 
FİKRİ MÜLKİYET HAKLARI BEYANI 
Enstitü tarafından onaylanan lisansüstü tezin/raporun tamamını veya herhangi bir 
kısmını, basılı (kâğıt) ve elektronik formatta arşivleme ve aşağıda verilen koşullarla 
kullanıma açma izni Bursa Uludağ Üniversitesi’ne aittir. Bu izinle Üniversiteye verilen 
kullanım hakları dışındaki tüm fikri mülkiyet hakları ile tezin tamamının ya da bir 
bölümünün gelecekteki çalışmalarda (makale, kitap, lisans ve patent vb.) kullanım hakları 
tarafımıza ait olacaktır. Tezde yer alan telif hakkı bulunan ve sahiplerinden yazılı izin 
alınarak kullanılması zorunlu metinlerin yazılı izin alınarak kullandığını ve istenildiğinde 
suretlerini Üniversiteye teslim etmeyi taahhüt ederiz.  
Yükseköğretim Kurulu tarafından yayınlanan “Lisansüstü Tezlerin Elektronik 
Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge” 
kapsamında, yönerge tarafından belirtilen kısıtlamalar olmadığı takdirde tezin YÖK 
Ulusal Tez Merkezi / B.U.Ü. Kütüphanesi Açık Erişim Sistemi ve üye olunan diğer veri 
tabanlarının (Proquest veri tabanı gibi) erişimine açılması uygundur.  
Öğrencinin Adı-Soyadı: Büşra UZAK 
Tarih: 16/05/2022 
İmza 
Bu bölüme öğrenci tez teslimi sırasında el yazısı ile okudum anladım yazmalı ve imzalamalıdır. 
ÖZET 
Yüksek Lisans Tezi 
TELEKOMÜNİKASYON SEKTÖRÜNDE ÇALIŞAN KAYBI TAHMİNİ İÇİN 
MAKİNE ÖĞRENMESİ MODELİ SEÇİMİ 
Büşra UZAK 
Bursa Uludağ Üniversitesi 
Fen Bilimleri Enstitüsü 
Endüstri Mühendisliği Anabilim Dalı 
Danışman: Doç. Dr. Betül YAĞMAHAN 
Günümüzde işletmelerin en büyük problemlerinden biri yetiştirdikleri çalışanları 
kaybetmeleridir. Çalışan kaybının şirketlere birçok maliyeti vardır. Bu nedenle çalışan 
kaybının tahmin edilmesi ve önlem alınması oldukça önem taşımaktadır. Bu kadar önemli 
bir konuda yapılan tahminlerin doğruluğu da alınacak aksiyonların hatalı olmaması ve 
çalışan kaybının azaltılması için oldukça önemlidir. Birçok tahmin yöntemi 
bulunmaktadır ancak bu çalışmada makine öğrenmesi yöntemlerinden olan sınıflandırma 
yöntemi kullanılarak telekomünikasyon sektörüne ait bir çalışan veri seti analiz 
edilmiştir. Çalışmanın amacı sekiz adet sınıflandırma modeli ile veri setinin analiz 
edilerek bu problem için en uygun sınıflandırma modelinin önerilmesidir. Bu uygulamaya 
ait modeller Python dili ile kodlanmıştır. Veri kümesinin %70’i modelin eğitilmesinde ve 
doğrulanmasında, %30’u ise modelin test edilmesinde kullanılmıştır. Uygulanan 
modeller doğruluk, çapraz doğrulama skoru, kesinlik, duyarlılık, 𝑓𝑓1 skoru ve Eğri Altında 
Kalan Alan (EAKA) metriklerine göre değerlendirilmiştir. Kullanılan modeller arasında 
en iyi sınıflandırma modeli %92,2 doğruluk değeri ile rastgele orman modeli olarak 
bulunmuştur. İkinci en iyi model ise %91,4 doğruluk değeri ile gradyan artırma 
makineleri modeli olarak bulunmuştur. Bu veri setini uygulanan modeller arasında %89,1 
doğruluk oranı ile en kötü sınıflandıran model ise k-en yakın komşu olmuştur. 
Problem özelinde gelecekte yapılacak sınıflandırma çalışmaları için bu çalışmada 
uygulanan modeller değerlendirildiğinde en iyi metrik değerlerine ulaşılan yani en iyi 
sınıflandıran rastgele orman modeli önerilmektedir. 
Anahtar Kelimeler: Makine Öğrenmesi, Sınıflandırma, Çalışan Kaybı, Tahminleme, 
Doğruluk değeri 
2022, vii +72 sayfa. 
i 
ABSTRACT 
 
MSc Thesis 
 
CHOOSING MACHINE LEARNING MODEL FOR PREDICTING EMPLOYEE 
CHURN IN THE TELECOMMUNICATION INDUSTRY 
 
Büşra UZAK 
 
 Bursa Uludağ University  
Graduate School of Natural and Applied Sciences 
Department of Industrial Engineering 
 
Supervisor: Assoc. Prof. Dr. Betül YAĞMAHAN 
 
One of the biggest problems of businesses today is losing their employees. Employee 
churn has many costs to companies. For this reason, it is very important to predict the loss 
of employees and take precautions. The accuracy of the estimates made on such an 
important issue is also very important to ensure that the actions to be taken are not 
erroneous and to reduce the churn of employees. There are many estimation methods, but 
in this study, an employee data set belonging to the telecommunications sector was 
analyzed by using the classification method, which is one of the machine learning 
methods. The aim of the study is to analyze the data set with eight classification models 
and to propose the most suitable classification model for this problem. These models are 
coded with Python language. 70% of the dataset was used in training and validation the 
model and 30% in testing the model. The applied models were evaluated according to 
accuracy, cross validation score, precision, sensitivity, 𝑓𝑓1 score and Area Under the Curve 
(AUC) metrics. Among the models used, the best classification model was found to be 
the random forest model with an accuracy of 92.2%. The second best model was found 
to be the gradient increasing machines model with an accuracy value of 91.4%. k nearest 
neighbor is the worst classifying model among the applied models with an accuracy rate 
of 89.1%. 
When the models applied in this study are evaluated for the classification studies to be 
carried out in the future, the random forest model, which has the best metric values, that 
is, which classifies the best, is recommended. 
 
Key words: Machine Learning, Classification, Employee Churn, Prediction, Accuracy 
2022, vii + 72 pages.  
 
 
 
 
 
 
 
 
 
 
ii 
 
ÖNSÖZ ve TEŞEKKÜR 
 
Yüksek lisans eğitimim boyunca ve bitirme tezi çalışma sürecimde yardımını ve desteğini 
hiç esirgemeyen kıymetli danışman hocam Doç. Dr. Betül YAĞMAHAN’ a sonsuz 
şükranlarımı sunarım.  
 
Tüm eğitim hayatım boyunca bilgi ve donanımlarından yararlandığım ve her türlü 
zahmetine rağmen pes etmemem için beni sürekli motive eden değerli hocalarıma, beni 
hayat boyu her türlü kararımda destekleyen, maddi manevi yanımda olan ve ömrümün 
gizli kahramanları olan anneme, babama, abime ve hep rol model aldığım en iyi 
arkadaşım ve en iyi destekçim olan ablama ayrıca teşekkür ederim. 
 
 
      Büşra UZAK 
16/05/2022 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
iii 
 
İÇİNDEKİLER 
           Sayfa 
ÖZET.............................................................................................................................      i 
ABSTRACT .................................................................................................................     ii 
ÖNSÖZ ve TEŞEKKÜR .............................................................................................     iii 
SİMGELER ve KISALTMALAR  .................................................................................   v 
ŞEKİLLER ve ÇİZELGELER  ....................................................................................   vii 
1.GİRİŞ ..........................................................................................................................    1 
2. KURAMSAL TEMELLER ve KAYNAK ARAŞTIRMASI  ...................................    2 
2.1.Makine Öğrenmesi  ..................................................................................................    2 
2.2.Makine Öğrenmesi Çeşitleri ....................................................................................    3 
2.2.1.Gözetimli Öğrenme ...............................................................................................    4 
2.2.2.Gözetimsiz Öğrenme .............................................................................................    5 
2.2.3.Yarı Gözetimli Öğrenme .......................................................................................    5 
2.2.4.Takviyeli Öğrenme................................................................................................    5 
2.3. Makine Öğrenmesi Model Metrikleri  ....................................................................    6 
2.3.1.Hiper Parametre  ...................................................................................................    6 
2.3.2.Hiper Düzlem  .......................................................................................................    6 
2.3.3.Parametre Optimizasyonu  ....................................................................................    7 
2.3.3. Sınıflandırma Modelleri Performans Metrikleri  .................................................    7 
2.4.Sınıflandırma Yöntemleri ........................................................................................    9 
2.4.1.Sınıflandırma ve Regresyon Ağacı Algoritması .................................................    10 
2.4.2.Rastgele Orman Algoritması  ..............................................................................    11 
2.4.3.Gradyan Attırma Ağaçları Algoritması  ..............................................................    14 
2.4.4.Aşırı Gradyan Attırma Algoritması  ...................................................................    16 
2.4.5.Lojistik Regresyon Algoritması  .........................................................................    17 
2.4.6.Destek Vektör Makinesi Algoritması  ................................................................    20 
2.4.7.Yapay Sinir Ağları Algoritması  .........................................................................    24 
2.4.8.k-En Yakın Komşu Algoritması  ........................................................................    29 
2.5.Kaynak Araştırması  ...............................................................................................    31 
3. MATERYAL VE YÖNTEM  ..................................................................................    36 
3.1.Veri Tanımı ve Veri Ön İşleme  .............................................................................    36 
3.1.1.Etiket Kodlama ...................................................................................................    41 
3.1.2.Sıralı Kodlama  ...................................................................................................    41 
3.1.3.One-Hot Kodlama  ..............................................................................................    42 
3.2.Uygulama  ..............................................................................................................    43 
3.2.1.Lojistik Regresyon  .............................................................................................    43 
3.2.2.k-En Yakın Komşu  .............................................................................................    44 
3.2.3.Destek Vektör Makineleri  ..................................................................................    45 
3.2.4.Sınıflandırma ve Regresyon Ağacı  ....................................................................    47 
3.2.5.Rastgele Orman  ..................................................................................................    48 
3.2.6.Gradyan Arttırma Makineleri  .............................................................................    48 
3.2.7.Yapay Sinir Ağları  .............................................................................................    49 
3.2.8.Aşırı Gradyan Arttırma Makineleri  ....................................................................    49 
4. BULGULAR  ...........................................................................................................    51 
5. SONUÇ  ...................................................................................................................    65 
KAYNAKLAR  ...........................................................................................................    66 
ÖZGEÇMİŞ  ................................................................................................................    72 
iv 
 
SİMGELER ve KISALTMALAR DİZİNİ 
 
 
Simgeler      Açıklama 
ε       Epsilon 
t       Düğüm 
g(t)       Gini Katışıklık İndeksi 
𝑖𝑖       Bağımsız Değişken Sınıfı 
𝑗𝑗       Bağımlı Değişken Sınıfı 
𝑘𝑘       Komşu Sayısı 
𝑡𝑡𝑠𝑠𝑠𝑠ğ       Sağ Düğüm 
𝑡𝑡𝑠𝑠𝑠𝑠𝑠𝑠       Sol Düğüm 
𝑝𝑝𝑠𝑠𝑠𝑠ğ       Sağ Taraftaki Bağımlı t Düğümündeki Durumların Oranı 
𝑝𝑝𝑠𝑠𝑠𝑠𝑠𝑠       Sol Taraftaki Bağımlı t Düğümündeki Durumların Oranı 
𝛷𝛷(𝑠𝑠, 𝑡𝑡)       s Örneklemindeki t Düğümlerinin Ayrılma İndeksi 
𝑧𝑧       Regresyon Denklemi Çıktısı 
𝑥𝑥𝑖𝑖       i. Bağımsız Değişken 
𝑎𝑎𝑖𝑖       i. Bağımsız Değişkenin Regresyon Katsayısı 
P(z)        Bir Girdi Noktasının Bir Sınıfa Ait Olma Olasılığı 
𝑦𝑦𝑖𝑖        Sınıf Etiketi 
𝑤𝑤       Ağırlık Vektörü 
𝑏𝑏       Eğilim Değeri 
𝑑𝑑1       Gini İndeksi İlk Veri Noktası 
d2        Gini İndeksi İkinci Veri Noktası  
𝑁𝑁𝑠𝑠       Gizli Katmandaki Nöron Sayısı 
𝑁𝑁𝑔𝑔       Girdi Katmanındaki Nöron Sayısı 
𝑁𝑁ç       Çıktı Katmanındaki Nöron Sayısı 
𝑁𝑁𝑑𝑑       Gözlem Sayısı 
𝑁𝑁𝑏𝑏        Katman Sayısı 
 
Kısaltmalar      Açıklama 
 
ACC        Accuracy (Doğruluk) 
AGA        Aşırı Gradyan Artırma 
AİK        Alıcı İşlem Karakteristikleri 
CSV        Cross Validation (Çapraz Doğrulama) 
ÇDS        Çapraz Doğrulama Skoru 
DDA        Doğrusal Diskriminant Analiz 
DSA        Derin Sinir Ağları 
DVM             Destek Vektör Makinesi 
EAKA        Eğri Altında Kalan Alan 
GAA             Gradyan Artırma Ağaçları 
IBM             International Business Machines 
İK             İnsan Kaynakları 
KA             Karar Ağacı  
k-EYK            k-En Yakın Komşu 
LR             Lojistik Regresyon 
v 
 
NB             Naive Bayes 
OEA             Otomatik Ekileşim Algılama 
RO             Rastgele Orman 
SRA             Sınıflandırma ve Regresyon Ağacı 
SSA             Sığ Sinir Ağları 
SSAGH          Stokastik Sinirsel Analog Güçlendirme Hesaplayıcısı 
YSA             Yapay Sinir Ağları 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
vi 
 
                                                ŞEKİLLER DİZİNİ 
                                                                                                                       
                                                                                                                                    Sayfa 
Şekil  2.1.   Makine Öğrenmesi Çeşitleri Şeması…..…………..……..........................     4 
Şekil  2.2.   Ayırıcı Hiper Düzlemler A)Minimum marja sahip ayırıcı hiper düzlem 
                   B) Maksimum marja sahip ayırıcı hiper düzlem…..…….........................     20 
Şekil  2.3.   Hiper Düzlemler A)İki sınıflı bir problem için hiper düzlemler  
       B)Optimum Hiper Düzlem Ve Destek Vektörleri……………………...       22 
Şekil  2.4.    Doğrusal Ayrılabilen Veri Setleri için Hiper Düzlemin Belirlenmesi….     22 
Şekil  3.1.   Veri Analizi Modellerinin Geliştirilme Süreci..………………………..      37 
Şekil  3.2.    Durum Bazında Çalışan Dağılımı……..………………………………...    39 
Şekil  3.3.    Cinsiyet Bazında Çalışan Dağılımı…..………………………………….   40  
Şekil  3.4.     Lokasyon Bazında İstihdam Durumu Dağılımı...………………………..    40 
Şekil  3.5.     Kıdem Bazında İsihdam Durumu Dağılımı.……………………………..    41 
Şekil  3.6.    Öznitelik Korelasyon Matrisi...………………..…………………...........    43  
Şekil  4.1.     Lojistik Regresyon Sınıflandırma Modeli Hata Matrisi…………............     52 
Şekil  4.2.    Lojistik Regresyon AİK Eğrisi…...………………………………...........    52 
Şekil  4.3.    k-En Yakın Komşu Modeli Hata Matrisi………………..........................    53 
Şekil  4.4.    k-En Yakın Komşu Modeli AİK Eğrisi……..…………………………..    54 
Şekil  4.5.    Destek Vektör Makineleri Modeli Hata Matrisi..……………………….    55 
Şekil  4.6      Destek Vektör Makineleri AİK Eğrisi…...………………………………    55 
Şekil  4.7.    Sınıflandırma ve Regresyon Ağacı Modeli Hata Matrisi.....…………....    56 
Şekil  4.8.     Sınıflandırma ve Regresyon Ağacı AİK Eğrisi….………………………     57 
Şekil  4.9.    Rastgele Orman Modeli Hata Matrisi...…………………………………    58 
Şekil  4.10.  Rastgele Orman AİK Eğrisi…...……………………………………..…..    58 
Şekil  4.11.   Gradyan Arttırma Makineleri Modeli Hata Matrisi...…………………...     59 
Şekil  4.12.   Gradyan Arttırma Makineleri Modeli AİK Eğrisi………………………     60 
Şekil  4.13.  Yapay Sinir Ağları Modeli Hata Matrisi………………………………..    61 
Şekil  4.14.  Yapay Sinir Ağları Modeli AİK Eğrisi….……………………………....    61 
Şekil  4.15.  Aşırı Gradyan Arttırma Makineleri Hata Matrisi…………………….....    62 
Şekil  4.16.  Aşırı Gradyan Attırma Makineleri  Modeli AİK Eğrisi…..……………...    63 
 
  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
vii 
 
ÇİZELGELER DİZİNİ 
 
 
Sayfa 
Çizelge 2.1. Hata Matrisi.….…………………………...…………………………          7 
Çizelge 2.2. Sınıflandırma ve Regresyon Ağacı Parametreleri....…………………          10 
Çizelge 2.3. Rastgele Orman Algoritması Parametreleri.…………………………          12 
Çizelge 2.4. Gradyan Artırma Ağaçları Algoritması Parametreleri …..….……….          13 
Çizelge 2.5. Aşırı Gradyan Artırma Ağaçları Algoritması Parametreleri…..……..          14 
Çizelge 2.6. Lojistik Regresyon Algoritması Parametreleri…......….…………….          16 
Çizelge 2.7. Destek Vektör Makineleri Algoritması Parametreleri….……………          19 
Çizelge 2.8. Yapay Sinir Ağları Algoritması Parametreleri………….……………          23 
Çizelge 2.9. k-En Yakın Komşu Algoritması Parametreleri...…………………..           27 
Çizelge 2.10. Çalışan Kaybı ile İlgili Çalışmalar.………...………………………..          30 
Çizelge 3.1. Veri Seti Özeti..…………………………...…………………….......          38 
Çizelge 3.2. Lojistik Regresyon Modeli Parametreleri..……………………….....           44 
Çizelge 3.3. k-En Yakın Komşu Sınıflandırma Modeli En İyi Komşuluk Parametresi      44 
Çizelge 3.4. k-En Yakın Komşu Modeli Parametreleri...………………………...           45 
Çizelge 3.5. Destek Vektör Makineleri Modeli Parametreleri..……...…………..            45 
Çizelge 3.6. Destek Vektör Makineleri Modeli Uygun Parametre Değeri Seçimi           45 
Çizelge 3.7. Sınıflandırma ve Regresyon Ağacı Modeli Parametreleri…..………...        47 
Çizelge 3.8. Rastgele Orman Modeli En İyi Parametreleri....………………………         48 
Çizelge 3.9. Gradyan Artırma Makineleri Modeli En İyi Parametreleri....................          48 
Çizelge 3.10. Yapay Sinir Ağları Modeli Parametreleri....…………………….......          49 
Çizelge 3.11. Aşırı Gradyan Artırma Makineleri Modeli En İyi Parametreleri.......         50 
Çizelge 4.1. Lojistik Regresyon Sınıflandırma Modeli Sonuçları...……………....        51 
Çizelge 4.2. k-En Yakın Komşu Sınıflandırma Modeli Sonuçları..….…………...         53 
Çizelge 4.3. Destek Vektör Makineleri Sınıflandırma Modeli Sonuçları......……..         54 
Çizelge 4.4. Sınıflandırma ve Regresyon Ağacı Sınıflandırma Modeli Sonuçları.          56 
Çizelge 4.5. Rastgele Orman Sınıflandırma Modeli Sonuçları..………………….           57 
Çizelge 4.6. Gradyan Artırma Makineleri Sınıflandırma Sonuçları.……………..          59 
Çizelge 4.7. Yapay Sinir Ağları Sınıflandırma Modeli Sonuçları.…………….....          60 
Çizelge 4.8. Aşırı Gradyan Arttırma Sınıflandırma Modeli Sonuçları..………….          62 
Çizelge 4.9. Kullanılan Tüm Modellerin Karşılaştırılması……………………......         63 
 
 
 
 
 
 
 
 
 
 
  
 
 
viii 
 
1. GİRİŞ 
 
Günümüzde işletmelerin en büyük problemlerinden biri yetiştirdikleri çalışanları 
kaybetmeleridir. Çalışan kayıplarının şirketlere birden fazla maliyeti olmaktadır. 
Kaybedilen çalışanın yerine aynı becerilere sahip yeni bir çalışan arama eforu işe alım 
ekiplerine düşmektedir. Daha sonra bulunan yeni çalışana işin aktarılması ile bir zaman 
kaybı oluşmaktadır. Eğer şirkete özgü işleyen bir yapı varsa bu yapı özelinde bir eğitim 
verilmesi gerekebilir, bu da başka bir maliyeti oluşturur. Tüm bunlara ek olarak hali 
hazırda yürütülen projelerin bu gibi çalışan kaybı durumlarında termin tarihine yetişmesi 
için çalışanların yedeklenmesi de ayrıca iş gücü ve zaman kaybıdır. Tüm bu iş gücü, 
eğitim ve zaman kaybı maliyetleri bu konunun sürekli takip edilmesini gerektirmektedir. 
Bu nedenle şirketler çalışan kayıplarını ve maliyetleri öngörerek azaltmak ve önlem 
almak için çeşitli tahmin yöntemleri kullanmaktadır. Birçok tahmin yöntemi 
bulunmaktadır ancak günümüzde tahmin problemleri en çok makine öğrenmesi 
yöntemleri ile çözülmektedir.  
 
Makine öğrenmesi yöntemleri ile tahminleme yapılırken kullanılacak yöntem verinin 
özelliklerine göre belirlenir. Özellikle çalışan veya müşteri kaybı problemlerinde veri 
setinin büyük çoğunluğu kategorik veriden oluştuğu için genellikle sınıflandırma yöntemi 
ile tahmin çalışması yapılmaktadır. 
 
Bu çalışmada ise telekomünikasyon sektöründeki çalışan kaybını tahmin etmek için 
kullanılan makine öğrenmesi modelleri kıyaslanarak en iyi modelin önerilmesi 
amaçlanmaktadır. 
 
Çalışmanın ikinci bölümünde literatür araştırması yapılmıştır. Ayrıca çalışma 
kapsamında kullanılan sınıflandırma modelleri açıklanmıştır. Üçüncü bölümünde 
çalışmanın yapıldığı ortam, kullanılan veri seti ve yöntemlerin parametreleri detaylı 
açıklanmıştır. Dördüncü bölümde uygulanan model sonuçlarının incelenmesi ve tüm 
modellerin karşılaştırılması yapılmıştır. Beşinci bölümde ise en iyi sınıflandırma modeli 
belirlenerek gelecekteki çalışmalar için öneride bulunulmuştur. 
 
1 
 
2. KURAMSAL TEMELLER ve KAYNAK ARAŞTIRMASI 
 
Bu bölümde tez çalışmasında uygulanması amaçlanan modellerin daha önceki 
çalışmalarda ne şekilde kullanıldığını öğrenmek ve hangi makine öğrenmesi modelinin 
hangi amaçlarla kullanıldığını anlamak amacıyla kuramsal temeller ve kaynak 
araştırmalarından bahsedilmektedir. 
 
2.1. Makine Öğrenmesi 
 
Makine öğrenmesi ifadesi ilk defa 1950 senesinde Turing tarafından makinelerin insanlar 
gibi düşünebilme özelliğinin mümkün olup olmadığının araştırılması ile ortaya çıkmıştır 
(Turing, 1950). Bu fikrin sorgulanması ile makinelere farklı yetkinlikler kazandırılarak 
uygulama kapsamları büyütülmüştür. Aynı zaman diliminde geliştirilen yapay sinir ağları 
temelli ilk bilgisayar Stokastik Sinirsel Analog Güçlendirme Hesaplayıcısı ve IBM’de 
geliştirilen satranç oyunu makine öğrenmesi çalışmalarının ilk örneklerindendir 
(McCarthy ve Feigenbaum, 1990; Crevier, 1993). Makine öğrenmesinin keşfi ve 1950 
sonrasında yapay zeka ve derin öğrenme kavramları da ortaya atılarak makine öğrenmesi 
modelleri desteklenmiştir.  
 
1990 yılında ise kendi kendini organize eden haritalar yöntemi ileri sürülmüştür 
(Kohonen, 1990). Özellikle 1990 yılı ve sonrasında insanların daha kolay ulaşılabildiği 
teknoloji ile birlikte analiz edilmeyi bekleyen çok fazla veri toplanabilmiştir. Büyük 
boyutlu verilerin toplanması ve sorunsuz saklanabilmesi ise ilerleyen yıllarda verilerin 
anlamlı sonuçlar üretilmek için kullanılması ihtiyacını oluşturmuştur. Veri madenciliği 
ile analiz edilerek işlenen verilerle anlamlı sonuçlar elde edilmiştir. Üretilen makine 
öğrenmesi algoritmalarıyla da makinelerin öğrenebileceği bilgiler belirli amaçlara 
yönelik hizmet vermesi için makineler tarafından kodlanmıştır. E-posta da spam filtre 
özelliği gibi temel seviye uygulamalarda kullanılan makine öğrenmesi modelleri 
günümüzde çok farklı alanlarda kullanılmaktadır. Örneğin; sağlık alanında önceki 
hastaların şikâyetlerine bakılarak yeni hastaların hastalıklarının tahmini, birliktelik 
analizi ile alışveriş merkezlerinde birbiri ile alakasız ama birlikte en çok satılan ürünlerin 
yakın konumlandırılması, akıllı saat ya da çeşitli cihazlarla nabız kontrolünün yapılması, 
adım sayılarının analiz edilerek hareket oranına göre egzersiz önerilmesi gibi örnekler 
2 
 
verilebilir. İnsansız araba kullanımı ise en iyi makine öğrenmesi uygulama 
alanlarındandır. Yapay zeka sistemi ile entegre edilen arabalarda anlık verilerin anlık 
analizi ile insansız hareket kabiliyeti kazanması sağlanmıştır (Tekin vd., 2018). 
Modelleme iki aşamadan oluşmaktadır. İlk aşamada modeli eğitmek için optimizasyon 
probleminin çözüme kavuşması gerekir. Verinin saklanabilirliği ve en az sürede analiz 
edilebilirliği değerlendirildiğinde optimum algoritmanın seçilmesi büyük önem 
taşımaktadır. İkinci aşamada model eğitildikten sonra elde edilen sonuçların anlamlı 
olması beklenmektedir. Bazı çalışmalarda sonucun anlamlı oluşundan daha çok veri 
işleme süresi ve verinin boyutu daha önemlidir (Alpaydin ve Bach, 2014). 
 
Veriler eğitim ve test verisi olarak ikiye ayrılır. Özetle makine öğrenmesi modelleri 
eğitim verisini algoritma ile kullanarak karar verir ve üretilen matematiksel model ile 
analiz amacında belirlenen konuya yönelik alınacak kararlara destek olur. Üretilen model 
ile çıkarımlar sağlanır ve ilgili kişilere raporlanır (Bishop, 2006). 
 
2.2. Makine Öğrenmesi Çeşitleri 
 
Makine öğrenmesi, günümüzde çok popüler olan otomotiv, eğlence, fen, tıp ve pazarlama 
gibi çoğu alanda kullanılan, yapay zekânın bir alt dalıdır. Makine öğrenmesi genellikle 
tahmine dayalı analitik veya tahmine yönelik modelleme olarak da tanımlanır. Temel 
olarak, otomatik öğrenme ve geliştirme ilkesine dayanır (Yang,2019). 
 
Makine öğrenmesi, y değişkenlerini kabul edilebilir bir aralıkta öngörmek için eğitim 
verilerini sınıflandıran algoritmalar kullanır. Bu algoritmalar modele yeni veri kümeleri 
iletilirken, performansı en iyilemek ve zaman içinde model zekâsı geliştirmek için 
operasyon sürecini öğrenir ve optimize ederler (Chen ve Jeng, 2011).  
 
Büyük boyutlu karışık değişken ve veri tiplerinden oluşan bir veri setinin içerisinden 
anlamlı bir veri çıkarma sürecine veri madenciliği denilmektedir. Veri madenciliğinin 
bulunması en çok makine öğrenmesinin gelişimine fayda sağlamıştır. Makine öğrenmesi 
keşfinden bu zamana kadar teknikler sürekli iyileşmeye devam etmektedir. İyileştirilen 
3 
 
bu teknikler sayesinde farklı yöntemlerle bilime katkı sağlanmıştır. Faydalı olan bu 
yöntemler şu şekilde sıralanabilir (Şenol vd., 2020): 
 
• Gözetimli Öğrenme  
• Gözetimsiz Öğrenme  
• Takviyeli Öğrenme  
• Yarı Gözetimli Öğrenme 
 
Makine öğrenmesi çeşitleri Şekil 2.1’de gösterilmektedir. Çeşitlerin hangi veri setlerine 
özel kullanılabileceği de şekilde detaylı biçimde belirtilmiştir. 
Makine 
Öğrenmesi 
Çeşitleri
Gözetimli Gözetimsiz Yarı Gözetimli Takviyeli 
Öğrenme Öğrenme Öğrenme Öğrenme
Hedef Değişkeni Hedef Değişkeni Birleşik Veriden 
Kesikli Veri Sürekli Veri Etiketsiz Veri Seti Öğrenme Pozitif(Ödül) Negatif(Ceza)
Sınıflandırma Regresyon Kümeleme İlişkilendirme Sınıflandırma Kümeleme
 
Şekil 2.1. Makine öğrenmesi çeşitleri şeması (Sarker, 2021) 
 
2.2.1. Gözetimli Öğrenme 
 
Gözetimli öğrenme yaklaşımı temel olarak öğrenmedeki denetimden gelir. Yani 
kullanılan veri seti ile eğitilen modelin veri setindeki bağımlı değişken şeklinde ifade 
edilen etiket verisi ile modelin denetlenmesi ve doğruluğunun test edilmesi söz 
konusudur. Örneğin, evlerin renklerinin daha önce ev rengi bağımlı değişkeni ile ifade 
edilen bir etiket verisi ile modelin eğitilip sınıflandırılarak belirlenmesi gözetimli 
öğrenmeye örnek verilebilir (Blum ve Mitchell, 1998). Gözetimli öğrenme yöntemleri iki 
gruba ayrılır: 
 
• Sınıflandırma Yöntemi  
• Regresyon Yöntemi  
 
4 
 
2.2.2. Gözetimsiz Öğrenme 
 
Gözetimsiz öğrenme yaklaşımı eğitim verisi sınıf etiketli olmadığı için öğrenme sürecini 
gözetmez. Bu yaklaşımda veri içindeki sınıfların bulunması için kümeleme 
uygulanabilmektedir. Örneğin, denetlenmeyen bir öğrenme metodu eğitim verisi olarak 
el ile yazılan rakam ifadelerinin görüntüsünü alıp 0’dan 10’a kadar oluşturulan rakam 
kümeleri olduğunu kabul eder ve her bir rakamı 10 kümeden birine atadığında bu atama 
işleminin doğruluğunu denetlemez. Çünkü herhangi bir etiketli değişken veri kümesinde 
bulunmamaktadır (Chapelle vd., 2006). Gözetimsiz öğrenme yöntemleri iki gruba ayrılır: 
 
• Kümeleme  
• Boyut Azaltma, İlişkilendirme  
 
2.2.3. Yarı Gözetimli Öğrenme 
 
Bu yaklaşımda kullanılan eğitim verilerinin büyük bir kısmını gözetimsiz öğrenme 
yönteminde olduğu gibi etiketlenmemiş girdi öznitelikleri oluşturmaktadır. Buna rağmen 
veri kümesinde az miktarda bağımlı değişken değeri ile kaydedilmiş veri de 
bulunmaktadır. Etiket verisi bulunan bağımlı değişken değerlerine ulaşmanın maliyetli 
ve zor olduğu yerlerde bu yöntem kullanılır (Mohri ve Medina, 2012). Yarı gözetimli 
öğrenme yöntemleri üç gruba ayrılır: 
 
• Sınıflandırma Yöntemi  
• Regresyon Yöntemi  
• Sıralama Yöntemi 
 
2.2.4. Takviyeli Öğrenme  
 
Takviyeli öğrenme, gözetimli öğrenme ve gözetimsiz öğrenmenin dışında kalan üç ana 
makine öğrenmesi yöntemlerinden biridir. Takviyeli öğrenme, etiketli giriş ve çıkış verisi 
çiftlerinin olmasına ihtiyaç duyulmamasından dolayı gözetimli öğrenmeden farklıdır. 
Gözetimli öğrenmeye kıyasla keşfedilmemiş bölgelerin araştırılması ile mevcut girdi 
bilgisinin kullanımı arasında bir denge oluşturmayı amaçlamaktadır. Takviyeli öğrenme, 
5 
 
robot kontrolü, telekomünikasyon, asansör sırası, tavla ve satranç gibi çeşitli problem 
alanlarına uygulanabilir. Uygulama yöntemleri aşağıdaki gibi ikiye ayrılır: 
 
• Sınıflandırma Yöntemi  
• Kontrol  
 
2.3. Makine Öğrenmesi Model Metrikleri 
 
Literatür araştırması yapıldığında birçok makine öğrenmesi algoritması bulunmaktadır. 
Bu algoritmalardan bazıları; yapay sinir ağları (YSA), k-EYK, DVM, KA, LR analizi ve 
gradyan artırma ağacı (GAA) algoritmasıdır. Bu algoritmalardan bir kısmı kümeleme ve 
sınıflandırma yaparken bir kısmı bağımlı değişkeni tahmin etmek için kullanılmaktadır. 
Makine öğrenmesi modelleri parametre ve hiper düzlemler ile kurulur. 
 
2.3.1. Hiper Parametre 
 
Öğrenim modelleri kurulurken kullanılan parametreler, modelin öğrenim süresindeki 
verilerden çıkarılabilen ve modeli tasarlayan tarafından önceden öngörülebilen 
tanımlanabilen olmak üzere iki gruba ayrılır. Bunlar model parametresi ve hiper 
parametrelerdir. Model parametreleri şeklinde ifade edilen parametreler genellikle veri 
kümesinden tahmin elde edebilen veya öğrenebilen parametrelerdir. Bu parametrelerde 
modeli tasarlayan kişinin değiştirme yapması beklenmez. Öğrenilebilen modelin bir 
kısmı olarak kaydedilir. YSA modelindeki sabitler, DVM destekleyici vektörleri, DR 
veya LR modellerindeki sabitler ve benzeri parametreler model parametrelerine örnek 
gösterilebilir. Model parametrelerinden farklı olarak hiper parametreler, veri kümesinden 
öngörülemez ve modeli tasarlayan kişinin değişikliği gerekebilir (Tanyıldızı ve Demirtaş, 
2019).  
 
2.3.2. Hiper Düzlem 
 
Bazı makine öğrenmesi algoritmalarında amaç n ölçekli bir uzayda verinin noktalarını 
belirgin bir şekilde ifade eden bir düzlem bulmaktır. Bu düzleme hiper düzlem denir. İki 
veri sınıfını ayırmak için kullanılabilecek birden fazla mümkün hiper düzlem vardır. Bu 
6 
 
düzlemler arasından marjı maksimum olan, yani her iki sınıfın veri noktaları arasında 
maksimum mesafeye sahip bir düzlem bulmak amaçlanmaktadır (Kumaş, 2021). 
 
2.3.3.Parametre Optimizasyonu 
 
Birçok hiper parametrenin alabileceği değer aralığı sonsuz veya çok geniştir. Ancak daha 
önce benzer problemlerden edinilen tecrübelere dayanarak da hiper parametrelerin 
alabileceği değerler için makul bir aralık belirlemek mümkündür. Bu aralıkta bazı ana 
noktalar belirlenir ve bir hiper parametre için bir değer listesi oluşturulur. Belirlenen 
aralıktaki değerlerin kombinasyonlarını hiper parametrelere atayarak modeli eğitip 
sonuçlarını değerlendiren bir metot kullanılır. Bu metoda grid arama metodu denir. Grid 
arama metodu en iyi sonucu veren kombinasyonu bulur. Bu metodun optimizasyon için 
tercih edilmesinin en önemli sebeplerinden biri, paralel işlemler koşturarak zamandan 
tasarruf sağlamasıdır (Keleş vd., 2020). 
 
2.3.4. Sınıflandırma Modelleri Performans Metrikleri 
 
Bu çalışmada da probleme uygun olarak bazı sınıflandırma yöntemleri kullanılmaktadır. 
Bu yöntemlerin ölçümlenebilmesi için çeşitli parametreler vardır. Bazı durumlarda pozitif 
sınıfta yer alan bir örnek, tahminde de pozitif olarak sınıflandırılabilir. Bu durum Doğru 
Pozitif (DP) ayrılma olarak adlandırılır. Diğer taraftan, pozitif sınıfta olan bir örnek 
negatif sınıfa aitmiş gibi tahmin edilmiş olabilir. Bu durum Yanlış Negatif (YN) ayrılma 
olarak adlandırılır. YN ayrılma aslında 2. tip hatadır. Negatif sınıfta yer alan bir örnek 
negatif sınıfta sınıflandırılırsa Doğru Negatif (DN) ayrılma olarak adlandırılırken yine 
negatif sınıfta yer alan bir örnek pozitif sınıfa ait gibi tahmin edilirse Yanlış Pozitif (YP) 
ayrılma olarak isimlendirilir. YP ayrılma 1. tip hataya işaret eder. Sınıflandırıcı için DP 
ve YP iki önemli değerlendirme ölçütüdür (Doğan vd., 2021).Çizelge 2.1, bu ifadelerle 
oluşturulan hata matrisini gösterir. 
 
Çizelge 2.1. Hata Matrisi  
 
Gerçek Sınıf 
 Pozitif(Pasif) Negatif(Aktif) 
Pozitif(Pasif) DP YP 
Tahmin  
edilen sınıf Negatif(Aktif) YN DN 
7 
 
DPO (Doğru Pasif Oranı): Gerçek pasiflerin pasif olarak sınıflandırılanlara oranını verir 
ve denklem 2.1’de görüldüğü gibi hesaplanır. 
 
𝐷𝐷𝐷𝐷
                                                              𝐷𝐷𝐷𝐷𝐷𝐷 =                                                        (2.1) 
𝐷𝐷𝐷𝐷 + 𝑌𝑌𝑁𝑁
 
YPO (Yanlış Pasif Oranı): Gerçek aktiflerin pasif olarak sınıflandırılanlara oranını verir 
ve denklem 2.2’de görüldüğü gibi hesaplanır. 
 
𝑌𝑌𝐷𝐷
                                                                 𝑌𝑌𝐷𝐷𝐷𝐷 =                                                      (2.2) 
𝑌𝑌𝐷𝐷 + 𝐷𝐷𝑁𝑁
 
DNO (Doğru Aktif Oranı): Gerçek aktiflerin aktif olarak sınıflandırılanlara oranını verir 
ve denklem 2.3’de görüldüğü gibi hesaplanır. 
 
𝐷𝐷𝑁𝑁
                                                                𝐷𝐷𝑁𝑁𝐷𝐷 =                                                     (2.3) 
𝐷𝐷𝑁𝑁 + 𝑌𝑌𝐷𝐷
 
YNO (Yanlış Aktif Oranı): Gerçek pasiflerin aktif olarak sınıflandırılanlara oranını verir 
ve denklem 2.4’de görüldüğü gibi hesaplanır. 
 
𝑌𝑌𝑁𝑁
                                                             𝑌𝑌𝑁𝑁𝐷𝐷 =                                                         (2.4) 
𝑌𝑌𝑁𝑁 + 𝐷𝐷𝐷𝐷
 
Duyarlılık ve Kesinlik: Gerçek pozitif oranı olarak adlandırılan duyarlılık ve gerçek 
negatif oranı olarak adlandırılan özgüllük oranı sınıflandırıcının pozitif ve negatif sınıfları 
nasıl ayırdığı hakkında önemli bilgiler sunar. Duyarlılık denklem 2.5’de, kesinlik 
denklem 2.6’da görüldüğü gibi hesaplanır. 
 
𝐷𝐷𝐷𝐷
                                                             𝐾𝐾𝐾𝐾𝑠𝑠𝑖𝑖𝐾𝐾𝐾𝐾𝑖𝑖𝑘𝑘 =                                                  (2.5) 
𝐷𝐷𝐷𝐷 + 𝑌𝑌𝐷𝐷
 
𝐷𝐷𝐷𝐷
                                                         𝐷𝐷𝐷𝐷𝑦𝑦𝑎𝑎𝐷𝐷𝐾𝐾𝐷𝐷𝐾𝐾𝐷𝐷𝑘𝑘 =                                                 (2.6) 
𝐷𝐷𝐷𝐷 + 𝑌𝑌𝑁𝑁
 
8 
 
𝒇𝒇𝟏𝟏 Ölçütü: Duyarlılık ve kesinliğin harmonik ortalamasıdır. F ölçütü denklem 2.7’de 
görüldüğü gibi hesaplanır. 
 
2(𝐾𝐾𝐾𝐾𝑠𝑠𝑖𝑖𝐾𝐾𝐾𝐾𝑖𝑖𝑘𝑘 ∗ 𝐷𝐷𝐷𝐷𝑦𝑦𝑎𝑎𝐷𝐷𝐾𝐾𝐷𝐷𝐾𝐾𝐷𝐷𝑘𝑘)
                                                 𝐹𝐹 =                                            (2.7) 
𝐾𝐾𝐾𝐾𝑠𝑠𝑖𝑖𝐾𝐾𝐾𝐾𝑖𝑖𝑘𝑘 + 𝐷𝐷𝐷𝐷𝑦𝑦𝑎𝑎𝐷𝐷𝐾𝐾𝐷𝐷𝐾𝐾𝐷𝐷𝑘𝑘
 
Eğri Altında Kalan Alan (EAKA): Bir sınıflandırma modelinin tanımsal tatmin 
ediciliğini kabul edebilmek için kullanılan kolay bir metot, performans ölçütünün 
ifadesidir (Obuchowski vd., 2004). En yaygın kullanılan ölçüm ise, alıcı işlem 
karakteristiği (AİK) eğrisinin altında kalan alandır (Obuchowski, 2005). EAKA ne kadar 
büyük ise istenilen sınıfın tahmin edilmesinde modelin performansı o kadar istenilen 
şekilde olur. EAKA’ nın mümkün değerleri 0,5’ten 1’e kadar değişim gösterir (Grove, 
2006). Bu bir modelin ayırt etme kabiliyetini anlatmanın çok etkili bir yoludur. Ayırt etme 
yeteneğine sahip bir model, AİK eğrisinin sol üst bölgeye eğimli olması modelin başarılı 
olduğunu gösterir. 
 
Doğruluk Değeri: Hata matrisinde belirtilen ifadelerin kullanılmasıyla sınıflandırıcıların 
doğruluk değeri denklem 2.8’de görüldüğü gibi hesaplanır (Ecemiş vd., 2019). 
 
(𝐷𝐷𝐷𝐷 + 𝐷𝐷𝑁𝑁)
                           𝐷𝐷𝐷𝐷ğ𝐷𝐷𝐷𝐷𝐾𝐾𝐷𝐷𝑘𝑘 =                                    (2.8) 
(𝐷𝐷𝐷𝐷 +  𝑌𝑌𝐷𝐷 + 𝐷𝐷𝑁𝑁 + 𝑌𝑌𝑁𝑁)
 
Çapraz Doğrulama Skoru (ÇDS): Farklı kombinasyonlarla model eğitilerek çalıştırılır 
ve en yüksek doğruluk değerinin bulunması amaçlanır. Genellikle doğruluk değeri ile 
benzer sonuçlar elde edilir. 
 
2.4. Sınıflandırma Yöntemleri 
 
Bu kısımda sık kullanılan sınıflandırma yöntemleri detaylı bir şekilde anlatılmıştır. 
 
 
 
 
 
9 
 
2.4.1. Sınıflandırma ve Regresyon Ağacı Algoritması 
 
SRA algoritması Morgan ve Sonquist’in Otomatik Ekileşim Algılama (OEA) isimli karar 
ağaçları modellerinin devamiyeti niteliğinde Breiman ve arkadaşları tarafından 1984 
senesinde önerilmiştir (Breiman vd., 1984). 
 
Breiman ve arkadaşları 1984 yılında, SRA yönteminin en popüler makine öğrenmesi 
yöntemlerinden biri olan parametrik olmayan bir regresyon tekniği olduğunu belirtmiştir. 
SRA algoritması, sözde bir karar ağacı oluşturmak için geçmiş verileri kullanan bir 
sınıflandırma yöntemidir. Hem nümerik hem de kategorik veri türlerini, bağımsız ve 
bağımlı değişken olarak kabul edebilen SRA algoritması, sınıflandırma ve regresyon 
problemlerinde bir çözüm olarak kullanılabilir. Aykırı değerlere karşı sağlamlık bu 
algoritmanın bir avantajıdır. Genellikle bölme algoritması, ayrı düğümlerdeki aykırı 
değerleri izole eder (Breiman vd., 1984). 
 
SRA algoritmasını kullanan sınıflandırma ağacı, öğrenme örneğinin daha küçük parçalara 
bölünmesini gerçekleştiren bölme kuralına göre oluşturulmuştur. Maksimum homojenlik 
için her verinin iki parçaya bölünmesi gerekir. İlk hangi öznitelikten bölünebileceği ve 
bölünme değeri bölünme kriteri değeri incelenerek hesaplanır. Bölünme kriterlerinden 
biri olarak gini ölçütü değeri veri kümesindeki değişkenlerin oranı olarak tanımlanabilir. 
İki varlığın gini ölçütü değeri aynı çıkarsa çıktı dağılımları aynı demektir (Adak ve 
Yurtay, 2013). 
 
SRA algoritmasının parametreleri, varsayılan değerleri ve parametrelerin tanımları 
Çizelge 2.2’de yer almaktadır. 
 
Çizelge 2.2. Sınıflandırma ve regresyon ağacı parametreleri (Özkan,2012) 
 
Sınıflandırma ve Regresyon Ağacı 
Parametreler Varsayılan Değerler Tanım 
Bir bölünmenin kalitesini ölçme 
Bölünme Kriteri(criterion) gini fonksiyonudur. 
Her düğümde bölünmeyi seçmek için 
Bölücü(splitter) best kullanılan stratejidir. En iyi bölmeyi 
seçmek için "best" yapılır. 
10 
 
Çizelge 2.2. Sınıflandırma ve regresyon ağacı parametreleri (devam) 
 
Sınıflandırma ve Regresyon Ağacı 
Parametreler Varsayılan Değerler Tanım 
Ağacın maksimum derinliğini ifade eder. 
Hiçbiri ise, tüm yapraklar saf olana veya 
Maksimum Hiçbiri tüm yapraklar minimum örnek sayısından Derinlik(max_depth) daha azını içerene kadar düğümler 
genişletilir. 
Minimum Örnek Bir düğümün bölünmeden önce sahip 
Sayısı(min_samples_split) 2 olması gereken minimum örnek sayısıdır. 
Minimum Yaprak Örnek Bir yaprağın sahip olması gereken 
Sayısı(min_samples_leaf) 1 minimum örnek sayısıdır. 
Minimum yaprak örnek sayısıdır. Ağırlıklı 
Minimum Ağırlıklı Örnek örneklerin, toplam örnekler içerisindeki 
Sayısı 0.0 oranıdır. Ağacın dengeli gitmesi için 
(min_weight_fraction_leaf) kullanılır. 
Maksimum Örnek Maksimum örnek sayısını ifade eder. 
Sayısı(max_features) Hiçbiri 
Hem ağaç oluştururken kullanılan 
örneklerin  
önyüklemesinin rasgeleliğini hem de her 
Rastgele Durum(random_state) Hiçbiri düğümde en iyi bölünmeyi ararken dikkate 
alınacak özelliklerin örneklemesini kontrol 
eder. 
En iyi şekilde bir ağacın büyümesidir. 
Maksimum Yaprak Hiçbiri Varsayılan olarak ayarlandığında sınırsız Sayısı(max_leaf_nodes) sayıda yaprak ve düğüm anlamına gelir. 
Düğüm safsızlığı parametresi ağaçların öz 
nitelikleri(verileri) nasıl böldüğünü gösterir. 
İlk olarak ana düğümün düğüm safsızlığını 
Minimum Düğüm Safsızlığı 0.0 (node impurity) hesaplanır, devamında (min_impurity_decrease) bölme için belirli bir özellik kullanılacaksa 
alt düğümlerin düğüm safsızlıkları 
hesaplanır.  
Formdaki sınıflarla ilişkili ağırlıkları 
Sınıf Ağırlıkları (class_weight) Hiçbiri belirlemeye yarayan parametredir. 
Minimum maliyet-karmaşıklık budaması 
için kullanılan karmaşıklık parametresidir. 
Karmaşıklık (ccp_alpha) 0.0 Varsayılan olaraka ayarlandığında, budama 
yapılmaz.  
 
2.4.2. Rastgele Orman Algoritması 
 
RO, birden fazla karar ağacı oluşturan bir topluluk öğrenme yöntemidir. RO, daha güçlü 
bir öğrenici oluşturmak için bir grup zayıf öğreniciyi birleştirerek temel karar ağacı yapısı 
11 
 
üzerinde bir iyileştirme sağlayan bir topluluk yaklaşımı alır (Breiman, 2001). Topluluk 
yöntemleri, algoritma performansını iyileştirmek için böl ve yönet yaklaşımını kullanır. 
Topluluk öğrenme metodlarında birden fazla sınıflayıcının oluşturduğu sonuçlar 
birleşerek, topluluğu temsilen tek bir karara varılır (Breiman, 2001).  
  
Algoritma, ön yükleme yaklaşımı üzerinden gözlemlerin bir alt kümesini uygulayan 
rastgele ikili ağaçlar çalıştırır, ilk veri kümesinin eğitim verilerinin rastgele bir seçimi 
seçilir ve modeli oluşturmak için uygulanır, dahil edilmeyen veriler torba dışı olarak 
tanımlanır (Catani vd., 2013). RO, bir değişkenin önemini, o değişken için torba dışı 
verilere izin verildiğinde, diğerleri sabit bırakılırken tahmin hatasının ne kadar arttığına 
bakarak tahmin eder (Liaw ve Wiener 2002; Catani vd., 2013).  
 
Uygulama kısmında, model çalıştırılmadan önce farklı hiper parametrelerin tanımlanması 
gerekir. Kodlama ile parametre en iyilemeu yapılır. Uygun parametre aralıkları seçilerek, 
bu aralıklarda en iyi sonuç üreten parametre değerleri iteratif olarak belirlenebilmektedir. 
 
RO algoritmasının parametreleri, varsayılan değerleri ve parametrelerin tanımları Çizelge 
2.3’de yer almaktadır. 
 
Çizelge 2.3. Rastgele orman algoritması parametreleri (Probst vd., 2019) 
 
Rastgele Orman 
Parametreler Varsayılan Değerler Tanım 
Tahmin Sayısı Ormandaki ağaç sayısıdır. 
(n_estimators) 100 
Bölünme Kriteri(criterion) Gini Bir bölünmenin kalitesini ölçme fonksiyonudur. 
Ağacın maksimum derinliğini ifade eder. 
Maksimum Derinlik Hiçbiri ise, tüm yapraklar saf olana veya tüm 
(max_depth) Hiçbiri yapraklar minimum örnek sayısından daha azını 
içerene kadar düğümler genişletilir. 
Minimum Örnek Sayısı Bir düğümün bölünmeden önce sahip olması 
(min_samples_split) 2 gereken minimum örnek sayısıdır. 
Minimum Yaprak Örnek Bir yaprağın sahip olması gereken minimum örnek 
Sayısı(min_samples_leaf) 1 sayısıdır. 
Minimum Ağırlıklı Örnek Minimum yaprak örnek sayısıdır. Ağırlıklı 
Sayısı(min_weight_fraction 0.0 örneklerin, toplam örnekler içerisindeki oranıdır. 
_leaf) Ağacın dengeli gitmesi için kullanılır. 
12 
 
Çizelge 2.3. Rastgele orman algoritması parametreleri (devam) 
 
Rastgele Orman 
Parametreler Varsayılan Değerler Tanım 
Tahmin Sayısı Ormandaki ağaç sayısıdır. 
(n_estimators) 100 
Bölünme Kriteri(criterion) Gini Bir bölünmenin kalitesini ölçme fonksiyonudur. 
Ağacın maksimum derinliğini ifade eder. 
Maksimum Derinlik Hiçbiri ise, tüm yapraklar saf olana veya tüm yapraklar 
(max_depth) Hiçbiri minimum örnek sayısından daha azını içerene kadar 
düğümler genişletilir. 
Minimum Örnek Sayısı Bir düğümün bölünmeden önce sahip olması gereken 
(min_samples_split) 2 minimum örnek sayısıdır. 
Minimum Yaprak Örnek Bir yaprağın sahip olması gereken minimum örnek 
Sayısı(min_samples_leaf) 1 sayısıdır. 
Minimum Ağırlıklı Örnek Minimum yaprak örnek sayısıdır. Ağırlıklı örneklerin, 
Sayısı(min_weight_fraction_lea 0.0 toplam örnekler içerisindeki oranıdır. Ağacın dengeli 
f) gitmesi için kullanılır. 
Maksimum Öznitelik sqrt Maksimum öznitelik sayısını ifade eder. Sayısı(max_features) 
Maksimum Yaprak Sayısı Maksimum yaprak sayısını ifade eder. 
(max_leaf_nodes) Hiçbiri 
Minimum Düğüm Düğüm safsızlığı parametresi ağaçların öz 
Safsızlığı(min_impurity_decrea 0.0 nitelikleri(verileri) nasıl böldüğünü gösterir.  
se) 
Ağaç oluştururken önyükleme örneklerinin kullanılıp 
Ön Yükleme(bootstrap) Doğru kullanılmadığını ifade eder.  
Tahmin hatalarını hesaplamak için kullanılan bir 
oob Skoru(oob_score) Yanlış parametredir. 
İş Sayısı(n_jobs) Hiçbiri Paralel olarak çalıştırılacak iş sayısını ifade eder. 
Hem ağaç oluştururken kullanılan örneklerin  
önyüklemesinin rasgeleliğini hem de her düğümde en iyi 
Rastgele Durum(random_state) Hiçbiri bölünmeyi ararken dikkate alınacak özelliklerin 
örneklemesini kontrol eder. 
Eğitim ve tahmin etme sırasında ayrıntı düzeyini kontrol 
Ayrıntı Düzeyi(verbose) 0 eder. 
Yeni Orman Parametresi Eski çözümleri unutup yepyeni bir ormana sığdırması 
(warm_start) Yanlış için ayarlanır. 
Formdaki sınıflarla ilişkili ağırlıkları belirleyemeye  
Sınıf Ağırlıkları (class_weight) Hiçbiri yarayan parametredir. 
Minimum Maliyet-Karmaşıklık Budaması için kullanılan 
Karmaşıklık (ccp_alpha) 0.0 karmaşıklık parametresidir. Varsayılan olarak 
ayarlandığında, budama yapılmaz.  
Maksimum Örneklem Herhangi bir ağaca orijinal veri kümesinin hangi 
Sayısı(max_samples) Hiçbiri bölümünün verileceğini belirler. 
13 
 
2.4.3. Gradyan Artırma Ağaçları Algoritması 
 
GAA, 2001 senesinde Friedman tarafından regresyon ve sınıflama amacıyla önerilen bir 
toplu makine öğrenme yöntemidir (Friedman, 2001). RO ve GAA arasındaki fark, 
gradyan destekli ağaç modellerinin sırayla öğrenmesidir. GAA’da, bir dizi ağaç 
oluşturulur ve her ağaç serideki önceki ağacın hatalarını düzeltmeye çalışır. Ağaçlar, daha 
fazla iyileştirme elde edilemeyene kadar sırayla eklenir.  
 
GAA algoritmaları başlangıç olarak makine öğrenme topluluğu tarafından sınıflama 
ihtiyacı için tanıtılmıştır (Freund ve Schapire, 1996). Temel düşünce, gelişmiş öngörü 
doğruluğuna sahip “güçlü bir öğrenen” bulmak için “zayıf öğrenenler” adı verilen birkaç 
basit modeli tekrarlı olarak birleştirmektir. Friedman, GAA algoritmasını kayıp 
fonksiyonları olgusu ile birleştirerek artırmaya ilişkin istatistiksel bir yön vermiştir 
(Friedman, 2000). GAA, kayıp işlevini en aza indiren ek bir yöntem bulmayı amaçlayan 
nümerik bir en iyileme algoritması olarak görülebilir. Bu şekilde, GAA algoritması 
tekrarlı olarak her adımda kayıp işlevini en iyi düşüren yeni bir nihai ağacı yani “zayıf 
öğrenenler” ekler. Daha net olarak, regresyonda algoritmik modeller bir öngörme ile 
başlar,bu genellikle kayıp işlevini en üst seviyede azaltan bir nihai ağacıdır. 
 
GAA algoritmasının parametreleri, varsayılan değerleri ve parametrelerin tanımları 
Çizelge 2.4’de yer almaktadır. 
 
Çizelge 2.4.Gradyan artırma ağaçları algoritması parametreleri 
 
Gradyan Artırma Ağaçları 
Parametreler Varsayılan Değerler Tanım 
Tahmin Edici  İlk tahminleri hesaplamak için kullanılan bir 
Nesne (init) Hiçbiri nesnedir. 
En iyilenecek kayıp fonksiyonudur. 
Kayıp(loss) deviance Varsayılan olasılıklı çıktılarla sınıflama için 
sapmayı ifade eder. 
Öğrenme oranıyla her  
Öğrenme Oranı (learning_rate)  0.1 sınıflandırıcının katkısını azaltma oranıdır. 
Tahmin Sayısı(n_estimators) 100 Ormandaki ağaç sayısıdır. 
Bireysel temel öğrenicileri tahmin etmek 
Örneklerin Oranı(subsample)  1.0 için kullanılacak örneklerin oranıdır. 
14 
 
Çizelge 2.4.Gradyan artırma ağaçları algoritması parametreleri (devam) 
 
Gradyan Artırma Ağaçları 
Parametreler Varsayılan Değerler Tanım 
Bölünmenin kalitesini ölçme fonksiyonunu 
Bölünme Kriteri(criterion) friedman_mse belirler. 
Minimum Örnek Bir düğümün bölünmeden önce sahip 
Sayısı(min_samples_split) 2 olması gereken minimum örnek sayısıdır. 
Minimum Yaprak Örnek Bir yaprağın sahip olması gereken 
Sayısı(min_samples_leaf) 1 minimum örnek sayısıdır. 
Yaprak Düğüm Minimum Bir yaprak düğümde olması gereken tüm 
Örnek Sayısı 0.0 giriş örneklerinin toplam ağırlıkların 
(min_weight_fraction_leaf) minimum ağırlıklı bölümüdür. 
Ağacın maksimum derinliğini ifade eder. 
Hiçbiri ise, tüm yapraklar saf olana veya 
Maksimum Hiçbiri tüm yapraklar minimum örnek sayısından Derinlik(max_depth) daha azını içerene kadar düğümler 
genişletilir. 
Düğüm safsızlığı parametresi ağaçların öz 
nitelikleri(verileri) nasıl böldüğünü gösterir. 
İlk olarak ana düğümün düğüm safsızlığını 
Minimum Düğüm Safsızlığı (node impurity) hesaplanır, devamında 
(min_impurity_decrease) 0.0 bölme için belirli bir özellik kullanılacaksa 
alt düğümlerin düğüm safsızlıkları 
hesaplanır.  
Hem ağaç oluştururken kullanılan 
örneklerin önyüklemesinin rasgeleliğini 
Rastgele Durum(random_state) Hiçbiri hem de her düğümde en iyi bölünmeyi 
ararken dikkate alınacak özelliklerin 
örneklemesini kontrol eder. 
Maksimum Öznitelik Maksimum öznitelik sayısını ifade eder. 
Sayısı(max_features) Hiçbiri 
Eğitim ve tahmin etme sırasında ayrıntı 
Ayrıntı Düzeyi(verbose) 0 düzeyini kontrol eder. 
En iyi şekilde bir ağacın büyümesidir. 
Maksimum Yaprak Hiçbiri Varsayılan olarak ayarlandığında sınırsız Sayısı(max_leaf_nodes) sayıda yaprak ve düğüm anlamına gelir. 
Yeni Orman Eski çözümleri unutup yepyeni bir ormana 
Parametresi(warm_start) False sığdırması için ayarlanır. 
Doğrulama Erken durdurma için doğrulama seti olarak 
Seti(validation_fraction)  0.1 ayırılacak eğitim verilerinin oranıdır. 
Doğrulama puanı iyileşmediğinde eğitimi 
sonlandırmak için erken durdurmanın 
Erken Durdurma kullanılıp kullanılmayacağına karar vermek 
Kriteri(n_iter_no_change) Hiçbiri için kullanılır. Erken durdurmayı devre dışı 
bırakmak için varsayılan olarak 
ayarlanmıştır. 
Durdurma Kriteri Durdurma kriterleri için toleransı ifade 
Toleransı(tol) 0.0001 eder. 
Minimum maliyet-karmaşıklık budaması 
için kullanılan karmaşıklık parametresidir. 
Karmaşıklık(ccp_alpha)  0.0  Varsayılan olaraka ayarlandığında, budama 
yapılmaz.  
15 
 
2.4.4. Aşırı Gradyan Artırma Algoritması 
 
AGA, 2014 yılında Chen tarafından tanıtılan ağaç tabanlı bir yöntemdir (Chen ve 
Guestrin, 2016). Gradyan destekli ağaçların ölçeklenebilir ve doğru bir uygulamasıdır, 
özellikle performans hesaplama hızını ve modelini en iyileme etmek için tasarlanmıştır. 
GA ile karşılaştırıldığında, AGA fazla uydurma etkisini azaltmak için bir düzenleme 
terimi kullanır, daha iyi bir öngörü ve çok daha hızlı hesaplama çalıştırma süreleri sağlar 
(Ajit, 2016). AGA algoritmasının çeşitli parametreleri ve varsayılan değerleri vardır. 
AGA algoritmasının parametreleri, varsayılan değerleri ve parametrelerin tanımları 
Çizelge 2.5’da yer almaktadır. 
 
Çizelge 2.5. Aşırı gradyan artırma ağaçları algoritması parametreleri (Wade, 2020) 
 
Aşırı Gradyan Artırma Algoritması 
Parametreler Varsayılan Değerler Tanım 
Öğrenme Oranı Öğrenme oranıyla her  
(learning_rate)  0.1 sınıflandırıcının katkısını azaltma oranıdır. 
Bireysel temel öğrenicileri tahmin etmek için 
Örneklerin Oranı(subsample)  1.0 kullanılacak örneklerin oranıdır. 
Tahmin Sayısı(n_estimators) 100 Ormandaki ağaç sayısıdır. 
Ağaç inşa ederken örneklem kullanılıp 
Örneklem Kullanılma kullanılmadığıdır. Varsayılan ise, tüm veri 
Durumu(bootstrap) Yanlış kümesi her ağacı oluşturmak için kullanılır. 
Minimum maliyet-karmaşıklık budaması için 
kullanılan karmaşıklık parametresidir. 
Karmaşıklık(ccp_alpha)  0.0  Varsayılan olarak ayarlandığında, budama 
yapılmaz.  
Ağırlıkları giriş verilerindeki sınıf 
Sınıf Ağırlıkları(class_weight) Hiçbiri frekanslarıyla ters orantılı otomatik olarak 
ayarlamak için y değerlerini kullanır. 
Bir bölünmenin kalitesini ölçme 
Bölünme Kriteri(criterion) Gini fonksiyonudur. 
Ağacın maksimum derinliğini ifade eder. 
Hiçbiri ise, tüm yapraklar saf olana veya tüm 
Maksimum Derinlik(max_depth) Hiçbiri yapraklar minimum örnek sayısından daha 
azını içerene kadar düğümler genişletilir. 
Maksimum Öznitelik Hiçbiri Maksimum öznitelik sayısını ifade eder. Sayısı(max_features) 
En iyi şekilde bir ağacın büyümesidir. 
Maksimum Yaprak Hiçbiri Varsayılan olarak ayarlandığında sınırsız Sayısı(max_leaf_nodes) sayıda yaprak ve düğüm anlamına gelir. 
Maksimum Örneklem Herhangi bir ağaca orijinal veri kümesinin 
Sayısı(max_samples) Hiçbiri hangi bölümünün verileceğini belirler. 
16 
 
 
Çizelge 2.5. Aşırı gradyan artırma ağaçları algoritması parametreleri (devam) 
 
Aşırı Gradyan Artırma Algoritması 
Parametreler Varsayılan Değerler Tanım 
Düğüm safsızlığı parametresi ağaçların öz 
nitelikleri(verileri) nasıl böldüğünü gösterir. 
Minimum Düğüm Safsızlığı İlk olarak ana düğümün düğüm safsızlığını 
(min_impurity_decrease) 0.0 (node impurity) hesaplanır, devamında bölme 
için belirli bir özellik kullanılacaksa alt 
düğümlerin düğüm safsızlıkları hesaplanır.  
İkili koordinat alçalma için verileri 
Rastgele Durum(random_state) Hiçbiri karıştırmak için sözde rastgele sayı üretimini 
kontrol eder. 
İlerleme mesajlarının standart çıkışa 
Ayrıntı Düzeyi(verbose) Yanlış  yazdırılıp yazdırılmayacağını ifade eder. 
True olarak ayarlandığında, başlatma olarak 
sığdırmak için önceki çağrının çözümünü 
Yeni Orman Parametresi(warm_start) Yanlış  yeniden kullanın, aksi takdirde önceki 
çözümü silmeniz yeterlidir. Sözlüğe bakın. 
Paralel olarak çalıştırılacak iş sayısını ifade 
İş Sayısı(n_jobs) Hiçbiri eder. 
Tahmin hatalarını hesaplamak için kullanılan 
oob Skoru(oob_score) Yanlış bir parametredir. 
Ağaç büyümesinde erken durma eşiğini ifade 
Minimum Bölünme eder. Bir düğüm saflığı eşiğin üzerindeyse 
Safsızlığı(min_impurity_split) Hiçbiri bölünür, aksi takdirde bir yapraktır. 
Bir yaprak düğümünde olması gereken tüm 
Minimum Örneklem Yaprak 1 giriş örneklerinin toplam ağırlıklarının Sayısı(min_samples_leaf) minimum ağırlıklı bölümüdür. 
Minimum Örneklem Bölünme İç düğümü bölmek için gereken en az örnek 
Sayısı(min_samples_split) 2 sayısıdır. 
 
2.4.5. Lojistik Regresyon Algoritması 
 
LR, orijinal olarak 1958'de Cox tarafından önerildiği gibi doğrusal diskriminantları içeren 
geleneksel bir sınıflandırma algoritmasıdır (Cox,1958). Birincil çıktı, verilen girdi 
noktasının belirli bir sınıfa ait olma olasılığıdır. Olasılığın girdi alanını iki bölgeye ayıran 
doğrusal bir sınır değerine dayanarak model oluşturur. LR’nin uygulanması kolaydır, bu 
da onu en yaygın kullanılan sınıflandırıcılardan biri yapar (Raschka, 2015). 
 
LR, bir kategori olasılığının bir dizi açıklayıcı değişkenle ilişkili olduğu istatistiksel bir 
modelleme tekniğidir. Lojistik model aşağıdaki denklem 2.9 ve denklem 2.10’da 
görüldüğü gibi tanımlanır (Dong vd., 2016). 
17 
 
𝑛𝑛
                                                              𝑧𝑧 = 𝑎𝑎0 + �𝑎𝑎𝑖𝑖𝑥𝑥𝑖𝑖                                                      (2.9) 
𝑖𝑖=1
 
𝐾𝐾𝑍𝑍
                                                              𝐷𝐷(𝑧𝑧) =  𝑍𝑍                                                          (2.10) 1 + 𝐾𝐾
 
Burada kullanılan 𝑧𝑧 sembolü katsayılarla ağırlıklandırılmış bağımsız değişkenlerden 
oluşan bir regresyon denkleminin çıktısına eşittir. 𝑥𝑥𝑖𝑖 ifadesi ise i. bağımsız değişkeni ifade 
eder. 𝑎𝑎𝑖𝑖 ise i. bağımsız değişkenin regresyon katsayısını ifade etmektedir. P(z) olasılığı 
bir girdi noktasının bir sınıfa ait olma olasılığıdır. LR modelinin parametreleri, analitik 
olarak elde edilemediğinden, iteratif bir yöntem olan maksimum olabilirlik tekniği ile 
tahmin edilmektedir (Albayrak, 2009). Tahmin edilen mantıksal bağımlı değişkenin 
değerleri ile gözlenen değerler arasındaki olabilirliğin maksimum yapılması 
amaçlanmaktadır (Özdemir vd., 2011).  
 
LR yönteminde bağımsız değişkenlerin kategorik değişkenlerle açıklanırken 0 ya da 1 
olma olasılığı hesaplanmaktadır. Bağımlı değişken öncelikle mantıksal değişkene 
(logaritmalar alınarak) dönüştürülür. Böylece şıklardan herhangi bir tanesinin olma 
oranının tahmini yapılmaktadır. Üstünlük Oranı değerlerinin doğal logaritması 
alındığında aşağıdaki denklem 2.11’e ulaşılmaktadır (Sharma ve Arikawa, 1996):  
 
𝐷𝐷(𝑧𝑧)
                             ln = 𝑎𝑎0 +  𝑎𝑎1 𝑥𝑥1 + 𝑎𝑎2𝑥𝑥2 + ⋯+ 𝑎𝑎𝑛𝑛𝑥𝑥𝑛𝑛                                 (2.11) 1 − 𝐷𝐷(𝑧𝑧)
 
Denklem 2.11, olasılık değeri olarak denklem 2.12’deki gibi ifade edilebilir. 
 
1
                                𝐷𝐷(𝑧𝑧) = −(𝑠𝑠 +𝑠𝑠 𝑥𝑥 +𝑠𝑠 𝑥𝑥 +⋯+𝑠𝑠 𝑥𝑥 )                                              (2.12) 1 +  𝐾𝐾 0 1 1 2 2 𝑛𝑛 𝑛𝑛
 
LR algoritmasının çeşitli parametreleri ve varsayılan değerleri vardır. LR’da en önemli 
iki parametre çözücü fonksiyon ve rastgele durumdur. Hiper parametrelere kullanıcılar 
istediği değeri verebilir (Ilhan ve Güdar, 2021). 
 
18 
 
LR algoritmasının parametreleri, varsayılan değerleri ve parametrelerin tanımları Çizelge 
2.6’de yer almaktadır. 
 
Çizelge 2.6. Lojistik regresyon algoritması parametreleri 
 
Lojistik Regresyon 
Parametreler Varsayılan Değerler Tanım 
Kullanılacak ceza normunu tanımlar. None 
Ceza (penalty) l2 seçilmesi durumunda hiç bir ceza normunu 
uygulamaz. 
İkili veya birincil formülasyonu ifade eder. 
İkili  Yanlış İkili formülasyon sadece liblinear çözücü ile Formülasyon(dual) l2 cezası için uygulanmaktadır. 
Durdurma Kriteri 
Toleransı(tol) 0.0001 
Durdurma kriterleri için toleransı ifade eder. 
Düzenlilik Parametresi(C) 1.0 Düzenlilik parametresidir. 
Kullanılacak ceza normunu tanımlar. None 
Ceza (penalty) l2 seçilmesi durumunda hiç bir ceza normunu 
uygulamaz. 
İkili veya birincil formülasyonu ifade eder. 
İkili  Yanlış İkili formülasyon sadece liblinear çözücü ile Formülasyon(dual) l2 cezası için uygulanmaktadır. 
Durdurma Kriteri 
Toleransı(tol) 0.0001 
Durdurma kriterleri için toleransı ifade eder. 
Düzenlilik Parametresi(C) 1.0 Düzenlilik parametresidir. 
Bu parametre, karar fonksiyonuna bir sabitin 
Eğitim Karar Fonksiyonu (önyargı veya kesme) eklenmesi gerektiğini 
(fit_intercept)  Doğru belirtir. 
Yalnızca çözücü fonksiyonu liblinear 
Durdurma Ölçütü 1 olduğunda ve doğru olarak ayarlandığında (intercept_scaling) kullanışlıdır.  
Sınıf Ağırlıkları Formdaki sınıflarla ilişkili ağırlıkları 
(class_weight) Hiçbiri belirleyemeye yarayan parametredir. 
Hem ağaç oluştururken kullanılan örneklerin  
önyüklemesinin rastgeleliğini hem de her 
Rastgele Durum Hiçbiri düğümde en iyi bölünmeyi ararken dikkate (random_state) alınacak özelliklerin örneklemesini kontrol 
eder. 
Optimizasyon probleminde kullanılacak 
Çözücü(solver) lbfgs algoritma fonksiyonudur. 
Maksimum İterasyon 100 Maksimum iterasyon sayısını ifade eder. Sayısı(max_iter) 
Birden çok grup içerisinde sınıflandırmayı 
Çoklu Sınıf (multi_class)  Oto sağlayan parametredir. 
Eğitim ve tahmin etme sırasında ayrıntı 
Ayrıntı Düzeyi (verbose) 0 düzeyini kontrol eder. Varsayılan ayrıntılı 
çıktının etkinleştirilmemesidir. 
Yeni Orman Parametresi Eski çözümleri unutup yepyeni bir ormana 
(warm_start) Yanlış sığdırması için kullanılır. 
19 
 
Çizelge 2.6. Lojistik regresyon algoritması parametreleri(devam) 
 
Lojistik Regresyon 
Parametreler Varsayılan Değerler Tanım 
Paralel olarak çalıştırılacak iş sayısını ifade 
İş Sayısı (n_jobs) Hiçbiri eder. 
Bir ceza fonksiyonu karıştırma parametresidir. 
Karıştırma Parametresi Hiçbiri Yalnızca ceza fonksiyonu elasticnet (l1_ratio) olduğunda kullanılır.  
 
2.4.6. Destek Vektör Makinesi Algoritması 
 
DVM ilk olarak 1995 yılında Vapnik ve Cortes tarafından önerilmiştir (Cortes ve Vapnik, 
1995). DVM iki boyutlu uzayda doğrusal, üç boyutlu uzayda düzlemsel ve çok boyutlu 
uzayda hiper düzlem şeklindeki ayırma mekanizmaları ile veriyi iki ya da daha çok sınıfa 
ayırma yeteneğine sahiptir. Veri grubunun bir doğru ile ayrılabildiği durum, grubun 
doğrusal olarak ayrılabildiği durumdur. Burada Vapnik tarafından ileri sürülen bir fikir, 
iki sınıfı ayıran nesnenin bir doğru yerine bir koridor olması ve bu koridorun genişliğinin 
bazı veri vektörleri tarafından belirlenerek mümkün olan en büyük genişlikte olmasıdır 
(Cortes ve Vapnik, 1995). DVM yaygın olarak iki olası kategoriden bir makine öğrenimi 
ile yeni veri örnekleri atamak için ayırt edici bir sınıflandırıcı olarak kullanılır. n boyutlu 
verileri iki sınıfa ayıran bir hiper düzlem tanımlanır, hiper düzlem burada destek 
vektörleri olarak adlandırılan en yakın veri noktalarına olan geometrik mesafeyi 
maksimize eder (Raschka, 2015). DVM algoritmasının amacı, n boyutlu bir uzayda (n 
öznitelik sayısı) veri noktalarını belirgin bir şekilde sınıflandıran bir hiper düzlem 
bulmaktır. İki veri noktası sınıfını ayırmak için seçilebilecek birçok olası hiper düzlem 
vardır. Hiper düzlem tarafından tanımlanan iki sınıf arasındaki mesafe miktarı marj olarak 
ifade edilmektedir (Doğan vd., 2021). Amaç maksimum marjı olan, yani her iki sınıfın 
veri noktaları arasında maksimum mesafeye sahip bir düzlem bulmaktır (Kumaş, 2021).  
 
Şekil 2.2’de görüleceği üzere tanımlanan veri kümesini doğrusal olarak ayıran birçok 
hiper düzlem vardır. Bu kanonik hiper düzlemler doğrusal ayrılabilir formda olan veriyi, 
aynı sınıfa ait veri noktalarını hiper düzlemin tamamen aynı tarafında bırakacak şekilde 
ayırmaktadır. Amaç en iyi genelleme yeteneğine sahip tek bir optimal ayırıcı hiper 
düzlemi bulmaktır.  
20 
 
Şekil 2.2 (A)’da veriyi bütünüyle ayırabilen nispeten dar marja dolayısıyla daha yüksek 
beklenen riske sahip bir hiper düzlem; Şekil 2.2 (B)’de ise daha geniş ve daha kabul 
edilebilir bir hiper düzlem olduğu görülmektedir (Kecman, 2001). 
 
 
Şekil 2.2. Ayrıcı hiper düzlemler A) Minimum marja sahip olan ayırıcı hiper düzlem  
B) Maksimum marja sahip olan ayırıcı hiper düzlem (Kecman, 2001) 
 
DVM, doğrusal sınıflandırma gerçekleştirmeye ek olarak, doğrusal olmayan 
sınıflandırmayı verimli bir şekilde gerçekleştirmek için bir çekirdek yöntemi fikrini de 
sunar. Öz nitelikleri, verilerin ayrılabilir olduğu yeni bir öz nitelik alanına aktaran bir 
özellik eşleme metodolojisidir (Muller vd., 2001).  
 
Şekil 2.3 (A)’da gösterildiği üzere iki sınıflı verileri birbirinden ayırabilen birçok hiper-
düzlem çizilebilir. Ancak DVM’nin amacı kendisine en yakın noktalar arasındaki 
uzaklığı maksimuma çıkaran hiper düzlemi bulabilmektir. Şekil 2.3 (B)’de görüldüğü 
üzere sınırı maksimuma çıkararak en uygun ayrımı yapan hiper düzleme optimum hiper 
düzlem ve sınır genişliğini sınırlandıran noktalar ise destek vektörleri olarak adlandırılır. 
Doğrusal olarak ayrılabilen iki sınıflı bir sınıflandırma probleminde DVM’ nin eğitimi 
için k sayıda örnekten oluşan eğitim verisinin { 𝑥𝑥𝑖𝑖,𝑦𝑦𝑖𝑖 }, i=1,.....,k olduğu kabul edilirse, 
optimum hiper düzleme ait eşitsizlik denklemleri denklem 2.13 ve denklem 2.14’deki 
gibi olur. 
 
                                                 𝑤𝑤. 𝑥𝑥𝑖𝑖 + 𝑏𝑏 ≥  +1 ℎ𝐾𝐾𝐷𝐷 𝑦𝑦 = +1 𝑖𝑖ç𝑖𝑖𝐾𝐾                                     (2.13) 
 
                                                 𝑤𝑤. 𝑥𝑥𝑖𝑖 + 𝑏𝑏 ≤  +1 ℎ𝐾𝐾𝐷𝐷 𝑦𝑦 = −1 𝑖𝑖ç𝑖𝑖𝐾𝐾                                     (2.14) 
21 
 
Burada x ∈ RN olup N-boyutlu bir uzayı, y ∈ {-1, +1} ise sınıf etiketlerini, w ağırlık 
vektörünü (hiper-düzlemin normali) ve b eşik değerini göstermektedir (Osuna vd., 1997). 
Optimum hiper-düzlemin belirlenebilmesi için bu düzleme paralel ve sınırlarını 
oluşturacak iki hiper düzlemin belirlenmesi gerekir. Bu hiper düzlemleri oluşturan 
noktalar destek vektörleri olarak adlandırılır ve bu düzlemler denklem 2.15’de görüldüğü 
gibi ifade edilirler (Kavzoğlu ve Çölkesen, 2010). 
 
Şekil 2.4’de doğrusal ayrılabilen veri setlerinde optimum hiper düzlem görülmektedir. 
 
                                                                    𝑤𝑤. 𝑥𝑥𝑖𝑖 + 𝑏𝑏 = ±1                                                   (2.15) 
 
 
 
Şekil 2.3. Hiper düzlemler A) İki sınıflı bir problem için hiper düzlemler B)Optimum 
hiper düzlem ve destek vektörleri( Kavzoğlu ve Çölkesen, 2010). 
 
 
 
Şekil 2.4. Doğrusal olarak ayrılabilen veri setleri için hiper düzlemin belirlenmesi 
(Kavzoğlu ve Çölkesen, 2010). 
 
22 
 
Optimum hiper düzlemin sınırının maksimuma çıkarılması için ‖𝑤𝑤‖ ifadesinin minimum 
hale getirilmesi gerekir. Bu durumda en uygun hiper düzlemin belirlenmesi denklem 2.16 
sınırlı optimizasyon probleminin çözümünü gerektirir. 
 
1
                                                                    𝑚𝑚𝑖𝑖𝐾𝐾 � ‖𝑤𝑤‖2�                                                       (2.16) 
2
 
Buna bağlı sınırlamalar ise; 
 
                                    𝑦𝑦𝑖𝑖(𝑤𝑤. 𝑥𝑥𝑖𝑖 + 𝑏𝑏) − 1 ≥ 0 𝑣𝑣𝐾𝐾 𝑦𝑦𝑖𝑖  ∈  {1,−1}                                        (2.17) 
 
şeklinde denklem 2.17’de ifade edilir (Cortes ve Vapnik, 1995). Bu optimizasyon 
problemi lagrange denklemleri kullanılarak çözülebilir. Bu işlem sonrasında; 
 
𝑘𝑘 𝑘𝑘
1
                          𝐿𝐿(𝑤𝑤, 𝑏𝑏,𝛼𝛼) = ‖𝑤𝑤‖2 −�𝛼𝛼𝑖𝑖𝑦𝑦𝑖𝑖(𝑤𝑤. 𝑥𝑥𝑖𝑖 + 𝑏𝑏) + �𝛼𝛼𝑖𝑖                           (2.18) 2
𝑖𝑖=1 𝑖𝑖=1
 
denklem 2.18 eşitliği elde edilir. Sonuç olarak, doğrusal olarak ayrılabilen iki sınıflı bir 
problem için karar fonksiyonu denklem 2.19’daki şekilde yazılabilir (Osuna vd., 1997). 
 
𝑘𝑘
                                          𝑓𝑓(𝑥𝑥) = 𝑠𝑠𝑖𝑖𝑠𝑠𝐾𝐾 ��𝜆𝜆𝑖𝑖𝑦𝑦𝑖𝑖(𝑥𝑥. 𝑥𝑥𝑖𝑖) + 𝑏𝑏�                                          (2.19) 
İ=1
 
DVM algoritmasının çeşitli parametreleri ve varsayılan değerleri vardır. DVM 
algoritmasının parametreleri, varsayılan değerleri ve parametrelerin tanımları Çizelge 
2.7’de yer almaktadır. 
 
Çizelge 2.7. Destek vektör makineleri algoritması parametreleri 
 
Destek Vektör Makineleri 
Parametreler Varsayılan Değerler Tanım 
Düzenlilik Parametresi(C) 1.0 Düzenlilik parametresidir. 
Çekirdek Fonksiyonu(Kernel) rbf Algoritmada kullanılacak çekirdek türünü belirtir. 
Çekirdek Fonksiyonun  3 Polinom çekirdek fonksiyonunun Derecesi(degree) derecesidir. 
Çekirdek Fonksiyon  
Katsayısı(gamma)  Ölçek 
"rbf", "poli" ve "sigmoid" için çekirdek 
katsayısıdır. 
23 
 
Çizelge 2.7. Destek vektör makineleri algoritması parametreleri (devam) 
 
Destek Vektör Makineleri 
Parametreler Varsayılan Değerler Tanım 
Çekirdek fonksiyonundaki 
Bağımsız terim(coef0)  0.0 bağımsız terimdir. Yalnızca 'poli' ve 'sigmoid' çekirdek 
fonksiyonunda anlamlıdır. 
Küçülen buluşsal yöntemin  
Küçülen Buluşsal Yöntem  Doğru kullanılıp kullanılmayacağını Kullanımı(shrinking)  ifade eder. 
Olasılık tahminlerinin 
etkinleştirilip 
Olasılık(probability) Yanlış etkinleştirilmeyeceğini ifade 
eder. 
Optimizasyon için tolerans 
Durdurma Kriteri Toleransı(tol) 0.0001 değerini ifade eder. 
Çekirdek önbelleğinin boyutunu 
Ön Bellek Boyutu(cache_size)  200 ifade eder. 
Sınıf ağırlığını ifade eder. 
Sınıf Ağırlığı(class_weight) Hiçbiri Varsayılan olduğunda tüm 
sınıfların bir ağırlığı eşittir. 
İlerleme mesajlarının standart 
Ayrıntı Düzeyi(verbose) Yanlış  çıkışa yazdırılıp 
yazdırılmayacağını ifade eder. 
Maksimum yineleme sayısını 
Maksimum İterasyon(max_iter) 200 ifade eder. 
Karar Ağacı Bu parametre karar 
Şekli(decision_function_shape) Ovr fonksiyonunun şekli ile ilgilidir. 
Bu parametre bağların koparılıp 
Bağ Durumu (break_ties) Yanlış koparılmayacağını ifade eder. 
İkili koordinat alçalma için 
verileri karıştırmak için sözde 
Rastgele Durum(random_state) Hiçbiri rastgele sayı üretimini kontrol 
eder. 
 
2.4.7. Yapay Sinir Ağları Algoritması 
 
YSA insanın sinir sisteminden ilham alınarak çalışma prensibine benzetilmesiyle 
oluşturulmuştur. İlk YSA modeli 1943’de, McCulloch ve Pitts tarafından önerilmiştir. 
McCulloch ve Pitts, insan beyninin hesaplama yeteneğinden esinlenerek, basit bir sinir 
ağı modeli geliştirmiştir (Öztemel, 2003). Yapay sinir ağlarının bilinen ağ yapısı girdi 
katmanı, gizli katman ve çıktı katmanı olmak üzere üç kısımdan meydana gelmektedir. 
Girdi katmanı, tahmin özniteliklerinin değerlerini alır çıktı katmanı ise tahmin edilen 
24 
 
sonucu elde etmeye yarar. Gizli ve çıktı katmanlarında her bir nöron, nörona verilen bütün 
verilerin ağırlıklandırılmış toplam değerini alır. Sonrasında, çıktı sonucunun 
hesaplanmasının mümkün olması ancak aktivasyon fonksiyonunun uygulanmasıyla 
sağlanır (Silva vd., 2017). 
 
Çok katmanlı algılayıcı olarak da bilinen sinir ağları, insan sinir sisteminin 
operasyonlarını simüle etmek için tasarlanmıştır. Bir sinir ağının en basit biçimi, tek bir 
algılayıcıdır. Bir algılayıcı için temel öğeler, girdi değerleri, ilişkili ağırlıklar, tahmin, 
aktivasyon fonksiyonları ve hesaplanmış bir çıktıdır (Kuyucu, 2012). 
 
Bir sinir ağı, karmaşık problemlerin üstesinden gelmek için giriş ve çıkış arasında birden 
fazla katman içerebilir. Sinir ağlarının bu karmaşık yapısı, onu, yeterli gizli katman 
verildiğinde, herhangi bir normal fonksiyonu istenen herhangi bir doğruluk düzeyine göre 
modelleyebilen evrensel bir yaklaşım aracı yapar. Model, yaygın olarak derin öğrenme 
ile derinleşecek şekilde genişletilebilir (Öztemel, 2003). 
 
Donanımın hızlı gelişimi ve geri yayılım tekniklerinin sürekli araştırılması nedeniyle, 
sinir ağları şu anda makine öğreniminde en çok araştırılan konudur (Murphy, 2012). 
YSA’nın en önemli özelliği, deneyimlerden (tecrübe) yararlanarak öğrenebilmesidir. 
YSA, öğrenmenin yanı sıra bilgiler arasında ilişkiler oluşturma yeteneğine de sahiptir. 
Ayrıca veri birleştirme, kavramsallaştırma ve filtreleme için de kullanılabilir. YSA’nın 
endüstriyel uygulamalar, finans uygulamaları, askeri ve savunma uygulamaları, tıp ve 
sağlık uygulamaları, mühendislik uygulamaları, robot bilim, görüntü işleme, örüntü 
tanıma dışında iletişim sanayi, eğlence amaçlı tahmin gibi özel uygulama alanları da 
bulunmaktadır (Uğur ve Kınacı, 2006). 
 
Genelde verilen bir girdi setine karşılık çıktı değerleri verilerek belirtilen öğrenme 
kuralına göre ağırlık değerleri otomatik olarak değiştirilmektedir. Eğitim verisinin 
tamamlanmasından sonra eğitilmiş olan ağ, ağırlık değerlerinin son durumuna göre, 
verilen herhangi bir veri setinin sonucunu tahminleyebilmektedir. Günümüzde belirli 
amaçlarla ve değişik alanlarda kullanılmaya uygun birçok yapay sinir ağı modeli 
(Perceptron, Adaline, MLP, LVQ, Hopfield, Recurrent, SOM, ART ve PCA gibi) 
25 
 
geliştirilmiştir. Öğrenme çeşitlerinden gözetimli öğrenme, gözetimsiz öğrenme, takviyeli 
öğrenme ve karma stratejiler kullanılmaktadır (Uğur ve Kınacı, 2006). 
En önemli noktalardan bir tanesi gizli katmanda kaç nöron olacağına karar vermektir. 
Gizli katman nöron sayısı, öğrenme sırasında bellekte fazla bilgi barındırmak haricinde 
öğrenme işleminin daha iyi yapılmasını da sağlamaktadır. Gizili katman nöron sayısı 
bulunması için çeşitli yöntemler öne sürülmüştür. Bunlar 2n+1, 2n,n, n/2 gibi girdi 
katmanı nöron sayısına oranlı gizli katman sayılarıdır. Çelebi ve Bayraktar, yaptıkları 
çalışmalarda gizli katmandaki nöron sayısının belirlenmesinde genel bir kuralın 
bulunmadığına dikkat çekmişlerdir. Gizli katman, girdi katmanın aldığı ağırlıklandırılmış 
veriyi probleme uygun bir fonksiyonla işleyerek bir sonraki katmana iletir. Bu katmanda 
gereğinden az nöron kullanılması girdi verilerine göre daha az hassas çıktı elde 
edilmesine sebep olur. Gereğinden çok sayıda nöron kullanılması durumunda aynı ağda 
yeni tip veri gruplarının işlenmesinde zorluklar ortaya çıkar ve aşırı öğrenme olur. Gizli 
katman sayısının denklem 2.20’de görülen formül ile bulunduğu çalışmalar da mevcuttur 
(Bayru, 2007). 
 
(1 �𝑁𝑁𝑔𝑔 + 𝑁𝑁𝑐𝑐� +  �𝑁𝑁𝑑𝑑  ) 
                                                 𝑁𝑁 2𝑠𝑠 =                                             (2.20) 𝑁𝑁𝑏𝑏
 
Denklem 2.20’de ifade edilen 𝑁𝑁𝑠𝑠 gizli katmandaki nöron sayısını, 𝑁𝑁𝑔𝑔 girdi katmanındaki 
nöron sayısını, 𝑁𝑁ç çıktı katmanındaki nöron sayısını, 𝑁𝑁𝑑𝑑 gözlem sayısını, 𝑁𝑁𝑏𝑏 katman 
sayısını göstermektedir.  
 
Çalışmaların çoğunda gizli katman sayısının deneme yoluyla bulunduğu görülmektedir.  
Bir başka parametre olan momentum katsayısı ağın öğrenmesi esnasında, yerel bir 
optimum noktaya takılıp kalmaması için ağırlık değişim değerinin belirli bir oranda bir 
sonraki değişime eklenmesini sağlar. Momentum katsayısının kullanılması, ani 
sıçramaları ortadan kaldırma eğilimi gösterecektir, ancak her zaman işe yaramayabilir ve 
hatta yakınsamaya zarar verebilir. Önceden de ifade edildiği gibi, momentum katsayısı 
bir önceki parametre değişiminin belli bir oranının her iterasyonda bir sonraki parametre 
değişimine eklenmesi ile gerçekleşir (Dalkılıç, 2020). 
 
26 
 
Öğrenme katsayısı ise yani öğrenme hızı faktörü, eğitim örüntüsü ile ağın çıktı 
örüntüsünü birbirine yaklaştırmak için ağırlıkların ayarlanmasında kullanılmaktadır. 
Kullanıcı tarafından seçilen öğrenme hızı çok düşük olduğu durumlarda ağırlık değişimi 
çok yavaş olur ve dolayısıyla ağ çok yavaş öğrenmektedir. Hızın büyük olması 
durumunda ağırlıklarda da büyük miktarda değişimler olması demektir, bu durumda 
öğrenme katsayısının ağın performansını azaltıcı etkide bulunduğu gözlenmektedir 
(Dalkılıç, 2020). 
 
Hata toleransı için YSA’nın optimum sonuca ulaştıklarına ilişkin kesin bir bilgi yoktur. 
Bu nedenle YSA kullanan kişiler ağın performansını ölçerken e kadar bir hatayı kabul 
etmektedirler. Bu hataya hata toleransı adı verilmektedir. Herhangi bir hata toleransının 
altındaki noktada ağın öğrenmiş olduğu kabul edilir. Bu noktalara lokal çözümler 
denilmektedir. En iyi çözüm olmamalarına rağmen kabul edilebilir bir hata seviyesinin 
altında bir hataya sahip olduğundan kabul edilebilir çözümler olarak ele alınabilirler. 
YSA algoritmasının çeşitli parametreleri ve varsayılan değerleri vardır. 
 
YSA algoritmasının parametreleri, varsayılan değerleri ve parametrelerin tanımları 
Çizelge 2.8’da yer almaktadır. 
 
Çizelge 2.8.Yapay sinir ağları algoritması parametreler 
 
Yapay Sinir Ağları 
Parametreler Varsayılan Değerler Tanım 
En az maliyet-karışıklık budaması için kullanılan 
Gizli Katman  karışıklık parametresidir. Varsayılan olarak 
Boyutu (hidden_layer_sizes) 100 seçildiğinde, budama yapılmaz. 
Aktivasyon Fonksiyonu Gizli katman için aktivasyon fonksiyonunu ifade 
(activation) Relu eder. 
Çözücü(solver) Adam Ağırlık optimizasyonu için çözücü fonksiyonudur. 
L2 düzenleme teriminin gücüdür. L2 düzenlileştirme 
Düzenleme(alpha) 0.0001 terimi, kayba eklendiğinde numune boyutuna 
bölünür. 
Stokastik optimize ediciler için mini partilerin 
Grup Boyutu(batch_size) Auto boyutudur. 
Öğrenme oranı, bir ağın parametrelerini ne kadar 
Öğrenme Oranı(learning_rate) Constant hızlı güncellediğini tanımlar. 
27 
 
Çizelge 2.8.Yapay sinir ağları algoritması parametreler(devam) 
 
Yapay Sinir Ağları 
Parametreler Varsayılan Değerler Tanım 
Kullanılan ilk öğrenme oranıdır. Ağırlıkların 
Başlangıç Öğrenme güncellenmesinde adım boyutunu kontrol eder. 
Oranı(learning_rate_init) 0.0001 Yalnızca çözücü='sgd' veya 'adam' olduğunda 
kullanılır. 
Öğrenme Oranı Üs Ters ölçekleme öğrenme oranı için üssü ifade eder. 
Değeri(power_t) 0.5 Yalnızca çözücü='sgd' olduğunda kullanılır. 
Maksimum İterasyon(max_iter) 200 Maksimum yineleme sayısıdır. 
Her yinelemede örneklerin karıştırılıp 
Karıştırıcı(shuffle) Doğru karıştırılmayacağı. Yalnızca çözücü='sgd' veya 'adam' 
olduğunda kullanılır. 
Ağırlıklar ve önyargı başlatma için rasgele sayı 
üretimini, erken durdurma kullanılıyorsa tren testi 
Rastgele Durum(random_state) Hiçbiri bölünmesini ve çözücü='sgd' veya 'adam' olduğunda 
toplu örneklemeyi belirler.  
Durdurma Kriteri Toleransı(tol) 0.0001 Optimizasyon için toleransı ifade eder. 
İlerleme mesajlarının çıkışa yazdırılıp 
Ayrıntı Düzeyi(verbose) Yanlış yazdırılmayacağını ifade eder. 
Doğru olarak ayarlandığında, başlatma olarak 
Yeni Orman sığdırmak için önceki çağrının çözümünü yeniden 
Parametresi(warm_start) Yanlış kullanın, aksi takdirde önceki çözümü silmeniz 
yeterlidir.  
Momentum, önceki adımların bilgisi ile bir sonraki 
İtme(Momentum) 0.9 adımın yönünü bilmeye yardımcı olur. Salınımların 
önlenmesine yardımcı olur. 
Nesterov'un momentumunun kullanılıp 
Nesterovs Doğru kullanılmayacağını ifade eder. Yalnızca çözücü='sgd' İtme(nesterovs_momentum) ve momentum > 0 olduğunda kullanılır. 
Doğrulama puanı iyileşmediğinde eğitimi 
Erken Durdurma (early_stopping) Yanlış sonlandırmak için erken durdurmanın kullanılıp 
kullanılmayacağını ifade eder. 
Adam'daki ilk moment vektörünün tahminleri için 
beta_1 0.9 üstel bozulma oranıdır.[0, 1) olmalıdır. Yalnızca 
çözücü='adam' olduğunda kullanılır. 
Adam'daki ikinci moment vektörü tahminleri için 
beta_2 0.999 üstel bozulma oranıdır. [0, 1) olmalıdır. Yalnızca 
çözücü='adam' olduğunda kullanılır. 
Adam cinsinden sayısal kararlılık değeridir. Yalnızca 
Epsilon 1,00E-08 çözücü='adam' olduğunda kullanılır. 
Erken Durdurma Kriteri Erken durdurma kriteridir. Erken durdurmayı devre 
(n_iter_no_change) 10 dışı bırakmak için varsayılan olarak ayarlanmıştır. 
Doğrulama puanı iyileşmediğinde eğitimi 
Erken Durdurma (early_stopping) Yanlış sonlandırmak için erken durdurmanın kullanılıp 
kullanılmayacağını ifade eder. 
 
28 
 
Çizelge 2.8.Yapay sinir ağları algoritması parametreler(devam) 
 
Yapay Sinir Ağları 
Parametreler Varsayılan Değerler Tanım 
Maksimum Kayıp Fonksiyonu 15000 Yalnızca çözücü='lbfgs' olduğunda kullanılır. (max_fun) Maksimum kayıp işlevi çağrısı sayısını ifade eder. 
Doğrulama Seti Erken durdurma için doğrulama seti olarak ayırılacak 
(validation_fraction) 0.1 eğitim verilerinin oranıdır. 
 
2.4.8. k-En Yakın Komşu Algoritması 
 
Bu algoritma, sınıflandırma ve regresyon problemlerinde kullanılan parametrik olmayan 
bir algoritmadır. Bu algoritmanın sınıflandırma problemleri için öngörüsü, eğitim 
verilerindeki yeni örneğe en yakın olan k veri noktalarını belirlemek ve bu yeni örneği 
baskın değer ile sınıflandırmaktır. Verilerin birbirine olan mesafesini ölçmek amacıyla 
Öklid uzaklığı, Manhattan uzaklığı ve Minkowski uzaklığı gibi yöntemler kullanılır. 
Regresyon problemleri için öngörüsü, k komşularının ortalama değerini bulup yeni örnek 
değerini hesaplamaktır. k-EYK az öznitelikle iyi çalışabilir, fakat öznitelik boyutları 
arttığında sorun yaşar (Murphy 2012). Bu algoritmanın avantajlarının bir kaçı; basit ve 
veriminin yüksek olması, veri dağılımı ile ilgili çıkarım yapmaması ve verinin eğitiminin 
hızlı olmasıdır. Dezavantajları ise; sınıflandırmanın normalden fazla zaman alması, 
bilgisayarda fazlaca depolama alanı gereksinimi ve veri kümesindeki eksik değerlerin 
işlem eforunu artırmasıdır.  
 
k-EYK algoritması, örnek bazlı algoritmaların kümesindedir. k-EYK eğitme sürecini veri 
kümesinde bulundurulan eğitim kümesi ile gerçekleştirir. Eğitim kümesi en yakın 
varsayılan k tane veriyi, belirlinen uzaklık ölçütü çerçevesinde benzeşen noktalarının 
hesaplanması ile yapmaktadır (Dudani, 1976). Bu uzaklık ölçütleri Minkowski, Öklid, 
Chebyshev ve kosinüs eşitlikleri kullanarak belirlenmektedir. Literatürde ise çoğunlukla 
Öklid mesafesinin tercih edildiği görülmektedir (Bhatia, 2010). 
 
d1 ve d2 iki noktalar kümesi olmak üzere; (𝑑𝑑1 = 𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝑛𝑛 𝑣𝑣𝐾𝐾 𝑑𝑑2 =  𝑦𝑦1,𝑦𝑦2, … ,𝑦𝑦𝑛𝑛) 
 
29 
 
d1 ve d2 arasındaki mesafe denklem 2.21’de gösterildiği gibi hesaplanır (Bhatia, 2010): 
 
𝑛𝑛
                            𝑑𝑑(𝑑𝑑1,𝑑𝑑2) = 𝑑𝑑(𝑑𝑑2,𝑑𝑑1) =  ��(𝑑𝑑1𝑖𝑖 − 𝑑𝑑2 2𝑖𝑖)                                     (2.21) 
𝑖𝑖=1
 
Yeni bir veri sınıf modelleme amacıyla algoritmaya ulaştığında, öğrenmiş veri kümesi 
içerisinde bulunan k adet en yakın komşu sınıfının etiketlerine bakılır. Daha sonra 
sınıfların etiketlerinin çoğunluğuna göre yeni u veri o kümeye dahil edilir (Muja ve Lowe, 
2009). k-EYK algoritmasında performans ölçümünün dışardan girilen komşu sayısına 
duyarlılığı ve belirlenen uzaklık ölçütüne karşı hassasiyeti en temel eksikliklerindendir 
(Liu ve Zhang, 2012). 
 
Diğer bir şekilde mevcuttaki verilerin birbirleri ile olan uzaklığı kullanılarak 
sınıflandırma yapıldığı için değişkenlerin devamlı olması gerekse de kategorik 
değişkenlerin bulunduğu durumlarda mesafe hesaplanması için bazı metotlar tavsiye 
edilmektedir (Han vd., 2012). Fakat kategorik değişkenlerin çoğunlukta olduğu iş gören 
seçim modellemelerinde, bu metodun beklenen doğruluk ile sonuçlar veremeyebileceği 
de göz önünde bulundurulmalıdır. 
 
k-EYK algoritmasının çeşitli parametreleri ve varsayılan değerleri vardır. k-EYK 
algoritmasının parametreleri, varsayılan değerleri ve parametrelerin tanımları Çizelge 
2.9’da yer almaktadır. 
 
Çizelge 2.9. k-EYK algoritması parametreleri 
 
K-En Yakın Komşu  
Parametreler Varsayılan Değerler Tanım 
Komşu Sayısı(k) 5 Bir sınıflandırma yapılırken kaç adet komşuya  bakılacağını ifade eder. 
Ağırlıklar(w)  üniform Değişken ağırlıklarının nasıl dağılım gösterdiğini  tanımlaya yarayan parametredir. 
Algoritma(algorithm)  otomatik En yakın komşuları hesaplamak için kullanılan algoritmayı ifade eder. 
Yaprak Boyutu(leaf_size) 30 Ağaçta kullanılacak yaprak boyutunu ifade eder. 
30 
 
Çizelge 2.9. k-EYK algoritması parametreleri (devam) 
 
K-En Yakın Komşu  
Parametreler Varsayılan Değerler Tanım 
p  2 Uzaklık ölçüm metriği için güç parametresini ifade eder. 
Uzaklık Ölçüm   Minkowski 
Metriği(distance)  Ağaç için kullanılacak uzaklık metriğidir. 
Uzaklık Ölçüm  Hiçbiri Metrik fonksiyonu için ek bağımsız değişkenleri Parametresi ifade eder. 
İş Sayısı(n_job) Hiçbiri Komşu araması için çalıştırılacak paralel iş sayısını ifade eder. 
 
2.5. Kaynak Araştırması 
 
1990 ve sonrasında günümüzdeki oyunlar, görüntü ve sinyal işleyiciler, robotik kodlama 
gibi birçok alanda makine öğrenmesi ve yapay zekâ kullanılmaktadır (Guner vd., 2017). 
Literatürde bu alan ile ilgili birçok çalışma bulunmaktadır. 
 
Chin Yuan ve ark. (2012) Tayvan'daki teknoloji işletmelerinin hızla yetenekli çalışanları 
kaybetmeleri ile birlikte oluşan çalışan devir oranı tahmin etme ihtiyacını karşılamak 
amacıyla bir tahminleme çalışması yapmıştır. Bu nedenle kendi kendini organize eden 
harita olarak bilinen kümeleme analizi ile yapay sinir ağı modeli kurulmuştur. Ayrıca bu 
iki modelin birleşimi ile hibrit bir model de kurulmuştur. Bu üç farklı model ile çalışan 
devir oranları tahmin edilerek önlem alınması amaçlanmıştır. Sonuç olarak en iyi 
sınıflandıran modelin hibrit model olduğu bulunmuştur. 
 
Ajit (2016), küresel bir şirketin insan kaynakları verileriyle aşırı gradyan artırma (AGA) 
algoritmasını geçmişte sık kullanılan altı gözetimli sınıflandırıcıyla karşılaştırarak en iyi 
çalışan devir oranını tahmin etmeyi amaçlamıştır. AGA, lojistik regresyon (LR), naive 
bayes (NB), rastgele orman (RO), k en yakın komşu (k-EYK), doğrusal diskriminant 
analiz (DDA) ve destek vektör makineleri (DVM) ile karşılaştırılmıştır. Çalışan devrini 
tahmin etmek için AGA sınıflandırma modelinin önemli ölçüde daha yüksek doğruluğa 
ulaştığı görülmüştür. 
 
31 
 
Ribes ve ark. (2017) ise farklı veri seti örneklemleri ile müşteri kaybını en iyi tahmin eden 
müşteri kaybı tahmin modelinin bulunmasını amaçlanmıştır. NB, DDA, DVM ve RO 
modelleri farklı veri seti örneklemleri için kurulmuştur. Algoritmalar açısından ağaç 
temelli olanların en iyi performansı gösterdiği görülmüştür. Aralarında en iyi 
performansa sahip sınıflandırıcının ise RO modeli olduğu bulunmuştur. Bulunan 
sonuçlara göre müşteriyi elde tutma politikaları tasarlanmış ve test etmek için model 
çıktıları tartışılmıştır. 
 
Sisodia ve ark. (2017) yapmış olduğu çalışmada Kaggle web (www.kaggle.com) 
sitesinden elde edilen insan kaynakları (İK) veri setine müşteri kayıp oranını tahmin 
edecek bir model uygulanarak herhangi bir organizasyonda müşteri kaybını optimize 
eden noktaların bulunmasını amaçlanmıştır. Bu veri setine k-EYK, DVM, NB, RO ve 
karar ağacı (KA) modelleri uygulanmıştır. RO modeli en yüksek doğruluğu verirken 
DVM modeli en düşük doğrulukla sınıflandırmıştır. Bu problem için RO algoritması ile 
sınıflandırma yapılması tavsiye edilmiştir. 
 
Alamsyah ve Salma (2018) Endonezya’nın bir telekomünikasyon şirketinde NB, KA ve 
RO algoritmalarını kullanarak İK verilerini analiz etmiştir. Bu sınıflandırma modellerini 
karşılaştırararak en doğru tahmini yapan modeli bulmayı amaçlamışlardır. %96,6 ile 
NB,%88,7 ile KA ve %97,5 ile RO algoritma doğruluk değerlerine ulaşılmıştır. Müşteri 
kaybını en doğru tahmin eden ve en güvenilir sınıflandırma modelinin RO olduğu 
bulunmuştur. 
 
Fang ve ark. (2018) Çin’e ait bir kuruluşun müşteri kayıp oranını tahmin etmek üzere bir 
vaka çalışması yapmışlardır. Analizde müşteri yaşının ve pozisyonunun müşteri kaybına 
etkileri incelenerek kayıp oranlarının tahmin edilmesi amaçlanmıştır. Bu çalışmada 
koşullu bir yarı markov modeli kullanılmıştır. Toplam çalışan sayısının 2015 yılı 
öncesinde azaldığı ancak 2015’ten 2016 yılına doğru hızla arttığı sonucuna varılmıştır. 
Her yıl tahmin edilen sayının gerçek değerden daha yüksek olduğu görülmüştür. Çalışma 
sonucunda markov modeli çalışan yaşına göre tahminde bulunduğunda doğruluk oranı 
%86,9 olarak gerçekleşirken, pozisyona göre tahmin ettiğinde doğruluk oranı %90,5 
32 
 
olarak bulunmuştur. Bu model ile müşteri kayıp oranı tahmin edilirken pozisyona göre 
model yazılması önerilmiştir. 
 
Shah ve ark. (2020) Brezilya’da bir kurye şirketinde çalışan kuryelerin devamsızlık ve 
işten ayrılma oranlarını tahmin etmek amacı ile en iyi tahmini yapan modeli bulmak üzere 
makine öğrenmesi modelleri kurmuştur. Sığ sinir ağları (SSA), derin sinir ağları (DSA), 
KA, DVM ve RO sınıflandırma modelleri karşılaştırılmıştır. Bu modeller arasından 
%84,3 ile en yüksek doğruluğa sahip olan modelin RO olduğu bulunmuştur ve 
önerilmiştir. Önerilen model, çalışanların işe alım sırasındaki davranışlarını bilmek 
isteyen kuruluşlara faydalı bir mekanizma sağlayacak ve verimsiz veya sürekli olarak işe 
gelmeyen çalışanlara ödeme yapma maliyetini azaltabilecektir. 
 
Literatür araştırması Çizelge 2.10’de özetlenmiştir. 
 
Çizelge 2.10: Çalışan Kaybı ile ilgili Çalışmalar 
 
Çalışma İsmi, Yılı, Amaç Kullanılan Modeller Sonuç 
Yazarı 
Teknoloji Tayvan'daki teknoloji 1. K-means SOM Sonuç olarak en iyi 
profesyonelleri için devir işletmelerinin 2012 yılında hızla 2. Backward Propagation sınıflandıran modelin hibrit 
oranını tahmin etmek yetenekli çalışanları kaybetmeleri Network model olduğu bulunmuştur . 
için hibrit veri ile birlikte çalışan devir oranını 3. Hibrit model(1+2) 
madenciliği ve makine tahmin etme ihtiyacı doğmuştur. 
öğrenimi kümeleme Üç farklı model ile çalışan devir 
analizini kullanma(Chin- oranları tahmin edilerek önlem 
Yuan vd., 2012) alınması amaçlanmıştır. 
Makine Öğrenimi Küresel bir şirketin insan 1.Lojistik Regresyon(LR) Çalışan devrini  
Algoritmaları Kullanan kaynakları verileriyle aşırı 2.Naïve Bayes(NB) tahmin etmek için AGA 
Kuruluşlarda Çalışan gradyan artırma (AGA) 3.Rastgele Orman(RO) sınıflandırma modelinin . 7. 
Devir Hızının Tahmini: algoritmasının geçmişte sık 
4.K En Yakın Komşu (k- ondalığa (dahil) kadar diğer 
Aşırı Gradyan Artırma kullanılan altı gözetimli 
EYK) modellerden daha iyi ondalık 
Örneği(Ajit vd., 2016) sınıflandırıcıyla karşılaştırılarak performansa sahip olduğu 
5.Doğrusal Diskriminant 
en iyi çalışan devir oranının ölçülmüştür. 
Analiz(DDA) 
tahmin edilmesi amaçlanmıştır. 
6.Destek Vektör 
Makineleri(DVM) 
7.Aşırı Gradyan Artırma 
Makineleri(AGA) 
 
33 
 
Çizelge 2.10: Çalışan Kaybı ile ilgili Çalışmalar (devam) 
 
Çalışma İsmi, Yılı, Amaç Kullanılan Modeller Sonuç 
Yazarı 
Müşteri devrini tahmin Farklı veri seti örneklemleri ile 1.Naive Bayes (NB) Algoritmalar açısından  
etme ve elde tutma müşteri kaybını en iyi tahmin 2.Doğrusal Diskriminant ağaç temelli olanların en iyi 
politikaları tasarımı: bir eden müşteri kaybı tahmin Analiz (DDA) performansı gösterdiği 
vaka çalışması(Ribes modelinin bulunması 3.Destek Vektör görülmüştür. Aralarında en iyi 
vd., 2017) amaçlanmıştır. Makineleri (DVM) performansa sahip 
4.Rastgele Orman (RO) sınıflandırıcının ise RO modeli 
olduğu bulunmuştur. Bulunan  
sonuçlara göre müşteriyi elde 
tutma politikaları tasarlanmış 
ve test etmek için model 
çıktıları tartışılmıştır. 
Makine Öğrenimi Kaggle web sitesinden elde edilen 1.K En Yakın Komşu(k- RO modeli en yüksek 
Modellerinin insan kaynakları (İK) veri setine EYK) doğruluğu verirken DVM 
Değerlendirilmesi müşteri kayıp oranını tahmin 2.Destek Vektör modeli  
Müşteri Kaybı Tahmini edecek bir  model uygulanarak Makineleri(DVM) en düşük doğrulukla 
(Sisodia vd., 2017) herhangi bir organizasyonda 3.Naïve Bayes(NB) sınıflandırmıştır. Bu problem 
müşteri kaybını optimize eden 
4.Karar Ağacı (KA) için RO algoritması ile 
noktaların bulunması sınıflandırma yapılması tavsiye 
5.Rastgele Orman (RO) 
amaçlanmıştır. edilmiştir. 
Müşteri Kaybı Tahmin Endonezya’nın bir 1.Naïve Bayes(NB) Müşteri kaybını en doğru 
Modelinin telekomünikasyon şirketinde NB, 2.Karar Ağacı (KA) tahmin edenin ve en güvenilir 
Karşılaştırmalı Çalışması KA ve RO algoritmaları 3.Rastgele Orman (RO) sınıflandırma modelinin RO 
(Alamsyah ve Salma, kullanılarak İK verilerinin analiz olduğu bulunmuştur. 
2018) edilip sınıflandırma 
modellerinden en doğru tahmini 
yapan modelin bulunması 
amaçlanmıştır.  
Müşteri Devir Hızını Analizde müşteri yaşının ve Koşullu bir yarı Markov Çalışma sonucunda markov 
Tahmin Etme Modeli: pozisyonunun  (SMK) modeli modeli çalışan yaşına göre 
Çinli İşletmelere İlişkin müşteri kaybına etkileri tahminde bulunduğunda 
Bir Örnek Olay incelenerek kayıp oranlarının doğruluk oranı %86,9 olarak 
İncelemesi (Fang vd., tahmin edilmesi amaçlanmıştır. gerçekleşirken, pozisyona göre 
2018) tahmin ettiğinde doğruluk oranı 
%90,5 olarak bulunmuştur. Bu 
model ile müşteri kayıp oranı 
tahmin edilirken pozisyona 
göre model yazılması 
önerilmiştir. 
 
 
 
34 
 
Çizelge 2.10: Literatür Araştırmasının Özeti(devamı) 
 
Çalışma İsmi, Yılı, Amaç Kullanılan Modeller Sonuç 
Yazarı 
İşyeri Devamsızlığının Brezilya’da bir kurye şirketinde 1.Sığ Sinir Ağları(SSA) Sığ sinir ağları (SSA), derin 
Öngörülmesi için çalışan kuryelerin devamsızlık ve 2.Derin Sinir Ağları(DSA) sinir ağları (DSA), KA, DVM 
Gelişmiş Derin Sinir Ağı işten ayrılma oranlarını tahmin 3.Karar Ağacı (KA) ve RO sınıflandırma modelleri 
(Shah vd., 2020) etmek amacı ile en iyi tahmini karşılaştırılmıştır. Bu modeller 
4.Destek Vektör 
yapan modeli bulmak üzere arasından %84,3 ile en yüksek 
Makineleri(DVM) 
makine öğrenmesi modelleri doğruluğa sahip olan modelin 
5. Rastgele Orman (RO) 
kurulmuştur. RO olduğu bulunmuştur ve 
önerilmiştir. Önerilen model, 
çalışanların işe alım sırasındaki 
davranışlarını bilmek isteyen 
kuruluşlara faydalı bir 
mekanizma sağlayacak ve 
verimsiz veya sürekli olarak işe 
gelmeyen çalışanlara ödeme 
yapma maliyetini 
azaltabilecektir. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
35 
 
3. MATERYAL ve YÖNTEM 
 
Bu bölümde ayrıntılı şekilde kullanılan veri seti ve algoritmalardan bahsedilmektedir. 
 
3.1. Veri Tanımı ve Veri Ön İşleme 
 
Bu uygulamada kullanılan veri seti gerçek bir telekomünikasyon şirketi verisinin veri 
gizliliği çerçevesinde maskelenerek türetilmesi ile oluşturulmuştur. Veri setinde 
telekomünikasyon şirketinde çalışanların istihdam durumu ve demografik verileri 
mevcuttur. Çalışmanın amacında belirtildiği gibi sınıflandırma modelleri kıyaslanarak 
problem özelinde çalışan kaybını en iyi tahmin eden sınıflandırma modeli bulunması 
amaçlanmaktadır. 
 
Bu çalışmada izlenen yol haritası Şekil 3.1.’de gösterilmektedir. Bu yol haritasında bir 
veri analizi sürecinin uçtan uca tüm detayları bulunmaktadır. Veri tabanından ve farklı 
kaynaklardan elde edilen veri seti, veri ön işleme adımlarına tabi tutulmuştur. Hatalı 
veriler temizlenmiştir, mevcut değişkenlerden yeni bir değişken türetme ihtiyacı 
oluşmadığı için türetilmemiştir. Ancak klasik analiz modelinde olduğundan 
değerlendirilmesi için yol haritasına eklenmiştir. Yaş ve kıdem değişkenlerinde olan 
aykırı değerler tespit edilip temizlenmiştir. Daha sonra veri seti içerisinde daha anlamlı 
bir analiz yapabilmek için değişkenlere akan veri normalize edilerek ölçeklendirilmiştir. 
Veri ön işleme süreci tamamlandıktan sonra işlenmiş veri seti eğitim verisi, doğrulama 
verisi ve test verisi olmak üzere üç parçaya ayrılmıştır. Uygun bir makine öğrenmesi 
modeli seçildikten sonra eğitim verisi ile model eğitilmiştir. Doğrulama veri seti ile 
modelleme adımı tamamlanmıştır. Modelleme yapıldıktan sonra grid arama fonksiyonu 
ile modelin en iyi çalışabileceği parametreler belirlenmiştir. Test veri seti ile de sekiz 
farklı makine öğrenmesi modeli kurulup doğruluk, kesinlik, duyarlılık ve diğer metrikler 
ile modeller kıyaslanmıştır.  
 
 
 
 
36 
 
 
Veri Tabanı 
 
Veri Ön İşleme 
 Hatalı verilerin Mevcut Aykırı verilerin Verilerin 
 tespiti ve özelliklerden temizlenmesi ölçeklendirilmesi 
temizlenmesi yeni özellikler 
 
 
 
Modellerin Geliştirilmesi ve Eğitilmesi 
İşlenmiş  Veri Seti 
Model Seçimi 
 
Hiper Parametrelerin Ayarlanması 
 
 Eğitim Veri Seti Modellerin Eğitimi Eğitim sonuçları 
 
  
  
Modelleme Doğrulama sonuçları 
 Doğrulama Veri Seti 
  
 
 Modeller 
 Lojistik Regresyon Test sonuçları 
 k-En Yakın Komşu 
Destek Vektör Makineleri 
 Sınıflandırma ve Regresyon Ağacı Modellerin 
Rastgele Orman Karşılaştırılması  
Test Veri Seti Gradyan Arttırma Makineleri 
  Yapay Sinir Ağları 
  Aşırı Gradyan Arttırma Makineleri 
 
Şekil 3.1. Veri analizi modellerinin geliştirilme süreci 
 
Çalışmada kullanılan veri seti Çizelge 3.1’de özetlenmiştir. Veri seti toplamda 16655 satır 
eşsiz (unique) çalışan kaydından oluşmaktadır. Veri toplamda on üç öznitelikten 
oluşmaktadır. Özniteliklerden beş tanesi nümerik, sekiz tanesi ise kategorik veri tipinden 
oluşmaktadır. Sicil değişkeni çalışanların sicil numaralarını, unvan değişkeni çalışanların 
şirket içerisindeki unvan bilgilerini, fonksiyon değişkeni çalışanların bağlı olduğu 
müdürlüğün ismini, kıdem değişkeni yıl bazında çalışanların şirket içerisindeki kıdemini, 
lokasyon değişkeni çalışanların bağlı olduğu lokasyon bilgisini, işten ayrılma nedeni 
37 
 
çalışanların neden işten ayrıldığını açıklar. Cinsiyet değişkeni çalışanların cinsiyetini, 
medeni hal değişkeni çalışanların medeni hallerini, çocuk sayısı değişkeni çalışanların 
çocuk sayısını, askerlik değişkeni erkek çalışanların askerlik durumunu, okul türü 
değişkeni çalışanların eğitim seviyesini, yaş değişkeni çalışanların yaşını ifade eder. Tek 
bağımlı değişken olan durum değişkeni ise çalışan işten ayrıldıysa pasif ifadesi ile 
çalışanın işten ayrıldığını, aktif ifadesi ile de çalışanın etkin olarak çalıştığını ifade eder. 
 
Çizelge 3.1. Veri seti özeti 
 
Değişken Minimum - Değişken Değişken İçeriği 
İsmi Maksimum Tipi 
Değeri 
Sicil 1 Nümerik Örneğin; 50063021 
Unvan 0-4 Kategorik Müşteri Temsilcisi, Uzman, Takım Lideri, Birim 
Yöneticisi, Müdür 
Fonksiyon 0-6 Kategorik Planlama, IT, İnsan Kaynaklar, Finans, İdari İşler, 
Hukuk, Operasyon 
Kıdem(yıl) 0-22 Nümerik 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,
22 
Lokasyon 0-13 Kategorik Trabzon, İzmir, Erzurum, Diyarbakır, Kayseri, 
İstanbul, Edirne, Rize, Bursa, Konya, Ankara, 
Şanlıurfa, Gaziantep, Sakarya 
İşten Ayrılma 0-21 Kategorik Askerlik, Çalışma Şartlarına Uyumsuzluk, 
Nedeni Devamsızlık, Eğitim, Emeklilik, Etik Neden, Evlilik, 
İşe Uygunluk, İşten Ayrılmadı, Kariyer Beklentisi, 
KPSS, Kreş, Küçülme, Maaş ve Yan Haklar, Ölüm, 
Performans, Sağlık, Sözleşme, Taşınma, Vardiya 
Düzeni, Yoğun Çalışma Saatleri, Yönetici Nedeniyle 
Cinsiyet 0-1 Kategorik Kadın, Erkek 
Medeni Hal 0-1 Kategorik Bekar, Evli 
Çocuk Sayısı 0-4 Nümerik 1,2,3,4 
Askerlik 0-3 Kategorik Tamamlandı, Tecilli, Muaf, Yapılmadı 
Okul Türü 0-4 Kategorik Ön Lisans, Lisans, Master, Lise, Doktora 
Yaş 25-60 Nümerik 18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,3
7,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,56,57,
58,60,61 
Durum 0-1 Kategorik 0: Pasif, 1: Aktif 
38 
 
Çalışmanın veri setinde bulunan sicil özniteliğinin tamamı eşsiz nümerik verilerden 
oluştuğu için ve işten ayrılma nedenleri özniteliği ise y bağımlı değişkeninin 
gerçekleşmesi durumunda oluşan kategorik bir öznitelik olduğu için sonucu manipüle 
etmemeleri amacıyla veri setinden çıkarılmıştır. Ayrıca 121 yaşında görünen bir çalışanın 
yaşı model sonucunu manipüle etmemesi adına ortalama çalışan yaşı atanarak 
güncellenmiştir. Kıdemi yaşından büyük görünen iki çalışanın aykırı (outlier) kıdem 
değerleri ise ortalama kıdem değeri atanarak güncellenmiştir. 
 
Bağımlı değişken olan durum özniteliğinin 11783 adet aktif (etkin) ve 4872 adet pasif 
çalışan şeklinde sınıflandırıldığı Şekil 3.2’de görülmektedir. 
 
 
 
Şekil 3.2. Durum Bazında Çalışan Dağılımı 
 
Cinsiyet bazında dağılım incelendiğinde kadın çalışanların erkek çalışanlardan sayıca 
daha fazla olduğu Şekil 3.3’de görülmektedir. 
 
39 
 
 
 
Şekil 3.3.Cinsiyet Bazında Çalışan Dağılımı 
 
Lokasyon bazında istihdam durumu incelendiğinde ise Şekil 3.4’de görüldüğü gibi en 
yüksek aktif ve pasif çalışan sayısının İzmir lokasyonunda olduğu en düşük aktif çalışan 
sayısının ise Sakarya lokasyonunda bulunduğu görülmektedir. En düşük pasif çalışan 
sayısı ise Gaziantep ve Sakarya lokasyonlarında görülmektedir. 
 
 
 
Şekil 3.4. Lokasyon Bazında İstihdam Durumu Dağılımı 
 
Kıdem bazında istihdam durumu incelendiğinde Şekil 3.5’de görüldüğü gibi yaklaşık 2 
yıl kıdeme sahip çalışanlarda hem aktif çalışan sayısının hem de pasif çalışan sayısının 
yüksek olduğu görülmektedir. Ayrıca grafiğe bakıldığında şirketin büyük çoğunluğunu 
2- 5 yıl kıdem aralığındaki kişilerin oluşturduğu söylenebilir 
40 
 
 
 
Şekil 3.5. Kıdem Bazında İstihdam Durumu Dağılımı 
 
Veri özetinden de anlaşılacağı üzere veri setinin büyük çoğunluğu kategorik veriden 
oluşmaktadır. Bu çalışmada özniteliklerin sınıflandırma modellerinde çalışabilmesi için 
nümerik hale çevrilmesi gerekmektedir. Kategorik özniteliklerin nümerik özniteliklere 
dönüştürülmesi ise kodlama (encoding) işlemi ile gerçekleştirilmektedir. Bu nedenle 
çalışmada veri yapısına göre çeşitli kodlama yöntemleri kullanılmıştır. 
 
3.1.1. Etiket Kodlama 
 
Kategorik verilerin nümerik değerlere dönüştürüldüğü yöntemdir (Zhuang, 2015). Bu 
çalışmada iki sınıftan oluşan cinsiyet, medeni hal ve bağımlı değişken olan durum 
öznitelikleri etiket kodlayıcı (label encoder) fonksiyonu ile kategorik veri tipinden 
nümerik veri tipine dönüştürülmüştür. 
 
3.1.2. Sıralı Kodlama 
 
Kodlama işleminde dikkat edilmesi gereken kısım özniteliklerin sıralı olup olmadığıdır. 
Örneğin; lokasyon değişkeni kategorik bir özniteliktir. Bu öznitelik nümerik hale 
çevrilmek istendiğinde sıralı kodlama (label encoding) kullanılmaktadır. Bu işlem 
İstanbul < Bursa < Trabzon şeklinde lokasyonları nümerik değerin büyüklüğüne göre 
ağırlıklandırmaktadır. Bu şekilde çalıştırılan modellerde elde edilen sonuçlar ise sağlıklı 
olmayacaktır. Bu nedenle sıralı kodlama işlemi yalnızca aralarında sıra olan ve birbirine 
göre üstünlüğü olan veri tiplerinde kullanılabilmektedir (Choong, 2017). 
41 
 
Bu çalışmada kullanılan unvan ve okul türü isimli kategorik öznitelikler sıralı veri 
barındırdığı için bu yöntem kullanılarak nümerik hale çevrilmiştir. 
 
3.1.3. One Hot Kodlama 
 
Aralarında bir sıra olmayan ve iki ve üzeri sınıftan oluşan veri tiplerinde bu yöntem 
kullanılmaktadır (Choong, 2017). Bu çalışmada fonksiyon, lokasyon ve askerlik 
öznitelikleri kategorik veri tipinden nümerik veri tipine bu yöntem ile dönüştürülmüştür. 
 
Kodlama işleminden sonra öznitelikler arası ilişkilerin incelenebilmesi için oluşturulan 
öznitelik korelasyon matrisi Şekil 3.6’de verilmiştir. Durum bağımlı değişkeni ile en 
ilişkili olan özniteliğin kıdem, en ilişkisiz özniteliğin ise cinsiyet olduğu bulunmuştur. Ek 
olarak kıdem değişkeni ile yaş değişkeninin arasında 0,59 oranında, çocuk sayısı 
değişkeni ile yaş değişkeni arasında 0,5 oranında, cinsiyet değişkeni ile askerlik değişkeni 
arasında 0,49 oranında doğru orantılı bir korelasyon bulunmuştur. Ters orantılı 
korelasyon ise 0,12 oranında cinsiyet değişkeni ve unvan değişkeni arasında, 0,023 
oranında yaş ile cinsiyet arasında bulunmuştur. 
 
42 
 
 
 
Şekil 3.6: Öznitelik Korelasyon Matrisi 
 
3.2. Uygulama 
 
Bu uygulama i5-8265U Intel Core ortamında ve Python dili ile yazılmıştır. Veri kümesi 
eğitim, test ve doğrulama verisi olmak üzere üç parçaya ayrılarak kullanılmıştır. Sekiz 
farklı sınıflandırma algoritması ile model eğitilerek test edilmiştir. Bu çalışmada tüm 
sınıflandırma modellerinin hiper parametreleri grid arama metodu kullanılarak 
belirlenmiştir. 
 
3.2.1. Lojistik Regresyon 
 
Lojistik regresyon ile hedef değişkenin pasif olarak tanımlanan değerinin gerçekleşme 
olasılığı hesaplanmıştır. Hiper parametrelere çeşitli değerler verilerek en yüksek 
doğruluğu veren değerler araştırılmak istenmektedir. Bu çalışmada kullanılan 
parametreler ve grid arama tekniği ile bulunan en iyi değerleri Çizelge 3.2’de 
bulunmaktadır. Model bu en iyi değerlere göre kurulmuştur. 
43 
 
Çizelge 3.2. Lojistik regresyon modeli parametreleri 
 
Lojistik Regresyon 
Parametre Grid Arama Metodu  İle Test Edilen Değerler En İyi Değer 
Ceza(penalty) l2,l1 l2 
Düzenlilik  
Parametresi(C) np.logspace(3,7) 1000.0 
Çözücü(solver) newton-cg, liblinear newton-cg 
Rastgele Durum 
(random_state) np.logspace(0,1) 1 
 
3.2.2. k-En Yakın Komşu 
 
Sınıflandırılmak istenilen yeni çalışanların önceki çalışan profillerinden en fazla kaçıncı 
yakınlıktaki komşusu ile yakınlığına bakılması gerektiğini bulmak için deneme yanılma 
yöntemi kullanılarak model birçok k değeri ile çalıştırılmıştır. En iyi k değeri Çizelge 3.3’ 
de görüldüğü gibi 11 olarak bulunmuştur. 
 
Çizelge 3.3. k-en yakın komşu sınıflandırma modeli en iyi komşuluk parametresi 
 
Parametre Sınıflandırma Doğruluk Performansı(%) 
k:1 k:2 k:3 k:4 k:5 k:6 k:7 k:8 k:9 k:10 k:11 
Doğruluk  88,14 87,51 88,14 87,96 88,92 87,96 88,14 88,26 89,10 88,77 89,13 
Çapraz Doğrulama 84,78 82,92 86,34 84,12 86,67 84,90 86,34 84,93 86,28 84,66 86,01 
Skoru 
 
Sınıflandırılmak istenen yeni çalışanın önceki çalışan profillerinden k tanesine 
yakınlığına grid arama metoduyla da bakılmıştır. Kıyaslandığında iki şekilde de en iyi 
doğruluk k değeri 11 olduğunda bulunmuştur. Çizelge 3.4 ‘de görüldüğü gibi modelin 
parametresi olan k değeri 1-50 komşu aralığında olacak şekilde model kurulmuştur. Yani 
yeni çalışan en fazla 50’nci komşusuna kadar bakılarak sınıflandırılmıştır. Uygun 
parametre seçimi için model değişik parametre değerleri ile çalıştırılmıştır. 
 
 
44 
 
Çizelge 3.4. k-en yakın komşu modeli parametreleri 
 
k-En Yakın Komşu 
Parametre Grid Arama Metodu İle Test Edilen Değerler En İyi Değer 
Komşu Sayısı 1-50 11 
Uzaklık Ölçüm Metriği Öklid, Minkowski Öklid 
 
3.2.3. Destek Vektör Makineleri 
 
İki sınıf arasındaki ayrımın optimum olması amaçlanarak hiper düzlemi bulmak üzere 
çeşitli parametrelerle model çalıştırılmıştır. Çizelge 3.5’de görüldüğü gibi doğrusal olarak 
ayrılabilen veri setine uygun parametreler kullanılmıştır. 
 
Çizelge 3.5. Destek Vektör Makineleri Modeli Parametreleri  
 
Destek Vektör Makineleri 
Parametre Grid Arama Metodu  İle Test Edilen Değerler En İyi Değer 
Düzenlilik  
Parametresi(C) 1-10 8 
Çekirdek  
Fonksiyonu(Kernel) linear, rbf Linear(Doğrusal) 
 
Grid arama yöntemi ile hızlı bir şekilde yapılan arama işlemi Çizelge 3.6’da deneme 
yanılma yöntemiyle de yapılmış ve sonuç yine aynı çıkmıştır. 
 
Çizelge 3.6. Destek vektör makineleri modeli uygun parametre değeri seçimi  
 
Çekirdek C (Marj) Çapraz Doğrulama 
Doğruluk 
Fonksiyonu Değeri Skoru 
C=1 %90,324 %90,223 
C=2 %90,384 %90,293 
C=3 %90,444 %90,223 
C=4 %90,384 %90,253 
Doğrusal 
C=5 %90,484 %90,223 
C=6 %90,384 %90,255 
C=7 %90,484 %90,257 
C=8 %90,693 %90,733 
 
45 
 
Çizelge 3.6. Destek vektör makineleri modeli uygun parametre değeri seçimi (devam) 
 
Çekirdek C (Marj) Çapraz Doğrulama 
Doğruluk 
Fonksiyonu Değeri Skoru 
C=9 %90,484 %90,485 
C=10 %90,484 %90,483 
C=11 %90,484 %90,484 
Doğrusal C=12 %90,484 %90,484 
C=13 %90,584 %90,584 
C=14 %90,584 %90,584 
C=15 %90,554 %90,554 
C=1 %89,763 %88,652 
C=2 %89,823 %90,073 
C=3 %89,913 %89,913 
C=4 %90,003 %90,003 
C=5 %90,183 %90,183 
C=6 %90,183 %90,153 
C=7 %90,123 %90,163 
Radyal Tabanlı C=8 %90,213 %90,233 
          C=9 %90,363 %90,203 
C=10 %90,363 %90,293 
C=11 %90,393 %90,123 
C=12 %90,453 %90,223 
C=13 %90,543 %90,163 
C=14 %90,603 %90,163 
C=15 %90,683 %90,316 
 
Ceza parametresi C ve çekirdek fonksiyonu için hangi değerlerinin seçileceği kullanıcıya 
bırakılmıştır. DVM optimizasyonu içerisinde bu değerler belirlenmez. Kullanıcı 
tarafından sisteme her defasında bir parametre çiftinin girilip sonuç alınması ve eğer 
uygun değilse bir diğerinin denenmesi oldukça zahmetli ve zaman alıcı bir iştir. Dahası 
bu yolla C ve çekirdek fonksiyonu için gereken değerler uzayının çok küçük bir kısmında 
arama yapılabilir. Bu problemi çözmenin en kolay yolu grid arama tekniğidir (Hsu 
vd.,2004). Bu teknikte yüksek bir sınıflama doğruluk oranı veren, uygun parametre 
setinin belirlenmesi, çekirdek fonksiyonu ve C için belirlenen alt ve üst sınır içinde tüm 
farklı kombinasyonların denenmesi ile elde edilir.  
46 
 
Yerel bir arama tekniği olan grid aramada parametre değerleri için belirlenen aralığın iyi 
ayarlanması gerekmektedir (Lin vd., 2008). Çok geniş belirlenen aralık boşa geçen 
hesaplama zamanı anlamına gelirken, dar bir aralığın belirlenmesi ise tatmin edici 
sonuçların arama uzayının dışında bırakılması dolayısıyla iyi sonuçlardan vazgeçilmesi 
anlamına gelebilmektedir. DVM için uygun parametrenin belirlenmesi ayrı bir çalışma 
konusu olarak hala gelişme aşamasındadır (Tolun, 2008). 
 
Burada DVM yönteminde kullanılacak parametrelerin seçimi için de grid arama tekniği 
kullanılmıştır. Bu veri seti için en iyi çekirdek fonksiyonu doğrusal fonksiyon ve en iyi C 
parametre değeri sekiz olarak bulunmuştur. Çekirdek fonksiyon tipi doğrusal fonksiyon 
olarak bulunduğu için orantısal olduğundan gamma operatörüne değer atanmamıştır. 
 
3.2.4. Sınıflandırma ve Regresyon Ağacı 
 
SRA ile veri setleri içerisindeki karmaşık yapıların basit karar yapılarına dönüştürülmesi 
amaçlanmıştır. Kullanılan bu model ile veri seti bağımlı değişkene göre homojen alt 
gruplara ayrılmıştır.  
 
Çizelge 3.7 ’de görüldüğü gibi uygun parametre seçimi için model grid arama yöntemi 
kullanılarak değişik parametrelerle çalıştırılmıştır ve en iyi değerler bulunmuştur. SRA 
sınıflandırma modeli kurulurken bu parametre değerleri kullanılmıştır. Çizelge 3.7’de 
belirtilmeyen tüm parametrelerin varsayılan değerleri kullanılmıştır. 
 
Çizelge 3.7. Sınıflandırma ve regresyon ağacı modeli parametreleri 
 
Sınıflandırma ve Regresyon Ağacı 
Parametre Grid Arama Metodu  İle Test Edilen Değerler En İyi Değer 
Maksimum  
Derinlik(max_depth) 1,3,5,8,10 8 
Minimum  
Örnek Sayısı(minSamples 2,3,5,10,20,50 20 
Split) 
 
 
 
47 
 
3.2.5. Rastgele Orman 
 
RO ile karar ağacının her bir düğüm noktasında rastgele değişken seçimi yapılarak en iyi 
dallara ayrılması için her bir ağacın önceden belirlenen hata oranları göz önüne alınarak 
en iyi tahmin değerine ulaşılması amaçlanmıştır. Çizelge 3.8’de görüldüğü gibi uygun 
parametre seçimi için model grid arama yöntemi kullanılarak değişik parametrelerle 
çalıştırılmıştır. En iyi değerler bulunmuştur. RO sınıflandırma modeli kurulurken bu 
parametre değerleri kullanılmıştır. Çizelge 3.8’da belirtilmeyen tüm parametrelerin 
varsayılan değerleri kullanılmıştır. 
 
Çizelge 3.8. Rastgele orman modeli en iyi parametreleri  
 
Rastgele Orman 
Parametre Grid Arama Metodu  İle Test Edilen Değerler En İyi Değer 
Tahmin Sayısı 
(n_estimators) 100,200,500,1000 100 
Maksimum Öznitelik 
Sayısı(max_features) 3,5,7,8 3 
Minimum Örnek 
Sayısı(min_samples_split) 2,5,10,20 20 
 
3.2.6. Gradyan Arttırma Makineleri 
 
GA makineleri ile çalışanların en iyi şekilde sınıflandırılması için model birçok parametre 
değeri ile çalıştırılmıştır. En iyi parametreler Çizelge 3.9’da görüldüğü gibi bulunmuştur. 
GA sınıflandırma modeli kurulurken bu parametre değerleri kullanılmıştır. Çizelge 3.9’da 
belirtilmeyen tüm parametrelerin varsayılan değerleri kullanılmıştır. 
 
Çizelge 3.9. Gradyan arttırma makineleri modeli en iyi parametreleri 
 
Gradyan Arttırma Makineleri 
Parametre Grid Arama Metodu İle Test Edilen Değerler En İyi Değer 
Öğrenme  
Oranı(learning_rate) 0.1, 0.01, 0.001, 0.05 0.01 
Tahmin 
Sayısı(n_estimators) 100,200,500,1000 1000 
Maksimum 
Derinlik(max_depth) 2,3,5,8 5 
48 
 
3.2.7.Yapay Sinir Ağları 
 
YSA modeli ile aşamalı bir şekilde model inşa edilerek bir aktivasyon fonksiyonu ile 
model çalıştırılmaktadır. Çok katmanlı YSA’nın kullanması gereken önemli parametreler 
vardır. İterasyon, aktivasyon, çözücü ve öğrenme oranı başlıca parametrelerdir. 
YSA ile çalışanların en iyi şekilde sınıflandırılması için model birçok parametre değeri 
ile çalıştırılmıştır. En iyi parametreler Çizelge 3.10’da görüldüğü gibi bulunmuştur. YSA 
sınıflandırma modeli kurulurken bu parametre değerleri kullanılmıştır. Çizelge 3.10’da 
belirtilmeyen tüm parametrelerin varsayılan değerleri kullanılmıştır. 
 
Çizelge 3.10.Yapay sinir ağları parametreleri 
 
Yapay Sinir Ağları 
Parametre Grid Arama Metodu  İle Test Edilen Değerler En İyi Değer 
alpha 1, 5, 0.1, 0.01, 0.03, 0.005, 0.0001  0.01 
Gizli Katman  (10,10), (100,100,100), (100,100), 
Sayısı(hidden_layer_sizes) (3,5) (10, 10) 
Çözücü(solver) lbfgs,adam lbfgs 
Aktivasyon  
Fonksiyonu (activation) relu,sigmoid relu 
 
3.2.8. Aşırı Gradyan Arttırma Makineleri 
 
AGA makineleri ile aşamalı bir şekilde model inşa edilerek bir kayıp fonksiyonu ile 
modeller serisi oluşturulmuştur. Seri içerisindeki bir model serideki bir önceki modelin 
tahmin hataları ile oluşturularak ilerlemiştir. 
 
Bu çalışmada AGA modelinde kullanılan parametrelerin en iyi değerleri grid arama 
tekniği ile bulunmaktadır. En iyi parametreler Çizelge 3.11’de görüldüğü gibi 
bulunmuştur. AGA sınıflandırma modeli kurulurken bu parametre değerleri 
kullanılmıştır. Çizelge 3.11’de belirtilmeyen tüm parametrelerin varsayılan değerleri 
kullanılmıştır. 
 
 
49 
 
Çizelge 3.11. Aşırı gradyan arttırma makineleri modeli en iyi parametreleri 
 
Aşırı Gradyan Artırma Makineleri 
Parametre Grid Arama Metodu  İle Test Edilen Değerler En İyi Değer 
Öğrenme  
Oranı (learning_rate) 0.1, 0.01, 0.001 0.1 
Örneklerin Oranı(subsample) 0.6, 0.8, 1 0.8 
Tahmin Sayısı (n_estimators)  100,500,1000,2000 100 
Maksimum Derinlik 
(max_depth) 3,5,7 5 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
50 
 
4. BULGULAR 
 
4.1. Lojistik Regresyon Modeli Bulguları 
 
Belirlenen hiper parametre değerleri ile kurulan lojistik regresyon sınıflandırma 
modelinin performans ölçüm metriklerinin sonuçları Çizelge 4.1’de gösterilmektedir. 
%90,8 oranında doğru sınıflandırma yapılmıştır. Bu sonuç %95 oranında kesindir. 10 kez 
çapraz doğrulama işlemi yapılmıştır ve sonuç bulunan doğruluk değerinden daha yüksek 
çıkmıştır. Modelin sınıflandırma duyarlılığı %91 oranında çıkmıştır. Kesinlik ve 
duyarlılık metriklerinin harmonik ortalaması olan 𝑓𝑓1 ölçütü ise %93 olarak bulunmuştur. 
Performansı ifade eden ve bir AİK eğrisinin altında kalan alan ise %90 olarak 
bulunmuştur. 
 
Çizelge 4.1. Lojistik regresyon sınıflandırma modeli sonuçları 
 
Lojistik Regresyon Sınıflandırma Modeli Sonuçları 
Doğruluk Çapraz Doğrulama Skoru Kesinlik Duyarlılık 𝑓𝑓1 Ölçütü EAKA 
0,908 0,911 0,95 0,91 0,93 0,90 
 
Model sonuçlarının hata matrisinde gösterimi ise Şekil 4.1’de görülmektedir. Gerçekte 
pasif olup modelin aktif olarak sınıflandırdığı çalışan sayısı 204, gerçekte aktif olup 
modelin pasif olarak sınıflandırdığı çalışan sayısı 103 kişidir. Gerçekte aktif olup modelle 
aktif olarak sınıflandırılanların sayısı 851 ve gerçekte pasif olup modelle pasif olarak 
sınıflandırılanların sayısı ise 2173 adettir. 
 
 
51 
 
 
 
Şekil 4.1. Lojistik Regresyon Sınıflandırma Modeli Hata Matrisi 
 
Şekil 4.2.‘de bulunan grafikte FPR ifadesi ile isimlendirilen x ekseni yanlış pasif 
oranlarını, TPR ifadesi ile isimlendirilen y ekseni ise doğru pasif oranlarını ifade 
etmektedir. AİK grafiğinde eğrinin altında kalan alan EAKA ile tahmin performansının 
oranı ifade edilmektedir. EAKA metriği için ideal değer 1’dir. Şekil 4.2’de görüldüğü 
gibi bu çalışmada kullanılan lojistik regresyon modelinde EAKA değerinin %90 olarak 
gerçekleştiği görülmüştür. 
 
 
 
Şekil 4.2.Lojistik Regresyon AİK eğrisi 
 
4.2. k-En Yakın Komşu Modeli Bulguları 
 
Belirlenen hiper parametre değerleri ile kurulan k-en yakın komşu sınıflandırma 
modelinin performans ölçüm metriklerinin sonuçları Çizelge 4.2’de gösterilmektedir. 
52 
 
%89,1 oranında doğru sınıflandırma yapılmıştır. Bu sonuç %91 oranında kesindir. 10 kez 
çapraz doğrulama işlemi yapılmıştır ve sonuç bulunan doğruluk değerinden daha düşük 
çıkmıştır. Modelin sınıflandırma duyarlılığı %94 oranında çıkmıştır. Kesinlik ve 
duyarlılık metriklerinin harmonik ortalaması olan 𝑓𝑓1 ölçütü ise %93 olarak bulunmuştur. 
Performansı ifade eden ve bir AİK eğrisinin altında kalan alan ise %85 olarak 
bulunmuştur. 
 
Çizelge 4.2. k-en yakın komşu sınıflandırma modeli sonuçları 
 
k-En Yakın Komşu Sınıflandırma Modeli Sonuçları 
Doğruluk Çapraz Doğrulama Skoru Kesinlik Duyarlılık 𝑓𝑓1 Ölçütü EAKA 
0,891 0,86 0,91 0,94 0,93 0,85 
 
Model sonuçlarının hata matrisinde gösterimi ise Şekil 4.3’de görülmektedir. Gerçekte 
pasif olup modelin aktif olarak sınıflandırdığı çalışan sayısı 138, gerçekte aktif olup 
modelin pasif olarak sınıflandırdığı çalışan sayısı 224’tür.Gerçekte aktif olup modelle 
aktif olarak sınıflandırılanların sayısı 730 ve gerçekte pasif olup modelle pasif olarak 
sınıflandırılanların sayısı ise 2239 adettir. 
 
 
 
Şekil 4.3. k-En Yakın Komşu Modeli Hata Matrisi 
 
53 
 
Şekil 4.4’de görüldüğü gibi bu çalışmada kullanılan k-en yakın komşu modelinde 
modelin performans başarısını ifade eden AİK grafiğinde eğrinin altında kalan alan 
EAKA değerinin %85 olarak gerçekleştiği görülmüştür. 
 
 
 
Şekil 4.4. k-En Yakın Komşu Modeli AİK eğrisi 
 
4.3. Destek Vektör Makineleri Modeli Bulguları 
 
Belirlenen hiper parametre değerleri ile kurulan destek vektör makineleri sınıflandırma 
modelinin performans ölçüm metriklerinin sonuçları Çizelge 4.3’de gösterilmektedir. 
%90,7 oranında doğru sınıflandırma yapılmıştır. Bu sonuç %97 oranında kesindir. 10 kez 
çapraz doğrulama işlemi yapılmıştır ve sonuç bulunan doğruluk değeri ile benzer 
çıkmıştır. Modelin sınıflandırma duyarlılığı %89 oranında çıkmıştır. Kesinlik ve 
duyarlılık metriklerinin harmonik ortalaması olan 𝑓𝑓1 ölçütü ise %93 olarak bulunmuştur. 
Performansı ifade eden ve bir AİK eğrisinin altında kalan alan ise %92 olarak 
bulunmuştur. 
 
Çizelge 4.3. Destek vektör makineleri sınıflandırma modeli sonuçları 
 
Destek Vektör Makineleri Sınıflandırma Modeli Sonuçları 
Doğruluk Çapraz Doğrulama Skoru Kesinlik Duyarlılık 𝑓𝑓1 Ölçütü EAKA 
0,907 0,906 0,97 0,89 0,93 0,92 
 
54 
 
Model sonuçlarının hata matrisinde gösterimi ise Şekil 4.5.‘de görülmektedir. Gerçekte 
pasif olup modelin aktif olarak sınıflandırdığı çalışan sayısı 251, gerçekte aktif olup 
modelin pasif olarak sınıflandırdığı çalışan sayısı 56’dır. Gerçekte aktif olup modelle 
aktif olarak sınıflandırılanların sayısı 898 ve gerçekte pasif olup modelle pasif olarak 
sınıflandırılanların sayısı ise 2126 adettir. 
 
 
 
Şekil 4.5. Destek Vektör Makineleri Modeli Hata Matrisi 
 
Şekil 4.6.’de görüldüğü gibi bu çalışmada kullanılan destek vektör makineleri 
sınıflandırma modelinde modelin performans başarısını ifade eden AİK grafiğinde 
eğrinin altında kalan alan EAKA değerinin %92 olarak gerçekleştiği görülmüştür. 
 
 
 
Şekil 4.6. Destek Vektör Makineleri AİK eğrisi 
 
55 
 
4.4. Sınıflandırma ve Regresyon Ağacı Modeli Bulguları 
 
Belirlenen hiper parametre değerleri ile kurulan sınıflandırma ve regresyon ağacı 
sınıflandırma modelinin performans ölçüm metriklerinin sonuçları Çizelge 4.4’de 
gösterilmektedir. %90,7 oranında doğru sınıflandırma yapılmıştır. Bu sonuç %93 
oranında kesindir. 10 kez çapraz doğrulama işlemi yapılmıştır ve sonuç bulunan doğruluk 
değeri ile benzer çıkmıştır. Modelin sınıflandırma duyarlılığı %94 oranında çıkmıştır. 
Kesinlik ve duyarlılık metriklerinin harmonik ortalaması olan 𝑓𝑓1 ölçütü ise %94 olarak 
bulunmuştur. Performansı ifade eden ve bir AİK eğrisinin altında kalan alan ise %89 
olarak bulunmuştur. 
 
Çizelge 4.4. Sınıflandırma ve regresyon ağacı sınıflandırma modeli sonuçları 
 
Sınıflandırma ve Regresyon Ağacı Sınıflandırma Modeli Sonuçları 
Doğruluk Çapraz Doğrulama Skoru Kesinlık Duyarlılik 𝑓𝑓1 Ölçütü EAKA 
0,907 0,905 0,93 0,94 0,94 0,89 
 
Model sonuçlarının hata matrisinde gösterimi ise Şekil 4.7’de görülmektedir. Gerçekte 
pasif olup modelin aktif olarak sınıflandırdığı çalışan sayısı 152, gerçekte aktif olup 
modelin pasif olarak sınıflandırdığı çalışan sayısı 156’dır. Gerçekte aktif olup modelle 
aktif olarak sınıflandırılanların sayısı 798 ve gerçekte pasif olup modelle pasif olarak 
sınıflandırılanların sayısı ise 2225 adettir. 
 
 
 
Şekil 4.7 Sınıflandırma ve Regresyon Ağacı Sınıflandırma Modeli Hata Matrisi 
56 
 
Şekil 4.8’de görüldüğü gibi bu çalışmada kullanılan sınıflandırma ve regresyon ağacı 
sınıflandırma modelinde modelin performans başarısını ifade eden AİK grafiğinde 
eğrinin altında kalan alan EAKA değerinin %89 olarak gerçekleştiği görülmüştür. 
 
 
 
Şekil 4.8. Sınıflandırma ve Regresyon Ağacı AİK eğrisi 
 
4.5. Rastgele Orman Modeli Bulguları 
 
Belirlenen hiper parametre değerleri ile kurulan rastgele orman sınıflandırma modelinin 
performans ölçüm metriklerinin sonuçları Çizelge 4.5’de gösterilmektedir. %92,2 
oranında doğru sınıflandırma yapılmıştır. Bu sonuç %95 oranında kesindir. 10 kez çapraz 
doğrulama işlemi yapılmıştır ve sonuç bulunan doğruluk değerinden daha düşük 
çıkmıştır. Modelin sınıflandırma duyarlılığı %94 oranında çıkmıştır. Kesinlik ve 
duyarlılık metriklerinin harmonik ortalaması olan 𝑓𝑓1 ölçütü ise %94 olarak bulunmuştur. 
Performansı ifade eden ve bir AİK eğrisinin altında kalan alan ise %91 olarak 
bulunmuştur. 
 
Çizelge 4.5. Rastgele orman sınıflandırma modeli sonuçları 
 
Rastgele Orman Sınıflandırma Modeli Sonuçları 
Doğruluk Çapraz Doğrulama Skoru Kesinlik Duyarlılık 𝑓𝑓1 Ölçütü EAKA 
0,922 0,911 0,95 0,94 0,94 0,91 
 
57 
 
Model sonuçlarının hata matrisinde gösterimi ise Şekil 4.9’de görülmektedir. Gerçekte 
pasif olup modelin aktif olarak sınıflandırdığı çalışan sayısı 141, gerçekte aktif olup 
modelin pasif olarak sınıflandırdığı çalışan sayısı 122 kişidir. Gerçekte aktif olup modelle 
aktif olarak sınıflandırılanların sayısı 832 ve gerçekte pasif olup modelle pasif olarak 
sınıflandırılanların sayısı ise 2236 adettir. 
 
 
 
Şekil 4.9. Rastgele Orman Modeli Hata Matrisi 
 
Şekil 4.10’da görüldüğü gibi bu çalışmada kullanılan rastgele orman sınıflandırma 
modelinde modelin performans başarısını ifade eden AİK grafiğinde eğrinin altında kalan 
alan EAKA değerinin %91 olarak gerçekleştiği görülmüştür. 
 
 
 
Şekil 4.10. Rastgele Orman AİK eğrisi 
 
58 
 
4.6. Gradyan Artırma Makineleri Modeli Bulguları 
 
Belirlenen hiper parametre değerleri ile kurulan gradyan artırma makineleri sınıflandırma 
modelinin performans ölçüm metriklerinin sonuçları Çizelge 4.6’de gösterilmektedir. 
%91,4 oranında doğru sınıflandırma yapılmıştır. Bu sonuç %95 oranında kesindir. 10 kez 
çapraz doğrulama işlemi yapılmıştır ve sonuç bulunan doğruluk değeri ile benzer 
çıkmıştır. Modelin sınıflandırma duyarlılığı %93 oranında çıkmıştır. Kesinlik ve 
duyarlılık metriklerinin harmonik ortalaması olan 𝑓𝑓1 ölçütü ise %94 olarak bulunmuştur. 
Performansı ifade eden ve bir AİK eğrisinin altında kalan alan ise %90 olarak 
bulunmuştur. 
 
Çizelge 4.6. Gradyan artırma makineleri sınıflandırma modeli sonuçları 
 
Gradyan Artırma Makineleri Sınıflandırma Modeli Sonuçları 
Doğruluk Çapraz Doğrulama Skoru Kesinlik Duyarlılık 𝑓𝑓1 Ölçütü EAKA 
0,914 0,912 0,95 0,93 0,94 0,90 
 
Model sonuçlarının hata matrisinde gösterimi ise Şekil 4.11’ de görülmektedir. Gerçekte 
pasif olup modelin aktif olarak sınıflandırdığı çalışan sayısı 172, gerçekte aktif olup 
modelin pasif olarak sınıflandırdığı çalışan sayısı 113 kişidir. Gerçekte aktif olup modelle 
aktif olarak sınıflandırılanların sayısı 841 ve gerçekte pasif olup modelle pasif olarak 
sınıflandırılanların sayısı ise 2205 adettir. 
 
 
 
Şekil 4.11. Gradyan Arttırma Makineleri Modeli Hata Matrisi 
59 
 
 
Şekil 4.12’de görüldüğü gibi bu çalışmada kullanılan gradyan arttırma makineleri 
modelinde modelin performans başarısını ifade eden AİK grafiğinde eğrinin altında kalan 
alan EAKA değerinin %90 olarak gerçekleştiği görülmüştür. 
 
 
 
Şekil 4.12. Gradyan Arttırma Makineleri Modeli AİK eğrisi 
 
4.7. Yapay Sinir Ağları Modeli Bulguları 
 
Belirlenen hiper parametre değerleri ile kurulan yapay sinir ağları sınıflandırma 
modelinin performans ölçüm metriklerinin sonuçları Çizelge 4.7.’de gösterilmektedir. 
%89,3 oranında doğru sınıflandırma yapılmıştır. Bu sonuç %98 oranında kesindir. 10 kez 
çapraz doğrulama işlemi yapılmıştır ve sonuç bulunan doğruluk değerinden daha yüksek 
çıkmıştır. Modelin sınıflandırma duyarlılığı %87 oranında çıkmıştır. Kesinlik ve 
duyarlılık metriklerinin harmonik ortalaması olan 𝑓𝑓1 ölçütü ise %92 olarak bulunmuştur. 
Performansı ifade eden ve bir AİK eğrisinin altında kalan alan ise %91 olarak 
bulunmuştur. 
 
Çizelge 4.7.Yapay sinir ağları sınıflandırma modeli sonuçları 
 
Yapay Sinir Ağları Sınıflandırma Modeli Sonuçları 
Doğruluk Çapraz Doğrulama Skoru Kesinlik Duyarlılık 𝑓𝑓1 Ölçütü EAKA 
0,893 0,904 0,98 0,87 0,92 0,91 
 
60 
 
Model sonuçlarının hata matrisinde gösterimi ise Şekil 4.13.’de görülmektedir. Gerçekte 
pasif olup modelin aktif olarak sınıflandırdığı çalışan sayısı 311, gerçekte aktif olup 
modelin pasif olarak sınıflandırdığı çalışan sayısı 46 kişidir. Gerçekte aktif olup modelle 
aktif olarak sınıflandırılanların sayısı 908 ve gerçekte pasif olup modelle pasif olarak 
sınıflandırılanların sayısı ise 2066 adettir. 
 
 
 
Şekil 4.13. Yapay Sinir Ağları Modeli Hata Matrisi 
 
Şekil 4.14’de görüldüğü gibi bu çalışmada kullanılan yapay sinir ağları modelinde 
modelin performans başarısını ifade eden AİK grafiğinde eğrinin altında kalan alan 
EAKA değerinin %91 olarak gerçekleştiği görülmüştür. 
 
 
 
Şekil 4.14. Yapay Sinir Ağları Modeli AİK eğrisi 
 
61 
 
4.8. Aşırı Gradyan Artırma Makineleri Modeli Bulguları 
 
Belirlenen hiper parametre değerleri ile kurulan aşırı gradyan artırma makineleri 
sınıflandırma modelinin performans ölçüm metriklerinin sonuçları Çizelge 4.8’de 
gösterilmektedir. %91,9 oranında doğru sınıflandırma yapılmıştır. Bu sonuç %95 
oranında kesindir. 10 kez çapraz doğrulama işlemi yapılmıştır ve sonuç bulunan doğruluk 
değerinden daha düşük çıkmıştır. Modelin sınıflandırma duyarlılığı %93 oranında 
çıkmıştır. Kesinlik ve duyarlılık metriklerinin harmonik ortalaması olan 𝑓𝑓1 ölçütü ise %94 
olarak bulunmuştur. Performansı ifade eden ve bir AİK eğrisinin altında kalan alan ise 
%91 olarak bulunmuştur. 
 
Çizelge 4.8. Aşırı gradyan artırma makineleri sınıflandırma modeli sonuçları 
 
Aşırı Gradyan Artırma Makineleri Sınıflandırma Modeli Sonuçları 
Doğruluk Çapraz Doğrulama Skoru Kesinlık Duyarlılik 𝑓𝑓1 Ölçütü EAKA 
0,919 0,905 0,95 0,93 0,94 0,91 
 
Model sonuçlarının hata matrisinde gösterimi ise Şekil 4.15’de görülmektedir. Gerçekte 
pasif olup modelin aktif olarak sınıflandırdığı çalışan sayısı 156, gerçekte aktif olup 
modelin pasif olarak sınıflandırdığı çalışan sayısı 113 kişidir. Gerçekte aktif olup modelle 
aktif olarak sınıflandırılanların sayısı 841 ve gerçekte pasif olup modelle pasif olarak 
sınıflandırılanların sayısı ise 2221 adettir. 
 
 
 
Şekil 4.15. Aşırı Gradyan Arttırma Makineleri Hata Matrisi 
62 
 
Şekil 4.16’de görüldüğü gibi bu çalışmada kullanılan ekstra gradyan arttırma makineleri 
modelinde modelin performans başarısını ifade eden AİK grafiğinde eğrinin altında kalan 
alan EAKA değerinin %91 olarak gerçekleştiği görülmüştür. 
 
 
 
Şekil 4.16. Aşırı Gradyan Arttırma Makineleri Modeli AİK eğrisi 
 
4.9. Tüm Modellerin Karşılaştırılma Bulguları 
 
Çizelge 4.9’da görüldüğü gibi her bir metrik yüksek değerden düşük değere doğru 
renklendirilmiştir. En yüksek değeri yeşil en düşük değeri ise kırmızı rengin ifade edeceği 
şekilde renklendirme yapılmıştır. 
 
Çizelge 4.9. Kullanılan tüm modellerin karşılaştırılması 
 
TÜM MODELLERİN KARŞILAŞTIRILMASI 
Lojistik K-En Destek Sınıflandırma Gradyan Yapay 
Aşırı 
Metrikler  Regresyon Yakın Vektör ve Regresyon 
Rastgele Attırma Sinir Gradyan 
Komşu  Makineleri Ağacı  Orman Makineleri Ağları Arttırma Makineleri 
Doğruluk 0,908 0,891 0,907 0,907 0,922 0,914 0,893 0,919 
Çapraz 
Doğrulama 0,911 0,860 0,906 0,905 0,911 0,912 0,904 0,905 
Skoru 
Kesinlik 0,950 0,910 0,970 0,930 0,950 0,950 0,980 0,950 
Duyarlılık 0,910 0,940 0,890 0,940 0,940 0,930 0,870 0,930 
f1 Ölçütü 0,930 0,930 0,930 0,940 0,940 0,940 0,920 0,940 
EAKA 0,900 0,850 0,920 0,890 0,910 0,900 0,910 0,910 
 
63 
 
Sonuç olarak yeşil renklerin en yoğun olduğu yani her metrikte en yüksek değere ulaşılan 
RO sınıflandırma modeli %92,2 doğruluk oranı ile bu veri setini en iyi sınıflandıran 
modeldir. En iyi ikinci model ise literatür araştırmasında da özellikle son yıllarda öne 
çıkan GAA makineleri olmuştur. Uygulanan modeller arasında en kötü model ise %89 
doğruluk oranı ile k-EYK sınıflandırma modeli olmuştur. Bu model tüm metriklerde en 
düşük değere sahip olmasına rağmen en yüksek üç duyarlılık metriğinden birine 
ulaşmıştır. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
64 
 
5. SONUÇ 
 
Bu çalışmada bir telekomünikasyon şirketinin insan kaynakları veri setine uygulanan ve 
çalışan kaybı tahmin problemi için kullanılan sekiz sınıflandırma modeli hesaplanan 
metriklere göre değerlendirilmiştir. Her bir modelin doğruluk, çapraz doğrulama skoru, 
kesinlik, duyarlılık, 𝑓𝑓1ölçütü ve EAKA metrik değerleri hesaplanmıştır. Bu modeller 
genellikle müşteri kaybını ölçen modellerin tahmin problemlerinde kullanılırken bu 
çalışmada çalışan kaybını tahmin etmek ve en iyi tahmini yapan modeli bulmak amacıyla 
kullanılmıştır. Çalışmayı diğer çalışmalardan farklı kılan en önemli kısmı hedef kitlesidir. 
Sonuç olarak problem özelinde gelecekte yapılacak sınıflandırma çalışmaları için bu 
çalışmada uygulanan modeller değerlendirildiğinde en iyi metrik değerlerine ulaşılan 
yani en iyi sınıflandıran RO modeli önerilmektedir.  
 
Ancak veri gizliliğinden dolayı alınamayan çalışanların maaşı, evinin bağlı olduğu 
lokasyona uzaklığı gibi verilerin temini ile aynı modeller tekrar kurularak 
değerlendirilebilir. 
 
Ayrıca şirketlerde yazılım bilmeyen kullanıcıların rahatça bu tahminleme modellerini 
kullanabilmesi için bir arayüz tasarlanarak en yüksek doğruluğu veren RO algoritması ile 
tahminleme yapabilmesi mümkün olabilir. Ek olarak çalışmada kullanılmayan diğer 
sınıflandırma modelleri ile çalışmanın kapsamı genişletilebilir. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
65 
 
KAYNAKLAR 
 
Adak, M. F., & Yurtay, N. (2013). Gini algoritmasını kullanarak karar ağacı oluşturmayı 
sağlayan bir yazılımın geliştirilmesi. Bilişim Teknolojileri Dergisi, 6(3), 1-6. 
 
Ajit, P. (2016). Prediction of employee turnover in organizations using machine learning 
algorithms. algorithms, 4(5), C5. 
 
Alamsyah, A., & Salma, N. (2018, August). A comparative study of employee churn 
prediction model. In 2018 4th International Conference on Science and Technology 
(ICST) (pp. 1-4). IEEE. 
 
Albayrak, A. S. (2009). Türkiye’de Yerli Ve Yabancı Ticaret Bankalarının Finansal 
Etkinliğe Göre Sınıflandırılması: Karar Ağacı, Lojistik Regresyon Ve Diskriminant 
Analizi Modellerinin Bir Karşılaştırması. Süleyman Demirel Üniversitesi İktisadi Ve 
İdari Bilimler Fakültesi Dergisi, 14(2), 113-139. 
 
Alpaydin, E. & Bach, F. (2014), Introduction to Machine Learning, MIT Press, 
Cambridge, United States. 
 
Bayru, P. (2007). Elektronik Basında Tüketici Tercihleri Analizi: Yapay Sinir Ağları İle 
Lojit Modelin Performans Değerlendirilmesi. Unpublished Doctoral Dissertation). 
İstanbul University, Institute of Social Sciences, İstanbul. 
 
Bhatia, N. (2010). Survey of nearest neighbor techniques. arXiv preprint 
arXiv:1007.0085. 
 
Bishop, D. V. (2006). What causes specific language impairment in children?. Current 
directions in psychological science, 15(5), 217-221. 
 
Blum, A., & Mitchell, T. (1998, July). Combining labeled and unlabeled data with co-
training. In PAİKeedings of the eleventh annual conference on Computational learning 
theory (pp. 92-100). 
 
Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32. 
 
Breiman, L., Friedman, J., Olshen, R., & Stone, C. (1984). Cart. Classification and 
Regression Trees. 
 
Catani F, Lagomarsino D, Segoni S, Tofani V (2013) Landslide susceptibility estimation 
by random forests technique: sensitivity and scaling issues. Nat Hazards Earth Syst Sci 
13:2815–2831. 
 
Chapelle, O., Chi, M., & Zien, A. (2006, June). A continuation method for semi-
supervised SVMs. In PAİKeedings of the 23rd international conference on Machine 
learning (pp. 185-192). 
 
66 
 
Chen, T., & Guestrin, C. (2016, August). Xgboost: A scalable tree boosting system. 
In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery 
and data mining (pp. 785-794). 
 
Chen, Y. T., Tu, Y. M., & Jeng, B. (2011). A machine learning approach to policy 
optimization in system dynamics models. Systems Research and Behavioral 
Science, 28(4), 369-390. 
 
Chin-Yuan, F., Sheau-Pyng, J., & Ming-Fong, L. (2012, December). Using system 
thinking to investigate co-opetition analysis for manufacturers in the cloud industry. 
In 2012 IEEE International Conference on Industrial Engineering and Engineering 
Management (pp. 2048-2052). IEEE. 
 
Choong, A. C. H., & Lee, N. K. (2017, November). Evaluation of convolutionary neural 
networks modeling of DNA sequences using ordinal versus one-hot encoding method. 
In 2017 International Conference on Computer and Drone Applications (IConDA) (pp. 
60-65). IEEE. 
 
Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-
297. 
 
Cox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal 
Statistical Society: Series B (Methodological), 20(2), 215-232. 
 
Crevier, D. (1993). Expert systems as design aids for artificial vision systems: a survey. 
Intelligent Robots and Computer Vision XII: Algorithms and Techniques, 2055, 84-96. 
 
Da Silva, I. N., Spatti, D. H., Flauzino, R. A., Liboni, L. H. B., & dos Reis Alves, S. F. 
(2017). Artificial neural network architectures and training processes. In Artificial neural 
networks (pp. 21-28). Springer, Cham. 
 
Dalkilic, M. M. Alexander N. Zimmerman, Claudia C. Johnson, Nicholas W. Bussberg 
&. (2020) Stability and decline in deep-sea coral biodiversity, Gulf of Mexico and US 
West Atlantic. Springer, 39, 345–359. 
 
Doğan, V., Yüzer, E., Kılıç, V., & Şen, M. (2021). Non-enzymatic colorimetric detection 
of hydrogen peroxide using a μPAD coupled with a machine learning-based smartphone 
app. Analyst, 146(23), 7336-7344. 
 
Dong, Y., Zhang, Y., Yue, J., & Hu, Z. (2016). Comparison of random forest, random 
ferns and support vector machine for eye state classification. Multimedia Tools and 
Applications, 75(19), 11763-11783. 
 
Dudani, S. A. (1976). The distance-weighted k-nearest-neighbor rule. IEEE Transactions 
on Systems, Man, and Cybernetics, (4), 325-327. 
 
Ecemiş, A., Dokuz, A. Ş., & Çelik, M. Çeşitli Veri Kümeleri Üzerinde Veri Madenciliği 
Algoritmalarının Performansının Değerlendirilmesi. 
67 
 
 
Fang, Y., Qiu, Y., Liu, L., & Huang, C. (2018, March). Detecting webshell based on 
random forest with fasttext. In Proceedings of the 2018 International Conference on 
Computing and Artificial Intelligence (pp. 52-56). 
 
Freund, Y., & Schapire, R. E. (1996, July). Experiments with a new boosting algorithm. 
In icml (Vol. 96, pp. 148-156). 
 
Friedman, C. P. (2000). The marvelous medical education machine or how medical 
education can beunstuck'in time. Medical Teacher, 22(5), 496-502. 
 
Friedman, J. H. (2001). Greedy function approximation: a gradient boosting 
machine. Annals of statistics, 1189-1232. 
 
Grove, E. (2006). Sea Power in the Asia-Pacific Region. In The Evolving Maritime 
Balance Of Power In The Asia-Pacific: Maritime Doctrines and Nuclear Weapons at 
Sea (pp. 17-33). 
 
Guner, H., Ozgur, E., Kokturk, G., Celik, M., Esen, E., Topal, A. E., ... & Dana, A. (2017). 
A smartphone based surface plasmon resonance imaging (SPRi) platform for on-site 
biodetection. Sensors and Actuators B: Chemical, 239, 571-577. 
 
Han, J. W., Breckon, T. P., Randell, D. A., & Landini, G. (2012). The application of 
support vector machine classification to detect cell nuclei for automated 
microscopy. Machine Vision and Applications, 23(1), 15-24. 
 
Hsu, C. N., Chung, H. H., & Huang, H. S. (2004). Mining skewed and sparse transaction 
data for personalized shopping recommendation. Machine Learning, 57(1), 35-59. 
 
Ilhan, R., & Güdar, B. (2021). Yapay Sinir Ağları Kullanarak Kan Testi Sonuçlarının 
Sınıflandırılması ve Kullanıcı Ara Yüzünün Geliştirmesi. Avrupa Bilim ve Teknoloji 
Dergisi, (29), 1-5. 
 
Kavzoğlu, T., & Çölkesen, İ. (2010). Destek vektör makineleri ile uydu görüntülerinin 
sınıflandırılmasında kernel fonksiyonlarının etkilerinin incelenmesi. Harita 
Dergisi, 144(7), 73-82. 
 
Kecman, V. (2001). Learning and soft computing: support vector machines, neural 
networks, and fuzzy logic models. MIT press. 
 
Keleş, M. B., Keleş, A., & Keleş, A. (2020). Yapay zekâ teknolojisi ile uçuş fiyatı tahmin 
modeli geliştirme. Turkish Studies, 15(4), 511-520. 
 
Kohonen, T. (1990, June). Improved versions of learning vector quantization. In 1990 
ijcnn international joint conference on Neural networks (pp. 545-550). IEEE. 
 
68 
 
Kumaş, E. (2021). Türkçe Twitter Verilerinden Duygu Analizi Yapılırken 
Sınıflandırıcıların Karşılaştırılması. Eskişehir Türk Dünyası Uygulama Ve Araştırma 
Merkezi Bilişim Dergisi, 2(2), 1-5. 
 
Kuyucu, Y. E. (2012). Lojistik regresyon analizi (LRA), yapay sinir ağları (YSA) ve 
sınıflandırma ve regresyon ağaçları (C&RT) yöntemlerinin karşılaştırılması ve tıp 
alanında bir uygulama (Master's thesis, Gaziosmanpaşa Üniversitesi, Sağlık Bilimleri 
Enstitüsü). 
 
Liaw A, Wiener M, (2002) Classification and regression by random forest. R News 2: 
18–22. 
 
Lin, S. W., Ying, K. C., Chen, S. C., & Lee, Z. J. (2008). Particle swarm optimization for 
parameter determination and feature selection of support vector machines. Expert systems 
with applications, 35(4), 1817-1824. 
 
Liu, H., & Zhang, S. (2012). Noisy data elimination using mutual k-nearest neighbor for 
classification mining. Journal of Systems and Software, 85(5), 1067-1074. 
 
McCarthy, J., & Feigenbaum, E. A. (1990). In memoriam: Arthur samuel: Pioneer in 
machine learning. AI Magazine, 11(3), 10-10. 
 
Mohri, M., & Medina, A. M. (2014, January). Learning theory and algorithms for revenue 
optimization in second price auctions with reserve. In International conference on 
machine learning (pp. 262-270). PMLR. 
 
Muja, M., & Lowe, D. G. (2009). Fast approximate nearest neighbors with automatic 
algorithm configuration. VISAPP (1), 2(331-340), 2. 
 
Muller, K. R., Mika, S., Ratsch, G., Tsuda, K., & Scholkopf, B. (2001). An introduction 
to kernel-based learning algorithms. IEEE transactions on neural networks, 12(2), 181-
201. 
 
Murphy, K. P. (2012). Machine learning: a probabilistic perspective. MIT press. 
 
Obuchowski, N. A. (2005). ROC analysis. American Journal of Roentgenology, 184(2), 
364-372. 
 
Obuchowski, N. A., Lieber, M. L., & Wians Jr, F. H. (2004). ROC curves in clinical 
chemistry: uses, misuses, and possible solutions. Clinical chemistry, 50(7), 1118-1125. 
 
Osuna, E., Freund, R., & Girosit, F. (1997, June). Training support vector machines: an 
application to face detection. In Proceedings of IEEE computer society conference on 
computer vision and pattern recognition (pp. 130-136). IEEE. 
 
Özdemir, A.K., Tolun, S. & Demirci, E. (2011). Endeks getirisi yönünün ikili 
sınıflandırma yöntemiyle tahmin edilmesi: İMKB 100 endeksi örneği. Niğde Üniversitesi 
İktisadi ve İdari Bilimler Fakültesi Dergisi, 4(2), 45-59. 
69 
 
Özkan, K. (2012). Sınıflandırma ve regresyon ağacı tekniği (SRAT) ile ekolojik verinin 
modellenmesi. Süleyman Demirel Üniversitesi Orman Fakültesi Dergisi, 13(1), 1-4. 
 
Öztemel, E. (2003). Yapay sinir ağlari. PapatyaYayincilik, Istanbul. 
 
Probst, P., Boulesteix, A. L., & Bischl, B. (2019). Tunability: importance of 
hyperparameters of machine learning algorithms. The Journal of Machine Learning 
Research, 20(1), 1934-1965. 
 
Raschka, S. (2015). Python machine learning. Packt publishing ltd. 
 
Ribes, E., Touahri, K., & Perthame, B. (2017). Employee turnover prediction and 
retention policies design: a case study. arXiv preprint arXiv:1707.01377. 
 
Sarker, I. H. (2021). Machine learning: Algorithms, real-world applications and research 
directions. SN Computer Science, 2(3), 1-21. 
 
Shah, P., Mishra, D. K., Shanmugam, M. P., Doshi, B., Jayaraj, H., & Ramanjulu, R. 
(2020). Validation of Deep Convolutional Neural Network-based algorithm for detection 
of diabetic retinopathy–Artificial intelligence versus clinician for screening. Indian 
Journal of Ophthalmology, 68(2), 398. 
 
Sharma, A. K., & Arikawa, S. (1996). Algorithmic Learning Theory: 7th International 
Workshop, ALT'96, Sydney, Australia, October 23-25, 1996. Proceedings (Vol. 1160). 
Springer Science & Business Media. 
 
Sisodia, D. S., Vishwakarma, S., & Pujahari, A. (2017, November). Evaluation of 
machine learning models for employee churn prediction. In 2017 international 
conference on inventive computing and informatics (icici) (pp. 1016-1020). IEEE. 
 
Şenol, H., Erşan, M., & Görgün, E. (2020). Optimization of temperature and 
pretreatments for methane yield of hazelnut shells using the response surface 
methodology. Fuel, 271, 117585. 
 
Tanyıldızı, E., & Demirtaş, F. (2019, November). Hiper Parametre Optimizasyonu Hyper 
Parameter Optimization. In 2019 1st International Informatics and Software Engineering 
Conference (UBMYK) (pp. 1-5). IEEE. 
 
Tekin, E., Sarısoy, F., & Ciğerci, A. E. (2018). Shuttle Run Analysis With Image 
Processing. Artificial Intelligence Studies, 1(2), 1-12. 
 
Tolun, S. (2008). Destek vektör makineleri: Banka başarısızlığının tahmini üzerine bir 
uygulama. İktisadî Araştırmalar Vakfı. 
 
Turing, A. M. (1950). Mind. Mind, 59(236), 433-460. 
 
70 
 
Uğur, A., & Kınacı, A. C. (2006). Yapay zeka teknikleri ve yapay sinir ağları kullanılarak 
web sayfalarının sınıflandırılması. XI. Türkiye'de İnternet Konferansı (inet-tr'06), 
Ankara, 1(4). 
 
Wade, C. (2020). Hands-On Gradient Boosting with XGBoost and scikit-learn: Perform 
accessible machine learning and extreme gradient boosting with Python. Packt 
Publishing Ltd. 
 
Yang, X. S. (2019). Introduction to algorithms for data mining and machine learning. 
Academic press. 
 
Zhuang, F., Cheng, X., Luo, P., Pan, S. J., & He, Q. (2015, June). Supervised 
representation learning: Transfer learning with deep autoencoders. In Twenty-Fourth 
International Joint Conference on Artificial Intelligence. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
71 
 
ÖZGEÇMİŞ 
Adı Soyadı  : Büşra UZAK 
Doğum Tarihi : 04/05/1995 
Yabancı Dil : İngilizce 
Eğitim Durumu 
Lise  : Bursa Nilüfer Fatih Lisesi 
Lisans  : Yalova Üniversitesi-Endüstri Mühendisliği (Ana dal) 
  Yalova Üniversitesi-Bilgisayar Mühendisliği (Çift Ana dal) 
Yüksek Lisans : Uludağ Üniversitesi-Endüstri Mühendisliği (Tezli) 
Çalıştığı Kurum : Turkcell Global Bilgi- İK Veri Analitiği Uzmanı (2020-Devam) 
İletişim (e-posta) : busrauzak1@gmail.com 
72