DENGESİZ VERİ SETLERİNDE SINIFLANDIRMA PROBLEMLERİNİN ÇÖZÜMÜNDE MELEZ YÖNTEM UYGULAMASI MESTAN ŞAHİN PİR T.C. BURSA ULUDAĞ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ DENGESİZ VERİ SETLERİNDE SINIFLANDIRMA PROBLEMLERİNİN ÇÖZÜMÜNDE MELEZ YÖNTEM UYGULAMASI Mestan Şahin PİR 0000-0001-8248-0738 Doç. Dr. Duygu YILMAZ EROĞLU (Danışman) YÜKSEK LİSANS TEZİ ENDÜSTRİ MÜHENDİSLİĞİ ANABİLİM DALI BURSA– 2022 Her Hakkı Saklıdır. TEZ ONAYI Mestan Şahin PİR tarafından hazırlanan “Dengesiz Veri Setlerimde Sınıflandırma Problemlerinin Çözümünde Melez Yöntem Uygulaması” adlı tez çalışması aşağıdaki jüri tarafından oy birliği/oy çokluğu ile Uludağ Üniversitesi Fen Bilimleri EnstitüsüEndüstri Mühendisliği Anabilim Dalı’nda YÜKSEK LİSANS TEZİ olarak kabul edilmiştir. Doç. Dr. Duygu YILMAZ EROĞLU Danışman : Başkan : Doç.Dr. Duygu YILMAZ EROĞLU İmza 0000-0002-7730-2707 Bursa Uludağ Üniversitesi Mühendislik Fakültesi, Endüstri Mühendisliği Anabilim Dalı Üye : Prof. Dr. Turgay Tugay BİLGİN İmza 0000-0002-9245-5728 Bursa Teknik Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği Anabilim Dalı Üye : Doç. Dr. Tülin İNKAYA İmza 0000-0002-6260-0162 Bursa Uludağ Üniversitesi Mühendislik Fakültesi, Endüstri Mühendisliği Anabilim Dalı Yukarıdaki sonucu onaylarım Prof. Dr. Hüseyin Aksel EREN Enstitü Müdürü ../../….(Tarih) U.Ü. Fen Bilimleri Enstitüsü, tez yazım kurallarına uygun olarak hazırladığım bu tez çalışmasında; - tez içindeki bütün bilgi ve belgeleri akademik kurallar çerçevesinde elde ettiğimi, - görsel, işitsel ve yazılı tüm bilgi ve sonuçları bilimsel ahlak kurallarına uygun olarak sunduğumu, - başkalarının eserlerinden yararlanılması durumunda ilgili eserlere bilimsel normlara uygun olarak atıfta bulunduğumu, - atıfta bulunduğum eserlerin tümünü kaynak olarak gösterdiğimi, - kullanılan verilerde herhangi bir tahrifat yapmadığımı, ve bu tezin herhangi bir bölümünü bu üniversite veya başka bir üniversitede başka bir tez çalışması olarak sunmadığımı beyan ederim. 10/01/2022 İmza Mestan Şahin PİR TEZ YAYINLANMA FİKRİ MÜLKİYET HAKLARI BEYANI Enstitü tarafından onaylanan lisansüstü tezin/raporun tamamını veya herhangi bir kısmını, basılı (kâğıt) ve elektronik formatta arşivleme ve aşağıda verilen koşullarla kullanıma açma izni Bursa Uludağ Üniversitesi’ne aittir. Bu izinle Üniversiteye verilen kullanım hakları dışındaki tüm fikri mülkiyet hakları ile tezin tamamının ya da bir bölümünün gelecekteki çalışmalarda (makale, kitap, lisans ve patent vb.) kullanım hakları tarafımıza ait olacaktır. Tezde yer alan telif hakkı bulunan ve sahiplerinden yazılı izin alınarak kullanılması zorunlu metinlerin yazılı izin alınarak kullandığını ve istenildiğinde suretlerini Üniversiteye teslim etmeyi taahhüt ederiz. Yükseköğretim Kurulu tarafından yayınlanan “Lisansüstü Tezlerin Elektronik Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge” kapsamında, yönerge tarafından belirtilen kısıtlamalar olmadığı takdirde tezin YÖK Ulusal Tez Merkezi / B.U.Ü. Kütüphanesi Açık Erişim Sistemi ve üye olunan diğer veri tabanlarının (Proquest veri tabanı gibi) erişimine açılması uygundur. Doç. Dr. Duygu YILMAZ EROĞLU Mestan Şahin PİR Tarih Tarih İmza İmza Bu bölüme kişinin kendi el yazısı ile okudum anladım Bu bölüme kişinin kendi el yazısı ile okudum yazmalı ve imzalanmalıdır. anladım yazmalı ve imzalanmalıdır. ÖZET Yüksek Lisans Tezi DENGESİZ VERİ SETLERİNDE SINIFLANDIRMA PROBLEMLERİNİN ÇÖZÜMÜNDE MELEZ YÖNTEM UYGULAMASI Mestan Şahin PİR Bursa Uludağ Üniversitesi Fen Bilimleri Enstitüsü Endüstri Mühendisliği Anabilim Dalı Danışman: Doç. Dr. Duygu YILMAZ EROĞLU Günümüzde veri toplama teknolojilerinde yaşanan gelişmeler ile veriye bağlı karar destek yöntemlerine olan ilgi ve dolayısıyla veri madenciliğine ilgi arttı. Bu ilgi beraberinde farklı veri türlerinde veri madenciliği çalışmalarının yapılmasını sağladı. Günümüzde numerik ve kategorik verilerin yanında, görüntü tanıma, ses tanıma ve metin madenciliği gibi alanlarda yapılan çalışmalar ile çok sayıda bilimsel ve gerçek hayat çalışması gerçekleşti. Biyomedikal bilişim, örüntü tanıma, dolandırıcılık algılama, doğal dil işleme, tıbbi teşhis, yüz tanıma, metin sınıflandırma, arıza teşhis, anomali tespiti gibi başlıca gerçek hayat uygulama alanlarının yanında, otomom araçlar, Endüstri 4.0, insansız hava araçları gibi yeni teknolijilerde de çalışmaların sayısı arttı. Bu çalışmaların bir kısmında veri setlerinin dengesiz olması, diğer bir deyişle bir sınıf etiketinin belirgin oranda diğer sınıf/sınıflara baskın olması durumu ile karşılaşılmıştır. Bu durumda sınıflandırıcılar çoğunluk sınıfını doğru tahmin ettiği halde, azınlık verilerinde doğru tahminde bulunamamaktadır. Bu da kalite kontrol, tıbbi teşhis gibi çalışma alanlarında ciddi sorunlara yol açmaktadır. Çalışma kapsamında önerilen melez yöntem ile dengesiz verilerde sınıflandırma problemine çözüm önerilmiştir. Amaç dengesiz verilerde, aşırı örneklemenin yol açtığı aşırı uyum sorunun ve örnek azaltmanın yol açtığı değerli veri kaybının önüne geçilmesi ve başarılı sınıflandırma sonucu almaktır. İlk olarak dengesiz verinin sınıflandırılması ile ilgili yapılan çalışmalar incelendi. Sonrasında yapılan bu çalışmaların avantaj ve dezavantajlarından yararlanan yeni bir yöntem önerildi. Melez Yöntemin uygulandığı 8 veri seti farklı tip sınıflandırıcılar ile sınıflandırmış, sonuçlar dengesiz veri sınıflandırma problemlerinde sıkça kullanılan SMOTE yöntemi ile dengelenmiş veri setinin sonuçları ile karşılaştırılmıştır. Alınan sonuçlar önerilen yöntemin başarısını doğrulamıştır. Gerçek hayat verilerinde giriş kalite ve proses parametrelerinin iplik kopuşlarının tahmininde kullanılması ile yüksek doğru tahmin oranı ile ipliklerin dokumaya girmesini engelleyebilecek bir karar destek sistemi sunmuştur. Anahtar Kelimeler: Veri Madenciliği, Dengesiz Veri Setleri, Sınıflandırma, Karar Destek Sistemleri 2022, vi + 47 sayfa. i ABSTRACT MSc Thesis HYBRID METHOD APPLICATION TO SOLVE CLASSIFICATION PROBLEMS IN IMBALANCED DATASETS Mestan Şahin PİR Bursa Uludağ University Graduate School of Natural and Applied Sciences Department of Industrial Engineering Supervisor: Assoc. Prof. Dr. Duygu YILMAZ EROĞLU Today, the improvements of collecting data technologies and decisions depending on the data-based consequently increased the interest of data mining recently. This interest lead to studies in different data types. These days, besides of numeric and categorical data, visual recognition, voice recognition, text mining etc. has developed many real life and science study. In addition to the main real-life application areas such as biomedical informatics, pattern recognition, fraud detection, natural language processing, medical diagnosis, face recognition, text classification, fault diagnosis, anomaly detection, the number of studies in new technologies such as autonomous vehicles, Industry 4.0, unmanned aerial vehicles it increased. In some of these studies, it was encountered that the data sets were unbalanced, in other words, one class label was significantly dominant over the other class/classes. In this case, although the classifiers predict the majority class correctly but they cannot predict the minority class correctly. This makes serious problem on quality check, medical diagnossis etc. In this study, hybrid method proposed a solution the classification problem in imbalanced datasets. The aim is to prevent the overfitting problem caused by oversampling and valuable data loss caused by undersampling in imbalanced data, and to obtain successful classification results. Firstly, the studies on the classification of imbalanced data were examined. Then another method was proposed considering all the studies advantages and disadvantages. Hybrid method was applied to eight datasets, then these datasets were classified with different types of classifiers, and the results were compared with the results of the balanced data set with the SMOTE method, which is frequently used in imbalanced data classification problems. The obtained results confirmed the success of the proposed method. By using the input quality and process parameters in the real yarn data to predict yarn breaks, has presented a decision support system that can prevent yarns from entering the weaving with a high correct prediction rate. Key words: Data Mining, Imbalanced Datasets, Classification, Decision Support Systems 2022, vi + 47 pages. ii İÇİNDEKİLER Sayfa ÖZET.................................................................................................................................. i ABSTRACT ...................................................................................................................... ii KISALTMALAR DİZİNİ ................................................................................................ iv ŞEKİLLER DİZİNİ ........................................................................................................... v ÇİZELGELER DİZİNİ .................................................................................................... vi 1.GİRİŞ ............................................................................................................................. 1 2. KAYNAK ÖZETLERİ VE KURAMSAL TEMELLER .............................................. 3 2.1 Dengesiz Veri Setleri .................................................................................................. 3 2.1. Ön İşleme Yöntemleri ................................................................................................ 4 2.1.1 Öznitelik seçimi ................................................................................................................... 4 2.1.2 Aşırı Örnekleme ................................................................................................................... 5 2.1.3 Örnek Azaltma ..................................................................................................................... 9 2.2 Algoritma Düzeyinde Yöntemler .............................................................................. 11 2.2.1 Algoritmik yöntemler ......................................................................................................... 11 2.2.2 Maliyet tabanlı yöntemler .................................................................................................. 13 2.3 Melez Yöntemler ....................................................................................................... 14 2.4 Performans Metrikleri ............................................................................................... 17 3. MATERYAL ve YÖNTEM ........................................................................................ 21 3.1 Kullanılan Veri Setleri .............................................................................................. 21 3.2 Kullanılan Yazılım ve Paketler ................................................................................. 23 3.3 Karşılaştırmada Kullanılan Algoritmalar .................................................................. 23 3.3.1 K-en yakın komşu algoritması (KNN) ............................................................................... 23 3.3.2 Rastgele orman algoritması (RF) ....................................................................................... 24 3.3.3 Destek vektör makineleri algoritması (SVM) .................................................................... 25 3.3.4 Yapay sinir ağları algoritması (YSA) ................................................................................ 27 3.4 Veri Hazırlama .......................................................................................................... 29 3.5 Eğitim – Test Verisi Ayırma ..................................................................................... 30 3.6 Melez Aşırı Örnekleme ve Alt Örnekleme Yöntemi ................................................ 31 4. BULGULAR ............................................................................................................... 35 5. SONUÇ ....................................................................................................................... 40 KAYNAKLAR ............................................................................................................... 42 ÖZGEÇMİŞ ................................................................................................................................ 47 iii KISALTMALAR DİZİNİ Kısaltmalar Açıklama ADASYN Adaptive Synthetic Sampling Method for Imbalanced Data (Dengesiz Veriler için Uyarlanabilir Sentetik Örnekleme Yöntemi) AUC Area under the ROC Curve (ROC Eğrisinin Altındaki Alan) DBSCAN Density-based spatial clustering of applications with noise (Gürültülü Uygulamaların Yoğunluğa Dayalı Uzamsal Kümelenmesi) FNR Pozitif Sınıfa Ait Yanlış Sınıflandırılmış Örnek Oranı FPR Negatif Sınıfa Ait Yanlış Sınıflandırılmış Örnek Oranı FPR Yanlış Pozitif Oranı KNN K-Nearest Neighbors (K-En Yakın Komşu) MCC Matthews Correlation Coefficient (Matthews Korelasyon Katsayısı) RF Random Forests Algoritması ROSE Random Over Sampling (Rastgele Aşırı Örnekleme) SIMO A synthetic Informative Minority Over-Sampling (Sentetik Bilgilendirici Azınlık Aşırı Örnekleme) SLS Safe Level Smote (Güvenli Bölge Sentetik Azınlık Aşırı Örnekleme Tekniği) SMOTE Synthetic Minority Oversampling Technique (Sentetik Azınlık Aşırı Örnekleme Tekniği) SVM Support Vector Machines (Destek Vektör Makineleri) TNR Negatif Sınıfa Ait Doğru Sınıflandırılmış Örnekler Sayısı TNR Gerçek Negatif Oranı TPR Pozitif Sınıfa Ait Doğru Sınıflandırılmış Örnekler Sayısı TPR Gerçek Negatif Oranı YSA Yapay Sinir Ağları iv ŞEKİLLER DİZİNİ Sayfa Şekil 2.1. Dengesiz Veriler İçin Sınıflandırma Yaklaşımları ........................................... 4 Şekil 2.2. Öznitelik Seçimi ............................................................................................... 5 Şekil 2.3. Aşırı Örnekleme Gösterimi ............................................................................... 6 Şekil 2.4. Örnek Azaltma Gösterimi ................................................................................. 9 Şekil 2.5. Torbalama Algoritması ................................................................................... 13 Şekil 2.6. Dengesiz Veri Sınıflandırması İçin Olası Melez Kombinasyonlar ................. 15 Şekil 2.7. AUC Grafiği ................................................................................................... 20 Şekil 3.1. Random Forest ................................................................................................ 25 Şekil 3.2. Doğrusal Olarak Ayrılabilen SVM Karar Düzlemi ........................................ 26 Şekil 3.3. Biyolojik Sinir Hücresi ve Yapay Sinir Ağı ................................................... 28 Şekil 3.4. Yapay Sinir Hücresi ........................................................................................ 28 Şekil 3.5. Melez Yöntem Adımları ................................................................................. 32 Şekil 3.6. Melez Yöntem Akış Şeması ........................................................................... 34 v ÇİZELGELER DİZİNİ Sayfa Çizelge 2.1. Karmaşıklık Matrisi .................................................................................... 17 Çizelge 2.2. Performans Metrikleri Hesaplamaları ......................................................... 19 Çizelge 3.1. Veri Setleri ................................................................................................. 22 Çizelge 3.2. Kullanılan Algoritmalar ve Parametreler ................................................... 23 Çizelge 4.1. Karşılaştırmalı Sınıflandırma Sonuçları .................................................... 37 Çizelge 4.2. SIMO ve Önerilen Melez Yöntem Karşılaştırması .................................... 38 Çizelge 4.3. RusAda ve Önerilen Melez Yöntem Karşılaştırması ................................. 39 vi 1.GİRİŞ Son yıllarda gelişen veri toplama teknolojileri ve düşen maliyetler ile veri madenciliğine olan ilgi ve kullanım alanı arttı. Biyomedikal bilişim, örüntü tanıma, dolandırıcılık algılama, doğal dil işleme, tıbbi teşhis, yüz tanıma, metin sınıflandırma, arıza teşhis, anomali tespiti gerçek hayat uygulama alanlarına örnek gösterilebilir. Veri setleri arasında, nadir karşılaşılan etiketlerin tespit edilmesinin hedeflendiği problemlerin artması dengesiz veri setlerine olan eğilimi arttırmıştır. Veri setlerinin dengesiz olarak tanımlanması için bir sınır değer bulunmamaktadır. Dengesiz veri seti, bazı sınıflara ait gözlemlerin diğer sınıflara ait gözlemlere göre fazla olduğu veri setidir. Klasik sınıflandırıcılar bu veri setlerinde kullanılabilir sonuçlar vermemektedirler. Dengesiz veri setlerine odaklanan algoritmaların temel amacı doğruluk oranını artırma ve hata oranını azalmaktır. İki sınıftan oluşan, bir veri seti üzerinde analizler yapılırken, ilk sınıfa ait 90 örnek ve ikinci sınıfa ait 10 örnek mevcut ise, sınıflandırıcı tüm örnekleri ilk sınıfa atadığında dahi doğruluk oranında %90 değerini yakalayabilir. Oysa ikinci sınıfa ait hiçbir veri sınıfı doğru tahmin edilmedi. Veri setinin bir ürünün üretimine ait ret/onay durumunu verdiğini düşünüldüğünde, müşteriye 10 adet ürün hatalı şekilde gönderilecektir. Bu da dengesiz verilerin klasik sınıflandırıcılar ile çözümlenmeden önce bazı farklı yaklaşımlar ile düzenlemesinin gerekliliğini göstermektedir. Aynı zamanda dengesiz veri setleri için doğruluk oranının yeterli değerlendirme ölçütü olamayacağının diğer değerlendirme kriterlerinin de kullanılması gerektiği de gözlemlenebilir. (G-Ortalama, AUC, F-Ölçütü gibi.) Bu tez çalışmasında veri eğitim ve test verisi olarak ayrıldıktan sonra, eğitim verisine öncelikle SVM uygulanarak karar sınırına uzak çoğunluk sınıf veriler veri setinden çıkarılacaktır. Sonrasında indirgenmiş veri setinde SLS (Safe Level Smote) yöntemi kullanılarak azınlık verilerin güvenli sınırda çoğaltılması sağlanacaktır. Bu işlem veri seti dengeli hale gelinceye kadar devam edilecektir. Veri setinde sınıf dağılımı %50 ± 5 olduğunda veri setine dengeli denecektir. Yöntemin daha önce yayınlanan SIMO (A Synthetic Informative Minority Over-Sampling) ile benzer olarak bilgi verici azınlık sınıfı verileri çoğaltılırken, farklı olarak bilgi vermeyen çoğunluk sınıfı verileri veri 1 setinden çıkarmaktadır. Böylece SMOTE yönteminde rastlanan aşırı uyum, örnek azaltmada rastlanan bilgi kaybından kaçınılmaya çalışılmaktadır. Sonrasında sınıflandırma algoritmaları uygulanarak sınıflandırma başarısının arttırılması amaçlanacaktır. Çalışmada gerçek hayat verisi olarak, dokuma fabrikasında dokumaya girecek ipliklerin dokuma aşamasında kopup kopmayacağını önerilen melez yöntem ile tahmin edilmeye çalışılmıştır. Karmaşıklık matrisi üzerinden hem pozitif hem de negative sınıf performansını dikkate alması nedeniyle G-Ortalama ölçütü hesaplanarak karşılaştırmalar yapılacaktır. Çalışmanın devamında 2. bölümde dengesiz veri setleri tanımlanmış ve bunları ele alma yöntemleri incelenmiş, 3. bölümde performans metrikleri ve hesaplama yöntemleri açıklanmış, 4. bölümde önerilen metodoloji açıklanmış, 5. bölümde uygulama detayları anlatılmış, 6. bölümde ise sonuç ve önerilerde bulunulmuştur. 2 2. KAYNAK ÖZETLERİ VE KURAMSAL TEMELLER 2.1 Dengesiz Veri Setleri Belirli bir sınıf için bir veri kümesindeki gözlem sayısı diğer sınıftan daha yüksekse, sınıfın çoğunluk sınıfı olduğu söylenir. Diğer bir deyişle, belirli bir sınıf için bir veritabanındaki gözlem sayısı, aynı veritabanındaki diğer sınıftan daha azsa, sınıfın azınlık sınıfı olduğu söylenir. Bu tür veri setlerine dengesiz veri setleri adı verilir (Gong ve Kim, 2017). Dolandırıcılık tespiti (kredi kartı, telefon görüşmeleri, sigorta), tıbbi teşhis, ağ saldırı tespiti, arıza izleme, kirlilik tespiti, biyomedikal, uzaktan algılama (kara mayını, su altı mayını) ve biyoinformatik gibi birçok gerçek dünya uygulamasında dengesiz veri problem ile karşılaşılabilmektedir. Şekil 2.1’de de gösterildiği gibi dengesiz verilerde sınıflandırma probleminin çözümü üç ana başlık altında toplanmaktadır. • Ön işleme yöntemleri (veri düzeyinde) • Algoritma düzeyinde • Melez yöntemler 3 Dengesiz Veriler için Sınıflandırma Yaklaşımları Ön İşleme Algoritma Melez Yöntemler Yöntemleri Düzeyinde Örnekleme Maliyet Tabanlı Algoritma Öznitelik Seçimi Yöntemleri Öğrenme Tabanlı Yöntemleri Yöntemler CUST Örnek Azaltma Aşırı Örnekleme Melez Örnekleme Boosting Bagging Maliyet Tabanlı SVM Şekil 2.1. Dengesiz veriler için sınıflandırma yaklaşımları (Kaur ve ark., 2019) 2.1. Ön İşleme Yöntemleri 2.1.1 Öznitelik seçimi Öznitelik bir veri seti içerisinde bulunan ve hedeflenen model çıktısının oluşturulmasını sağlayacak olan her bir kolon/sütundur. Öznitelik seçimi ise, veri seti içerisinde en yararlı öznitelikleri seçme ve bulma sürecidir. Yüksek boyutlu veri kümelerinden ilgili özelliklerin veya özniteliklerin alt kümesinin seçilmesi, sınıflandırıcının performansını yükseltmeye yardımcı olur (Kaur ve ark., 2019). Şekil 2.2.’de öznitelik seçim süreci gösterilmiştir. 4 Strateji Seçimi Alt Küme Oluştur Dengesiz Veri En İyi Alt Küme Seçimi Alt Küme Değerlendirmesi Sınıflandırma Algoritması Şekil 2.2. Öznitelik Seçimi (Kaur ve ark., 2019) Öznitelik seçimi için Yin ve diğerleri (2013) tarafından yapılan çalışmada iki yeni yöntem önerilmiştir. İlk yöntemde, toplu sınıflar sözde alt sınıflara ayrılmış ve ayrıştırılmış verilerle özellikler değerlendirilmiştir. Diğer yöntem ise, sınıf bilgisi ile hesaplama maliyetini içermeyen hellinger mesafesine dayalı öznitelik seçimidir. Önerilen yaklaşım, gerçek dünya verileri kullanılarak diğer özellik seçim yöntemi ile karşılaştırılmıştır. F- ölçüsü ve AUC gibi değerlendirme ölçütlerinin sonuçlarına dayanarak önerilen yöntemin, performansının oldukça yüksek olduğu kanıtlanmıştır. Korelasyon katsayısı, ki-kare, Odds oranı, sinyal-gürültü korelasyon katsayısı, bilgi kazanımı, kurtarma, hızlı ve kayan eşik ile özellik değerlendirmesi olmak üzere sekiz öznitelik seçim yöntemini analiz eden bir çalışma yapılmıştır (Bazmara ve Jamali, 2012). Sonucunda, veri kümesindeki özelliklerin sayısına göre veri kümesi için hangi yöntemin uygun olduğunu kanıtlanmış ve dengesiz veri seti için uygun öznitelik seçim modelini seçmek için daha az zaman harcanması sağlanmıştır. 2.1.2 Aşırı Örnekleme Aşırı örnekleme Şekil 2.3.’te gösterildiği gibi, azınlık sınıfı verilerini çoğaltarak, sınıf dağılımının eşit hale getirilmesini amaçlar. 5 Rasgele aşırı örnkelme, azınlık sınıfından olan verierin rasgele seçilerek çoğaltılması ve orjinal veri setine eklenmesi ile yapılır. Bu yöntem basittir ancak tam kopyaların aşırı uyuma yol açabileceği öne sürülmüştür (Barista ve ark., 2004). Şekil 2.3. Aşırı örnekleme gösterimi En sık kullanılan aşırı örnekleme yöntemi ise SMOTE (Synthetic Minority Oversampling Technique) yaklaşımıdır (Chawla ve ark., 2002). Bu yöntemde rasgele örneklemeden farklı olarak, mevcut azınlık veriler analiz ederek sentetik veriler oluşturur. SMOTE, yeni yapay örneklerde orijinal örneklerin dağılımını gerçekten yansıtamaz. Bu nedenle SMOTE tabanlı yüksek hızda örnekleme yöntemlerini kullanırken, örneklerin dağılımında hata olabilir ve sınıflandırıcının doğruluğunu etkileyebilir. Bu durum, olasılığı artırarak örneklerin yanlış sınıflandırılmasına neden olacaktır (Zheng ve ark., 2015). Bunkhumpornpat ve ark. (2009), SLS (Safe level SMOTE) adında bir yöntem önermişlerdir. En yakın komşu azınlık örnekleri kullanılarak güvenli seviye belirlenmiş, güvenli seviye bölgesinde aynı ağırlık değerine sahip azınlık verilerini hat boyunca dikkatli bir şekilde örneklemişlerdir. SMOTE ve Borderline SMOTE den daha iyi sonuç aldıklarını çalışmada kanıtlamışlardır. 6 He ve ark. (2008) ise, sentetik örnekler oluşturmak yerine, azınlık sınıfının içindeki iki sınıf arasındaki örnekleri oluşturan ADASYN adında yeni bir yöntem önermişlerdir. Azınlık sınıfı örnekleri için üretilen sentetik verilerin öğrenilmesi daha zordur. Dolayısıyla ADASYN yöntemi, azınlık örnek sınıfları için ağırlıklı dağılımı kullanır. ADASYN, dengesizlik sınıf öğrenimini iki adımda geliştirir: birincisi, sınıf dengesizliğinin getirdiği önyargıyı azaltmaktır. İkincisi, sınıflandırma kararı sınırını karmaşık örneklere kaydırmaktır. Bu ikisi ise dinamik ağırlık ayarlamaları ve uyarlanabilir öğrenme prosedürü ile gerçekleştirilir (Amin ve ark., 2016). Rastgele karar ormanları, sınıflandırıcıların karar ağaçlarını üreten ve sınıflandırıcıların sonuçlarını doğrulayan bir topluluk yöntemi olan bir tekniktir (Ho, 1995). Ali ve ark. (2012) tarafından önerilen yöntem, torbalama fikrini ve rastgele özellik seçimini birleştirmektedir. Bölünmeyi belirlemek için sınıflandırma ve regresyon ağaçları, rastgele seçilen giriş değişkenleri arasında bir yeniden örnekleme yapar. Rastgele Ormanın avantajları, aşırı uyum probleminin üstesinden gelmesi, ağaçların budama ihtiyacını ortadan kaldırması, değişkenin önemi ve doğruluğunun üretmesi, aykırı veriler için eğitim verilerinden daha az hassas olmasıdır. Fernandez-Navarro ve ark. (2011), dengesiz veri sınıflandırmasını iki yöntemle aydınlatmak için dinamik bir aşırı örnekleme yöntem çalışmasında radyal temel işlevleri sinir ağlarını azaltan memetik bir algoritmaya dahil etmişlerdir. Bu yöntemde, sınıf dengesizliği sorununu çözmek için iki aşamada eğitim verileri yeniden örneklenir. İlk aşama, bir aşırı örnekleme tekniği kullanarak azınlık sınıfını arttırmaktan oluşur. Memetik algoritma, farklı aşamalardaki verileri aşırı örneklemekte ve minimum duyarlılık sınıfının yeni modellerini sağlamaktadır. Saez ve ark. (2016), çok sınıflı dengesizlik sorunu ve sınıf özelliklerinin analizi ile başa çıkmak için bir yüksek hızda örnekleme çalışması yapmışlardır. Bu çalışmada, her sınıftaki önemli örneklerin alt kümelerini bulur ve her biri için bağımsız olarak yüksek hızda örnekleme ile bunları ele alır. Bu metodoloji, çok sınıflı veri kümelerindeki dört farklı türde örneği tespit etmektedir: güvenli, sınırda, nadir ve aykırı değerler. Diğer bir çalışmada da, dengesiz verileri öğrenmek için rastgele otman tekniğine dayalı iki yöntem önerilmiştir (Chen ve ark., 2004). İlk yöntem olan ağırlıklı random forest, 7 azınlık sınıfına ek ağırlıklar koymuştur ve böylece azınlık sınıfının yanlış sınıflandırılmasına daha derin bir disiplin uygulanmıştır. İkinci yöntem olan dengeli rastgele orman ile, örnek azaltma çoğunluk sınıf yöntemini ve toplu öğrenme fikrini ilişkilendirir, sınıf dağılımını yapay olarak dağıtır, böylece sınıflar her ağaçta eşit olarak gösterilebilir. Literatürde, verilerden rastgele ilerlenerek sentetik örnekler oluşturma yoluyla çeşitli sınıf örneklerini dengelemek için kullanılan “Rastgele Yürüme Üstü Örnekleme” çalışması (Zhang ve Li, 2014) da yine dengesiz veri setlerini hedef alarak önerildi. Yöntem, alternatif algoritmalarla önerilen yöntemin, sentetik örnekleri oluşturmak için SMOTE’den aha az zaman harcadığı doğrulanmıştır. SIMO olarak anılan yeni bir yöntemde ise, eğitim ve test verisi olarak ayrıldıktan sonra eğirim verisi üzerine SVM uygulanarak sınıflar arası karar sınırları belirlenir (Piri ve ark., 2018). Çoğunluk sınıfına yakın azınlık değerleri Safe Level Smote yöntemi ile çoğaltılır. Amaç azınlık verisini çoğaltırken aşırı öğrenmeden kaçınmak için sadece bilgi verici azınlık verilerinin çoğaltılmasıdır. Bu işleme veri dengeli hale gelene kadar devam edilir. Sonrasında SVM yöntemi ile sınıflandırma yapılır. Çalışma sonucu G-Ortalama ölçütüne göre değerlendirilmiş, sık kullanılan SMOTE ve rastgele aşırı örnekleme gibi yöntemlere karşı başarılı sonuç göstermiştir. Krawczyk ve ark. (2019) tarafından önerilen çalışmada, çok sınıflı problemlere adanmış yeni bir veri örnekleme algoritması olan çok sınıflı radyal tabanlı yöntem ile yüksek hızda örnekleme çalışması yapıldı. Yalnızca azınlık sınıfı özelliklerini kullanan mevcut çok sınıflı yüksek hızda örnekleme yaklaşımlarının aksine, tüm sınıflardan gelen bilgileri dikkate alındı. Yapay örnek oluşturma süreci, karşılıklı sınıf dağılımının değerinin çok küçük olduğu alanları keşfederek yönlendirilir. Bu şekilde, zor veri dağıtımlarıyla başa çıkabilen ve mevcut yöntemlerin eksikliklerini hafifletebilen akıllı bir yüksek hızda örnekleme prosedürü sağlandı. Önerilen algoritmasının kullanışlılığı, kapsamlı deneysel çalışma temelinde değerlendirilmiş olup, sonuçlar kapsamlı bir istatistiksel analiz ile desteklenmiştir. 8 2.1.3 Örnek Azaltma Örnek azaltma çoğunluk sınıfına ait verilerin azaltılarak sınıf dengesinin sağlanması yöntemidir. Şekil 2.4.’de örnek azaltma yöntemi görselleştirilmiştir. Şekil 2.4. Örnek azaltma gösterimi Rasgele alt-örnekleme yöntemi, azınlık ve çoğunluk sınıfları makul bir boyuta erişene kadar çoğunluk sınıfından verileri rasgele kaldıran sezgisel olmayan bir yöntemdir. Bu veri azaltma işlemi belki de sınıflama ile ilgili yaralı bilginin de atılmasına neden olabilir (He ve ark., 2009). Örnek azaltma için önerilen diğer bir yöntemde ise, düzenlenen en yakın komşu kuralı ve komşuluk temizleme kuralı kullanılmıştır, üç yakın komşusunun en az ikisinden farklı olan herhangi bir örnek kaldırılmıştır. Bu fikre dayalı olarak, yanlış sınıflandırılan çoğunluk sınıf örneklerini kaldırılır ve gürültü olarak kabul edilir. Bu arada, bir azınlık sınıfı örneği yanlış sınıflandırılsa, onun çoğunluk sınıfına ait komşuları kaldırılır (Laurikkala, 2001). KNN algoritmasına dayalı olarak alt örnekleme yöntemi olarak önerilen bir çalışmada ise, verileri dengelemek için, her bir sınıfın temel komşu sayısına göre örnekler kaldırılmıştır (Beckmann ve ark., 2015). Önerilen algoritma 33 veri seti üzerinde test edilmiş ve 6 metot ile karşılaştırılmıştır. Diğer yöntemlerle karşılaştırılan sonuçlar, KNN alt örnekleme yönteminin geçerliliği doğrulanmıştır. Yöntem, aynı zamanda, sınıfın üst 9 üste binmesini engelleyerek karar yüzeyini temizleme işlevi görür ve gürültülü verileri temizler. Sonuçlara göre, KNN az örnekleme yönteminin dengesiz verileri dengelemek için iyi bir makine öğrenimi yaklaşımı olduğunu kanıtlamıştır. Tomek bağlantıları, sınır çizgisini ve gürültülü verileri tanımlamak için kullanılan alt örnekleme yöntemidir (Chawla, 2009). Tomek bağlantıları, örnekleme yöntemlerinin ürettiği örtüşmeyi ortadan kaldırmak için kullanılan veri temizliği için de kullanılır. Başka bir deyişle, tomek bağlantıları, karşıt sınıfların minimum mesafeli en yakın komşularının bir kombinasyonu olarak tanımlanır. Alt örnekleme yönteminde çoğunluk sınıfı örnekleri kaldırılır (He ve ark., 2009). Rao ve ark. (2012), sınıf dengesizliği problemini çözmek için görselleştirme kümeleme tekniklerinden biri olan OPTICS’i kullanan alt-örnekleme yaklaşımı ile çalışma yapmışlardır. Çoğunluk sınıfı OPTICS kümeleme tekniğini kullanarak alt örneklenir. Çoğunluk veri seti üzerinde farklı kümeleri tanımlamak için kümeleme algoritması uygulanır. OPTICS sonucu çoğunluk veri setindeki kümelerin sayısını tanımlamak için kullanılır. Zayıf veya aykırı kümeleri tanımlamak ve onları çoğunluk alt kümesinden silmek gerekir. Silme işleminin miktarı veri setinin benzersiz özelliklerine bağlıdır. Zayıf veya aykırı kümeleri çıkardıktan sonra yeni bir çoğunluk alt kümesi oluşur. Yeni çoğunluk alt kümesi ve azınlık alt kümesi yeni ve büyük bir olasılıkla dengeli veri seti oluşturmak için birleştirilir. Bu yeni oluşan dengeli veri seti temel algoritmaya uygulanır. Önerilen yöntemin ROC, F-ölçüsü, hassasiyet, gerçek pozitif oranı ve gerçek negatif oranı değerlendirme ölçülerinde klasik ve yeni yöntemlerden iyi sonuç verdiği doğrulanmıştır. Diğer bir çalışmada ise, sınıf dengesizliği sorununu ele almak için karınca kolonisi optimizasyonu fikrine dayanan sezgisel bir alt örnekleme yöntemi önerilmiştir (Yu ve ark., 2013). Algoritma, verilerdeki gürültülü verileri çıkarmak için özellik seçme yöntemiyle başlar. Seçim sıklığı temelinde, önemli ve bilgilendirici çoğunluk sınıf örnekleri projelendirilir. Önerilen yöntem, optimal olan çoğunluk denge setini sağlar. Önerilen yöntemin dezavantajı, basit örnekleme yaklaşımlarıyla karşılaştırıldığında daha fazla zaman almasıdır. 10 DBSCAN algoritması çoğunluk sınıfının uygun örneklerini seçmek için etkili bir alt örnekleme tekniği olarak önerildi (Mirzaei ve ark., 2020). Yapılan çalışmaya göre, çoğunluk sınıfından en uygun örnekler seçilir ve eğitim setini dengelemek için diğer çoğunluk sınıfı örnekler çıkarılır. On beş dengesiz veri setinin üzerindeki deneysel sonuçlar, önerilen yöntemin diğer altı ön işleme yöntemine kıyasla üstünlüğünü göstermektedir. Rastgele bir ilk seçime dayalı olarak mevcut eğitim setinden en bilgilendirici örnekleri seçmek için bir Naive Bayes sınıflandırıcısının kullanımından yararlanan bir örnek azaltma yaklaşımı Aridas ve diğerleri (2019) tarafından önerildi. Yöntem, küçük tabakalı bir başlangıç eğitim setinde bir Naive Bayes sınıflandırma modelini öğrenerek başlar. Daha sonra, modelin en belirsiz olduğu örneklerle temel modelini yinelemeli olarak öğretir ve bazı kriterler karşılanana kadar onu yeniden dener. Çalışma sonuçları, önerilen örnekleme yönteminin, birkaç uygun metrikle ilgili olarak ve uygun bir istatistiksel test prosedürü gerçekleştirerek, diğer yeniden örnekleme tekniklerinin aksine karşılaştırılabilir sınıflandırma performansına ulaştığını göstermiştir. 2.2 Algoritma Düzeyinde Yöntemler Algoritmik düzeyde yöntemler genellikle iç yaklaşım olarak adlandırılır, çünkü yeni sınıflandırma algoritma tasarımını kullanır veya dengesiz veriler tarafından üretilen önyargıların üstesinden gelmek için mevcut algoritmaların geliştirilmesi ile ortaya çıkmışlardır (Spelmen ve Porkodi, 2018). Algoritmik yöntemler ve maliyet tabanlı yöntemler olarak ikiye ayrılırlar. 2.2.1 Algoritmik yöntemler Dengesiz veri sınıflandırma problemlerini çözmek için yeni algoritmalar oluşturmak ya da mevcut algoritmaları dengesiz veri setleri için geliştirme yaklaşımları algoritmik merkezli yaklaşımlar olarak adlandırılırlar. Küme tabanlı örnek azaltma yöntemi, rasgele örnek azaltmaya alternatif olarak küme tabanlı örnek azaltma yöntemi önerilmiştir (Zhang ve ark., 2010). Küme tabanlı az örnekleme yönteminde eğitim veri seti n sayıda kümeye bölünmüştür. Ardından, ayrılan 11 kümelerden doğru örnekler seçilmiştir. Bu yöntemin arkasındaki temel fikir, eğitim veri alanının n farklı kümeye ayrılması ve her kümenin ayırt edilebilir özellikler ortaya koymasıdır. Kümelenmeye dayalı farklı bir örnek azaltma tekniğinde ise ilk olarak, eğitim veri setinden çoğunluk sınıfında bulunan gürültülü ve güvenilmez örnekler silinerek temizlenmiştir (Sowah ve ark., 2016). Daha sonra, çoğunluk sınıftaki örneklerin geri kalanı n kümeye bölünmüştür. Deney, diğer mevcut algoritmalardan daha iyi sonuçlar veren iki makine öğrenme algoritması C4.5 Karar Ağacı ve OneR kullanılarak, sınıf dengesizliği problemi olan 16 kıyaslama veri seti üzerinde doğrulanmıştır. Torbalama metodu, var olan bir eğitim setinden yeni eğitim setleri türeterek temel öğreniciyi yeniden eğiten bir yöntemdir. Bagging’de amaç, yeni veri setleri türeterek farklılıkları oluşturmak ve bu sayede toplam sınıflandırma başarısını artırmaktır (Kaur ve ark., 2019). Şekil 2.5, dengesiz veri sınıflandırmasının üstesinden gelmek için torbalama algoritmasının genel fikrini temsil etmektedir. 12 Şekil 2.5. Torbalama algoritması (Kaur ve ark., 2019) Varyansı ve önyargıyı ortadan kaldırmak için çalışan makine öğrenimi topluluğu meta algoritması Boosting olarak adlandırılır. Etkili ve doğru tahmin kuralları, çeşitli zayıf ve yanlış verileri modele entegre ederek oluşturulur. Yanlış ve zayıf sınıflandırma sonuçlarına sahip verilere ait kuralları aramanın, doğru tahmin kuralıyla karşılaştırıldığında çok daha basitleştirilmiş olduğu bu yöntemde ileri sürülmektedir. 2.2.2 Maliyet tabanlı yöntemler Maliyete duyarlı öğrenme teknikleri, yanlış sınıflandırılmış örneklerle ilişkili maliyeti bulan maliyete özgü tekniklerdir. Genellikle, bunlar yanlış sınıflandırma maliyetini araştırmaya götürür. Örnekleme yöntemlerine kıyasla, maliyete duyarlı öğrenme yöntemleri, yanlış sınıflandırma maliyetinin verilerden belirlenememesi ve maliyetleri belirlerken zorluk çıkması nedeniyle daha az popülerdir. Örnekleme yöntemlerinin uygulanması kolaydır. Ancak maliyete duyarlı öğrenme, hesaplama açısından daha etkili bir tekniktir. 13 Yapılan bir çalışmada en iyi özellik alt kümesini, içsel parametreleri ve yanlış sınıflandırma maliyet parametrelerini eşzamanlı olarak optimize ederek sınıflandırma performansını iyileştirmek için doğrudan maliyete duyarlı SVM'nin hedef işlevine değerlendirme ölçüsünü (AUC ve G-ortalama) dahil eden bir algoritma önerildi (Cao ve ark., 2013). Dhar ve Cherkassky (2014), SVM tabanlı çalışmalarında, U-SVM formülasyonunu farklı yanlış sınıflandırma maliyetleri olan sorunlara genişletmiş ve maliyete duyarlı U-SVM'yi dengesiz veri setleri için önermişlerdir. Çok hedefli bir uyarlanabilir özellik seçim ölçüsü ve karar ağaçlarını oluşturmak ve test etmek için basit ama etkili bir çalışmada, diğer birçok karar ağacı öğrenme algoritması gibi açgözlü bir öznitelik seçim ölçüsü kullanmak yerine, algoritma ağaçtaki her düğümde test etmek üzere uygun bir öznitelik bulmak için rastgele bir öznitelik seçim ölçüsü kullanıldı (Qiu ve ark., 2017). Çalışmada, spesifik olarak, ağaç oluşturmadaki tüm nitelikler alanında rastgele bir arama yapılır ve ortaya çıkan model rastgele seçilmiş karar ağacı olarak adlandırılır. Bu şekilde, yöntem toplam test maliyetini önemli ölçüde düşürürken aynı zamanda rakiplerine kıyasla daha yüksek sınıflandırma doğruluğunu korur. 2.3 Melez Yöntemler Melez yöntemler ön işleme ve algoritma düzeyinde yöntemlerinin birleştirişmesi ile oluşmuş yöntemlerdir. Amaç sınıf degensizliği probleminin üstesinden gelmek ve daha iyi doğruluk sonuçlarına ulaşmaktır. Melez yöntemlerin olası çalışma kombinasyonları Şekil 2.6’ da gösterilmiştir. 14 Şekil 2.6. Dengesiz veri sınıflandırması için olası melez kombinasyonlar (Kaur ve ark., 2019) Hastane enfeksiyonunun tespiti için yapılan bir çalışmada, pozitif veya enfekte (% 11) ve negatif (% 89) vakalar arasındaki önemli dengesizlik bulunmaktadır. Sınıf dengesizliğini gidermek için; - Hem nadir pozitiflerin yüksek hızda örneklemesinin hem de enfekte olmayan çoğunluğun örnek azaltması yoluyla oluşturulan sentetik vakalara (prototipler) dayandığı yeni bir yeniden örnekleme yaklaşımı, - Pozitif vakaların tanınmasını arttırmak için asimetrik kenar boşluklarının ayarlandığı destek vektör makinelerinin kullanıldığı algoritma önerildi (Cohen ve ark., 2006). Sonuçlar IB1, Naive Bayes, C4.5 ve AdaBoost algoritmaları ile kıyaslanmış ve daha başarılı olduğu doğrulanmıştır. Diğer bir melez yöntemde, dengesiz veri setinde azınlık türünün sınıflandırılmış performansını etkili bir şekilde geliştirmek için, K-ortalamaları kümesine ve genetik algoritmaya dayalı bir tür azınlık örnekleme yöntemi önerildi (Yong, 2012). Azınlık örnek türünü kümelemek ve gruplamak için K-ortalamaları algoritması kullanıldı ve her kümede yeni örneği elde etmek ve geçerli onayı devam ettirmek için genetik algoritma kullanıldı. Metodun geçerliliği, KNN ve SVM sıralayıcı kullanılarak simülasyon deneyi ile kanıtlanmıştır. Dengesizlik sınıflandırma sorununu ele almak için RHSBoost geliştirilen toplu sınıflandırma yönteminde bir güçlendirme şeması altında rastgele alt örnekleme ve rastgele aşırı örnekleme yöntemi kullanır (Gong ve Kim, 2017). Deneysel sonuçlara göre, 15 RHSBoost, dengesizlik verileri için başarılı bir sınıflandırma modeli olarak görünmektedir. Yapılan başka bir çalışmada ise kompakt ve doğru bir model elde etmek için bilgi tabanının yapısının hiyerarşik bir şekilde genişletilmesi ve bir genetik kural seçim sürecinin kullanılması yoluyla basit bir dilbilimsel bulanık modelin iyileştirilmesine dayanan hiyerarşik bulanık kurala dayalı bir sınıflandırma sisteminin (HFRBCS) kullanılması önerilmiştir (Fernandez ve ark., 2009). Rastgele düşük örneklemeyi torbalama algoritması ile birleştiren, en basit ve en doğru topluluklardan biri olan RUSBoost'u temel alan yeni bir topluluk oluşturma algoritması olan EUSBoost Galar ve ark. (2013) tarafından geliştirilmiştir. Bu çalışma evrimsel düşük örnekleme yaklaşımının kullanılmasıyla temel sınıflandırıcıların performansını artıran mevcut önerileri iyileştirmeyi amaçlamıştır. Ayrıca, her bir temel sınıflandırıcıyı eğitmek için çoğunluk sınıfı örneklerinin farklı alt kümelerinin kullanımını destekleyen çeşitliliği teşvik etmiştir. Algoritma iki sınıflı dengesiz problemlere odaklanmıştır. Sonuçlar RusBoost yönteminin sonuçları ile karşılaştırılmış ve daha başarılı sonuçlar verdiği doğrulanmıştır. Ramentol ve ark. (2016), SMOTE-FRST adında yeni bir dengesiz öğrenme ön işleme algoritması önermişlerdir. Çalışmada SMOTE tarafından sunulan sentetik azınlık örneklerini ve gerçek çoğunluk örneklerini temizlemek için iki farklı eşiği kullanarak bulanık kaba küme teorisine (FRST) dayalı bir örnek seçimi stratejisi ile birleştirilmiştir. Diğer bir çalışmada SMOTE ve parçacık sürüsü optimizasyonu destekli radyal temel işlevi sınıflandırıcısını birleştirerek iki sınıflı dengesiz sınıflandırma problemleri için güçlü bir yöntem önerilmiştir (Gao ve ark., 2011). Sonuçlar dört farklı veri seti üzerinde, üç yöntem ile karşılaştırılmış ve başarılı olduğu doğrulanmıştır. SVM modellemesine, maliyete duyarlı öğrenme, aşırı ve az örnekleme dahil olmak üzere farklı "yeniden dengeleme" yöntemlerini dahil edilen bir çalışma yapıldı. Bu çalışmada önerilen dört SVM tabanlı algoritmadan GSVM-RU algoritması hem etkinlik hem de verimlilik açısından en etkili olanıdır (Tang ve ark., 2008). GSVM-RU, örnek azaltma 16 sürecinde veri temizlemenin olumlu katkısını en üst düzeye çıkarırken bilgi kaybının olumsuz etkisini en aza indirebildiği için etkilidir. İki sınıflı dengesiz veri setlerinin sınıflandırma problemini çözmek için yapılan başka bir çalışmada, ilk olarak SMOTE ile azınlık örneklerinin sayısı arttırılmış, OSS (One Side Selection) yöntemi ile de çoğunluk sınıfı örnekleri azaltılmıştır (Cao ve Zhai, 2015). Çalışmada, sınıflandırıcı olarak ise SVM kullanılmıştır. 2.4 Performans Metrikleri Model seçimi ve model değerlendirme, makine öğreniminde iki önemli süreçtir. Bu nedenle performans ölçümleri, bir sınıflandırıcının hem etkililiğini değerlendirmek hem de öğrenmesine rehberlik etmek için temel göstergelerdir (Haixiang ve ark., 2017). Sınıflandırma problemlerinde çoğunlukla doğruluk değerlendirme ölçütü olarak kullanılır ancak bu ölçüt dengesiz veri setlerinde tek ölçüt olarak kullanılmamalıdır. %10 azınlık ve %90 çoğunluğa sahip bir veri setinde tüm azınlık sınıfları yanlış da tahmin edilse doğruluk oranı %90 olacaktır. Ancak bu oran modelin başarısının yanlış yorumlanmasına neden olabilir. Sınıflandırma problemlerinde değerlendirme için genellikle karmaşıklık matrisi kullanılmaktadır. Çizelge 2.1’de karmaşıklık matrisi gösterilmiştir (Sarmanova, 2013). Çizelge 2.1. Karmaşıklık Matrisi TP: pozitif sınıfa ait doğru sınıflandırılmış örneklerin sayısı. TN: negatif sınıfa ait doğru sınıflandırılmış örneklerin sayısı. FP: negatif sınıfa ait yanlış sınıflandırılmış örneklerin sayısı. 17 FN: pozitif sınıfa ait yanlış sınıflandırılmış örneklerin sayısı • Doğruluk; herhangi bir sınıflandırma modeli için, olası tüm toplam örnekler arasında doğru tahmin edilen örneklerin sayısını ölçer. 2.1 numaralı formülde doğruluk oranı gösterilmiştir. TP+TN 𝐷𝑜ğ𝑟𝑢𝑙𝑢𝑘 𝑂𝑟𝑎𝑛𝚤 = (2.1) TP+FN+FP+TN • Duyarlılık; bir model tarafından doğru bir şekilde tahmin edilen olumlu örneklerin ölçüsüdür. 2.2 numaralı formül ile hesaplanmaktadır. Bazen gerçek pozitif oranı (TPR) olarak da adlandırılır ve başka bir değerlendirme metriğine, yani anma'ya eşdeğerdir. TP Duyarlılık (Gerçek Pozitif Oranı) = (2.2) TP+FN • Özgüllük; bir model tarafından doğru bir şekilde tahmin edilen olumsuz örneklerin ölçüsüdür. Bazen gerçek negatif oranı (TNR) olarak da adlandırılır. 2.3 numaralı formül ile hesaplanmaktadır. TN Ö𝑧𝑔ü𝑙𝑙ü𝑘 (𝐺𝑒𝑟ç𝑒𝑘 𝑁𝑒𝑔𝑎𝑡𝑖𝑓 𝑂𝑟𝑎𝑛𝚤) = (2.3) TN+FP • Kesinlik; gerçek pozitiflerin (TP) tahmin edilen toplam pozitif örnek sayısına oranı olarak tanımlanır. 2.4 numaralı formül ile hesaplanmaktadır. TP 𝐾𝑒𝑠𝑖𝑛𝑙𝑖𝑘 = (2.4) TP+FP • F-ölçüsü; hem gerçek pozitif oranı (True Positive Rate TPR) hem de kesinliği değerlendirir, özellike öğrenme doğruluğu pozitif sınıf üzerinde odaklanır, 2.5 numaralı formül ile hesaplanmaktadır. Diğer bir deyişle, F-ölçütü, anma ve kesinlik arasındaki bir harmonik ortalamadır. 2×𝐾𝑒𝑠𝑖𝑛𝑙𝑖𝑘×𝐴𝑛𝑚𝑎 𝐹 − Ölçütü = (2.5) Kesinlik+Anma 18 • G-Ortalama; hem pozitif sınıf hem de negatif sınıf performansını dikkate alır ve onları birleştirmek için geometrik ortalamayı kullanır. 2.6 numaralı formül ile hesaplanmaktadır. Yüksek G-Ortalama değeri, hem pozitif sınıfı hem de negatif sınıf için yüksek tahmin doğruluğuna sahip olduğu zaman elde edilebilir. 𝐺 − 𝑂𝑟𝑡𝑎𝑙𝑎𝑚𝑎 = 𝑇𝑃 𝑇𝑁√ × (2.6) 𝑇𝑃+𝐹𝑁 𝑇𝑁+𝐹𝑃 Çizelge 2.2’de performans metriklerinin hesaplanması çizelge olarak verilmiştir. Çizelge 2.2. Performans metrikleri hesaplamaları Metrik Hesaplama F-Ölçütü (2×Kesinlik×Anma)/(Kesinlik+Anma) G-Ortalama √ TPR×TNR Gerçek Pozitif Oranı TP/(TP+FN) Yanlış Pozitif Oranı FP/(FP+TN) Gerçek Negatif Oranı TN/(TN+FP) Kesinlik TP/(TP+FP) Anma TPR • Alıcı çalışma karakteristiğinin (ROC) eğri altındaki alan (AUC), özellikle ikili sınıflandırıcılar için dengesiz sınıf varlığında genel bir değerlendirme tekniği olarak sıkça kullanılır. AUC grafiği Şekil 2.7’de gösterilmiştir. ROC eğrisi, çeşitli karar eşikleri boyunca gerçek pozitif oranı (TPR) ile yanlış pozitif oranı (FPR) arasındaki olası tüm çatışmaları gösterir ve AUC değerlendirme metriği, bu eğriyi [0,5, 1] aralığında bir değere dönüştürür, burada 1 değeri, mükemmel bir sınıflandırıcıyı gösterir. 0,5 değeri ya da daha düşük değerler, sınıflandırıcının rastgele tahminden daha iyi çalışmadığı anlamına gelir. 19 Gerçek Negatif Oranı Şekil 2.7. AUC grafiği (ROC altında kalan alan) (Sarmanova, 2013) • MAUC; AUC'yi çok sınıflı problemlere genişletmek açık bir araştırma konusu olsa da, tüm sınıf çiftlerinin AUC değerinin ortalamasını alan MAUC ölçüsü (Haixiang ve ark., 2017), çoğunlukla araştırmalarda çok sınıflı dengesiz veri öğrenmede kullanılır ve 2.7 numaralı formül ile gösterilir; 2 𝑀𝐴𝑈𝐶 = ∑𝑖<𝑗 𝐴(𝑖, 𝑗) (2.7) C(C−1) C = sınıf sayısı A (i, j) = sınıf i ve sınıf j arasındaki AUC'dir. • MCC (Matthews Correlation Coefficient), Matthews korelasyon katsayısında çıktı değeri -1 ile +1 arasında değişmektedir. 0 değeri rastgele sınıflandırma durumunu, -1 değeri sınıflandırmanın başarısız olduğunu, +1 ise sınıflandırma başarısının tam doğru olduğunu göstermektedir (Matthews, 1975). MCC 2.8 numaralı formül ile hesaplanmaktadır. 𝑇𝑃×𝑇𝑁−𝐹𝑃×𝐹𝑁 𝑀𝐶𝐶 = (2.8) √(𝑇𝑃+𝐹𝑃)×(𝑇𝑃+𝐹𝑁)×(𝑇𝑁+𝐹𝑃)×(𝑇𝑁+𝐹𝑁) Bu çalışmada hem pozitif sınıf hem de negatif sınıf performansını dikkate alan G- Ortalama değerlendirme ölçütü olarak kullanılacaktır. 20 Gerçek Pozirif Oranı 3. MATERYAL ve YÖNTEM Piri S. ve ark. (2018) tarafından yapılan çalışmada önerilen SIMO yönteminde veri eğitim ve test verisi olarak ayrıldıktan sonra eğitim verisi üzerine SVM uygulanarak sınıflar arası karar sınırları belirlenmiştir. Çoğunluk sınıfına yakın azınlık değerleri SLS yöntemi ile çoğaltılmıştır. Amaç azınlık verisini çoğaltırken aşırı öğrenmeden kaçınmak için sadece bilgi verici azınlık verilerinin çoğaltılmasıdır. Bu işleme veri dengeli hale gelinceye kadar devam edilmiştir. Sınıflandırıcı olarak SVM yöntemi kullanılmıştır. Sonuçlar G- Ortalama ölçütüne göre değerlendirilmiş, klasik örnekleme yöntemlerinden başarılı sonuç verdiği doğrulanmıştır. Bu çalışmada, eğitim verisine önce SVM uygulanarak karar sınırına uzak çoğunluk sınıf verileri veri setinden çıkarılmıştır. Sonrasında örnek azaltma işlemine uğrayan veri, hala dengeli değil ise SLS yöntemi ile azınlık verilerinin güvenli sınırda çoğaltılması sağlanmıştır. Bu işlem veri seti dengeli hale gelinceye kadar devam edilmiştir. Tez kapsamındaki çalışmanın SIMO dan farkı, SIMO da sadece bilgi verici azınlık sınıfı verileri çoğaltılırken, önerdiğimiz yöntemde azınlık sınıfının çoğaltılmasının yanında, bilgi vermeyen çoğunluk sınıfı verileri çıkarılarak örnek azaltmada problem olan değerli veri kaybı önlenmeye çalışılmıştır. Böylece SMOTE de karşılaşılan aşırı uyum sorununun önüne geçilmeye çalışılmış, rastgele örnek azaltma yönteminde rastlanan değerli veri kaybının önüne geçilmeye çalışılmıştır. Sonrasında sınıflandırma algoritmaları uygulanarak sınıflandırma başarısının arttırılması amaçlanmıştır. 3.1 Kullanılan Veri Setleri Çalışma kapsamında kullanılan veri setleri Kaggle ve UCI veri havuzundan alınmıştır, 1 adette gerçek hayat verisine yer verilmiştir. Veri setleri, karşılaştırma yapabilmek için literatür taramasında benzer çalışmalarda kullanılan veri setleri arasından seçilmiştir. Verilerde min-max normalizasyon işlemi uygulanmıştır. Veri setlerine ait özet bilgi Çizelge 3.1’de gösterilmiştir. 21 Çizelge 3.1. Veri setleri Öznitelik Gözlem Pozitif Negatif Dengesizlik Veri Setleri Sayısı Sayısı Sınıf Sınıf Oranı (Np/Nn) Climate 21 594 494 46 10,74 Diabetes 9 768 500 268 1,87 Liver 11 583 416 167 2,49 Haberman 4 305 224 81 2,77 Transfusion 5 748 570 178 3,20 Ionosphore 32 351 225 126 1,79 Column_2c 7 310 210 100 2,10 TexYarn 8 979 937 42 22,31 Gerçek Veri Seti: TexYarn: Bir dokuma firmasının gerçek verilerinin bulunduğu veri seti, dokumaya gidecek olan ve tedarikçiden temin edilen ipliğin kalite kontrol aşamasında ve kontrol sonrası onay aldıktan sonraki süreçlerdeki proses parametreleri ile işlem gördükten sonra dokuma aşamasında kopup kopmayacağını tahmin etmeye çalışacaktır. Buna göre, eğer işlem görmüş iplik kopacak olarak etiketlenirse, dokuma aşamasına girmeyecek ve böylece verimlilik kaybı engellenmiş olacaktır. Veri setindeki öznitelikler ve açıklamaları aşağıdaki gibidir: 1. Giriş Kontrol Parametreleri: Aşağıdaki öznitelikler, tedarikçiden gelen iplik lotlarına, kalite kontrol aşamasında uygulanan testlerdir. Sadece belirlenen aralıklardaki değerleri gerçekleyebilen iplikler üretim alanına alınabilir. a. Kaynama Çekme (Değerler;1,4 – 67 aralığında değişmektedir.) b. Kopma Yükü (Değerler;124,19 – 2329,2 aralığında değişmektedir.) c. Mukavemet (Değerler;1,4 – 4,85 aralığında değişmektedir.) d. Numara Denye (Değerler;30 – 673 aralığında değişmektedir.) e. Uzama (Değerler;14 – 221,84 aralığında değişmektedir.) 2. Üretim Parametreleri: Aşağıdaki öznitelikler, iplik lotlarının üretim alanına alındıktan sonra, dokuma aşamasına geçmeden önceki süreçlerde gördüğü işlemlerdeki proses parametrelerini göstermektedir. 22 a. Bekleme Süresi (Değerler; 30 – 50 aralığında değişmektedir.) b. İplik Fikse Sıcaklık (Değerler; 80 – 122 aralığında değişmektedir.) Bu veri setinde amaç, bahsi geçen 7 özniteliği kullanarak dokumaya girmeden önce ipliğin kopup kopmayacağını tahmin etmek olacaktır. Önerilecek karar destek sistemi ile kopuş yaşayacak ipliklerin üretime girmesi engellenerek verimlilik artışı sağlanabilecektir. 3.2 Kullanılan Yazılım ve Paketler Uygulamada istatiksel yazılım geliştirme ve veri analizi programı olan R programının “R i386 4.0.3” versiyonu kullanılmıştır (Anonim, 2020). Kullanılan paketler ve parametre değerleri Çizelge 3.2’de özetlenmiştir. Çizelge 3.2. Kullanılan algoritmalar ve parametreler Algoritma R paketi Parametreler kernel= Radial/Linear; sigma=0.01,0.015 ; SVM e1071 C=0.75,1,1.25 KNN class k=1:20;preProc= "center","scale" RF randomForest mtry= 1:10; method='rf'; metric= 'Accuracy' YSA nnet decay = 0.001,0.01, 0.1; size = 1:10 SLS smotefamily K=5; C=5 3.3 Karşılaştırmada Kullanılan Algoritmalar 3.3.1 K-en yakın komşu algoritması (KNN) 1951 yılında Evelyn Fix ve Joseph Hodges tarafından önerilen K-En yakın komşu algoritmasının çalışma mantığını en basit şekilde özetleyen cümle “Bana arkadaşını söyle sana kim olduğunu söyleyeyim.” şeklindedir. Algoritma test verisine en yakın K adet komşuyu bulup, bu komşulukta baskın olan sınıfı etiketini test verisine sınıf etiketi olarak atar. 23 K sayısı komşuluk sayısını ifade eder, uzaklık için farklı uzaklık ölçüm kriterleri mevcuttur. K sayısının küçük bir değer olması aşırı öğrenmeye, yüksek bir değer olması ise genellemeye yol açar. Uzaklık ölçüm kriterleri (Balaban ve Kartal, 2015); n adet nitelik, 𝑎𝑟(𝑥𝑖,𝑗) x’in r. niteliğindeki değerini ve 𝑥𝑖 , 𝑥𝑗 gibi iki örnek arasındaki uzaklık olmak üzere; • Öklid uzaklığı 3.1 numaralı formül ile gösterilmiştir. 𝑑 𝑛 2ö𝑘𝑙𝑖𝑑(𝑥𝑖, 𝑥𝑗) = √∑𝑟=1(𝑎𝑟(𝑥𝑖 ) − 𝑎𝑟(𝑥𝑗)) (3.1) • Manhattan uzaklığı 3.2 numaralı formül ile gösrerilmiştir. 𝑑 𝑛𝑚𝑎𝑛ℎ𝑎𝑡𝑡𝑎𝑛(𝑥𝑖, 𝑥𝑗) = ∑𝑟=1|𝑎𝑟(𝑥𝑖) − 𝑎𝑟(𝑥𝑗)| (3.2) • Hamming uzaklığı 3.3 numaralı formül ile gösterilmiştir. 𝑑 𝑛ℎ𝑎𝑚𝑚𝑖𝑛𝑔(𝑥𝑖, 𝑥𝑗) = ∑𝑟=1 I(𝑎𝑟(𝑥𝑖) , 𝑎𝑟(𝑥𝑗)); I(x, y) (3.3) 0, 𝑒ğ𝑒𝑟 𝑥 = 𝑦 = { 1 𝑒ğ𝑒𝑟 𝑥 ≠ 𝑦 • Kosinüs uzaklığı 3.4 numaralı formül ile gösterilmiştir. 𝑥 .𝑥 𝑑𝑘𝑜𝑠𝑖𝑛ü𝑠(𝑥𝑖, 𝑥 ) = 𝑖 𝑗 𝑗 = cos 𝜃 (3.4) ‖𝑥𝑖‖‖𝑥𝑗‖ 3.3.2 Rastgele orman algoritması (RF) Random Forests (rastgele ormanlar) algoritması, her ağacın bağımsız olarak örneklenen rastgele bir vektörün değerlerine bağlı ve ormandaki tüm ağaçlar için aynı dağılıma sahip olduğu, ağaç tahmin edicilerinin bir kombinasyonudur. Şekil 3.1 de RF algoritmasının gösterimi bulunmaktadır. Denetimli bir sınıflandırma algoritmasıdır. Sınıflandırma sonucu karar ağaçlarının çoğunluk oylaması ile belirlenir. RF için genelleme hatası, 24 ormandaki ağaç sayısı arttıkça bir sınıra yakınsamaktadır. Bir ağaç sınıflandırıcı ormanının genelleme hatası, ormandaki tek tek ağaçların gücüne ve aralarındaki korelasyona bağlıdır. Dahili tahminler hatayı, gücü ve korelasyonu izler ve bunlar, bölmede kullanılan özelliklerin sayısını artırmaya verilen yanıtı göstermek için kullanılır. Dahili tahminler değişken önemini ölçmek için de kullanılır (Breiman, 2001). Şekil 3.1. Rastgele orman algoritması 3.3.3 Destek vektör makineleri algoritması (SVM) Destek vektör makineleri iki veri sınıfını birbirinden ayırabilecek en iyi karar sınırı/hiper düzlem bulmayı amaçlayan bir sınıflandırma algoritmasıdır. Hiper düzlemin geniş olması iki sınıfın daha kolay şekilde birbirinden ayrılmasına olanak sağlar (Boser ve ark., 1992). SVM doğrusal olarak ayrılabilen ve doğrusal olarak ayrılamayan olaran iki grupta incelenmektedir. • Doğrusal olarak ayrılabilen SVM; 25 Bu durumda verileri iki sınıfa ayırabilmek için kullanılabilecek doğrusal bir hiper düzlem vardır. Hiper düzlem 3.5 numaları formül ile bulunabilmektedir, x girdi vektörü, w hiper düzlemde ağırlık vektörü ve b sapma olmak üzere karar sınırları; 𝑤𝑥 + 𝑏 = 0 (3.5) Marjini en büyükleme 3.6 numaralı formülde gösterildiği gibi bulunmaktadır. 2 𝑚𝑎𝑟𝑗𝑖𝑛 = 2 (3.6) ‖?⃗⃗? ‖ Kısıtlar 3.7 numaralı formülde gösterilmiştir. 1 , 𝑒ğ𝑒𝑟 ?⃗⃗? . 𝑥⃗⃗ ⃗ + 𝑏 ≥ 1 𝑓(⃗⃗𝑥 ⃗𝑖) = { 𝑖 (3.7) −1, 𝑒ğ𝑒𝑟 ?⃗⃗? . 𝑥⃗⃗ ⃗𝑖 + 𝑏 ≤ −1 Şekil 3.2. Doğrusal olarak ayrılabilen SVM karar düzlemi • Doğrusal olarak ayrılamayan SVM; Gerçek dünyada karşılaşılan sorunların büyük bir kısmı, veri setini doğrusal bir şekilde ayırabilecek tek bir hiper düzlemin olmadığı verileri içermektedir. Bu sorunu çözmek için, veriler nispeten daha yüksek boyutlu bir uzaya eşlenir ve sonra orada bir hiper düzlem tanımlanır (Maglogiannis, 2007). 3.8 numaralı formülde eşleme çözümünde SVM formülü verilmiştir. 26 𝑦𝑖 = çıktı etiketi olmak üzere 3.8 numaralı denklem Lagrange çarpanları yöntemi ile çözüldüğünde, (∥ 𝑤 ∥)2 min 2 𝑦𝑖(𝑤𝑥 + 𝑏) ≥ 1𝑦𝑖 ∈ (−1,+1) (3.8) 1 𝐿𝑝(𝑤, 𝑏, 𝑎) = ∥ 𝑤 ∥ − ∑ 𝑙 𝑖=1 𝑎𝑖[𝑦𝑖(𝑤𝑥 + 𝑏) − 1] 2 Bu durumda sınıflandırma fonksiyonu formül 3.9’daki gibi olacaktır. 𝑓(𝑥) = 𝑠𝑔𝑛((𝑤𝑥𝑖) + b) = sgn(∑ 𝑖 𝑖=1 𝑦𝑖 𝑎𝑖𝜑(𝑥𝑖)𝜑(𝑥𝑗) + 𝑏) (3.9) Doğrusal olarak ayrılamayan SVM'de, hesaplanması gereken miktarlar (𝑥𝑖)𝜑(𝑥𝑗), temel özellikleri olan skaler çarpımlardır. Buna kernel fonksiyonu (K) denmektedir. Kernel fonksiyonu kullanıldığında SVM 3.10 numaralı formülde gösterildiği gibi formüle edilecektir. 𝑓(𝑥) = sgn(∑𝑖𝑖=1 𝑦𝑖 𝑎𝑖𝐾(𝑥𝑖, 𝑥𝑗) + 𝑏) (3.10) Çalışmalarda Radial Basis ve Sigmoid kernel sıkça kullanılmaktadır. Bu kerneller 3.11 ve 3.12 nolu formüller ile gösterilmiştir (Akın ve Terzi, 2021). 𝑅𝑎𝑑𝑖𝑎𝑙 𝐵𝑎𝑠𝑖𝑠 ∶ 𝐾(𝑋𝑖, 𝑋𝑗) = 𝑒 (3.11) 𝑆𝑖𝑔𝑚𝑜𝑖𝑑 𝐾𝑒𝑟𝑛𝑒𝑙𝑖: 𝐾(𝑋𝑖, 𝑋𝑗) = tanh(𝑘𝑋𝑖, 𝑋𝑗 − 𝛿) (3.12) Bu çalışmada SVM doğrusal ve Radial Basis kernel için ayrı ayrı denenmiştir. 3.3.4 Yapay sinir ağları algoritması (YSA) Yapay sinir ağları ilk olarak Warren McCulloch ve Walter Pitts tarafından önerilmiştir. Yapay sinir ağları insan beyninin çalışma prensibini taklit ederek öğrenme sürecinin matematiksel olarak modellenmesidir. Bu yol ile öğrenme, hatırlama, genelleme yapma yolu ile topladığı verilerden yeni veri üretebilme gibi temel işlevleri yapabilmektedir (McCullock ve Pitts, 1956). Şekil 3.3’te biyolojik sinir ağları ile yapay sinir ağları arasındaki benzerlik gösterilmiştir. 27 Şekil 3.3. Biyolojik sinir hücresi ve yapay sinir ağı (Maltarollo ve ark., 2013) Şekil 3.4’de gösterildiği gibi, Girilen n adet veri ağırlıklarla çarpılır ve tüm veriler toplanır, sonrasında önyargı eklenir bunun sonucunda net yargı elde edilir. Net girdi aktivasyon fonksiyonundan geçirilir ve bir veri çıktısı elde edilmiş olur. Şekil 3.4. Yapay sinir hücresi 28 Aktivasyon fonksiyonları bir nöronun aktive edilip edilmeyeceğine ağa girişinin önemli olup olmadığına daha basit matematiksel işlemler kullanarak karar veren fonksiyonlardır. Başlıca aktivasyon fonksiyonları (Baheti, 2021); • İkili adım fonksiyonu, nöronun aktivasyonunun belirli bir eşik değerine bağlı olduğu fonksiyondur. • Doğrusal aktivasyonu fonksiyonu, nöron aktivasyonunun giriş ile basit bir regresyon modeli ile bağlı olduğu fonksiyondur. • Doğrusal olmayan aktivasyon fonksiyonları ise nöron aktivasyonunun basit bir regresyon modeli ile yapılmadığı durumda kullanılan fonksiyon türüdür. Başlıca doğrusal olmayan fonksiyonlar; a) Sigmoid / Lojistik fonksiyonu 0 ile 1 arasındaki değerleri verir. b) Tanh fonksiyonu c) ReLU fonksiyonu d) Sızdıran ReLU fonksiyonu e) Parametrik ReLU fonksiyonu f) Üstel doğrusal birimler (ELU's) fonksiyonu g) Softmax fonksiyonu h) Swish fonksiyonu i) Gauss hatası doğrusal birimi (GELU) fonksiyonu j) Ölçekli üstel doğrusal birim (SELU) fonksiyonu Bu çalışmada lojistik fonksiyon kullanılmıştır. 3.4 Veri Hazırlama Verileri R programına “Utils” paketi içindeki “read.csv” komutu kullanarak tanıtılmaktadır. Veriler içeri alındıktan sonra min-max normalizasyon işlemini 3.13 numaralı formül kullanarak yapılmaktadır (Balaban ve Kartal, 2015. Bu işlem sırasında tahmin edilecek sınıf etiketi bu işleme dahil edilmemektedir. Min-max normalizasyon yöntemi; 29 𝑣: A niteliğime ait normalize edilmek istenen değer 𝑣′: 𝑣‘nin normalize edilen değeri 𝑚𝑖𝑛𝐴: A niteliğinin en küçük değeri 𝑚𝑎𝑥𝐴 : A niteliğinin en büyük değeri 𝑦𝑒𝑛𝑖_𝑚𝑖𝑛𝐴 : Normalizasyon sonucunda elde edilmek istenen en küçük değer 𝑦𝑒𝑛𝑖_𝑚𝑎𝑥𝐴 : Normalizasyon sonucunda elde edilmek istenen en büyük değer ′ 𝑣−𝑚𝑖𝑛𝑣 = 𝐴 (𝑦𝑒𝑛𝑖_𝑚𝑎𝑥 − 𝑦𝑒𝑛𝑖_𝑚𝑖𝑛 ) + 𝑦𝑒𝑛𝑖_𝑚𝑖𝑛 (3.13) 𝑚𝑎𝑥𝐴−𝑚𝑖𝑛 𝐴 𝐴 𝐴 𝐴 Tahmin edilecek sınıf numerik veya kategorik olduğu durumlarda sınıf etiketi “0”, “1” etiketi ile değiştirilmektedir. R içerisindeki SMOTE paketleri azınlık sınıf etiketini “1” olarak tanımaktadır. Bu nedenle ham veride çıktı etiketi “0”, “1” olduğu durumlarda azınlık verisi “1” değilse, etiketlerde değişim yapılmaktadır. Sonrasında veriler faktör olarak tanımlanmaktadır. Veride, eksik veri ya da kategorik veri olduğu durumlarda bu veriler veriden çıkarılarak devam edilir. 3.5 Eğitim – Test Verisi Ayırma Veriler R içerisindeki “caret” paketinin “createDataPartition” fonksiyonu ile ayrılmaktadır. Ayrılan test ve eğitim verileri sonraki işlemlerde de kullanıldığı için ayırma işlemi öncesi “set.seed()” fonksiyonu ile sabitlenir. Veriler %80 eğitim ve %20 test verisi şeklinde ayrılmaktadır. Önce “createDataPartition” ile %80’lik dilime ait verilerin indekslerine ulaşılmaktadır. Bu veri “train” verisine atanır, daha sonra %20’lik veri test verisine atanmaktadır. Sonrasında sınıflandırma algoritmalarında kolaylık sağladığı için sınıf etiket değerleri çıkarılarak “train_x, train_y, test_x, test_y” veri setleri oluşturulmaktadır. Test verisi içerisindeki dengesizlik oranına bakılmamaktadır. Örnekleme işlemi sırasında, test verisinde aşırı örnekleme ya da örnek azaltma kullanılmamaktadır. Orjinal veri setinden alınan test seti ile işlemlere devam edilmektedir. 30 3.6 Melez Aşırı Örnekleme ve Alt Örnekleme Yöntemi Örnek azaltma ve çoğaltma işlemleri sadece eğitim verisi üzerine uygulanmaktadır. Test verisi üzerinde işlem yapılmamıştır. Melez yöntemin uygulanmasında, örnek azaltma adımında kullanılan SVM fonksiyonu için “e1071” paketi kullanılmış olup, hem radial hem de lineer kernelleri için veri türetilmiştir. Karar değişken değerleri (decision.values) bulunarak çoğunluk veri sınıfına ait karar değerlerinin ilk çeyrek öncesinde kalan değerler veriden çıkarılmıştır. Sonrasında indirgenmiş eğitim verisine “smotefamily” paketindeki SLS fonksiyonu ile azınlık sınıf verileri safe level smote yöntemi ile çoğaltılmıştır. Safe level smote yöntemi ile üretilen veriler “syn_data” içinde bulunmaktadır. Bu veriler indirgenmiş eğitim verisine eklenerek azınlık sınıf veri sayısı arttırılmıştır. Bu işlem sırasında üretilen yeni çıktı değerleri faktör olmadığı için tekrar faktöre çevrilmiştir. Bu işlemlere azınlık ve çoğunluk sınıflarının oranı %50 ± 5 oluncaya kadar devem edilmiştir. Ardından sınıflandırıcı algoritmalar uygulanarak sonuçlar dengesiz dağılama sahip ham veri ve SMOTE uygulanan veri ile karşılaştırılmıştır. 31 Şekil 3.5. Melez yöntem adımları A) SVM uygulanması B) Karar sınırına uzak çoğunluk verilerinin seçilmesi C) Örnek azaltma işleminin yapılması D) SLS ile aşırı örnekleme yapılması Şekil 3.5’te akış şeması verilen melez yöntemin uygulama adımları; 1. Adım: Sınıf etiketleri “0”, “1” olarak atanır. 2. Adım: Min-max normalizasyonu yapılır. 3. Adım: Veri eğitim ve test seti olarak ayrılır. 4. Adım: Eğitim verisinin dengeli olup olmadığı kontrol edilir. Denge koşulu sınıflar değılımının %50 ± 5 olmasıdır. Dengeli ise 9. adıma gidilir. 5. Adım: Şekil 3.5 a’da gösterildiği gibi dengesiz olan eğitim verisine SVM uygulanır. 6. SVM ile karar sınırına uzak çoğunluk verilerine örnek azaltma işlemi uygulanır (Şekil 3.5 b, c). 7. Adım: Eğitim verisinin dengeli olup olmadığı kontrol edilir. Dengeli ise 9. adıma gidilir. 32 8. Adım: Şekil 3.5 d’de gösterimi yapılan, SLS ile aşırı örnekleme yapılır. 4. Adıma dönülür. 9. Adım: Dengeli hale gelen veri sınıflandırma algoritmaları ile sınıflandırılır. 10. Adım: Sınıflandırıcılar test verisi ile test edilerek karmaşıklık matrisi üzerinden sonuçlar yorumlanır. Şekil 3.6.’da melez yöntem akış şeması gösterilmiştir. 33 Veri Seti Çıktı Etiketini Faktör Olarak Ata Normalizasyon Yap Veriyi Eğitim ve Test Verisi olarak Ayır Eğitim Verisi Test Verisi Evet Veri Dengeli Mi? Hayır SVM ile ÖrnekAzaltma yap Evet Veri Dengeli Mi? Hayır SLS ile Aşırı Örnekleme Yap Evet Veri Dengeli Mi? Hayır Dengeli Veriyi Sınıflandırıcıya Öğret Sınıflandırıcıyı test verisi ile test et Sınıflandırıcı başarısını performans metriklerine göre değerlendirilir Şekil 3.6. Melez yöntem akış şeması 34 4. BULGULAR Melez yöntem algoritması incelenen 8 veri setinden 6’sında diğer yöntemlere gore daha başarılı sonuç vermiştir. Veri setleri bazında elde edilen sonuçlar aşağıda paragraflar halinde derlenmiştir. İncelenen veri setlerine göre, önerilen melez yöntemin daha başarılı sonuç verdiği sınıflandırmalarda, dengesizlik oranı 2,49’a kadar olan verilerde melez yöntem - Radial SVM, 2,49’dan yüksek dengesizlik oranlarında ise melez yöntem – Linear SVM başarılı olmuştur. Veri setleri, sınıflandırıcılar ve algoritmalar ile elde edilen sonuçlar Çizelge 4.1’deki gibidir. • Climate veri setinde en iyi sonucun, SMOTE uygulanmış veri seti ile yapay sinir ağları algoritmasında % 96 doğruluk ve 0,87 G-Ortalama değeriyle alındığı gözlemlenmiştir. Radial SVM ile melez yöntem uygulanan veri seti ve SVM algoritması ise % 95 doğruluk ve 0,808 G-Ortalama değeri ile ikinci en iyi sonucu vermiştir. Tüm algoritmalarda en kötü sonucu dengesiz veri seti vermiştir. • Diabetes veri setinde en iyi sonucun radial SVM ile melez yöntem uygulanan veri seti ile yapay sinir ağları algoritmasında % 75 doğruluk ve 0,727 G-Ortalama değeriyle alındığı gözlemlenmiştir. SMOTE uygulanan veri seti ile SVM algoritması ise % 71 doğruluk ve 0,713 G-Ortalama değeri ile ikinci en iyi sonucu vermiştir. Tüm algoritmalarda en kötü sonucu ise dengesiz veri seti vermiştir. • Liver veri setinde en iyi sonucun radial SVM ile melez yöntem uygulanan veri seti ile yapay sinir ağları algoritmasında % 69 doğruluk ve 0,736 G-Ortalama değeriyle alındığı gözlemlenmiştir. SMOTE uygulanan veri seti ile yapay sinir ağları algoritması ise % 67 doğruluk ve 0,703 G-Ortalama değeri ile ikinci en iyi sonucu vermiştir. Tüm algoritmalarda en kötü sonucu ise dengesiz veri seti vermiştir. • Haberman veri setinde en iyi sonucun linear SVM ile melez yöntem uygulanan veri seti ile yapay sinir ağları algoritmasında % 75 doğruluk ve 0,705 G-Ortalama değeriyle alındığı gözlemlenmiştir. SMOTE uygulanan veri seti ile yapay sinir ağları algoritması ise % 68 doğruluk ve 0,703 G-Ortalama değeri ile ikinci en iyi sonucu vermiştir. En kötü sonuç ise dengesiz veri setine SVM algoritmasının uygulanması ile alınmıştır. 35 • Transfusion veri setinde en iyi sonucun linear SVM ile melez yöntem uygulanan veri seti ile yapay sinir ağları algoritmasında % 77 doğruluk ve 0,732 G-Ortalama değeriyle alındığı gözlemlenmiştir. Radial SVM ile melez yöntem uygulanan veri seti ile yapay sinir ağları algoritması % 79 doğruluk ve 0,728 G-Ortalama değeri ile ikinci en iyi sonucu vermiştir. Tüm algoritmalarda en kötü sonucu ise dengesiz veri seti vermiştir. • Ionosphore veri setinde en iyi sonucun radial SVM ile melez yöntem uygulanan veri seti ile random forest algoritmasında % 97 doğruluk ve 0,959 G-Ortalama değeriyle alındığı gözlemlenmiştir. Dengesiz veri ve SMOTE uygulanan veri seti %95 doğruluk ve 0,948 G-Ortalama değeri ile ikinci en iyi sonucu vermiştir. En kötü sonuç % 87 doğruluk ve 0,800 G-Ortalama değeri ile dengesiz veri setine K- en yakın komşuluk algoritması uygulanması ile alınmıştır. • Column_2c veri setinde en iyi sonucun dengesiz veriye ait veri seti ile random forest algoritmasında % 83 doğruluk ve 0,842 G-Ortalama değeriyle alındığı gözlemlenmiştir. % 82 doğruluk ve 0,830 G-Ortalama değerleriyle linear SVM ile melez yöntem ve radial SVM ile melez yöntem uygulanan veri setleri random forest algoritmasında en iyi ikinci sonucu vermişlerdir. En kötü sonuç dengesiz veri setine yapay sinir ağları algoritması uygulanması ile % 77 doğruluk ve 0,717 G-Ortalama değerinde alınmıştır. • TexYarn veri setinde en iyi sonucun YSA algoritmasında linear SVM ile melez yöntemin uygulandığı veri setinde % 98 doğruluk ve 0,991 G-Ortalama değeriyle alındığı gözlemlenmiştir. Linear SVM ile melez yöntem uygulanan veri seti SVM algoritmasında % 98 doğruluk ve 0,970 G-Ortalama değeri ile ikinci en iyi sonucu vermiştir. En kötü sonuç ise dengesiz veri setine KNN ve YSA algoritmaları uygulanmasında % 95 doğruluk ve 0 G-Ortalama değerleri ile alınmıştır. 36 Çizelge 4.1. Karşılaştırmalı sınıflandırma sonuçları Önerilen-Linear Önerilen-Radial SVM Dengesiz Veri SMOTE SVM G- G- G- G- Veri Seti Sınıflandırıcı Doğruluk Ortalama Doğruluk Ortalama Doğruluk Ortalama Doğruluk Ortalama KNN % 82 0,502 % 92 0,333 % 76 0,656 % 81 0,535 RF % 91 0,332 % 90 0 % 93 0,471 % 91 0 Climate SVM % 95 0,808 % 91 0 % 91 0,726 % 94 0,738 YSA % 95 0,742 % 95 0,667 % 96 0,873 % 94 0,738 KNN % 70 0,694 % 73 0,611 % 70 0,679 % 67 0,653 RF % 72 0,703 % 71 0,654 % 71 0,699 % 70 0,664 Diabetes SVM % 74 0,710 % 75 0,673 % 71 0,713 % 71 0,707 YSA % 75 0,727 % 74 0,464 % 69 0,699 % 72 0,684 KNN % 60 0,574 % 69 0,509 % 65 0,605 % 68 0,576 RF % 75 0,649 % 72 0,174 % 73 0,602 % 75 0,628 Liver SVM % 64 0,682 % 71 0,463 % 66 0,696 % 71 0,700 YSA % 69 0,736 % 64 0,573 % 67 0,703 % 71 0,678 KNN % 63 0,555 % 73 0,477 % 63 0,631 % 66 0,538 RF % 65 0,530 % 75 0,577 % 66 0,538 % 71 0,562 Haberman SVM % 76 0,584 % 73 0,000 % 78 0,631 % 73 0,477 YSA % 73 0,648 % 75 0,533 % 68 0,703 %75 0,705 KNN % 68 0,616 % 79 0,567 % 65 0,597 % 67 0,580 RF % 75 0,640 % 80 0,548 % 73 0,658 % 72 0,677 Transfusion SVM % 79 0,718 % 77 0,169 % 67 0,718 % 73 0,704 YSA % 79 0,728 % 78 0,375 % 73 0,668 % 77 0,732 KNN % 92 0,894 % 87 0,800 % 92 0,894 % 92 0,894 RF % 97 0,959 % 95 0,948 % 95 0,948 % 94 0,947 Ionosphore SVM % 95 0,938 % 95 0,938 % 95 0,938 % 90 0,904 YSA % 87 0,815 % 88 0,825 % 91 0,872 % 87 0,815 KNN % 79 0,764 % 80 0,805 % 77 0,736 % 72 0,719 RF % 82 0,830 % 83 0,842 % 80 0,805 % 82 0,830 Column_2c SVM % 72 0,743 % 77 0,736 % 70 0,746 % 77 0,792 YSA % 75 0,756 % 77 0,717 % 74 0,744 % 77 0,792 KNN % 96 0,497 % 95 0 % 96 0,497 % 96 0,609 RF % 96 0,782 % 96 0,784 % 95 0,605 % 97 0,856 TexYarn SVM % 96 0,920 % 95 0 % 82 0,901 % 94 0,970 YSA % 96 0,779 % 96 0 % 86 0,924 % 98 0,991 Elde edilen sonuçların Piri ve ark. (2018) SIMO algoritmasında elde ettiği ve makalede yer alan sonuç değerleri ile karşılaştırılması Çizelge 4.2’de özetlenmiştir. Eğitim ve test verisi makale ile aynı şekilde ayrılmamıştır. 37 • Diabetes veri seti için SIMO algoritmasında % 75,48 G-Ortalama değeri elde edilmiştir. Melez algoritmada ise bu değer % 72,7 olmuştur. • Liver veri setin için SIMO algoritmasında % 68,62 G- Ortalama değeri elde edilmiştir. Melez algoritmada ise bu değer % 73,6 olmuştur. • Ionosphore veri seti için SIMO algoritmasında % 84,69 G-Ortalama değeri elde edilmiştir. Melez algoritmada ise bu değer % 95,9 olmuştur. Çizelge 4.2. SIMO ve önerilen melez yöntem karşılaştırması Yöntem\ Veri Seti Diabetes Liver Ionosphore SIMO % 75,48 % 68,62 % % 84,69 Önerilen Melez % 72,7 % 73,6 % 95,9 Yöntem İki çalışmada da ortak kullanılan 3 veri seti incelendiğinde 2 veri setinde melez algoritmanın daha başarılı olduğu gözlemlenmiştir. Sarmonova’nın (Sarmanova, 2013) önerdiği RusAda algoritmasının tez çalışmasında yer alan sonuç değerleri ile önerilen melez yöntemin karşılaştırma sonuçları Çizelge 4.3’te gösterilmiştir. Eğitim ve test verisi tez ile aynı şekilde ayrılmamıştır. • Diabetes veri seti için RusAda algoritmasında % 76,15 G-Ortalama değeri elde edilmiştir. Melez algoritmada ise bu değer % 72,7 olmuştur. • Haberman veri seti için RusAda algoritmasında % 64,79 G-Ortalama değeri elde edilmiştir. Melez algoritmada ise bu değer % 70,5 olmuştur. • Transfusion veri seti için RusAda algoritmasında % 69,21 G-Ortalama değeri elde edilmiştir. Melez algoritmada ise bu değer % 73,2 olmuştur. • Ionosphore veri seti için RusAda algoritmasında % 90,14 G-Ortalama değeri elde edilmiştir. Melez algoritmada ise bu değer % 95,9 olmuştur. 38 Çizelge 4.3. RusAda ve önerilen melez yöntem karşılaştırması Yöntem\ Veri Diabetes Haberman Transfusion Ionosphore Seti RusAda % 76,15 % 64,79 % 69,21 % 90,14 Önerilen % 72,7 % 70,5 % 73,2 % 95,9 Melez Yöntem İki çalışmada da ortak kullanılan 4 veri seti incelendiğinde 3 veri setinde melez algoritmanın daha başarılı olduğu gözlemlenmiştir. 39 5. SONUÇ Gerçekleştirilen çalışma kapsamında öncelikli olarak dengesiz veri setleri üzerine yapılan çalışmalar incelenmiştir. Literatürde dengesiz veriyi hedef alan yöntemlerin çıkış noktaları ve geçmişte yapılan yöntemler ile kıyaslanmaları incelenerek yapılacak çalışmanın mevcut çalışmaların avantaj ve dezavantajlarından yararlanması amaçlanmıştır. Sonuçların değerlendirmesinde literatür ile de karşılaştırılabilmesi için bu çalışmalarda sıklıkla kullanılan G-Ortalama ölçütü değerlendirme ölçütü olarak seçilmiştir. Veri setlerinin seçiminde daha önce yapılan çalışmalar ile kıyaslanabilmesi için sıkça kullanılan veri setleri çalışma kapsamına dahil edilmiştir. Gerçek hayatta uygulanabilirliğinin kanıtlanması için de gerçek hayat verisi ile de çalışma yapılmıştır. Seçilen veriler melez yöntemin uygulanmasının ardından sonuçlar, aynı verilelerin kullanıldığı diğer algoritmalar ile karşılaştırılması yapılarak başarılı sonuçlar aldığı gözlemlenmiştir. Gerçek hayat verisi olan TexYarn verisinde yapılan çalışmada klasik yöntemlerden daha başarılı sonuçlar vererek, dokuma firmasında kopma riski bulunan ipliklerin dokuma işlemine girmeden tespit edilmesinin mümkün olduğunu kanıtlamıştır. Bu yönüyle karar destek sistemi olarak kullanılmasının önü açılmıştır. SIMO yöntemi bilgi verici azınlık verilerine odaklanırken bu çalışma bilgi verici olmayan çoğunluk verileri ile de ilgilenmiştir. Aşırı örneklemeden kaynaklanan aşırı uyumu ortadan kaldırmak için sadece bilgi verici azınlık verilerini çoğaltırken, bilgi kaybının önüne geçebilmek için değerli bilgi taşımayan çoğunluk verileri veri setinden çıkarılmıştır. Örnek azaltmada SVM kullanılarak, karar sınırına uzak, diğer bir deyişle bilgi vericiliği az olan çoğunluk verilerini çıkartılması ile, literature örnek azaltma işlemlerinde yeni bir yaklaşım getirmiştir. Yapılan çalışma ile örnek azaltma ya da aşırı örnekleme yöntemlerinin tekil kullanımı yerine birlikte kullanılarak bu yöntemlerin dezavantajlarının minimize edilmesine olanak sağlayacağını göstermiştir. Yine dengesiz veriyi dengeli hale getirirken verilerin toplu halde işleme tutulması yerine, verilerin bilgi verici olup olmaması ya da verilerin sınıf 40 etiketinin tahmininde değerli bir etki yaratıp yaratmamasına göre veri bazında incelenelerek veri ön işlemesinin yapılmasının sınıflandırma sonucuna olumlu etki yarattığı göstermiştir. Gelecek çalışmalarda klasik yöntemlerden farklı olarak bu noktalara odaklanılması, dengesiz veri setlerinin sınıflandırma probleminin çözümünde olumlu etki yaratacağını göstermektedir. Önerilen yöntemin literatürde incelenen yöntemlerle benzer olarak iki sınıflı dengesiz veriler üzerinde çalışması, çok sınıflı verilerde çalışmamış olması sınırlı bir kullanım alanı sunmaktadır. Çalışma farklı sınıflandırma algoritmalarını da içine alacak şekilde genişletilebilir. Aynı zamanda parameter optimizasyonu üzerine çalışılmasının sınıflandırma başarısına etkisi incelenebilir. Gelecek çalışmaların parameter optimizasyonu ve çok sınıflı veri setleri üzerine odaklanması dengesiz verilerin ele alınmasında gelişme sağlayacaktır. 41 KAYNAKLAR Akin, P., & Terzi, Y. 2021. Comparison of Unbalanced Data Methods for Support Vector Machines. Turkiye Klinikleri Journal of Biostatistics, 13(2). Ali, J., Khan, R., Ahmad, N., & Maqsood, I. 2012. Random forests and decision trees. International Journal of Computer Science Issues (IJCSI), 9(5), 272. Amin, A., Anwar, S., Adnan, A., Nawaz, M., Howard, N., Qadir, J., ... & Hussain, A. 2016. Comparing oversampling techniques to handle the class imbalance problem: A customer churn prediction case study. IEEE Access, 4, 7940-7957. Anonim, 2020. Previous Releases of R for Windows https://cran.r-project.org/bin/windows/base/old/4.0.3/ - (Erişim Tarihi :02.02.2021) Aridas, C. K., Karlos, S., Kanas, V. G., Fazakis, N., & Kotsiantis, S. B. 2019. Uncertainty based under-sampling for learning naive Bayes classifiers under imbalanced data sets. IEEE Access, 8, 2122-2133. Balaban, M. E., & Kartal, E. 2015. Veri Madenciliği ve Makine Öğrenmesi Temel Algoritmaları ve R Dili ile Uygulamaları. Çağlayan Kitabevi, İstanbul. Batista, G. E., Prati, R. C., & Monard, M. C. 2004. A study of the behavior of several methods for balancing machine learning training data. ACM SIGKDD explorations newsletter, 6(1), 20-29. Beckmann, M., Ebecken, N. F., & de Lima, B. S. P. 2015. A KNN undersampling approach for data balancing. Journal of Intelligent Learning Systems and Applications, 7(04), 104. Boser, B. E., Guyon, I. M., & Vapnik, V. N. 1992. A training algorithm for optimal margin classifiers. In Proceedings of the fifth annual workshop on Computational learning theory, 144-152. Breiman, L. 2001. Random forests. Machine learning, 45(1), 5-32. Bunkhumpornpat, C., Sinapiromsaran, K., & Lursinsap, C. 2009. Safe-level-smote: Safe- level-synthetic minority over-sampling technique for handling the class imbalanced problem. In Pacific-Asia conference on knowledge discovery and data mining (pp. 475- 482). Springer, Berlin, Heidelberg. Cao, L., & Zhai, Y. 2015. Imbalanced data classification based on a hybrid resampling SVM method. In 2015 IEEE 12th Intl Conf on Ubiquitous Intelligence and Computing and 2015 IEEE 12th Intl Conf on Autonomic and Trusted Computing and 2015 IEEE 15th Intl Conf on Scalable Computing and Communications and Its Associated Workshops (UIC-ATC-ScalCom), 1533-1536. IEEE. 42 Cao, P., Zhao, D., & Zaiane, O. 2013. An optimized cost-sensitive SVM for imbalanced data learning. In Pacific-Asia conference on knowledge discovery and data mining ,280- 292. Springer, Berlin, Heidelberg. Chawla, N. V. 2009. Data mining for imbalanced datasets: An overview. Data mining and knowledge discovery handbook, 875-886. Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. 2002. SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357. Chen, C., Liaw, A., & Breiman, L. 2004. Using random forest to learn imbalanced data. University of California, Berkeley, 110(1-12), 24. Cohen, G., Hilario, M., Sax, H., Hugonnet, S., & Geissbuhler, A. 2006. Learning from imbalanced data in surveillance of nosocomial infection. Artificial intelligence in medicine, 37(1), 7-18. Dhar, S., & Cherkassky, V. 2014. Development and evaluation of cost-sensitive universum-SVM. IEEE transactions on cybernetics, 45(4), 806-818. Fernández, A., del Jesus, M. J., & Herrera, F. 2009. Hierarchical fuzzy rule based classification systems with genetic rule selection for imbalanced data-sets. International Journal of Approximate Reasoning, 50(3), 561-577. Fernández-Navarro, F., Hervás-Martínez, C., & Gutiérrez, P. A. 2011. A dynamic over- sampling procedure based on sensitivity for multi-class problems. Pattern Recognition, 44(8), 1821-1833. Galar, M., Fernández, A., Barrenechea, E., & Herrera, F. 2013. EUSBoost: Enhancing ensembles for highly imbalanced data-sets by evolutionary undersampling. Pattern recognition, 46(12), 3460-3471. Gao, M., Hong, X., Chen, S., & Harris, C. J. 2011. A combined SMOTE and PSO based RBF classifier for two-class imbalanced problems. Neurocomputing, 74(17), 3456-3466. Gong, J., & Kim, H. 2017. RHSBoost: Improving classification performance in imbalance data. Computational Statistics & Data Analysis, 111, 1-13. Haixiang, G., Yijing, L., Shang, J., Mingyun, G., Yuanyue, H., & Bing, G. 2017. Learning from class-imbalanced data: Review of methods and applications. Expert Systems with Applications, 73, 220-239. He, H., & Garcia, E. A. 2009. Learning from imbalanced data. IEEE Transactions on knowledge and data engineering, 21(9), 1263-1284. 43 He, H., Bai, Y., Garcia, E. A., & Li, S. 2008. ADASYN: Adaptive synthetic sampling approach for imbalanced learning. In 2008 IEEE international joint conference on neural networks (IEEE world congress on computational intelligence) ,1322-1328. IEEE. Ho, T. K. 1995. Random decision forests. In Proceedings of 3rd international conference on document analysis and recognition Vol. 1, 278-282. IEEE. Jamali, I., Bazmara, M., & Jafari, S. 2012. Feature Selection in Imbalance data sets. International Journal of Computer Science Issues (IJCSI), 9(3), 42. Kaur, H., Pannu, H. S., & Malhi, A. K. 2019. A systematic review on imbalanced data challenges in machine learning: Applications and solutions. ACM Computing Surveys (CSUR), 52(4), 1-36. Krawczyk, B., Koziarski, M., & Woźniak, M. 2019. Radial-based oversampling for multiclass imbalanced data classification. IEEE transactions on neural networks and learning systems, 31(8), 2818-2831. Laurikkala, J. 2001. Improving identification of difficult small classes by balancing class distribution. In Conference on Artificial Intelligence in Medicine in Europe ,63-66. Springer, Berlin, Heidelberg. Maglogiannis, I. G. (Ed.). 2007. Emerging artificial intelligence applications in computer engineering: real word ai systems with applications in ehealth, hci, information retrieval and pervasive technologies (Vol. 160). Ios Press. Maltarollo, V. G., Honório, K. M., & da Silva, A. B. F. 2013. Applications of artificial neural networks in chemical problems. Artificial neural networks-architectures and applications, 203-223. Matthews, B. W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochimica et Biophysica Acta (BBA)-Protein Structure, 405(2), 442-451. McCullock, W. S., & Pitts, W. 1956. A Logical Calculus of Ideas Immanent in Nervous Activity. Archive copy of 27 November 2007 on Wayback Machine. Avtomaty [Automated Devices] Moscow, Inostr. Lit. publ, 363-384. Mirzaei, B., Nikpour, B., & Nezamabadi-Pour, H. 2020. An under-sampling technique for imbalanced data classification based on DBSCAN algorithm. In 2020 8th Iranian Joint Congress on Fuzzy and intelligent Systems (CFIS),21-26. IEEE. Piri, S., Delen, D., & Liu, T. 2018. A synthetic informative minority over-sampling (SIMO) algorithm leveraging support vector machine to enhance learning from imbalanced datasets. Decision Support Systems, 106, 15-29. 44 Pragati Baheti, 2021. 12 Types of Neural Network Activation Functions: How to Choose? https://www.v7labs.com/blog/neural-networks-activation-functions - (Erişim Tarihi :12.12.2021) Qiu, C., Jiang, L., & Li, C. 2017. Randomly selected decision tree for test-cost sensitive learning. Applied Soft Computing, 53, 27-33. Ramentol, E., Gondres, I., Lajes, S., Bello, R., Caballero, Y., Cornelis, C., & Herrera, F. 2016. Fuzzy-rough imbalanced learning for the diagnosis of High Voltage Circuit Breaker maintenance: The SMOTE-FRST-2T algorithm. Engineering Applications of Artificial Intelligence, 48, 134-139. Rao, K. N., Rao, T. V., & Lakshmi, D. R. 2012. A Novel Class Imbalance Learning using Ordering Points Clustering. International Journal of Computer Applications, 51(16). Sáez, J. A., Krawczyk, B., & Woźniak, M. 2016. Analyzing the oversampling of different classes and types of examples in multi-class imbalanced datasets. Pattern Recognition, 57, 164-178. Sarmanova, A. 2013. Veri madenciliğindeki sınıf dengesizliği sorununun giderilmesi. Sowah, R. A., Agebure, M. A., Mills, G. A., Koumadi, K. M., & Fiawoo, S. Y. 2016. New cluster undersampling technique for class imbalance learning. International Journal of Machine Learning and Computing, 6(3), 205-214. Spelmen, V. S., & Porkodi, R. 2018. A review on handling imbalanced data. In 2018 International Conference on Current Trends towards Converging Technologies (ICCTCT),1-11. IEEE. Tang, Y., Zhang, Y. Q., Chawla, N. V., & Krasser, S. 2008. SVMs modeling for highly imbalanced classification. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 39(1), 281-288. Yin, L., Ge, Y., Xiao, K., Wang, X., & Quan, X. 2013. Feature selection for high- dimensional imbalanced data. Neurocomputing, 105, 3-11 Yong, Y. 2012. The research of imbalanced data set of sample sampling method based on K-means cluster and genetic algorithm. Energy Procedia, 17, 164-170. Yu, H., Ni, J., & Zhao, J. 2013. ACOSampling: An ant colony optimization-based undersampling method for classifying imbalanced DNA microarray data. Neurocomputing, 101, 309-318. Zhang, H., & Li, M. 2014. RWO-Sampling: A random walk over-sampling approach to imbalanced data classification. Information Fusion, 20, 99-116. 45 Zhang, Y. P., Zhang, L. N., & Wang, Y. C. 2010. Cluster-based majority under-sampling approaches for class imbalance learning. In 2010 2nd IEEE International Conference on Information and Financial Engineering ,400-404. IEEE. Zheng, Z., Cai, Y., & Li, Y. 2015. Oversampling method for imbalanced classification. Computing and Informatics, 34 46 ÖZGEÇMİŞ Adı Soyadı : Mestan Şahin Pir Doğum Yeri ve Tarihi : Tire/İZMİR – 27.04.1992 Yabancı Dil : İngilizce Eğitim Durumu Lise : Ortaklar Anadolu Öğretmen Lisesi Lisans : Balıkesir Üniversitesi – Endüstri Mühendisliği Yüksek Lisans : Bursa Uludağ Üniversitesi – Endüstri Mühendisliği Çalıştığı Kurum/Kurumlar : Beyçelik Gestamp – Üretim Planlama Mühendisi Ak Pres Otomotiv – Lojistij Uzmanı Nobel Otomotiv – Malzeme Planlama Sorumlusu İletişim (e-posta) : mestansahin@hotmail.com 47