KARINCA KOLONİ ALGORİTMASI İLE ÖZNİTELİK 
 
SEÇİMİ 
 
 
 
UMUT AKCAN 
 
 
 
 
 
 
 
 
 
 
 
 
 
T.C. 
BURSA ULUDAĞ ÜNİVERSİTESİ 
FEN BİLİMLERİ ENSTİTÜSÜ 
 
 
 
 
 
 
KARINCA KOLONİ ALGORİTMASI İLE ÖZNİTELİK SEÇİMİ 
 
 
 
UMUT AKCAN 
0000-0002-7533-9397 
 
 
Doç. Dr. Duygu YILMAZ EROĞLU 
(Danışman) 
 
 
 
 
YÜKSEK LİSANS  
ENDÜSTRİ MÜHENDİSLİĞİ ANABİLİM DALI 
 
 
 
 
 
 
 
BURSA – 2022 
Her Hakkı Saklıdır 
B.U.Ü. Fen Bilimleri Enstitüsü tez yazım kurallarına uygun olarak hazırladığım bu 
tez çalışmasında;  
 
 tez içindeki bütün bilgi ve belgeleri akademik kurallar çerçevesinde elde ettiğimi, 
 görsel, işitsel ve yazılı tüm bilgi ve sonuçları bilimsel ahlak kurallarına uygun olarak 
sunduğumu,  
 başkalarının eserlerinden yararlanılması durumunda ilgili eserlere bilimsel normlara 
uygun olarak atıfta bulunduğumu,  
 atıfta bulunduğum eserlerin tümünü kaynak olarak gösterdiğimi,  
 kullanılan verilerde herhangi bir tahrifat yapmadığımı,   
 ve bu tezin herhangi bir bölümünü bu üniversite veya başka bir üniversitede başka 
bir tez çalışması olarak sunmadığımı  
 
beyan ederim.  
  
10/01/2022 
Umut AKCAN 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
TEZ YAYINLANMA  
FİKRİ MÜLKİYET HAKLARI BEYANI 
 
Enstitü tarafından onaylanan lisansüstü tezin/raporun tamamını veya herhangi bir 
kısmını, basılı (kâğıt) ve elektronik formatta arşivleme ve aşağıda verilen koşullarla 
kullanıma açma izni Bursa Uludağ Üniversitesi’ne aittir. Bu izinle Üniversiteye verilen 
kullanım hakları dışındaki tüm fikri mülkiyet hakları ile tezin tamamının ya da bir 
bölümünün gelecekteki çalışmalarda (makale, kitap, lisans ve patent vb.) kullanım hakları 
tarafımıza ait olacaktır. Tezde yer alan telif hakkı bulunan ve sahiplerinden yazılı izin 
alınarak kullanılması zorunlu metinlerin yazılı izin alınarak kullandığını ve istenildiğinde 
suretlerini Üniversiteye teslim etmeyi taahhüt ederiz.  
 
Yükseköğretim Kurulu tarafından yayınlanan “Lisansüstü Tezlerin Elektronik 
Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge” 
kapsamında, yönerge tarafından belirtilen kısıtlamalar olmadığı takdirde tezin YÖK 
Ulusal Tez Merkezi / B.U.Ü. Kütüphanesi Açık Erişim Sistemi ve üye olunan diğer veri 
tabanlarının (Proquest veri tabanı gibi) erişimine açılması uygundur.  
 
 
 
 
  
ÖZET 
Yüksek Lisans Tezi 
KARINCA KOLONİ ALGORİTMASI İLE ÖZNİTELİK SEÇİMİ 
UMUT AKCAN 
Bursa Uludağ Üniversitesi 
Fen Bilimleri Enstitüsü 
Endüstri Mühendisliği Anabilim Dalı 
Danışman: Doç. Dr. Duygu YILMAZ EROĞLU 
 
Gelişen bilgi teknolojileri ile günümüzde veri miktarı hızla büyümektedir. Veri 
madenciliğin amacı, bu verilerden anlamlı bilgi çıkarmaktır. Veri miktarının büyük ve 
çok boyutlu olması, hesaplama maliyetlerini artırmakla beraber verilerden anlamlı bilgi 
çıkartılmasını zorlaştırmaktadır. Öznitelik seçiminin amacı bilgi kaybının asgari düzeyde 
tutarak verilerin çok boyutluluğunu azaltmaktadır. Literatürde, öznitelik seçimi için filtre, 
sarmalayıcı, gömülü ve hibrit yöntemler başlıkları altında farklı yaklaşımlar önerilmiştir. 
Bu tez çalışmasında, karınca koloni algoritması kullanılarak hibrit bir yaklaşım 
önerilmiştir. Hibrit yöntemler, iki adımdan oluşmaktadır. Önerilen yöntemin ilk adımında 
karınca koloni algoritması ile denetimsiz öğrenme şeklinde öznitelik seçimi yapılmıştır. 
İkinci adımında k en yakın komşuluk ve destek vektör makineleri sınıflandırma 
yöntemleri kullanılarak  sınıflandırma modelleri oluşturulmuştur. Elde edilen sonuçlar,  
literatürde karınca koloni algoritması kullanan bir çalışma ile karşılaştırılmış olup, ortak 
kullanılan veri setlerinin yarısında daha iyi sonuçlara ulaşılmıştır. Bu sonuçlar, önerilen 
yöntemin etkinliğini doğrulanmış sonrasında daha yüksek doğruluk oranları elde etmek 
için hangi özniteliklerin kullanılması gerektiğine karar verebilmek amacıyla 10 kat çapraz 
doğrulama ile farklı sınıflandırıcılar kullanılmıştır. İlaveten, bir adet özniteliğin bile 
varlığının ve yokluğunun sonuçları nasıl etkilediğini göstermek için analizler yapılmış, 
öznitelik seçiminin önemi vurgulanmıştır. Son olarak da farklı sınıflandırıcı ve eğitim/test 
yapılarında veri setlerinin doğruluk oranı dışında hassasiyet ve gerçek pozitif değerler 
oranından hesaplanan F-puanının nasıl değiştiğine dair analizler yapılarak sonuçlar 
yorumlanmıştır. 
Anahtar Kelimeler: Karınca koloni algoritması, öznitelik seçimi, sınıflandırma, veri ön 
işleme, hibrit algoritmalar 
2022, vii + 45 sayfa 
 
i 
 
ABSTRACT 
MCs Thesis 
FEATURE SELECTION WITH ANT COLONY ALGORITHM 
UMUT AKCAN 
Bursa Uludağ University 
Graduate School of Natural and Applied Sciences 
Department of Industrial Engineering 
Supervisor: Assoc. Dr. Duygu YILMAZ EROĞLU 
 
Nowadays with the developing information technologies, the amount of data is growing 
rapidly. The purpose of data mining is to extract meaningful information from these data. 
The fact that the amount of data is large and multidimensional increases the computational 
costs and makes it difficult to extract meaningful information from the data. The purpose 
of feature selection is to reduce the multidimensionality of the data by keeping 
information loss to a minimum. In the literature, different approaches have been proposed 
for feature selection under the headings of filter, wrapper, embedded and hybrid methods. 
In this thesis, a hybrid approach is proposed using the ant colony algorithm. Hybrid 
methods consist of two steps. In the first step of the proposed method, feature selection 
was made in unsupervised learning with the ant colony algorithm. In the second step, 
classification models are created by using k nearest neighbor and support vector machine 
classification methods. The results obtained were compared with a study using the ant 
colony algorithm in the literature. Better results were achieved in half of the commonly 
used datasets. According to these results, the effectiveness of the proposed method was 
verified, and then different classifiers were used with 10-fold cross validation in order to 
decide which features should be used to achieve higher accuracy rates. In addition, 
analyzes were made to show how the presence and absence of even one feature affected 
the results, and the importance of feature selection was emphasized. Finally, analyzes 
were made on how the F-score calculated from precision and true positive values, apart 
from the accuracy rate of the data sets, changed in different classifier and training/test 
structures, and the results were interpreted. 
Key words: Ant colony algorithm, feature selection, classification, data pre-processing, 
hybrid algorithm 
2022, vii + 45 pages 
 
 
ii 
 
TEŞEKKÜRLER 
Bu tez çalışmasının hazırlanmasında, bilgi ve deneyimleri ile her daim yol gösteren, 
bilimsel eleştiri ve yönlendirmesi katkı sağlayan ve desteğini hiçbir zaman esirgemeyen 
değerli danışman hocam Doç. Dr. Duygu YILMAZ EROĞLU sonsuz teşekkür ederim. 
Tüm hayatım boyunca olduğu gibi yüksek lisans ders süreci ve tez hazırlama sürecinde 
maddi manevi desteklerini hiç esirgemeyen aileme özellikle eşim Elif AKCAN’A 
teşekkürlerimi iletirim 
Umut AKCAN 
10/01/2022 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
iii 
 
 
İÇİNDEKİLER DİZİNİ 
Sayfa 
ÖZET …………………………………………………………………………………….i 
ABSTRACT  …………………………………………………………………………….ii 
TEŞEKKÜRLER ……………………………………………………………………….iii 
İÇİNDEKİLER DİZİNİ ………………………………………………………………...iv 
KISALTMALAR DİZİNİ ……………………………………………………………….v 
ŞEKİLLER DİZİNİ ……………………………………………………………………..vi 
ÇİZELGELER DİZİNİ ………………………………………………………………...vii 
1.GİRİŞ ………………………………………………………………………………….1 
2. KAYNAK ÖZETLERİ ve KURAMSAL TEMELLER …………………….………...4 
2.1 Kaynak Özetleri ……………………………………………………………………...4 
2.2 Kuramsal Temeller …………………………………………………………………..7 
2.2.1. Öznitelik seçim teknikleri …………………………………………………………7 
2.2.2. Temel makine öğrenme yöntemleri ……………………………………………….9 
2.2.3. Sınıflandırma metrikleri …………………………………………………………10 
3. MATERYAL ve YÖNTEM …………………………….…………………………...13 
3.1 Materyal ……………………………………………………………………………13 
3.1.1. Veri setleri ……………………………………………………………………….13 
3.1.2. Karınca koloni algoritması ………………………………………………………15 
3.1.3. K en yakın komşuluk algoritması ………………………………………………..17 
3.1.4. Destek vektör makineleri ………………………………………………………...19 
3.2 Yöntem ……………………………………………………………………………..22 
4. BULGULAR ve TARTIŞMA ….……………….…………………………………...26 
4.1. Karınca Koloni Algoritması Parametre Ayarlaması ……………………………….26 
4.2. Sonuçların Literatürdeki Çalışmalar ile Karşılaştırılması ………………………….28 
4.3. K En Yakın Komşuluk Sınıflandırması Sonuçları …………………………………30 
4.4. Destek Vektör Makineleri Sınıflandırması Sonuçları ……………………………...33 
4.5 K En Yakın Komşuluk ve Destek Vektör Makineleri Karşılaştırması ……………...35 
5. SONUÇ ……………………………………………………………………………...38 
KAYNAKLAR ………………………………………………………………………...39 
EKLER …………………………………………………………………………………43 
EK 1 Rassal Veri Seti ………………………………………………………………......44 
ÖZGEÇMİŞ ……………………………………………………………………………45 
 
 
 
 
 
 
iv 
 
 
KISALTMALAR DİZİNİ 
 
Kısaltmalar Açıklama 
ACO  Karınca Koloni Algoritması (Ant Colony Optimization) 
DT  Karar Ağacı (Decision Tree) 
FS  Öznitelik Seçimi (Feature Selection) 
KKN  K En Yakın Komşuluk (K Nearest Neighbors) 
MC  Karşılıklı Korelasyon (Mutual Correlation) 
RSM  Rastgele Alt Uzay Yöntemi (Random Subspace Method) 
SI  Sürü Zekası (Swarm Intelligent) 
SVM  Destek Vektör Makineleri (Support Vector Machine) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
v 
 
 ŞEKİLLER DİZİNİ 
Sayfa 
Şekil 2.1. Öznitelik seçimi yöntemlerinin bilgi akışı .………………………..……......…9 
Şekil 2.2. Karmaşıklık matrisi ……………………….......................................………..10 
Şekil 3.1. %80 eğitim %20 test veri seti sembolik gösterimi ............................................14 
Şekil 3.2. 5 katlı çapraz doğrulama sembolik gösterimi ...............………..……………..14 
Şekil 3.3. Gerçek karınca davranışlarının sembolik gösterimi .........................................15 
Şekil 3.4. K en yakın komşuluk algoritması gösterimi ….................……...…...........…..18 
Şekil 3.5. Destek vektör makineleri gösterimi ……………………………………….....19 
Şekil 3.6. ||w|| vektörünün doğruları dis kesme grafiği ....................................................20 
Şekil 3.7. Doğrular ve ||w|| vektörü arası θ açısının gösterim grafiği ……………………21 
Şekil 3.8. Önerilen yaklaşımın iş akış diyagramı ….........………..……………………..25 
Şekil 4.1. Karınca koloni algoritması parametreleri Minitab ANOVA sonucu ..........…..26 
Şekil 4.2.Karınca koloni algortiması parametreleri ana etki grafikleri ............................27 
Şekil 4.3. K  en  yakın  komşuluk  algoritması  ve destek vektör makineleri rassal veri seti 
                kümesi sınıflandırma sonucu karar sınırları .....................................................37 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
vi 
 
ÇİZELGELER DİZİNİ 
Sayfa 
Çizelge 2.1. Bazı Makine öğrenmesi algoritmaları ..........................................................10 
Çizelge 3.1. Veri seti bilgileri ..........................................................................................13 
Çizelge 4.1. Karınca koloni algoritması seçilen parameter değerleri ...............................28 
Çizelge 4.2. Önerilen yöntemin, UFSACO algoritması sonuçları ile karşılaştırılması ....28 
Çizelge 4.3. Önerilen yöntemin, RSM algoritması ile karşılaştırılması ...........................29 
Çizelge 4.4. Önerilen yöntemin, MC algoritması ile karşılaştırılması .............................30 
Çizelge 4.5. K en yakın komşuluk algoritması doğruluk oranı sonuçları .........................31 
Çizelge 4.6. K en yakın komşuluk algoritması F-puanı sonuçları ....................................31 
Çizelge 4.7. K en yakın komşuluk algoritması çapraz doğrulama sonuçları ...................32 
Çizelge 4.8. Destek vektör makineleri algoritması doğruluk oranı sonuçları ...................33 
Çizelge 4.9. Destek vektör makineleri algoritması F-puanı sonuçları .............................34 
Çizelge 4.10. Destek vektör makineleri algoritması çapraz doğrulama sonuçları ............35 
Çizelge 4.11. K en  yakın  komşuluk  ve  destek vektöre makineleri F-puanı karşılaştırması 
                     ....................................................................................................................36 
Çizelge 4.12. K   en   yakın   komşuluk   ve   destek   vektör    makineleri  çapraz  doğrulama 
                      doğruluk oranları karşılaştırması ...............................................................36 
  
 
 
 
 
 
 
vii 
 
1. GİRİŞ 
Veri miktarı son yıllarda hızla artmaktadır. Makine öğrenmesi, istatistik ve veri 
tabanlarının kesişimindeki yöntemleri içeren bir hesaplama süreci olarak veri 
madenciliği, bu devasa veri hacmi ile ilgilenir, işler ve onu analiz eder (Liu ve Yu 2005). 
Veriler ölçek olarak çok büyük ve yüksek boyutluluğa sahip olabilirler. Yüksek boyutlu 
veriler daha karmaşık ve çeşitli bilgiler içermesine rağmen, hesaplama maliyetlerini ve 
depolama genel giderlerini de önemli ölçüde artırır. Ek olarak, yüksek boyutluluk, veri 
madenciliğinin karmaşıklığını artıran önemli özniteliklerin daha az görülmesine neden 
olur. Ayrıca, oluşturulan modellerin performansını ve verimliliğini doğrudan etkileyen 
bu yüksek boyutlu verilere kaçınılmaz olarak gereksiz öznitelikler, gürültü veya aykırı 
değerler eklenir (Yan ve Yang 2015). 
Öznitelik seçimi (FS), özellikle yüksek boyutlu bir öznitelik alanıyla uğraşırken, makine 
öğrenmesinde yaygın olarak kullanılan bir ön işleme adımıdır. Öznitelik seçiminin amacı, 
bir veri kümesinin boyutsallığını azaltarak ve tahmin doğruluğundan en az kayıp ile temel 
öznitelikleri bularak basitleştirmektir. Bunu yaparak, seçilmeyen öznitelikler tarafından 
sağlanan bilgilerdeki fazlalığı da azaltır. Gerçek dünya problemlerinde, gürültülü, 
alakasız veya yanıltıcı öznitelik bolluğu nedeniyle öznitelik seçimi bir zorunluluktur. 
Öznitelik seçimi kapsamlıdır ve metin kategorizasyonu, veri madenciliği, örüntü tanıma 
ve sinyal işleme dahil olmak üzere birçok alana yayılır (Jensen 2005). Öznitelik seçimi 
esasen bir kombinatoryal optimizasyon problemidir. Özellikle NP'nin global optimal bir 
çözüm bulmak polinom zamanda zordur. Bu sorunu çözmek için, geleneksel öznitelik 
seçim yöntemleri, veri noktalarının belirli istatistiksel veya geometrik özelliklerini göre 
her bir öznitelik ağırlığını ayrı ayrı değerlendirir, bunları uygun şekilde sıralar ve ardından 
öznitelikleri tek tek seçer. Ancak, küresel optimal değer için herhangi bir garanti 
sağlayamazlar. Ayrıca, farklı öznitelikler arasındaki etkileşimi ve bağımlılığı ihmal 
etmeleri oldukça olasıdır (Yan ve Yang 2015). Zaman karmaşıklığı probleminin 
üstesinden gelmek için, polinom zamanında bir optimale yakın öznitelik alt kümesini 
bulmak için önerilen yaklaşım algoritmaları vardır. Bu algoritmalar filtre, sarmalayıcı, 
gömülü ve hibrit yaklaşımlar olmak üzere dört ana kategoride sınıflandırılabilir (Rostami, 
Berahmand, Nasiri ve Forouzande 2021). Filtre yöntemleri, yalnızca verilerin istatistiksel 
özelliklerine dayanır ve herhangi bir öğrenme modelinden bağımsız olduklarından, 
1 
 
yüksek bir hesaplama maliyetinin oluşmasını engeller ve diğer iki kategoriden daha fazla 
genellik sağlarlar. Sarmalayıcı yöntemlerinde, son alt küme seçimi, verilerle tekrar tekrar 
eğitilen bir öğrenme algoritmasına dayanır. Sarmalayıcılar, öğrenme planının nihai 
doğruluğunu artırma eğiliminde olsalar da, genellikle diğer iki yaklaşımdan hesaplama 
açısından daha yüksek maliyete sahiptir. Gömülü yöntemlerde, sınıflandırma sürecinin 
bir parçasıdır (Palma-Mendoza, de Marcos,Rodriguez, ve Alonso-Betanzos 2019). Bu 
yöntemlerde, öznitelik seçimi ve sınıflandırma eş zamanlı olarak ilerler. Hibrit 
yaklaşımlar, öznitelikleri iki aşamada seçmeye çalışırlar: ilk aşamada, filtre yaklaşımını 
kullanarak orijinal öznitelik setini azaltmaya çalışırlar. Daha sonra ikinci aşamada, 
indirgenmiş öznitelik kümesindeki en iyi öznitelik alt kümesini seçmek için sarmalayıcı 
yaklaşımı uygulanır. Başka bir deyişle, hibrit yaklaşımın amacı, hem filtre hem de 
sarmalayıcı yaklaşımların avantajlarını kullanmaktır. Sonuç olarak, hibrit yaklaşımda iyi 
özniteliklerin ortadan kaldırılması riski, filtre yaklaşımındakinden daha azdır (Unler, 
Murat, ve Chinnam 2011). Hibrit yaklaşımlarda ilk filtre görevi meta sezgisel 
algoritmalar aracılığı ile yapılabilir. 
Meta-sezgisel yaklaşımlar, minimum sürede en uygun öznitelik alt kümesini bulmada 
başarılı yaklaşımlardan biridir. Son yıllarda, meta-sezgisel yaklaşımların bir kategorisi 
olan sürü zekası algoritmaları (SI), öznitelik seçimi ile verimli bir şekilde uğraşmaktadır. 
SI algoritmaları, karıncalar, arılar, kuş sürüsü vb. gibi doğadaki canlıların sosyal 
davranışlarından ilham alır. Yiyecek arama gibi ortak bir hedefe ulaşmak için birlikte 
çalışan, kendi kendine organize olmuş bir popülasyonu modellerken kolektif zekayı 
kullanırlar (Bindu ve Sabu 2020).  
Bu çalışmada, öznitelik seçimi için bir hibrit yaklaşımı sunulmuştur. Tez çalışmasında, 
sunulan hibrit yaklaşımın ilk adımı olan filtre yöntemi için önerilen yöntem meta sezgisel 
algoritmalardan sürü zekası algoritması olan karınca koloni algoritmasıdır. Karınca 
koloni algoritmasında sezgisel uzaklıkların hesaplanması için kosinüs benzerlik yöntemi 
kullanılmıştır. ACO ile tespit edilen rotalar ikinci adımda kullanılmıştır. İkinci adım için 
önerilen sınıflandırma yöntemleri K en yakın komşuluk ve destek vektör makineleri 
sınıflandırma yöntemleridir. 
2 
 
Bu çalışmada, önerilen algoritma python üzerinde kodlanmıştır. Kod, hibrit yaklaşımda 
olduğu gibi iki parçadan oluşmuştur. İlk parçada karınca koloni algoritması çalıştırılarak 
öznitelik rotaları oluşturulmuştur. İkinci parçada rotalar kullanılarak sınıflandırma 
yapılmıştır. Kodun iki parça olmasının avantajı sınıflandırma yöntemlerinin bazı veri 
setlerinde, weka programı ile elde edilen sonuçların karşılaştırılmasına olanak 
sağlamasıdır. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3 
 
2. KAYNAK ÖZETLERİ ve KURAMSAL TEMELLER 
Bu bölümde tanımlardan, genel bilgilerden ve araştırılan kaynaklardan bahsedilmiştir. 
2.1 Kaynak Özetleri 
Çalışmalarında karınca kolonisi algoritması kullanarak öznitelik seçimi sınıflandırma 
yapan ve literatürde öne çıkan bazı makaleler ile, diğer meta-sezgisel yöntemler 
kullanarak öznitelik seçimi yapan çalışmalar, yayınlanma yılına göre aşağıdaki gibi 
derlenmiştir. 
Al-Ani (2005) çalışmasında karınca koloni algoritması ile öznitelik seçimi yöntemi 
önermiştir. Sezgisel uzaklıkların hesaplanması için karşılıklı bilgiye dayalı ölçü adlı 
yaklaşım kullanmışdır. Feromon güncellemelerini ortalama kare hatasından oluşan bir 
formülle yapımışlardır. 
Sivagaminathan ve Ramakrishnan (2007) çalışmalarında öznitelik seçimi için karınca 
koloni algoritması ve yapay sinir ağlarından oluşan bir yöntem önermişlerdir. Karınca 
kolonisi feromon güncellemeleri yapay sinir ağlarından gelen geri bildirimle yapılır. 
Kanan ve Faez (2008) çalışmalarında karınca koloni algoritmasını yüz tanıma 
sistemlerinde öznitelik seçimi için kullanmışlardır. Karıncaların buldukları rotaların 
değerlendirme kriteri olarak seçilen ortalama hata karesini azaltmasına göre öznitelik 
seçim yöntemi uygulanmıştır. 
Deriche (2009) çalışmasında karınca koloni algoritması ile öznitelik seçiminde farklı 
yerel ölçütlerinin etkisini değerlendirmiştir. Fisher kriteri ve karşılıklı bilgiye dayalı ölçü 
ölçütlerini ortalama kare hatasına göre karşılaştırmıştır. 
Aghdam, Ghasem-Aghaee ve Basiri (2009) çalışmalarında karınca koloni algoritmasını 
metin madenciliğinde öznitelik seçimi için kullanmıştır. Metin sınıflandırmasının önemli 
bir sorunu, metnin yüksek boyutluluğudur. Öznitelik seçimi ile yüksek boyutluluk 
azaltılması hedeflenmiştir. Karınca koloni algoritmasında seçilen değerlendirme kriteri 
ortalama hata karesi kullanılmıştır. 
4 
 
Min ve Fangfang (2010) çalışmalarında filtre ve sarmalayıcı yöntemlerden oluşan bir  
hibrit yöntemi önermişlerdir. Filtre yöntemi için Korelatif Aile Seçimi, Relief Sınıf 
Ayrılabilirliği, Mahalanobis Uzaklığı, Çok Değişkenli Korelasyon Katsayısı ve Karşılıklı 
Bilgi yöntemlerini kullanmışlardır. Öznitelikler belirtilen altı kritere göre ağırlıklandırma 
değeri verilerek seçilmiştir. Sarmalayıcı yöntemler için Uyarlamalı Genetik Algoritma, 
Kaotik İkili Parçacık Sürü Optimizasyon ve Klonal Seçim Algoritması olmak üzere üç 
algoritma denenmiştir. Global optimizasyonda daha başarılı olduğu için klonal seçim 
algoritması seçilmiştir.  
Ali ve Shahzad (2012) çalışmalarında karınca koloni algoritması ile öznitelik alt kümesi 
seçimi yapmışlardır. Simetrik belirsizlik isimli bilgi kazancını ve entropiden oluşan bir 
formül ile öznitelikler arası sezgisel uzaklık hesaplamışlardır. 
Wald, Khoshgoftaar ve Napolitano (2013) çalışmalarında sarmalayıcı yöntemler ile 
öznitelik seçimi problemlerinde öznitelik seçimi ve modelde kullanılmak üzere iki farklı 
sınıflandırma yöntemi gerektiğini önermişlerdir. 
Saraç ve Özel (2014) çalışmalarında web sayfaları sınıflandırma problemlerinde öznitelik 
seçimi için karınca koloni algoritması kullanılmasını önermişlerdir. Sezgisel uzaklıklar 
için eğitim setindeki özniteliğin doküman frekansını kullanmışlardır. 
Hamed, Dara ve Kremer (2014) çalışmalarında öznitelik seçimi problemi için gömülü 
öznitelik seçimi yöntemi önermişlerdir. Çalışmada destek vektör makineleri 
kullanılmıştır ve yöntem, boş bir öznitelik kümesinden ileriye doğru öznitelik ekleyerek 
çalışır. 
Tabakhi, Moradi, ve Akhlaghian (2014) çalışmalarında öznitelik seçimi problemleri için 
karınca  koloni algoritması ile hibrit bir yaklaşım önermiştir. İlk adımda karınca koloni 
algoritması öznitelikler arası kosinüs benzerlik yöntemi ile bulunan uzaklıklara göre 
denetimsiz öğrenme olarak çalıştırılmıştır. İkinci adımda sınıflandırma algoritmalarında 
karınca koloni algoritmasından gelen feromon miktarları kullanılmıştır. Öznitelikler için 
feromon miktarları ağırlıklandırma ölçütü yerine geçmektedir. 
5 
 
Kashef ve Nezamabadi-pour (2015) çalışmalarında öznitelik seçimi yöntemi için karınca 
koloni algoritması ile ikili seçim yöntemi önermişlerdir. İkili seçim yöntemi bir 
özniteliğin varlığını veya yokluğunu temsil eder. Karıncalar tüm öznitelikleri ziyaret 
etmesi gerekirken düğümleri seçmek için karınca kolonisi algoritması kullanmışlardır. 
İkili seçim yolları için farklı istatistiksel ölçüleri kullanmışlardır. 
Mohammed, Deeba, Bui, ve Wahid (2016), çalışmalarında endoskopi görüntülerini 
kanayan, kanamayan ve bilgi vermeyen bölgeler olarak sınıflandırma problemlerinin 
boyut karmaşıklığını azaltmak için karınca koloni algoritmasına dayanan bir öznitelik 
seçimi yöntemi önermiştir. Değerlendirme işlevinin hatalı sınıflandırma sonucu yüksek 
maliyet eklemek istedikleri için duyarlılık ve doğruluk oranlarını kullanarak yeni bir 
değerlendirme işlevi önermişlerdir. 
Fahrudin, Syarif, ve Barakbah (2016) çalışmalarında mikro dizilerde öznitelik seçimi için 
karınca koloni algoritması önermişlerdir. Mikro diziler belirli bir yerde bir nükleik asit 
dizisini (genetik bilgi içeren nükleotid zincirleri) bulmak için kullanılan ve aynı anda 
binlerce numuneyi analiz etmek için kullanılabilen bir teknoloji olup, nükleotid asitler 
DNA ve RNA olmak üzere her canlıda bulunmaktadır. Mikro dizi veri seti ayrıca 
algoritmadaki hız ve doğruluğu etkileyen birçok alakasız ve gereksiz öznitelik 
içermektedir. 
Shunmugapriya ve Kanmani (2017) çalışmalarında karınca koloni ve yapay arı koloni 
algoritmaların özelliklerini birşleştirerek melez bir hibrit algoritma önermişlerdir. Arılar, 
karıncaların bulduğu öznitelik alt kümelerini kullanırlar. 
Manosij, Ritam, Sarkar, ve Abraham (2020) çalışmalarında öznitelik seçimi problemleri 
için karınca koloni algoritması kullanılarak sarmalayıcı yaklaşım önermişlerdir. Karınca 
koloni algoritması için kosinüs benzerlik yöntemi seçilmiştir. Karınca kolonisinin ürettiği 
alt kümeleri, doğruluk oranı ve seçilmemiş öznitelik sayısı ile hesaplanmış bir 
değerlendirme fonksiyonuna göre değerlendirilmiştir.. 
Paniri, Dowlatshahi, ve Nezamabadi-pour (2020) çalışmalarında çoklu etiketli 
sınıflandırma problemleri için karınca koloni algoritması ile öznitelik seçim yöntemi 
önermişlerdir. Algoritmada karınca koloni algoritmasında pearson korelasyon katsayısı 
6 
 
ve kosinüs benzerlik yöntemi kullanmışlardır. Çoklu sınıflandırma problemi olduğu için 
öznitelikler arası ve sınıf etiketleri arasında ilişkiler dikkate alınmıştır. 
2.2 Kuramsal Temeller 
Bu bölümde tanımlardan ve genel bilgilerden bahsedilmiştir. 
 
2.2.1. Öznitelik seçim teknikleri 
Filtre yöntemi, tek değişkenli istatistiklerle öznitelik seçimi yapar ve diğer yöntemlerden 
az hesaplama maliyetine sahiptir. Bu yüzden daha hızlı çalışır (Gheyas ve Smith 2010). 
Bazı filtre teknikleri ve kısa açıklamaları aşağıdaki gibi derlenmiştir; 
Bilgi entropisi, bir veri setinin içerdiği bilgi miktarıdır. Bilgi entropisi formülü denklem 
2.1’de gösterilmiştir. 
𝐻 = − ∑𝐶𝑖 𝑝(𝑥)𝑙𝑜𝑔2𝑝(𝑥)                                           (2.1) 
𝑥 𝑠𝚤𝑛𝚤𝑓𝚤𝑛𝑎 𝑎𝑖𝑡 𝑣𝑒𝑟𝑖 𝑠𝑎𝑦𝚤𝑠𝚤 
p(x) =                                         (2.2) 
𝑡𝑜𝑝𝑙𝑎𝑚 𝑣𝑒𝑟𝑖 𝑠𝑎𝑦𝚤𝑠𝚤
 C = Sınıflar kümesi. 
Denklem 2.1’de bir olayın sonucu kesin (0 veya 1) olduğu takdirde bilgi miktarı sıfır 
olacaktır (Cover ve Thomas 2006). 
Bilgi kazanımı (IG), veri setini rastgele bölerek entropi değerlerine bakar. Bütün veri 
setinin entropsinden çıkartılarak bilgi kazanımı bulur (Tabakhi, Moradi, ve Akhlaghian 
2014). 
Kazanç oranı, öznitelik örüntülerine göre bölünmesinin kazanç oranını gösterir. Bölünen 
kısmın entropisini veri setinin entropisine böler (Tabakhi ve diğerleri, 2014). 
Terim varyansı (TV), en basit tek değişkenli değerlendirmedir. Veri setindeki değerlerin 
ortalamadan ne kadar saptığını açıklar. Ortalama ve değerler arasındaki uzaklıkların 
karelerinin ortalamasıdır (Tabakhi ve diğerleri, 2014). 
7 
 
Rastgele alt uzay yöntemi (RSM), bu yöntem, özgün öznitelik uzayının rastgele seçilmiş 
bir alt uzayına belirlenmiş sınıflandırma yöntemi uygular. Özniteliklerin büyük bir 
bölümünü değerlendirmek için seçim işlemi birkaç kez tekrarlanır ve son olarak sonuçlara 
göre seçilen öznitelikler olarak birleştirilir (Tabakhi ve diğerleri, 2014). 
Uygunluk-yedeklilik öznitelik seçimi (RRFS), hem denetimli hem de denetimsiz 
modlarda çalışabilen, uygunluk ve artıklık analizlerine dayalı verimli bir öznitelik seçme 
tekniğidir. Bu yöntemde, verilen bir kritere göre ilk öznitelik seçilecek ve daha sonra her 
yinelemede, son seçilen öznitelik benzerliği önceden tanımlanmış bir eşikten küçükse bir 
öznitelik seçilecektir (Tabakhi ve diğerleri, 2014). 
Karşılıklı korelasyon (MC), iki öznitelik arasındaki bağımlılığı hesaplayan çok değişkenli 
öznitelik seçim yöntemidir. Bu yöntemde, her iterasyonda en yüksek ortalama korelasyon 
değerine sahip öznitelik kaldırılır (Tabakhi ve diğerleri, 2014). 
Laplacian Skoru (LS), her öznitelik için yerelliğini koruma gücünü yansıtacak şekilde 
hesaplanır. Birbirine yakın olan iki veri noktasının muhtemelen aynı konu ile ilgili olduğu 
gözlemine dayanmaktadır. Yerel geometrik yapıyı modellemek için en yakın komşu 
grafiği oluşturuyoruz. Bu grafik yapısına uyan özellikleri arar (He, Cai, D ve Niyogi 
2005). 
Sarmalayıcı yöntemler, özniteliklerin alt kümelerini değerlendirmek için bir 
sınıflandırıcıdan gelen geri bildirimi kullanır. Bu sınıflandırıcı genellikle nihai modeli 
oluşturmak için kullanılacak olanla aynıdır. Destek vektör makineleri, karar ağacı ve 
Naive bayes algoritmaları örnek olarak verilebilir (Shanab, Khoshgoftaar, ve Wald 2014). 
Gömülü yöntemler, aynı anda modeli eğitir ve öznitelik seçimini gerçekleştirir. Yani 
öğrenme kısmı ve öznitelik seçme kısmı aynı anda gerçekleştirilir. Bu nedenle, tahmin 
modeli ile etkileşime girdiklerinden filtre stratejilerinden daha “akıllı” yöntemler ve bir 
öznitelik alt kümesi her seçildiğinde öğrenme modelinin eğitilmesi gerekmediğinden 
sarmalayıcı yöntemlerden daha hızlı olarak kabul edilebilirler (Jiménez-Cordero, Morales 
ve Pineda 2021). You, Liu, Li ve Chen (2012), Yilmaz Eroglu ve Kilic (2017), Maldonado 
ve López (2018), çalışmaları örnek olarak verilebilir. 
8 
 
Hibrit yöntemler, filtreleme yöntemleri ile başlangıçta öznitelik seçimi kullanıldığı, 
ardından sarmalayıcı veya gömülü yaklaşımlarının sınıflandırma için kullanıldığı 
yöntemlerdir (Nagarajan ve Dhinesh Babu 2021). 
Öznitelik seçimi yöntemlerin bilgi akışı yönleri Şekil 2.1’de gösterilmiştir.  
 
Şekil 2.1. Öznitelik seçimi yöntemlerin bilgi akışı 
2.2.2  Temel makine öğrenme yöntemleri 
Takviyeli öğrenmede, temsilci bir dizi takviyeden öğrenir. Takviye doğru sınıflandırmayı 
veya yanlış sınıflandırmaya göre iyi veya kötü ödül değeri verilir. 
Denetimli öğrenmede, veri setindeki girdi ve çıktı çiftlerini gözlemler ve girdiden çıktıya 
eşleşen bir işlevi öğrenir. Çıktının olduğu veriler etiketli verilerdir. 
Denetimsiz öğrenmede, girdi değerleri vardır fakat çıktı değerleri yoktur. Veriler 
arasındaki örüntüleri öğrenir. Çıktının olmadığı veriler etiketsiz verilerdir. 
9 
 
Yarı denetimli öğrenme de, veri setinde hem etiketli hem etiketsiz veriler bulunur  
(Russell, Norvig ve Davis 2010). 
En çok bilinen öğrenme algoritmaları Çizelge 2.1’de gösterilmiştir. 
Çizelge 2.1.  Bazı makine öğrenmesi algoritmaları 
 DENETİMSİZ DENETİMLİ 
ÖĞRENME ÖĞRENME 
SÜREKLİ VERİ K-ortalama Regresyon 
Temel bileşen analizi(PCA) Karar ağaçları 
Tekil değer ayrıştırması(SVD) Rastgele orman 
KATEGORİK VERİ Apriori K en yakın komşuluk 
Destek vektör makineleri 
Sık örüntü keşfi(FP-growth) Lojistik regresyon 
Naive bayes 
Tez çalışmasında kullanılacak olan algoritmalar sonraki bölümlerde detaylandırılmıştır. 
2.2.3 Sınıflandırma metrikleri 
Bu bölümdeki bilgilerin önemli bir kısmı Naser ve Alavi (2021) tarafından hazırlanan 
makaleden derlenmiştir. Sınıflandırma modellerinin performans değerlendirmesinde 
kullanılan ölçütler karmaşıklık matrisinden hesaplanmıştır. Karmaşıklık matrisi Şekil 
2.2’de gösterilmiştir. 
 Tahmin Edilen Değer 
Gerçek Pozitif Gerçek Negatif 
Gerçek Değer 
Yanlış Pozitif Yanlış Negatif 
Şekil 2.2. Karmaşıklık matrisi 
 
 Gerçek Pozitif (TP): Gerçek değeri 1 ve tahmin edilen değerin de 1 olduğu 
örneklerdir. 
 Gerçek Negatifler (TN): Gerçek değeri 0 ve tahmin edilen değerin de 0 olduğu 
örneklerdir. 
10 
 
 Yanlış Pozitifler (FP): Gerçek değeri 0 ancak tahmin edilen değerin 1 olduğu 
örneklerdir. 
 Yanlış Negatifler (FN): Gerçek değeri 1 ancak tahmin edilen değerin 0 olduğu 
örneklerdir. 
Karmaşıklık matrisinin sütun ve satır sayısı verinin  sınıf sayısına göre değişir. Şekil 
2.2’te iki sınıf vardır. Sınıf sayısı değişirse de karmaşıklık matrisinden hesaplanan metrik 
değerler aşağıda anlatılan hesaplama yöntemleri ile hesaplanabilir. 
Doğruluk Oranı (Accuracy Rate), sınıflandırma sonucunun hangi oranda doğru tahmin 
ettiğinin bir ölçüsüdür. Hesaplanma yöntemi denklem 2.3’de gösterilmiştir. 
𝑇𝑃+𝑇𝑁
𝐷𝑜ğ𝑟𝑢𝑙𝑢𝑘 𝑂𝑟𝑎𝑛𝚤 =                                     (2.3) 
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁
Yanlış Sınıflandırma Oranı (Misclassification Rate), sınıflandırma sonucunun hangi 
oranda yanlış tahmin ettiğinin bir ölçüsüdür. Hata Oranı olarak da bilinir (Error Rate). 
Hesaplanma yöntemi denklem 2.4’de gösterilmiştir. Doğruluk oranı ile arasındaki ilişki 
denklem 2.5’de gösterilmiştir. 
𝐹𝑃+𝐹𝑁
𝑌𝑎𝑛𝑙𝚤ş 𝑆𝚤𝑛𝚤𝑓𝑙𝑎𝑛𝑑𝚤𝑟𝑚𝑎 𝑂𝑟𝑎𝑛𝚤 =                           (2.4) 
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁
𝑌𝑎𝑛𝑙𝚤ş 𝑆𝚤𝑛𝚤𝑓𝑙𝑎𝑛𝑑𝚤𝑟𝑚𝑎 𝑂𝑟𝑎𝑛𝚤 =  1 − 𝐷𝑜ğ𝑟𝑢𝑙𝑢𝑘 𝑂𝑟𝑎𝑛𝚤                  (2.5) 
Gerçek Pozitif Değerlerin Oranı (True Positive Rate), sınıflandırma sonucunun hangi 
oranda gerçek pozitif değeri doğru tahmin ettiğinin bir ölçüsüdür. Hassasiyet, İsabet 
Oranı veya Hatırlama olarak da bilinir. (Sensitivity, Hit Rate or Recall)  Mümkün olduğu 
kadar yüksek olmalıdır. Hesaplanma yöntemi denklem 2.6’te gösterilmiştir. 
𝑇𝑃
𝐺𝑒𝑟ç𝑒𝑘 𝑃𝑜𝑧𝑖𝑡𝑖𝑓 𝐷𝑒ğ𝑒𝑟𝑙𝑒𝑟 𝑂𝑟𝑎𝑛𝚤 =                              (2.6) 
𝑇𝑃+𝐹𝑁
Gerçek Negatif Değerlerin Oranı (True Negative Rate), sınıflandırma sonucunun hangi 
oranda gerçek negatif değeri doğru tahmin ettiğinin bir ölçüsüdür. Özgüllük veya 
Seçicilik olarak da bilinir. (Specificity or Selectivity) Hesaplanma yöntemi denklem 2.7’a 
gösterilmiştir. 
𝑇𝑁
𝐺𝑒𝑟ç𝑒𝑘 𝑁𝑒𝑔𝑎𝑡𝑖𝑓 𝐷𝑒ğ𝑒𝑟𝑙𝑒𝑟𝑖𝑛 𝑂𝑟𝑎𝑛𝚤 =                            (2.7) 
𝑇𝑁+𝐹𝑃
11 
 
Yanlış Pozitif Değerlerin Oranı (False Positive Rate), sınıflandırma sonucunun hangi 
oranda gerçek değeri 0 olmasına karşın 1 olarak tahmin edilenlerin oranıdır. Yan Ürün 
olarak da bilinir. (Fall-out) Hesaplanma yöntemi denklem 2.8’de gösterilmiştir. 
𝐹𝑃
𝑌𝑎𝑛𝑙𝚤ş 𝑃𝑜𝑧𝑖𝑡𝑖𝑓 𝐷𝑒ğ𝑒𝑟𝑙𝑒𝑟𝑖𝑛 𝑂𝑟𝑎𝑛𝚤 =                             (2.8) 
𝑇𝑁+𝐹𝑃
Yanlış Negatif Değerlerin Oranı (False Negative Rate), sınıflandırma sonucunun hangi 
oranda gerçek değeri 1 olmasına karşın 0 olarak tahmin edilenlerin oranıdır. Kayıp oranı 
olarak da bilinir. (Miss Rate) Hesaplanma yöntemi denklem 2.9’de gösterilmiştir. 
𝐹𝑁
𝑌𝑎𝑛𝑙𝚤ş 𝑁𝑒𝑔𝑎𝑡𝑖𝑓 𝐷𝑒ğ𝑒𝑟𝑙𝑒𝑟𝑖𝑛 𝑂𝑟𝑎𝑛𝚤 =                            (2.9) 
𝑇𝑃+ 𝐹𝑁
Hassasiyet (Precision), tüm sınıflardan, doğru olarak ne kadar tahmin edildiğinin bir 
ölçüsüdür. Mümkün olduğu kadar yüksek olmalıdır. Pozitif Tahmin Edici Değer olarak 
da bilinir.  (Positive Predictive Value) Hesaplanma yöntemi denklem 2.10’da 
gösterilmiştir. 
𝑇𝑃
𝐻𝑎𝑠𝑠𝑎𝑠𝑖𝑦𝑒𝑡 =                                               (2.10) 
𝑇𝑃+𝐹𝑃
F Puanı (F Score), sınıflandırma sonucunun gerçek pozitif değerlerin oranının (recall) ve 
hassasiyetin (precision) harmonik ortalamasıdır. Sınıflandırıcının ne kadar iyi performans 
gösterdiğinin bir ölçüsüdür ve sınıflandırıcıları karşılaştırmakta sıklıkla kullanılır. 
Hesaplanma yöntemi denklem 2.11’da gösterilmiştir. 
2 x Hassasiyet x Gerçek Pozitif Değerlerin Oranı
𝐹 𝑃𝑢𝑎𝑛𝚤 =                     (2.11) 
Hassasiyet+Gerçek Pozitif Değerlerin Oranı
ROC Eğrisi (ROC Curve), sınıflandırma sonucunun tüm olası değerler üzerinde 
performansını özetlemek için kullanılan bir grafiktir. Belirli bir sınıfa gözlem atanması 
eşiğini değiştirdiğinizde Gerçek Pozitif Değerlerin Oranına (Hassasiyet) (x ekseni) karşı 
Yanlış Pozitif Değerlerin Oranını (Özgüllük)  (y ekseni) çizerek oluşturulur. ROC Eğrisi, 
Hassasiyet / Özgüllük (Sensitivity / Specificity) raporu oluşturmaya yarar. ROC eğrisinin 
altındaki alan (Area Under Curve (AUC)), bir parametrenin iki sınıf arasında ne kadar iyi 
ayırt edilebileceğinin bir ölçüsüdür. 
12 
 
3. MATERYAL ve YÖNTEM 
Bu bölümde kullanılan veri setleri, algoritmalar ve geliştirilen yöntem hakkında bilgi 
verilmiştir. 
3.1 Materyal 
Bu bölümde kullanılan veri setleri, algoritmalar hakkında bilgi verilmiştir. 
3.1.1 Veri setleri 
Bu bölümde, çalışmada kullanılan veri setleri açıklanmıştır. Veri setlerine ait bilgiler 
Çizelge 3.1.’de gösterilmiştir. Veri setleri açık kaynak kodlu olup, UCI makine öğrenme 
deposundan alınmıştır (Dua ve Graff 2019). 
Çizelge 3.1. Veri seti bilgileri 
Veriseti Öznitelik Sayısı Sınıflar Veri Sayısı 
Wine 13 3 178 
Hepatitis 19 2 155 
WDBC 30 2 569 
Ionosphere 34 2 351 
Dermatology 34 6 366 
SpamBase 57 2 4601 
Arrhythmia 279 16 452 
Madelon 500 2 4400 
 
Wine veri setinde, şarapların kimyasal analiz sonuçları vardır. Üç farklı sınıf vardır. 
Analize göre şarapların hangi sınıfta olduğu tahmin edilir. Hepatitis veri setinde ölür ve 
yaşar şeklinde iki farklı sınıf vardır. WDBC veri seti, bir meme kitlesinin ince iğne 
aspirasyonun sayısallaştırılmış görüntüsünden hesaplanır. Görüntüde bulunan hücre 
çekirdeklerinin özelliklerini tanımlarlar. Veri setinde kötü huylu veya iyi huylu şeklinde 
iki farklı sınıf vardır. Ionosphere veri seti, Goose Bay tarafından Labrador'daki bir sistem 
tarafından toplanmıştır. İki farklı sınıfı vardır; iyi türü iyonosferden yansır, kötü türü 
iyonosferden geçer. Dermatology veri setinin amacı Erihemato-Skuamöz Hastalığın 
13 
 
tipini belirlemektir. Sedef hastalığı, seboreik dermatit, liken planus, pityriasis rosea, 
kronik dermatit ve pityriasis rubra pilaris olmak üzere 6 sınıfı vardır. Spambase veri seti, 
istenmeyen e-postaları ayıran 2 sınıflı bir veritabanıdır. Arrhythmia veri seti, Amaç 
kardiyak aritmi varlığını ve yokluğunu ayırt etmek ve 16 gruptan birinde 
sınıflandırmaktatır. Madelon veri seti, ikili sınıflandırma problemleri için oluşturulmuş 
yapay bir veri setidir. 
Veri setlerinde seçimindeki kriterler öznitelik sayısı, boyut sayısı ve veri sayısı olmuştur. 
Öznitelik sayısı ile farklı boyutlardaki, veri sayısı ile farklı büyüklükteki ve sınıf sayısı 
ile farklı sınıf büyüklerindeki önerilen yaklaşımın performansını gözlemleyebilmek için 
küçük orta büyük veri setleri seçilmiştir. 
Veri setlerinin sınıflandırma algoritma için eğitim ve test veri seti olarak bölünmesi 
gerekir. Veri setleri istenilen oranlarda bölünebilir. Örnek olarak %80 eğitim veri seti 
%20 test veri seti şeklinde bölünebilir (bkz. Şekil 3.1). 
TEST VERİ 
EĞİTİM VERİ SETİ 
SETİ 
Şekil 3.1. %80 eğitim %20 test veri seti sembolik gösterimi 
İkince ve sıklıkla kullanılan yöntem, k katlı çapraz doğrulama yöntemidir. Veri seti k eşit 
parçaya bölünür. Sırası ile her parça test veri seti olarak seçilir ve geri kalan parçalar 
eğitim seti olarak atanır. Bu yöntem ile verinin tamamı sınıflandırma için kullanılabilir. 
Şekil 3.2’de 5 katlı çapraz doğrulama sembolik olarak gösterilmiştir. 
 
Şekil 3.2.  5 katlı çapraz doğrulama sembolik gösterimi 
14 
 
3.1.2. Karınca koloni algoritması 
Karınca koloni algoritması, Dorigo (1992) tarafından önerilmiştir. Algoritma, gerçek 
karıncaların yemek bulma davranışları üzerine oluşturulmuştur. 
Karıncalar, sürü halinde yaşarlar. Sürü olarak bireyler kendi aralarında bilgi alışverişinde 
bulunurlar. Birçok karınca türünde, bir besin kaynağına gidip gelen karıncalar geçtikleri 
yere feromon adı verilen bir madde bırakır. Diğer karıncalar, feromon varlığını algılar ve 
feromon konsantrasyonunun daha yüksek olduğu yolları takip etme eğilimindedir. Bu 
mekanizma sayesinde karıncalar, yiyecekleri yuvalarına oldukça etkili bir şekilde 
taşıyabilirler (Deneubourg, Aron, Goss ve Pasteels 1990). 
Gerçek karıncaların yuva besin kaynağı arasında davranışlarının sembolik olarak 
gösterimi Şekil 3.3’te gösterilmiştir. 
 
Şekil 3.3. Gerçek karınca davranışlarının sembolik gösterimi 
Algoritma bu davranışı taklit eder. Optimizasyon için çözüm yollarını çözümün 
uygunluğuna göre feromon ile işaretler. İterasyonlar devam ettikçe daha iyi çözüme giden 
yollarda feromon miktarı artar. Buna bağlı olarak yolların seçim şansı artar (Dorigo, 
Birattari ve Stutzle 2006). 
15 
 
Karınca koloni algoritması parametreleri: 
 Karınca Sayısı: Algoritmada kullanılan karınca sayısı. 
 İterasyon Sayısı: Algoritma döngü sayısı. 
 Alfa(α): Feromon oranının önemi. 
 Beta(β): Sezgisel uzaklık oranının önemi. 
 Buharlaşma Katsayısı(ρ): Her iterasyonda azalan feromon oranı. 
Karınca Koloni Algoritması Seçim Formülü: 
𝛽
𝜏𝛼𝑖𝑗Ƞ𝑖𝑗
𝛽     𝑒ğ𝑒𝑟  𝑗 ∈ 𝐽𝛼 𝑘
𝑃𝑖𝑗 =  { ∑𝑢∈𝐽 𝜏𝑖𝑢Ƞ𝑘 𝑖𝑢                                     (3.1) 
 0       𝑑𝑖ğ𝑒𝑟 𝑑𝑢𝑟𝑢𝑚𝑙𝑎𝑟𝑑𝑎 
 τij: i ve j arasında bulunan feromon miktarı. 
 Ƞij: i ve j arası sezgisel uzaklık. (1/dij, dij: i ve j arası uzaklık)  
 Jk: Gidilebilecek komşuluklar kümesi. 
Feromon güncelleme formülü: 
𝜏𝑖𝑗 = (1 − 𝜌)𝜏𝑖𝑗 +  ∑
𝑚
𝑘=1 𝛥𝜏
𝑘
𝑖𝑗                                        (3.2) 
1
𝛥𝜏𝑘 = {  𝑘 𝑘𝑎𝑟𝚤𝑛𝑐𝑎𝑠𝚤 𝑏𝑢 𝑟𝑜𝑡𝑎𝑑𝑎 𝑖−𝑗 𝑦𝑜𝑙𝑢𝑛𝑢 𝑘𝑢𝑙𝑙𝑎𝑛𝑑𝚤 𝑖𝑠𝑒𝑖𝑗 𝐿𝑘                       (3.3) 𝑑𝑖ğ𝑒𝑟 𝑑𝑢𝑟𝑢𝑚𝑙𝑎𝑟𝑑𝑎
0 
 Lk: k karıncasının kullandığı rota uzunluğu. 
Karıncalar gidecekleri noktaya denklem 3.1’e göre karar verirler. Karıncalar rotalarını 
tamamlayınca denklem 3.2 ve denklem 3.3’e göre feromon güncellemeleri yapılır. 
Karınca koloni algoritması sözde kodu (pseudo code): 
Input: Karınca koloni algoritması parametreleri. 
Output: Feromon miktarının en fazla olduğu rota. 
1: begin algorithm 
2: Karıncalar rastgele noktalara yerleştirilir. 
3: while durdurma koşulları sağlanmadığında do 
16 
 
4:  Her karınca için rotayı hesapla 
5: Bulunan en iyi rota için feromon miktarlarını artır 
6: Bütün yollarda feromon buharlaştır. 
7:end while 
3.1.3 K en yakın komşuluk algoritması 
K en yakın komşuluk algoritmaları Fix ve Hodges (1951) tarafından geliştirilmiştir. 
Cover ve Hart (1967) tarafından genişletilmiştir. K en yakın komşuluk algoritması 
sınıflandırma ve regresyon problemlerini çözmek için kullanılabilir. Denetimli makine 
öğrenme algoritmasıdır. Denetimli öğrenme, sınıfların etiketlerinin belli olduğu 
durumlardır. 
K en yakın komşuluk sınıflandırıcı kullanarak, eğitim modellerinden gelen bilgiyi 
kullanır. Test verileri, en yakın k komşu arasında çoğunluk oylaması kullanılarak belirli 
bir sınıfa sınıflandırılır. Ayrıca, eşit olmayan dağılım kusurlarının da üstesinden gelir 
(Malini Devi, Seetha, ve Sunitha 2016). 
K en yakın komşuluk algoritması sözde kodu: 
• Sınıflandırma aşamasında, k komşu sayısı kullanıcı tanımlı bir sabittir ve 
etiketlenmemiş bir veri ile veri kümesindeki tüm noktalar arasındaki mesafe hesaplanarak 
sınıflandırılır. 
• Döngü, veri kümesindeki tüm noktalar tamamlanana kadar tekrarlanır. 
• Elde edilen uzaklıklar sıralanır ve k değerine göre bu komşular grafiğe alınır. 
• Komşu belirli bir sınıfta yer alıyorsa, o zaman gerçek pozitif olarak kabul edilir, aksi 
halde gerçek negatif olarak kabul edilir. 
• Gerçek pozitif ve gerçek negatif değere bağlı olarak doğruluk oranı hesaplanır. 
Tembel öğrenen algoritması olarak da adlandırılır. Çünkü eğitim kümesinden hemen 
öğrenmez, bunun yerine veri kümesini depolar ve sınıflandırma anında veri kümesi 
üzerinde bir işlem gerçekleştirir. 
17 
 
K en yakın komşuluk algoritması parametreleri: 
 Komşuluk sayısı(k): En yakın kaç komşunun dikkate alınacağını belirleyen 
parametredir. 
 Uzaklık formülü: Komşuluklar arası uzaklıkların hesaplanmasında kullanılan 
formüldür. 
K en yakın komşuluk algoritmasında genelde kullanılan uzaklık formülleri: 
 Minkowski Uzaklığı: Reel sayılar için tasarlanmış bir vektördür. Mesafelerin 
uzunluğu bir vektör olarak temsil edilmeli ve pozitif olmalıdır. Hesaplanma 
formülü denklem 3.4’te gösterilmiştir. Denklemdeki x ve y vektörlerin kartezyen 
değerleridir.  
𝑑 = (∑𝑛𝑖=1|𝑥 − 𝑦
𝑝 1/𝑝
𝑖 𝑖| )                                      (3.4) 
 Manhattan Uzaklığı: Minkowski uzaklığının p=1 değeri için özel halidir. 
Kartezyen koordinatlarının mutlak farklarının toplamıdır. Hesaplanma formülü 
denklem 3.5’te gösterilmiştir. 
                                        𝑑 = ∑𝑛𝑖=1|𝑥𝑖 − 𝑦𝑖|                                          (3.5) 
 Öklid Uzaklığı:  Minkowski uzaklığının p=2 değeri için özel halidir. Düzlem 
üzerinde iki nokta arasındaki düz çizgi mesafesinin bir ölçüsüdür. Hesaplanma 
formülü denklem 3.6’te gösterilmiştir. 
𝑑 =  √∑𝑛 2𝑖=1(𝑥𝑖 − 𝑦𝑖)                                        (3.6) 
 
Şekil 3.4. K en yakın komşuluk algoritmasının gösterimi 
18 
 
Şekil 3.4’teki örnekte, k=1 ise sınıfı bilinmeyen örnek en yakın mesafedeki sınıf etiketi 
ile etiketlenir. 
3.1.4. Destek vektör makineleri  
Boser, Guyon ve Vapnik (1992) tarafından destek vektör makineleri, örüntü tanıma ve 
sınıflandırma problemlerini çözümü için geliştirilmiştir. 
Destek vektör makineleri denetimli öğrenme algoritmalarıdır. Bir düzlem üzerindeki 
noktaları ayırmak için bir doğru belirler. Bu doğru ile farklı sınıfları ayırarak aralarındaki 
mesafeyi maksimum uzaklıkta olmasını amaçlar (Yang, Awan ve Vall-Llosera 2019). 
 
Şekil 3.5. Destek vektör makineleri gösterimi (Yang ve diğerleri 2019, Şekil 1) 
Şekil 3.5’te beyaz noktalar ve siyah noktalar olmak üzere iki sınıf vardır.  
Tolerans(margin) ne kadar geniş ise sınıflar o kadar iyi ayrıştırılır. 
0 𝑒ğ𝑒𝑟 𝑤𝑇 . 𝑥 + 𝑏 < 0,
ŷ = {                                           (3.7) 
1 𝑒ğ𝑒𝑟 𝑤𝑇 . 𝑥 + 𝑏 ≥ 0
 w: ağırlık vektörü. 
 x: Girdi vektörü. 
 b: Sapma miktarı. 
19 
 
Denklem 3.7’de çıkan sonuç 0’dan küçük ise beyaz noktalara yakın olacaktır. 0’dan 
büyük ise siyah noktalara yakın olacaktır. 
Denklem 3.7, denklem 3.8’te bulunan tek eşitsizlikte birleştirilebilir.  
∀𝑖  𝑖ç𝑖𝑛 𝑦𝑖 (〈𝑤
𝑇 , 𝑥𝑖〉 + 𝑏) − 1 ≥ 0                                     (3.8) 
Algoritmadaki temel mantık iki düzlem arasında bulunan mesafeyi en uzak tutmaktır. 
Mesafeyi hesaplayabilmek için problemi iki boyutta ele alınırsa düzlem yerine doğru 
kullanılabilir.  
 
Şekil 3.6. ||w|| vektörünün doğruları dik kesme grafiği 
Orijin noktasından geçen wTx + b =0 doğrusu tanımlarırsa Şekil 3.6’daki gibi doğruya 
dik olarak ||w|| vektörü tanımlanabilir. ||w|| vektörü aynı zamanda wTx + b =0 doğrusuna 
paralel olan wTx + b = 1 ve wTx + b = -1 doğrularına diktir. 
20 
 
 
Şekil 3.7. Doğrular ve ||w|| vektörü arası θ açısının gösterim grafiği 
Şekil 3.7’deki gibi wTx + b = 1 doğrusu üzerinde bir a noktası alınıp orjinden a noktasına 
doğru çizilirse ||w|| vektörü ve doğrular ile bir üçgen elde edilebilir. Şekil 3.7 gösterilen θ 
açısının denklem 3.9’de gösterilen kosinüs değerinden iki doğru arasındaki uzaklık 
bağlantısı elde edilir. Aynı işlem wTx + b = -1 doğrusu içinde yapılır. 
𝑤𝑇𝑎
  cos(𝜃) =                                                   (3.9) 
‖𝑤‖‖𝑎‖
Doğru denklemlerinden wTa yerinde 1-b yazılarak düzenlenir ise 1.denklem için 3.10 ve 
2. Denklem için 3.11 elde edilir. 
1−𝑏
  ‖𝑎‖cos(𝜃) =                                                 (3.10) 
‖𝑤‖
−1−𝑏
  ‖𝑎‖cos(𝜃) =                                               (3.11) 
‖𝑤‖
Şekil 3.7 görüldüğü gibi aralarındaki fark bulmak için denklem 3.10 denklem 3.11 
çıkartılarak denklem 3.12 elde edilir. 
2
𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑠 =                                                  (3.12) 
‖𝑤‖
||𝑤||
𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑠 =                                                 (3.13) 
2
Denklem 3.12 amaç fonksiyonu olarak en büyüklebilir bir fonksiyon olur veya denklem 
3.12 çarpmaya göre tersi alınarak denklem 3.13 elde edilip, amaç fonksiyonu en 
küçüklenebilir bir fonksiyon olur. Denklem 3.13 türevlenebilir bir denklem olmadığı için 
21 
 
türevlenebilir bir denklem elde edebilmek için denklem 3.13 karesi alınarak denklem 3.14 
elde edilir. 
‖𝑤‖2
𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑠 =                                                 (3.14) 
2
Tam ayrıştırılmayan verilerde amaç fonksiyonuna esneme katsayısı eklenir. Denklem 
3.15 gösterilmiştir. Denklem 3.15’te ε aylak değişkendir ve c ceza ağırlık terimidir. 
‖𝑤‖2
𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑠 =  + 𝑐 ∑𝑛𝑖=1 𝜀𝑖                                     (3.15) 2
Çekirdek dönüşümleri yapmak için amaç fonksiyonun yanına kısıtlarımızı eklenerek 
Lagrange fonksiyonu oluşturulur. Denklem 3.16 gösterilmiştir. Denklem 3.16’a α 
Lagrange çarpanı, A aktif kısıtlar kümesini göstermektedir. 
||𝑤||2
𝐿(𝑤, 𝑏, 𝛼) = − ∑ 𝑇𝑖∈𝐴 𝛼𝑖(𝑦𝑖(𝑤 𝑥𝑖 + 𝑏) − 1)                      (3.16) 2
w göre türev alınır ve düzenlenirse ifade denklem 3.17’deki gibi olur. 
1
𝐿(𝑤, 𝑏, 𝛼) = ∑ 𝑇𝑖∈𝐴 𝛼𝑖 − ∑𝑖∈𝐴 ∑𝑗∈𝐴 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗𝑥𝑖 𝑥𝑗                     (3.17) 2
Denklem 3.17’ye göre girdilerin iç çarpanlarına bağlı (x Ti xj) bir vektör elde edilir. Bu 
vektöre değiştirilerek çekirdek dönüşümleri yapılabilir. Örnek olarak polinom çekirdek 
için (1+ x T di xj)  dönüşümü yapılır (Metlek ve Kayaalp 2020).  
 Vektör destek makineleri parametreleri: 
 c: Ceza ağırlık terimidir. Büyüdükçe yanlış sınıflandırma için ceza miktarını büyütür. 
Bu nedenle tolerans aralığını daraltır. 
 Kernel trick: Çekirdek dönüşümü yapar. Doğrusal olmayan sınıflandırmalar da 
yapabilir.  
3.2. Yöntem 
Önerilen yöntem sınıflandırma problemlerinde işlem yükünün azaltılması amacı ile 
sınıflandırma performans göstergelerinin en iyilemeye çalışacak şekilde öznitelik 
seçimini hedeflemektedir. 
22 
 
Karınca koloni algoritmasında sadece en iyi rotadaki yollara feromon ekler. Karınca 
koloni algoritmasının,  öznitelikler arası sezgisel uzaklıklara ihtiyaç duymaktadır. Bu 
uzaklıkları bulmak için kosinüs benzerlik yöntemi kullanılmıştır. Kosinüs benzerlik 
yöntemi, matematiksel olarak vektörlerin iç çarpımının, normlarına bölümüdür. 
Kosinüs benzerlik formülü 3.18 denklemde gösterildiği gibidir. A ve B vektörleri temsil 
etmektedir. 
𝑛
𝐴.𝐵 ∑
𝐵𝑒𝑛𝑧𝑒𝑟𝑙𝑖𝑘(𝐴, 𝐵) = = İ=1
𝐴𝑖𝑥𝐵𝑖
                          (3.18) 
‖𝐴‖𝑥‖𝐵‖
√∑𝑛𝑖=1 𝐴
2
𝑖 𝑥√∑
𝑛
𝑖=1 𝐵
2
𝑖
Daha önce karınca koloni algoritmasında anlatıldığı gibi, iki nokta arası mesafe olan dij 
öznitelik seçimi uyarlamasında denklem 3.18’de gösterilen kosinüs benzerlik formülü ile 
hesaplanmıştır. 
Algoritma temel olarak iki aşamadan oluşur. İlk aşamada Karınca koloni algoritması ile 
frekans sıraları oluşturulur. İkinci aşamada sınıflandırma algoritmaları kullanılır. 
Algoritmanın iş akış diyagramı Şekil 3.8’de gösterilmiştir. 
1. Kosinüs benzerlik formülü ile özniteliklerin sezgisel uzaklıklarını hesapla. 
2. Karınca koloni algoritmasını  5 defa çalıştır. Bulunan 5 rotayı tut. 
3. Bulunan rotalarda ilk %80 kısmında gözüken öznitelikleri say. 
4. Sayılan öznitelikleri artmayan sıraya göre diz. Öznitelik frekans listesi oluştur. 
5. Öznitelikleri öznitelik frekans listesine göre ekleyerek sınıflandırma 
algoritmasını çalıştır. 
6. En iyi sınıflandırma metriğini veren öznitelik sayısını, öznitelikleri ve 
sınıflandırma metriğini döndür. 
Önerilen yöntemin sözde kodu (pseudo code): 
Input: Veri seti, algoritma parametreleri. 
Output: En iyi metrik değeri veren öznitelikler ve metrik değeri. 
1: begin algorithm 
2: Kosinüs benzerlik yöntemi ile veri setinden sezgisel uzaklıkları hesapla. 
3: while iterasyon sayısı 5’ten küçük ise do 
23 
 
4:  Karınca koloni algoritması çalıştır. 
5: Bulunan rotayı rota listesine ekle. 
6:end while 
7: Rota listesinde bulunan her rota için ilk %80 kısmında bulunan öznitelikleri say. 
Öznitelik frekans listesine ekle. 
8: Öznitelik frekans listesini artmayan sıraya diz. 
9: Öznitelikleri öznitelik frekans listesine göre ekleyerek sınıflandırma algoritmasını 
çalıştır. 
10: En iyi metrik değeri ve seçilen öznitelikleri çıktı olarak ver. 
Önerilen yaklaşımın literatürden farklılaştığı noktalar, karınca koloni algoritmasında 
sezgisel uzaklıkların kullanımı ve çıkan bilginin farklı değerlendirilmesidir. Sezgisel 
uzaklıklar, literatürde karınca koloni algoritmasının olasılık fonksiyonunda çarpmaya 
göre tersi alınarak kullanılmıştır. Önerilen yöntemde çarpmaya göre tersi alınmamıştır. 
Literatürde karınca koloni algoritmasından gelen bilgi, rotaların alt öznitelik kümeleri 
oluşturması veya feromon miktarlarının yüksek olduğu rotaların kullanılması şeklindedir. 
Önerilen yöntemde karınca koloni algoritması birden fazla kez çalıştırılmış olup, çıkan 
rotalardan frekans sırası oluşturulmuştur. Sezgisel yaklaşımlar başlangıç noktası gibi 
değişkenlerin değişmesi ile farklı çözüm kümelerin araştırılması mümkün olur. Böylece 
farklı çözüm kümelerinden gelen bilgi birleştirilmiştir. 
 
24 
 
 
Şekil 3.8. Önerilen yaklaşımın iş akış diyagramı 
25 
 
4. BULGULAR ve TARTIŞMA 
Bu bölümde yapılan çalışma sonuçları gösterilmiştir. Çalışma Python kullanılarak 
kodlanmıştır. Daha önceki çalışma ile karşılaştırmak amacı ile veri kümeleri 2/3 oranı 
eğitim kümesine ve 1/3 oranı ile test kümesine bölünmüştür. Veri setlerindeki tüm 
değerlerin etkilerini görmek amacı ile 10’lu çapraz doğrulama yöntemi de kullanmıştır.  
Veri setlerinde eksik değerler yerine ortalama değerler seçilmiştir. 
4.1. Karınca Koloni Algoritması Parametre Ayarlaması 
Tüm meta- sezgisel yöntemlerde olduğu gibi, karınca koloni algoritmasının da daha 
verimli çalışması için uygun parametre değerleri kullanılmalıdır.  
Parametre ayarlamaları WDBC veri seti üzerinden yapılmıştır. Veri seti 2/3 eğitim seti, 
1/3 test seti olarak bölünmüştür. Sınıflandırma algoritması olarak, K en yakın komşuluk 
algoritması komşuluk sayısı k=5 değeri kullanılmış ve performans metriği olarak 
doğruluk oranı kullanılmıştır. Sınıflandırma algoritması beş kere çalıştırılmış beş 
çalışmanın ortalama doğruluk oranı değeri alınmıştır. 
 
Şekil 4.1. Karınca koloni algoritması parametreleri Minitab ANOVA sonucu 
Şekil 4.1’de de görülebileceği gibi, doğruluk oranı üzerinde en etkili faktör alfa faktörü 
seçilmiştir. P değerleri %5’den büyüktür Ho hipotezi olan ana etkiler çıktı üzerinde 
etkisizdir red edilemez. İstatiksel olarak doğruluk oranı üzerinde etkili faktör yoktur. 
Doğruluk oranı [0,941-0,973] arasında değişmektedir.  
26 
 
Karınca koloni algoritması parametre değerlerini sezgisel olarak seçmemek için ana etki 
grafikleri oluşturulmuştur. Şekil 4.2’de gösterilmiştir. 
 
Şekil 4.2. Karınca koloni algoritması parametre değerleri ana etki grafikleri 
Şekil 4.2’deki grafiklerden de görülebileceği gibi, en yüksek doğruluk değerlerinin elde 
edildiği değerler alfa için 0,4, beta için 0,6 ve buharlaşma katsayısı için 0,9 olup, 
algoritma için bu parametre değerleri seçilmiştir. 
Karınca koloni algoritması iterasyon sayısı artıkça hesaplama maliyeti katlanarak 
artmaktadır. Farklı iterasyon sayısındaki performans değerleri için WDBC veri seti 
üzerinde 100 ve 1000 iterasyon sayısı değerleri denenmiştir. 100 iterasyon sayısı için 14 
öznitelik 0,95 doğruluk oranı elde edilmiştir. 10 iterasyona göre %2 daha iyidir. 1000 
iterasyonda 5 öznitelik 0,95 doğruluk oranı elde edilmiştir. 10 iterasyona göre %2 daha 
iyidir aynı zamanda 100 iterasyona göre daha az öznitelik seçmiştir. Büyük veri setlerinde 
uzun çalışma süreleri sebebi ile 10 iterasyon değeri seçilmiştir. Karınca koloni algoritması 
seçilen parametre değerleri Çizelge 4.1’de gösterilmiştir. 
 
 
27 
 
Çizelge 4.1 Karınca koloni algoritması seçilen parametre değerleri 
Parametre Değeri 
Alfa 0,4 
Beta 0,6 
Buharlaşma Katsayısı 0,9 
Karınca Sayısı 10 
Başlangıç Feromon Miktarları 10 
İterasyon Sayısı 10 
Çizelge 4.1’de gösterilen parametre değerleri ile karınca koloni algoritması çalıştırılarak 
her veri seti için öznitelik frekans sıraları oluşturulmuştur. 
4.2. Sonuçların Literatürdeki Çalışmalar ile Karşılaştırılması 
Bu bölümde, Tabakhi ve diğerleri (2014)’nin karınca koloni algoritması kullanarak 
yaptıkları yöntem (UFSACO) ile tez kapsamında önerilen yöntem karşılaştırılmıştır. 
UFSACO’dan farklı olarak önerilen yaklaşımda sezgisel uzaklıkların çarpmaya göre tersi 
alınmadan kullanılması ve öznitelik frekans sıraları önerilmiştir. 
UFSACO’da 2/3 eğitim, 1/3 test seti bölünmesi kullanılmıştır. Karşılaştırmak için aynı 
bölünme yöntemi ve UFSACO’da seçilen öznitelik sayıları kullanılmıştır. 
Çizelge 4.2. Önerilen yöntemin, UFSACO algoritması sonuçları ile karşılaştırılması      
(Tabakhi ve diğerleri (2014), Tablo 2 ve Tablo 3) 
Veri Seti Seçilen KNN SVM UFSACO UFSACO 
Öznitelik Doğruluk Doğruluk DT SVM 
Sayısı Oranı Oranı Doğruluk Doğruluk 
Oranı Oranı 
WDBC 5 0,931 0,941 0,919 0,907 
Dermatology 25 0,826 0,968 0,918 0,953 
Ionosphere 30 0,828 0,882 0,886 0,886 
Arrhythmia 20 0,597 0,597 0,591 0,592 
Wine 5 0,915 0,857 0,951 0,951 
Hepatitis 5 0,788 0,788 0,788 0,831 
28 
 
Çizelge 4.2. Önerilen yöntemin, UFSACO algoritması sonuçları ile karşılaştırılması      
(Tabakhi ve diğerleri (2014), Tablo 2 ve Tablo 3) (devam) 
Spambase 40 0,997 0,998 0,925 0,878 
Madellon 70 0,510 0,486 0,764 0,611 
Çizelge 4.2’ye göre, WDBC, Dermatology, Arrhythmia ve Spambase veri setlerinde 
önerilen yöntemin SVM sınıflandırma sonuçlarında daha iyi doğruluk oranı elde 
edilmiştir. 4 veri setinde, UFSACO DT sınıflandırmasına sonucundan daha iyi ortalama 
doğruluk oranına sahip UFSACO SVM sınıflandırmasında sonucu, ortalama %4,5 daha 
iyi sonuçlar elde edilmiştir. 
Tabakhi ve diğerleri (2014) tarafından yapılan çalışmada RSM ve MC filtreleme 
algoritmaları ile karşılaştırılmıştır.  
Çizelge 4.3. Önerilen yöntemin, RSM algoritması ile karşılaştırılması (Tabakhi ve 
diğerleri (2014), Tablo 2 ve Tablo 3) 
Veri Seti Seçilen KNN SVM RSM  RSM 
Öznitelik Doğruluk Doğruluk SVM DT 
Sayısı Oranı Oranı Doğruluk Doğruluk 
Oranı Oranı 
WDBC 5 0,931 0,941 0,8382 0,8634 
Dermatology 25 0,826 0,968 0,9488 0,916 
Ionosphere 30 0,828 0,882 0,8784 0,8834 
Arrhythmia 20 0,597 0,597 0,5611 0,5571 
Wine 5 0,915 0,857 0,8197 0,8634 
Hepatitis 5 0,788 0,788 0,8094 0,7755 
Spambase 40 0,997 0,998 0,8547 0,9176 
Madellon 70 0,510 0,486 0,535 0,5217 
Çizelge 4.3’e göre, WDBC, Dermatology, Ionosphere, Arrhythmia,Wine ve Spambase 
veri setlerinde RSM öznitelik seçiminden daha iyi sonuçlar elde edilmiştir. 5 veri setinde, 
önerilen yöntemin SVM sınıflandırma sonucu, RSM SVM sınıflandırma sonucundan  
daha iyi ortalama doğruluk oranına sahip RSM DT sınıflandırma sonucundan, ortalama 
%6 daha iyi sonuçlar elde edilmiştir. 
29 
 
Çizelge 4.4. Önerilen yöntemin, MC algoritması ile karşılaştırılması (Tabakhi ve diğerleri 
(2014), Tablo 2 ve Tablo 3) 
Veri Seti Seçilen KNN SVM MC MC 
Öznitelik Doğruluk Doğruluk filtresi filtresi 
Sayısı Oranı Oranı SVM DT 
Doğruluk Doğruluk 
Oranı Oranı 
WDBC 5 0,931 0,941 0,8897 0,9108 
Dermatology 25 0,826 0,968 0,9456 0,9112 
Ionosphere 30 0,828 0,882 0,8533 0,885 
Arrhythmia 20 0,597 0,597 0,4546 0,4544 
Wine 5 0,915 0,857 0,8962 0,9235 
Hepatitis 5 0,788 0,788 0,8273 0,8359 
Spambase 40 0,997 0,998 0,8633 0,9146 
Madellon 70 0,510 0,486 0,515 0,5 
Çizelge 4.4’e göre, WDBC, Dermatology, Arrhythmia ve Spambase veri setlerinde MC 
öznitelik seçiminden daha iyi sonuçlar elde edilmiştir. 4 veri setinde, önerilen yöntemin 
SVM sınıflandırma sonucu, MC SVM sınıflandırma sonucundan daha iyi ortalama 
doğruluk oranına sahip MC DT sınıflandırma sonucundan, ortalama %9 daha iyi sonuçlar 
elde edilmiştir. 
4.3. K En Yakın Komşuluk Sınıflandırması Sonuçları 
Veri setleri 1/3 test ve 2/3 eğitim olmak üzere bölünmüştür. Karınca koloni algoritması 
bulunan parametre değerleri ile her veri seti için çalıştırılmıştır. Elde edilen öznitelik 
sırasına göre her öznitelik değişiminde K en yakın komşuluk algoritması  5 defa 
çalıştırılmıştır, başarı ölçütü olarak doğruluk oranı ortalaması alınmıştır. Komşuluk sayısı 
k=5 seçilmiştir. 
 
 
 
30 
 
Çizelge 4.5. K en yakın komşuluk algoritması doğruluk oranı sonuçları 
Veri Seti Toplam Bütün ACO ile Doğruluk 
Öznitelik Öznitelikler Seçilen Oranı 
Sayısı Seçildiğinde Öznitelik 
Doğruluk Sayısı  
Oranı 
WDBC 30 0,931 25 0,945 
Dermatology 34 0,832 18 0,957 
Ionosphere 34 0,83 4 0,857 
Arrhythmia 279 0,627 140 0,69 
Wine 13 0,69 8 0,963 
Hepatitis 19 0,654 3 0,803 
Spambase 57 0,997 54 0,998 
Madellon 500 0,718 465 0,736 
Çizelge 4.5’e göre bütün veri setlerinde özniteliklerin seçimi yapılmadan önce ve 
öznitelik seçimi yapıldıktan sonra k en yakın komşuluk algoritması ile sınıflandırma 
sonuçları karşılaştırıldığında öznitelik seçilmesi sonrası daha iyi doğruluk oranları elde 
edilmiştir. 8 veri seti için ortalama %10 iyileşme görülmüştür. 
Başarı ölçütü F-puanı seçilerek algoritma çalıştırılmıştır. K en yakın komşuluk 
algoritması 5 defa çalıştırılmış, F-puanı değerlerinin ortalaması alınmıştır. 
Çizelge 4.6. K en yakın komşuluk algoritması F-puanı sonuçları 
Veri Seti Toplam Bütün ACO ile F-puanı 
Öznitelik Öznitelikler Seçilen 
sayısı Seçildiğinde Öznitelik 
F-Puanı Sayısı  
WDBC 30 0,941 25 0,947 
Dermatology 34 0,836 23 0,953 
Ion 34 0,891 4 0,897 
Arrhythmia 279 0,630 233 0,659 
Wine 13 0,681 8 0,942 
31 
 
Çizelge 4.6. K en yakın komşuluk algoritması F-puanı sonuçları (devam) 
Hepatitis 19 0,857 3 0,887 
Spambase 57 0,998 34 0,996 
Madellon 500 0,706 441 0,721 
Çizelge 4.6’ya göre, Spambase veri seti haricinde diğer veri setlerinde k en yakın 
komşuluk algoritması sınıflandırma sonucuna göre öznitelik seçimi sonrası öncesine göre 
daha iyi F-puanı değeri elde edilmiştir. 7 veri seti için %8 iyileşme görülmüştür. 
Spambase veri setinde 34 öznitelik seçildiğinde ise doğruluk oranı miktarı 0,002 
kötüleşir. Kötüleşme oranı %0,2’dir.  
Veri setleri için k-kat çapraz doğrulama yapılmıştır. k 10 seçilmiştir. Her veri seti için 
öznitelik değişiminde k en yakın komşuluk algoritması çalıştırılmış. Sınıflandırma 
metriği olarak doğruluk oranı kullanılmıştır. 
Çizelge 4.7. K en yakın komşuluk algoritması çapraz doğrulama sonuçları 
Veri Seti Öznitelik Bütün ACO ile Doğruluk 
Sayısı Öznitelikler Seçilen Oranı 
Tamamı Seçildiğinde Öznitelik 
Doğruluk Sayısı 
Oranı 
WDBC 30 0,929 27 0,942 
Dermatology 34 0,879 23 0,967 
Ionosphere 34 0,843 3 0,869 
Arrhythmia 279 0,628 129 0,638 
Wine 13 0,691 8 0,943 
Hepatitis 19 0,766 4 0,818 
Spambase 57 0,998 34 0,998 
Madellon 500 0,731 497 0,733 
Çizelge 4.7’ye göre, Spambase veri seti hariç bütün veri setlerinde özniteliklerin seçimi 
yapılmadan önce ve öznitelik seçimi yapıldıktan sonra k en yakın komşuluk algoritması 
ile sınıflandırma sonuçları karşılaştırıldığında öznitelik seçilmesi sonrası daha iyi 
32 
 
doğruluk oranları elde edilmiştir. 7 veri seti için ortalama %8 iyileşme görülmüştür. 
Spambase veri setinde iyileşme veya kötüleşme olmamıştır. 
Veri setleri 10 kat çapraz doğrulama ile analiz edildiği zaman Dermatology, Ionsphere ve 
Hepatitis veri setlerinde 2/3 eğitim seti analizine göre  daha iyi doğruluk oranları 
vermiştir. Dermatology ve Hepatitis veri setlerinde 10 kat çapraz doğrulama, 2/3 eğitim 
setine göre daha fazla öznitelik seçmiştir (bkz Çizelge 4.5 ve Çizelge 4.7). 
4.4 Destek Vektör Makineleri Sınıflandırması Sonuçları 
Veri setleri 1/3 test ve 2/3 eğitim olmak üzere bölünmüştür. Karınca koloni 
algoritmasından elde edilen öznitelik sırasına göre öznitelik değişiminde destek vektör 
makineleri 5 defa çalıştırılmıştır. Sınıflandırma sonucu olarak başarı ölçütü olarak 
doğruluk oranı ortalaması alınmıştır. Çekirdek fonksiyon doğrusal ve C değeri 1  
seçilmiştir. 
Çizelge 4.8. Destek vektör makineleri algoritması doğruluk oranı sonuçları 
Veri Seti Toplam Bütün ACO ile Doğruluk 
Öznitelik Öznitelikler Seçilen Oranı 
Sayısı Seçildiğinde Öznitelik 
Doğruluk Sayısı 
Oranı 
WDBC 30 0,951 19 0,960 
Dermatology 34 0,960 23 0,973 
Ionosphere 34 0,865 23 0,884 
Arrhythmia 279 0,646 262 0,693 
Wine 13 0,942 11 0,979 
Hepatitis 19 0,834 9 0,861 
Spambase 57 0,999 34 0,999 
Madellon 500 0,543 461 0,541 
Çizelge 4.8’e göre, Spambase veri seti hariç bütün veri setlerinde özniteliklerin seçimi 
yapılmadan önce ve öznitelik seçimi yapıldıktan sonra destek vektör makineleri 
algoritması ile sınıflandırma sonuçları karşılaştırıldığında öznitelik seçilmesi sonrası 
33 
 
daha iyi doğruluk oranları elde edilmiştir. 6 veri seti için %2,9 iyileşme görülmüştür. 
Spambase veri setinde iyileşme veya kötüleşme gözükmemiştir. Madellon veri setinde 
461 öznitelik seçildiğinde ise doğruluk oranı miktarı 0,02 kötüleşir. Kötüleşme oranı 
%0,37’dir. 
Başarı ölçütü F-puanı seçilerek algoritma çalıştırılmıştır. Destek vektör makineleri 
algoritması 5 defa çalıştırılmış, F-puanı değerlerinin ortalaması alınmıştır. 
Çizelge 4.9. Destek vektör makineleri algoritması F-puanı sonuçları 
Veri Seti Toplam Bütün ACO ile F puanı 
Öznitelik Öznitelikler Seçilen  
Sayısı Seçildiğinde  Öznitelik 
F puanı Sayısı  
WDBC 30 0,955 25 0,972 
Dermatology 34 0,960 19 0,975 
Ionosphere 34 0,907 31 0,927 
Arrhythmia 279 0,673 241 0,690 
Wine 13 0,976 12 0,980 
Hepatitis 19 0,874 12 0,923 
Spambase 57 0,999 34 0,999 
Madellon 500 0,543 461 0,549 
Çizelge 4.9’a göre, Spambase veri seti hariç bütün veri setlerinde özniteliklerin seçimi 
yapılmadan önce ve öznitelik seçimi yapıldıktan sonra destek vektör makineleri 
algoritması ile sınıflandırma sonuçları karşılaştırıldığında öznitelik seçilmesi sonrası 
daha iyi F-puanı elde edilmiştir. 7 veri seti için ortalama %2 iyileşme görülmüştür. 
Spambase veri setinde iyileşme veya kötüleşme olmamıştır. 6 veri seti için %2 iyileşme 
görülmüştür. Spambase veri setinde iyileşme veya kötüleşme gözükmemiştir.  
Veri setleri için k-kat çapraz doğrulama yapılmıştır. k 10 seçilmiştir. Her veri seti için 
öznitelik değişiminde destek vektör makineleri algoritması çalıştırılmış. Sınıflandırma 
metriği olarak doğruluk oranı kullanılmıştır. 
 
34 
 
Çizelge 4.10. Destek vektör makineleri algoritması çapraz doğrulama sonuçları  
Veri Seti Toplam Bütün ACO ile Doğruluk 
Öznitelik Öznitelikler Seçilen Oranı 
Sayısı Seçildiğinde  Öznitelik 
Doğruluk Sayısı  
Oranı 
WDBC 30 0,949 25 0,960 
Dermatology 34 0,956 20 0,980 
Ionosphere 34 0,871 26 0,888 
Arrhythmia 279 0,640 132 0,654 
Wine 13 0,982 12 0,988 
Hepatitis 19 0,864 11 0,857 
Spambase 57 0,999 34 0,999 
Madellon 500 0,560 440 0,573 
Çizelge 4.10’a göre, Spambase veri seti hariç bütün veri setlerinde özniteliklerin seçimi 
yapılmadan önce ve öznitelik seçimi yapıldıktan sonra destek vektör makineleri 
algoritması ile sınıflandırma sonuçları karşılaştırıldığında öznitelik seçilmesi sonrası 
daha iyi doğruluk oranları elde edilmiştir. 7 veri seti için ortalama %1 iyileşme 
görülmüştür. Spambase veri setinde 34 öznitelik seçildiğinde ise doğruluk oranı miktarı 
0,001 kötüleşir. Kötüleşme oranı %0,1’dir. 
Veri setleri 10 kat çapraz doğrulama ile analiz edildiği zaman Dermatology, Ionospher, 
Wine ve Madellon veri setlerinde 2/3 eğitim seti analizine göre  daha iyi doğruluk oranları 
vermiştir. Ionospher ve Wine veri setlerinde 10 kat çapraz doğrulama, 2/3 eğitim setine 
göre daha fazla öznitelik seçmiştir. (bkz Çizelge 4.8 ve Çizelge 4.10) 
4.5 K En Yakın Komşuluk Ve Destek Vektör Makinelerin Karşılaştırması 
Bu bölümde, kullanılan sınıflandırma yöntemleri karşılaştırılmıştır. Daha önce verilen 
çapraz doğrulama ve F-puanı sonuçları kullanılmıştır. 
 
 
 
35 
 
Çizelge 4.11 K en yakın komşuluk ve destek vektöre makineleri F-puanı karşılaştırması 
Veri Seti ACO ile KNN ACO ile SVM 
Seçilen F-puanı Seçilen F-puanı 
Öznitelik Öznitelik 
Sayısı  Sayısı  
WDBC 25 0,947 25 0,972 
Dermatology 23 0,953 19 0,975 
Ionosphere 4 0,897 31 0,927 
Arrhythmia 233 0,659 241 0,690 
Wine 8 0,942 12 0,980 
Hepatitis 3 0,887 12 0,923 
Spambase 34 0,996 34 0,999 
Madellon 441 0,721 461 0,549 
Çizelge 4.11’e göre, destek vektör makineleri Madellon veri seti haricinde daha iyi F-
puanı elde edilmiştir. 7 veri seti için ortalama %2.95 iyileşme görülmüştür. Madellon veri 
setinde K en yakın komşuluk algoritması kullanıldığında %31 iyileşme görülmüştür. 
Destek vektör makineleri, bütün veri setlerinde %0,18 daha başarılıdır. Ionosphere, 
Arrhythmia, Wine ve Hepatitis veri setlerinde öznitelik sayısı daha fazladır. Spambase ve 
WDBC veri setlerinde öznitelik sayısı aynıdır.  
Çizelge 4.12. K en yakın komşuluk ve destek vektöre makineleri çapraz doğrulama 
doğruluk oranları karşılaştırması 
Veri Seti ACO ile KNN ACO ile SVM 
Seçilen Doğruluk Seçilen Doğruluk 
Öznitelik Oranı Öznitelik Oranı 
Sayısı  Sayısı  
WDBC 27 0,942 25 0,960 
Dermatology 23 0,967 20 0,980 
Ionosphere 3 0,869 26 0,888 
Arrhythmia 129 0,638 132 0,654 
Wine 8 0,943 12 0,988 
Hepatitis 4 0,818 11 0,857 
36 
 
Çizelge 4.12. K en yakın komşuluk ve destek vektöre makineleri çapraz doğrulama 
doğruluk oranları karşılaştırması (devam) 
Spambase 34 0,998 34 0,999 
Madellon 497 0,733 440 0,573 
Çizelge 4.12’ye göre, destek vektör makineleri WDBC, Dermatology, Ionosphere, 
Arrhythmia, Wine, Hepatitis ve Spambase veri setlerinde daha iyi doğruluk oranları elde 
edilmiştir. 7 veri seti için ortalama %2.44 iyileşme görülmüştür. Madellon veri setinde K 
en yakın komşuluk algoritması kullanıldığında %28 iyileşme görülmüştür. K en yakın 
komşuluk, bütün veri setlerinde %0,13 daha başarılıdır. Destek vektör makinelerinde 
Ionosphere, Arrhythmia, Wine ve Hepatitis veri setlerinde öznitelik sayısı daha fazladır. 
Spambase veri setinde öznitelik sayıları aynıdır. 
Ek 1’de yer alan rassal veri kümesi ile sınıflandırma yöntemleri karar sınırları Şekil 4.3 
gösterilmiştir. 
 
KNN karar sınırları SVM karar sınırları 
 
Şekil 4.3. K en yakın komşuluk algoritması ve destek vektör makineleri rassal veri kümesi 
sınıflandırma sonucu karar sınırları 
Şekil 4.3’te görülebileceği gibi, K en yakın komşuluk karar sınırları komşu değerlerden 
etkilendiği için girintili karar sınırları elde edilmiştir. Destek vektöre makineleri çekirdek 
fonksiyonu doğrusal seçildiği için doğrusal karar sınırları elde edilmiştir. 
37 
 
5. SONUÇ 
Bu tez çalışmasında, öznitelik seçim problemlerinde yüksek doğruluk oranı verebilecek 
öznitelik kümesi bulabilmek için karınca koloni algoritmasına dayalı hibrit bir yaklaşım 
önerilmiştir.  
Seçilen öznitelikleri değerlendirmek için destek vektör makineleri ve K en yakın 
komşuluk algoritmaları kullanılmıştır. Sınıflandırma metrikleri doğruluk oranı ve F-puanı 
seçilmiştir. Farklı eğitim/test kümeleri ile sonuçlar elde edilmiş değerlendirilmiştir. 
Önerilen yaklaşımı doğrulamak için tez kapsamında önerilen yöntem ile literatürdeki 
UFSACO yöntemi karşılaştırılmış, kullanılan 8 veri setinin 4 adedinde daha yüksek 
doğruluk oranları elde edilmiştir. İlaveten ve bilinen tek değişkenli filtreleme yöntemleri 
olan RSM ve MC algoritmaları ile de yöntem karşılaştırılmıştır. 
Sonuçlar baz alınarak önerilen yöntem öznitelik seçimi problemlerinde kullanılabilir. 
Zaman kısıtı olmadığında karınca koloni algoritmasında karınca ve iterasyon sayısı 
artırarak daha iyi rotalar elde edilebilir. Öznitelik seçimi frekans sırası yerine aynı frekans 
değerine sahip özniteliklerin rassal seçimi ile birden fazla öznitelik alt kümesi elde 
edilerek topluluk öğrenimi yapılırsa daha iyi tahmin değerleri elde edilebilir.  Önerilen 
yöntemin başarısı sınıflandırma yöntemlerine göre değiştiği için, gelecek çalışmalarda tez 
kapsamında değerlendirilmemiş olan daha gelişmiş sınıflandırma teknikleri ile de 
sonuçlar değerlendirilebilir. Karınca koloni algoritmasında kullanılan öznitelikler arası 
sezgisel uzaklık hesaplama yöntemi, algoritmanın başarısını büyük ölçüde etkilediği için 
öznitelik arası örüntüleri daha iyi yakalayabilecek metotlar ile de çalışmalar yapılabilir. 
Sonraki çalışmalarda ilaveten, hibrit yaklaşım yerine gömülü yöntem kullanılarak karınca 
koloni algoritması ile sınıflandırma algoritmaları arasında karşılıklı bilgi alışverişi 
yapılırsa karıncaların rota seçiminin sınıflandırma sonuçları ile değerlendirerek daha iyi 
rotalar elde edilebilmesi sağlanabilir. 
 
 
38 
 
 
KAYNAKLAR 
 
Aghdam, M. H., Ghasem-Aghaee, N., ve Basiri, M. E. 2009. h Expert Systems with 
Applications, 36(3), 6843–6853. doi: 10.1016/j.eswa.2008.08.022 
Alanazi, M. A., Siraj, M. M., ve Ghaleb, F. A. 2021. Hybrid Feature Selection by 
Combining Wrapper and Filter Methods for Malware Detection. In 2021 International 
Conference on Data Science and Its Applications (ICoDSA) (pp. 233-239). IEEE. doi: 
10.1109/icodsa53588.2021.9617521 
Al-Ani, A. 2005. Ant Colony Optimization for Feature Subset Selection. In WEC (2) (pp. 
35-38). 
Ali, S. I., ve Shahzad, W. 2012, October. A feature subset selection method based on 
symmetric uncertainty and ant colony optimization. In 2012 International Conference on 
Emerging Technologies (pp. 1-6). IEEE. doi: 10.1109/ICET.2012.6375420 
Bindu, M. G., ve Sabu, M. K. 2020. A Hybrid Feature Selection Approach Using 
Artificial Bee Colony and Genetic Algorithm. In 2020 Advanced Computing and 
Communication Technologies for High Performance Applications (ACCTHPA) (pp. 211-
216). IEEE. doi: 10.1109/ACCTHPA49271.2020.9213197 
Boser, B. E., Guyon, I. M., ve Vapnik, V. N. 1992, July. A training algorithm for optimal 
margin classifiers. In Proceedings of the fifth annual workshop on Computational 
learning theory (pp. 144-152). doi: 10.1145/130385.130401 
Cover, T., ve Hart, P. 1967. Nearest neighbor pattern classification. IEEE transactions on 
information theory, 13(1), 21-27. doi: 10.1109/TIT.1967.1053964 
Cover, T. M., ve  Thomas, J. A. 2006. Elements of Information Theory,(2nd edn, 2006). 
doi: 10.1002/047174882X 
Deneubourg, J. L., Aron, S., Goss, S., ve  Pasteels, J. M. 1990. The self-organizing 
exploratory pattern of the argentine ant. Journal of Insect Behavior, 3(2), 159–168. doi: 
10.1007/BF01417909 
Deriche, M. 2009. Feature selection using ant colony optimization. In 2009 6th 
International Multi-Conference on Systems, Signals and Devices (pp. 1-4). IEEE. doi: 
10.1109/SSD.2009.4956825 
Dorigo, M. 1992. Optimization, Learning and Natural Algorithms. (Doktora Tezi).  Italy. 
Dorigo, M., Birattari, M., ve Stutzle, T. 2006. Ant colony optimization. IEEE 
computational intelligence magazine, 1(4), 28-39. doi: 10.1109/MCI.2006.329691 
Dua, D. ve Graff, C. 2019. UCI Machine Learning Repository. University of California, 
School of Information and Computer Science, Irvine, CA. Erişim adresi: 
http://archive.ics.uci.edu/ml 
 
39 
 
Eroglu, D. Y., ve Kilic, K. 2017. A novel Hybrid Genetic Local Search Algorithm for 
feature selection and weighting with an application in strategic decision making in 
innovation management. Information Sciences, 405, 18-32. doi: 
10.1016/j.ins.2017.04.009 
Fahrudin, T. M., Syarif, I., ve Barakbah, A. R. 2016. Ant colony algorithm for feature 
selection on microarray datasets. In 2016 International Electronics Symposium (IES) (pp. 
351-356). IEEE. doi: 10.1109/ELECSYM.2016.7861030 
Fix, E. and Hodges, J.L. 1951 Discriminatory Analysis, Nonparametric Discrimination: 
Consistency Properties. Technical Report 4, USAF School of Aviation Medicine, 
Randolph Field. 
Gheyas, I. A., ve Smith, L. S. 2010. Feature subset selection in large dimensionality 
domains. Pattern recognition, 43(1), 5-13. doi: 10.1016/j.patcog.2009.06.009 
Hamed, T., Dara, R., ve Kremer, S. C. 2014. An accurate, fast embedded feature selection 
for SVMs. In 2014 13th International Conference on Machine Learning and Applications 
(pp. 135-140). IEEE. doi: 10.1109/ICMLA.2014.104 
He, X., Cai, D., ve Niyogi, P. 2005. Laplacian score for feature selection. Advances in 
neural information processing systems, 18. (pp. 507–514). Erişim adresi: 
https://papers.nips.cc/paper/2005/file/b5b03f06271f8917685d14cea7c6c50a-Paper.pdf 
Jensen R. 2005. Combining rough and fuzzy sets for featuer selection (Doktora Tezi). 
Erişim adres: https://users.aber.ac.uk/rkj/PhDthesis.pdf 
Jiménez-Cordero, A., Morales, J. M., ve Pineda, S. 2021. A novel embedded min-max 
approach for feature selection in nonlinear Support Vector Machine classification. 
European Journal of Operational Research, 293(1), 24-35. doi: 
10.1016/j.ejor.2020.12.009 
Kanan, H. R., ve Faez, K. 2008. An improved feature selection method based on ant 
colony optimization (ACO) evaluated on face recognition system. Applied Mathematics 
and Computation, 205(2), 716-725. doi: 10.1016/j.ame.2008.05.115 
Kashef, S., ve Nezamabadi-pour, H. 2015. An advanced ACO algorithm for feature subset 
selection. Neurocomputing, 147, 271-279. doi: 10.1016/j.neucom.2014.06.067 
Liu, H., ve Yu, L. 2005. Toward integrating feature selection algorithms for classification 
and clustering. IEEE Transactions on knowledge and data engineering, 17(4), 491-502. 
doi: 10.1109/TKDE.2005.66 
Maldonado, S., ve López, J. 2018. Dealing with high-dimensional class-imbalanced 
datasets: Embedded feature selection for SVM classification. Applied Soft Computing, 
67, 94-105. doi: 10.1016/j.asoc.2018.02.051 
Malini Devi, G., Seetha, M., ve Sunitha, K. V. 2016. A Novel K-Nearest Neighbor 
Technique for Data Clustering using Swarm Optimization. International Journal of 
Geoinformatics, 12(1). 75-82. doi: 10.52939/ijg.v12i1.935 
Manosij, G., Ritam, G., Sarkar, R., ve Abraham, A. 2020. A wrapper-filter feature 
selection technique based on ant colony optimization. Neural Computing & Applications, 
32(12), 7839-7857. doi: 10.1007/s00521-019-04171-3 
40 
 
Metlek, S., ve  Kayaalp, K. 2020. Makine öğrenmesinde, teoriden örnek matlab 
uygulamalarina kadar destek vektör makineleri (p. 100). Erişim adresi: 
https://iksadyayinevi.com/wp-content/uploads/2020/12/MAKINE-OGRENMESINDE-
TEORIDEN-ORNEK-MATLAB-UYGULAMALARINA-KADAR-DESTEK-
VEKTOR-MAKINELERI.pdf 
Min, H., ve Fangfang, W. 2010. Filter-wrapper hybrid method on feature selection. In 
2010 Second WRI Global Congress on Intelligent Systems (Vol. 3, pp. 98-101). IEEE. 
doi: 10.1109/GCIS.2010.235 
Mohammed, S. K., Deeba, F., Bui, F. M., ve Wahid, K. A. 2016. Feature selection using 
modified ant colony optimization for wireless capsule endoscopy. In 2016 IEEE 7th 
Annual Ubiquitous Computing, Electronics & Mobile Communication Conference 
(UEMCON) (pp. 1-4). IEEE. doi: 10.1109/UEMCON.2016.7777925 
Nagarajan, G., ve Babu, L. D. 2021. A hybrid feature selection model based on improved 
squirrel search algorithm and rank aggregation using fuzzy techniques for biomedical 
data classification. Network Modeling Analysis in Health Informatics and Bioinformatics, 
10(1), 1-29. doi: 10.1007/s13721-021-00313-7 
Naser, M. Z., ve Alavi, A. H. 2021. Error Metrics and Performance Fitness Indicators for 
Artificial Intelligence and Machine Learning in Engineering and Sciences. Architecture, 
Structures and Construction, 1-19. doi: 10.1007/s44150-021-00015-8 
Palma-Mendoza, R. J., de-Marcos, L., Rodriguez, D., ve Alonso-Betanzos, A. 2019. 
Distributed correlation-based feature selection in spark. Information Sciences, 496, 287-
299. doi: 10.1016/j.ins.2018.10.052 
Paniri, M., Dowlatshahi, M. B., ve Nezamabadi-pour, H. 2020. MLACO: A multi-label 
feature selection algorithm based on ant colony optimization. Knowledge-Based Systems, 
192, 105285. doi: 10.1016/j.knosys.2019.105285 
Rostami, M., Berahmand, K., Nasiri, E., ve Forouzande, S. 2021. Review of swarm 
intelligence-based feature selection methods. Engineering Applications of Artificial 
Intelligence, 100, 104210. doi: 10.1016/j.engappai.2021.104210 
Russell, S. J., Norvig, P., ve  Davis, E. 2010. Artificial intelligence: a modern 
approach. 3rd ed. Upper Saddle River, NJ: Prentice Hall. Erişim adresi: 
https://cs.calvin.edu/courses/cs/344/kvlinden/resources/AIMA-3rd-edition.pdf 
Sarac, E. ve Ozel, S. A. 2014. An ant colony optimization based feature selection for web 
page classification. The Scientific World Journal, 2014. doi: 10.1155/2014/649260 
Shanab, A. A., Khoshgoftaar, T. M., ve Wald, R. 2014. Evaluation of wrapper-based 
feature selection using hard, moderate, and easy bioinformatics data. In 2014 IEEE 
International Conference on Bioinformatics and Bioengineering (pp. 149-155). IEEE. 
doi: 10.1109/BIBE.2014.62 
Shunmugapriya, P., ve Kanmani, S. 2017. A hybrid algorithm using ant and bee colony 
optimization for feature selection and classification (AC-ABC Hybrid). Swarm and 
Evolutionary Computation, 36, 27-36. doi: 10.1016/j.swevo.2017.04.002 
41 
 
Sivagaminathan, R. K., & Ramakrishnan, S. 2007. A hybrid approach for feature subset 
selection using neural networks and ant colony optimization. Expert systems with 
applications, 33(1), 49-60. doi: 10.1016/j.eswa.2006.04.010 
Tabakhi, S., Moradi, P., ve Akhlaghian, F. 2014. An unsupervised feature selection 
algorithm based on ant colony optimization. Engineering Applications of Artificial 
Intelligence, 32, 112-123. doi: 10.1016.j.engappai.2014.03.007 
Unler, A., Murat, A., ve Chinnam, R. B. 2011. mr2PSO: A maximum relevance minimum 
redundancy feature selection method based on swarm intelligence for support vector 
machine classification. Information Sciences, 181(20), 4625-4641. doi: 
10.1016/j.ins.2010.05.037 
Wald, R., Khoshgoftaar, T. M., ve Napolitano, A. 2013, November. Should the Same 
Learners Be Used Both within Wrapper Feature Selection and for Building Classification 
Models?. In 2013 IEEE 25th International Conference on Tools with Artificial 
Intelligence (pp. 439-445). IEEE. doi: 10.1109/ICTAL.2013.72 
Yan, H., ve Yang, J. 2015. Sparse discriminative feature selection. Pattern Recognition, 
48(5), 1827-1835. doi: 10.1016/j.patcog.2014.10.021 
Yang, J., Awan, A. J., ve  Vall-Llosera, G. 2019. Support Vector Machines on Noisy 
Intermediate Scale Quantum Computers. Erişim adresi: http://arxiv.org/abs/1909.11988 
You, M., Liu, J., Li, G. Z., & Chen, Y. 2012. Embedded feature selection for multi-label 
classification of music emotions. International Journal of Computational Intelligence 
Systems, 5(4), 668-678. doi: 10.1080/18756891.2012.718113 
 
 
 
 
 
 
 
 
 
 
 
 
 
42 
 
 
EKLER 
 
EK 1  Rassal Veri Seti 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
43 
 
EK 1 Rassal Veri Seti 
 
Öznitelik 1 Öznitelik 2 Sınıf 
8 5 1 
9 4 1 
8 3 1 
10 5 1 
9 5 1 
5 5 1 
9 4 1 
6 3 1 
6 4 1 
5 5 1 
10 13 2 
16 15 2 
11 15 2 
10 7 2 
18 7 2 
15 10 2 
13 15 2 
16 6 2 
13 7 2 
11 7 2 
22 13 3 
20 23 3 
22 25 3 
22 25 3 
17 22 3 
24 20 3 
16 14 3 
24 19 3 
22 19 3 
17 17 3 
 
 
 
 
 
44 
 
 
ÖZGEÇMİŞ 
 
Adı Soyadı    : Umut AKCAN 
Doğum Yeri ve Tarihi : İNEGÖL 07.09.1994 
Yabancı Dil   : İngilizce 
 
Eğitim Durumu  
      Lise   : İnegöl Turgutalp Anadolu Lisesi, 2012 
      Lisans   : Eskişehir Osmangazi Üniversitesi – Endüstri 
  Mühendisliği, 2016 
      Yüksek Lisans            : Bursa Uludağ Üniversitesi – Endüstri Mühendisliği, 2022 
 
 
Çalıştığı Kurum/Kurumlar  : - 
 
  
İletişim (e-posta)  : umutakcan656@gmail.com 
 
Yayınları   : 
 
45