Zararlı yazılımların tespi̇ti̇ i̇çi̇n hi̇bri̇t si̇stem tasarımı

Kalıpcıoğlu, Kerim Can

Yayın:
Zararlı yazılımların tespi̇ti̇ i̇çi̇n hi̇bri̇t si̇stem tasarımı

dc.contributor.advisor	Toğay, Cengiz
dc.contributor.advisor	Yolaçan, Esra N.
dc.contributor.author	Kalıpcıoğlu, Kerim Can
dc.contributor.department	Fen Bilimleri Enstitüsü
dc.contributor.department	Bilgisayar Mühendisliği Ana Bilim Dalı
dc.contributor.orcid	0000-0003-4885-346X
dc.date.accessioned	2021-01-18T09:55:48Z
dc.date.available	2021-01-18T09:55:48Z
dc.date.issued	2020
dc.description.abstract	Zararlı yazılımlar uzun süredir bilgisayar güvenliği için tehlike oluşturmaktadır. Bunun yanında zararlı yazılımlar devlet kurumları ve ticari kuruluşlara saldırılardan geniş çaplı kripto-fidye saldırılarına kadar birçok amaçla kullanılmaya başlanmıştır. Günümüzde yaygın bir şekilde kullanılmakta olan imza tabanlı yaklaşımlar, özellikle sıfır gün saldırıları gibi henüz tespit edilmemiş saldırı vektörlerine karşı başarısız olmaktadırlar. Kritik noktalardaki bilgisayar sistemlerinin gerek güncelleme ve gerekse yeni uygulamaların kurulmasının ardından sıfır gün saldırıları ile karşılaşma riski bulunmaktadır. Bu tip saldırılar genellikle en az bir sisteme zarar verdikten sonra tespit edilmektedir. Dolayısı ile bu süre zarfında kullanıcılar bu tip saldırılara karşı savunmasız kalırlar. Gerek statik ve gerekse dinamik analiz zararlı yazılım analiz sürecini kısaltması ve sıfır gün saldırılarına karşı umut vermesi nedeni ile makine öğrenmesi yaklaşımlarından yaygın olarak yararlanılmaktadır. Makine öğrenmesi modellerinden beklenen, uygulamada kullanılan ticari ürünler kadar kararlı ve hızlı olması, aynı zamanda da zararlı örüntüleri insanlar kadar iyi tanımasıdır. Bu alanda yapılan akademik çalışmalar örnek veriler üzerinde başarılı ölçümler gösterse de ticari ürünler halen imza tanıma temelli yaklaşımları tercih etmektedir. Bu tez çalışmasında taşınabilir, ölçeklenebilir ve yorumlanabilir bir makine öğrenme modeli oluşturması amaçlanmıştır. Tez kapsamında yapılan çalışmada çalıştırılabilir dosyalara ait basit özellikler kullanılarak modelin yorumlanabilir ve taşınabilir olması sağlanmıştır. Yapılan deneylerde oluşturulan topluluk modeli, bu statik özellikler ile temsil edilen çok sınıflı zararlı yazılım kümesini tekil modellere göre daha başarılı şekilde sınıflandırdığı gözlemlenmiştir. Bu şekilde iki farklı özellik kümesinden ve beş farklı makine öğrenmesi yönteminden oluşturulan hibrit topluluk modelinin zararlı yazılımların sınıflandırılması için kullanılabileceği gösterilmiştir. Çalışmada kullanılan dosya tipinden bağımsız yöntem ile bir hibrit zararlı yazılım tespit yöntemi geliştirilmiştir. Bu şekilde farklı özellik kümelerinden ve makine öğrenmesi yöntemlerinden oluşturulan hibrit topluluk modelinin zararlı yazılımları %98 üzerinde doğrulukla sınıflandırabildiği gösterilmiştir.
dc.description.abstract	Malicious software is a known threat in computer security for a long time. However, in recent years, malicious software was started to use with different purposes, e.g., attacks for high-class governmental & commercial organizations and large scale crypto-ransom attacks. Widely used signature-based methods are mostly ineffective against attack vectors like zero-day attacks. Updated or newly installed computer systems, including critical infrastructure, also face zero-day attacks. Most of the time, this type of attack spotted after at least one incident. Computer systems will be vulnerable until the incident detected. Both static and dynamic analyses benefit machine learning methods for shorten analysis processes and prevent zero-day attacks. Machine learning is both expected to be robust and fast as commercial security products, also recognize malicious patterns like humans. Although most research done on this topic shows promising results, most commercial products still use signature-based methods. The purpose of this thesis is to develop a portable, scalable, and interpretable machine learning model. For ensuring an interpretable and portable model, basic features extracted from executable files were used as inputs. An ensemble model developed according to experimental results. The developed model was observed to be more successful than individual models on multiclass malware dataset represented as static feature vectors. In this way, a model which made using two different feature sets and five different classifiers presented as a hybrid ensemble model. Also, this hybrid model can be used for different executable file types without any change. As a result of this work, the developed hybrid machine learning model showed higher than %98 accuracy on the multi-class malware dataset.
dc.format.extent	VII, 63 sayfa
dc.identifier.citation	Kalıpcıoğlu, K.C (2020). Zararlı yazılımların tespi̇ti̇ i̇çi̇n hi̇bri̇t si̇stem tasarımı. Yayınlanmamış yüksek lisans tezi. Bursa Uludağ Üniversitesi Fen Bilimleri Enstitüsü.
dc.identifier.uri	http://hdl.handle.net/11452/15240
dc.language.iso	tr
dc.publisher	Bursa Uludağ Üniversitesi
dc.relation.publicationcategory	Tez
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Zararlı yazılım
dc.subject	Statik analiz
dc.subject	Makine öğrenmesi
dc.subject	Topluluk öğrenmesi
dc.subject	Gözetimli öğrenme
dc.subject	Yapay zekâ
dc.subject	Malicious software
dc.subject	Static analysis
dc.subject	Machine learning
dc.subject	Ensemble learning
dc.subject	Supervised learning
dc.subject	Artificial learning
dc.title	Zararlı yazılımların tespi̇ti̇ i̇çi̇n hi̇bri̇t si̇stem tasarımı
dc.title.alternative	Hybrid system design for malicious software detection
dc.type	masterThesis
dspace.entity.type	Publication
local.contributor.department	Fen Bilimleri Enstitüsü/Bilgisayar Mühendisliği Ana Bilim Dalı