Zararlı yazılımların tespi̇ti̇ i̇çi̇n hi̇bri̇t si̇stem tasarımı

Loading...
Thumbnail Image

Date

2020

Authors

Kalıpcıoğlu, Kerim Can

Journal Title

Journal ISSN

Volume Title

Publisher

Bursa Uludağ Üniversitesi

Abstract

Zararlı yazılımlar uzun süredir bilgisayar güvenliği için tehlike oluşturmaktadır. Bunun yanında zararlı yazılımlar devlet kurumları ve ticari kuruluşlara saldırılardan geniş çaplı kripto-fidye saldırılarına kadar birçok amaçla kullanılmaya başlanmıştır. Günümüzde yaygın bir şekilde kullanılmakta olan imza tabanlı yaklaşımlar, özellikle sıfır gün saldırıları gibi henüz tespit edilmemiş saldırı vektörlerine karşı başarısız olmaktadırlar. Kritik noktalardaki bilgisayar sistemlerinin gerek güncelleme ve gerekse yeni uygulamaların kurulmasının ardından sıfır gün saldırıları ile karşılaşma riski bulunmaktadır. Bu tip saldırılar genellikle en az bir sisteme zarar verdikten sonra tespit edilmektedir. Dolayısı ile bu süre zarfında kullanıcılar bu tip saldırılara karşı savunmasız kalırlar. Gerek statik ve gerekse dinamik analiz zararlı yazılım analiz sürecini kısaltması ve sıfır gün saldırılarına karşı umut vermesi nedeni ile makine öğrenmesi yaklaşımlarından yaygın olarak yararlanılmaktadır. Makine öğrenmesi modellerinden beklenen, uygulamada kullanılan ticari ürünler kadar kararlı ve hızlı olması, aynı zamanda da zararlı örüntüleri insanlar kadar iyi tanımasıdır. Bu alanda yapılan akademik çalışmalar örnek veriler üzerinde başarılı ölçümler gösterse de ticari ürünler halen imza tanıma temelli yaklaşımları tercih etmektedir. Bu tez çalışmasında taşınabilir, ölçeklenebilir ve yorumlanabilir bir makine öğrenme modeli oluşturması amaçlanmıştır. Tez kapsamında yapılan çalışmada çalıştırılabilir dosyalara ait basit özellikler kullanılarak modelin yorumlanabilir ve taşınabilir olması sağlanmıştır. Yapılan deneylerde oluşturulan topluluk modeli, bu statik özellikler ile temsil edilen çok sınıflı zararlı yazılım kümesini tekil modellere göre daha başarılı şekilde sınıflandırdığı gözlemlenmiştir. Bu şekilde iki farklı özellik kümesinden ve beş farklı makine öğrenmesi yönteminden oluşturulan hibrit topluluk modelinin zararlı yazılımların sınıflandırılması için kullanılabileceği gösterilmiştir. Çalışmada kullanılan dosya tipinden bağımsız yöntem ile bir hibrit zararlı yazılım tespit yöntemi geliştirilmiştir. Bu şekilde farklı özellik kümelerinden ve makine öğrenmesi yöntemlerinden oluşturulan hibrit topluluk modelinin zararlı yazılımları %98 üzerinde doğrulukla sınıflandırabildiği gösterilmiştir.
Malicious software is a known threat in computer security for a long time. However, in recent years, malicious software was started to use with different purposes, e.g., attacks for high-class governmental & commercial organizations and large scale crypto-ransom attacks. Widely used signature-based methods are mostly ineffective against attack vectors like zero-day attacks. Updated or newly installed computer systems, including critical infrastructure, also face zero-day attacks. Most of the time, this type of attack spotted after at least one incident. Computer systems will be vulnerable until the incident detected. Both static and dynamic analyses benefit machine learning methods for shorten analysis processes and prevent zero-day attacks. Machine learning is both expected to be robust and fast as commercial security products, also recognize malicious patterns like humans. Although most research done on this topic shows promising results, most commercial products still use signature-based methods. The purpose of this thesis is to develop a portable, scalable, and interpretable machine learning model. For ensuring an interpretable and portable model, basic features extracted from executable files were used as inputs. An ensemble model developed according to experimental results. The developed model was observed to be more successful than individual models on multiclass malware dataset represented as static feature vectors. In this way, a model which made using two different feature sets and five different classifiers presented as a hybrid ensemble model. Also, this hybrid model can be used for different executable file types without any change. As a result of this work, the developed hybrid machine learning model showed higher than %98 accuracy on the multi-class malware dataset.

Description

Keywords

Zararlı yazılım, Statik analiz, Makine öğrenmesi, Topluluk öğrenmesi, Gözetimli öğrenme, Yapay zekâ, Malicious software, Static analysis, Machine learning, Ensemble learning, Supervised learning, Artificial learning

Citation

Kalıpcıoğlu, K.C (2020). Zararlı yazılımların tespi̇ti̇ i̇çi̇n hi̇bri̇t si̇stem tasarımı. Yayınlanmamış yüksek lisans tezi. Bursa Uludağ Üniversitesi Fen Bilimleri Enstitüsü.