Publication: Biyomedikal görüntülerin sınıflandırılmasında Swish aktivasyon fonksiyonunun performans analizi
Date
Authors
Authors
Abdalla, Sama Mohamed Elsayed Mosilhy
Advisor
Semerci, Neyir Özcan
Language
Type
Publisher:
Bursa Uludağ Üniversitesi
Journal Title
Journal ISSN
Volume Title
Abstract
Aktivasyon fonksiyonları, yapay sinir ağları ve derin öğrenme modellerinde nöron karakteristiğini belirleyen temel bileşen olarak önemli bir rol oynamaktadırlar. Derin öğrenme modellerinin performansını artırmak için uygun bir aktivasyon fonksiyonu seçmek kritik bir öneme sahiptir. Bu fonksiyonlar, ağa verilen girdilere karşılık gelen çıktıları belirleyerek modelin öğrenme kapasitesini doğrudan etkilemektedirler. Ağın doğrusal olmayan ilişkileri öğrenebilmesi için modelin de doğrusal olmayan bir özellik göstermesi önemlidir. Böylece ağ karmaşık ve çok boyutlu ilişkileri öğrenebilir. Bu doğrusal olmama durumu, aktivasyon fonksiyonları aracılığıyla modele dahil edilir. Literatürde farklı uygulamalar için kullanılan doğrusal olmayan aktivasyon fonksiyonları mevcuttur: ReLU, Leakly ReLU, Swish, P-Swish, SaRa …vs. Swish aktivasyon fonksiyonu; düzgün (smooth) yapısı, alt sınıra sahip olması ve monoton olmama özelliği sayesinde sinir ağlarının daha karmaşık ilişkileri öğrenmesini kolaylaştırır ve öğrenme sürecinde daha stabil ve esnek bir performans sunmaktadır. ReLU fonksiyonu nöron girişine uygulanan negatif değerler için nöronun inaktif olmasına neden olurken Swish aktivasyon fonksiyonu nöronun çıktı üretebilmesine olanak tanır. Böylece bu değerler için gradyen ölmesi problemin ile daha az karşılaşılır. Bu durum bilgi kaybını azaltır ve modelin daha fazla ayrıntıyı öğrenmesine olanak tanır. Aynı amaçla üretilmiş olan Leakly ReLU fonksiyonu ise monoton bir yapıya sahiptir. Swish fonksiyonunun monoton olmayan yapısı ise modelin karmaşık ilişkileri daha iyi öğrenmesini sağlar. Gerçekleştirilen tez çalışmasında biyomedikal veriler kullanılarak swish fonksiyonunun farklı türleri için farklı derin öğrenme mimarileri kullanılarak fonksiyonun diğer aktivasyon fonksiyonları ile performans kıyaslaması yapılmıştır. Çalışmada kullanılan veri seti 3 farklı tür beyin tümörüne (meningioma, glioma ve pituitary) ait manyetik rezonans (MR) görüntülerini içermektedir. Bu görüntüler farklı derin öğrenme mimarileri ve farklı aktivasyon fonksiyonları kullanılarak sınıflandırılmıştır. Elde edilen sonuçlar yüksek doğruluk ve detayların korunmasını gerektiren bu tip problemlerde swish fonksiyonlarının literatürde kullanılan diğer aktivasyon fonksiyonlarına göre daha yüksek bir sınıflandırma performansına sahip olduğunu açıkça göstermektedir.
Activation functions play a crucial role as fundamental components that determine neuron characteristics in artificial neural networks and deep learning models. Selecting an appropriate activation function is critically important for enhancing the performance of deep learning models. These functions directly affect the model’s learning capacity by determining the outputs corresponding to the inputs provided to the network. For the network to learn nonlinear relationships, it is essential for the model to exhibit nonlinear characteristics. In this way, the network can learn complex and multidimensional relationships. This nonlinearity is incorporated into the model through activation functions. There are various nonlinear activation functions used in the literature for different applications, such as ReLU, Leaky ReLU, Swish, P-Swish, and SaRa. The Swish activation function, with its smooth structure, boundedness from below, and nonmonotonic nature, facilitates neural networks in learning more complex relationships and offers a more stable and flexible performance during the learning process. While the ReLU function causes neurons to become inactive for negative input values, the Swish activation function allows neurons to produce outputs, thus reducing the likelihood of encountering the vanishing gradient problem for these values. This reduces information loss and enables the model to learn more detailed features. Although the Leaky ReLU function, designed for a similar purpose, has a monotonic structure, the non-monotonic nature of the Swish function allows the model to better capture complex relationships. In this thesis study, biomedical data were used to compare the performance of different types of Swish functions with other activation functions across various deep learning architectures. The dataset used in the study consists of magnetic resonance (MR) images of three different types of brain tumors: meningioma, glioma, and pituitary. These images were classified using different deep learning architectures and activation functions. The obtained results clearly demonstrate that Swish functions achieve higher classification performance compared to other activation functions commonly used in the literature, particularly in problems requiring high accuracy and the preservation of fine details.
Activation functions play a crucial role as fundamental components that determine neuron characteristics in artificial neural networks and deep learning models. Selecting an appropriate activation function is critically important for enhancing the performance of deep learning models. These functions directly affect the model’s learning capacity by determining the outputs corresponding to the inputs provided to the network. For the network to learn nonlinear relationships, it is essential for the model to exhibit nonlinear characteristics. In this way, the network can learn complex and multidimensional relationships. This nonlinearity is incorporated into the model through activation functions. There are various nonlinear activation functions used in the literature for different applications, such as ReLU, Leaky ReLU, Swish, P-Swish, and SaRa. The Swish activation function, with its smooth structure, boundedness from below, and nonmonotonic nature, facilitates neural networks in learning more complex relationships and offers a more stable and flexible performance during the learning process. While the ReLU function causes neurons to become inactive for negative input values, the Swish activation function allows neurons to produce outputs, thus reducing the likelihood of encountering the vanishing gradient problem for these values. This reduces information loss and enables the model to learn more detailed features. Although the Leaky ReLU function, designed for a similar purpose, has a monotonic structure, the non-monotonic nature of the Swish function allows the model to better capture complex relationships. In this thesis study, biomedical data were used to compare the performance of different types of Swish functions with other activation functions across various deep learning architectures. The dataset used in the study consists of magnetic resonance (MR) images of three different types of brain tumors: meningioma, glioma, and pituitary. These images were classified using different deep learning architectures and activation functions. The obtained results clearly demonstrate that Swish functions achieve higher classification performance compared to other activation functions commonly used in the literature, particularly in problems requiring high accuracy and the preservation of fine details.
Description
Source:
Keywords:
Keywords
Derin öğrenme, Aktivasyon fonksiyonları, Swish fonksiyonları, Deep learning, Artificial neural networks, Activation functions, Swish function