Web page classification with deep learning methods

dc.contributor.authorKurt, Mehmet Salih
dc.contributor.authorYücel, Eylem
dc.date.accessioned2022-07-28T11:17:32Z
dc.date.available2022-07-28T11:17:32Z
dc.date.issued2022-02-13
dc.description.abstractToday, millions of websites on the Internet are widely used to access information. For effective use of web pages with increasing numbers every day, they need to be well classified. In this study, binary and multi-class classification models have been created which can classify web pages with high accuracy. In our experiments, URLs and categories of English web pages in the Open Directory Project (ODP) were used. Training dataset was created by pulling web page texts from URL information. To our knowledge, this is the first comprehensive web page classification dataset for Turkish. In this study, Convolutional Neural Network (CNN), Long Short Term Memory (LSTM) and Gated Recurrent Unit (GRU) deep learning methods which are effective in text classification are used. Word embedding was used instead of n-gram approaches commonly used for feature extraction in text classification studies. In this study, hyper-parameter optimization was performed for deep learning models. Binary and multi-class classification models were created with the best parameters. Binary classification models were compared with the results of another study, and multi-class classification models were compared with each other. The performances of all models were examined by considering their training time and f1 scores.en_US
dc.description.abstractGünümüzde bilgiye erişmek için internet ağı üzerinde milyonlarca web sitesi yaygın olarak kullanılmaktadır. Sayıları her geçen gün artan web sayfalarının daha etkin kullanılabilmesi için iyi bir şekilde kategorize edilmeleri önem kazanmıştır. Bu çalışmada, web sayfalarını yüksek doğrulukta sınıflandırabilen ikili ve çok sınıflı sınıflandırma modelleri oluşturulmuştur. Bu çalışmada, Açık Dizin Projesindeki (ODP) İngilizce web sayfalarının URL'leri ve kategorileri kullanıldı. Web sayfası metinleri URL bilgilerinden çekilerek eğitim veri kümesi oluşturuldu. Bildiğimiz kadarıyla bu, Türkçe için ilk kapsamlı web sayfası sınıflandırma veri setidir. Bu çalışmada, metin sınıflandırmada etkili olan Evrişimsel Sinir Ağı (CNN), Uzun Kısa Süreli Bellek (LSTM) ve Geçitli Tekrarlayan Birim (GRU) derin öğrenme yöntemleri kullanılmıştır. Metin sınıflandırma çalışmalarında özellik çıkarımı için yaygın olarak kullanılan n-gram yaklaşımları yerine kelime temsilleri kullanılmıştır. Bu çalışmada derin öğrenme modelleri için hiperparametre optimizasyonu yapılmıştır. En iyi parametrelerle ikili ve çok sınıflı sınıflandırma modelleri oluşturulmuştur. İkili sınıflandırma modelleri başka bir çalışmanın sonuçlarıyla ve çok sınıflı sınıflandırma modelleri kendi aralarında karşılaştırılmıştır. Tüm modellerin performansları eğitim süreleri ve f1 puanları dikkate alınarak incelenmiştir.tr_TR
dc.identifier.citationKurt, M. S. ve Yücel, E. (2022). ''Web page classification with deep learning methods''. Uludağ Üniversitesi Mühendislik Dergisi, 27(1), 191-204.tr_TR
dc.identifier.endpage204tr_TR
dc.identifier.issn2148-4147
dc.identifier.issn2148-4155
dc.identifier.issue1tr_TR
dc.identifier.startpage191tr_TR
dc.identifier.urihttps://dergipark.org.tr/tr/download/article-file/1617495
dc.identifier.urihttps://doi.org/10.17482/uumfd.891038
dc.identifier.urihttp://hdl.handle.net/11452/28113
dc.identifier.volume27tr_TR
dc.language.isoenen_US
dc.publisherBursa Uludağ Üniversitesitr_TR
dc.relation.journalUludağ Üniversitesi Mühendislik Dergisi / Uludağ University Journal of The Faculty of Engineeringtr_TR
dc.relation.publicationcategoryMakale - Uluslararası Hakemli Dergitr_TR
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectWeb page classificationen_US
dc.subjectDeep learningen_US
dc.subjectCNNen_US
dc.subjectLSTMen_US
dc.subjectGRUen_US
dc.subjectWeb sayfası sınıflandırmatr_TR
dc.subjectDerin öğrenmetr_TR
dc.titleWeb page classification with deep learning methodsen_US
dc.title.alternativeDerin öğrenme yöntemleri ile web sayfası sınıflandırmatr_TR
dc.typeArticleen_US

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
27_1_14.pdf
Size:
780.45 KB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: