Publication: PISA 2022 Türkiye örnekleminde bilgi ve iletişim teknolojisi kaynakları kullanımının okuma performansını yordama durumunun veri madenciliği teknikleriyle incelenmesi
Date
Authors
Authors
Şaybak, Barış
Advisor
Birişçi, Salih
Language
Type
Publisher:
Bursa Uludağ Üniversitesi
Journal Title
Journal ISSN
Volume Title
Abstract
Bu araştırmanın amacı, PISA 2022 sınavına katılan Türk öğrencilerin bilgi ve iletişim teknolojileri (BİT) ile ilişkili erişim, kullanım ve yeterlilik düzeylerinin okuma okuryazarlık performansları ile olan ilişkisini incelemektir. Bu amaç doğrultusunda çalışmada, okuma performansını etkilediği tahmin edilen BİT değişkenleri farklı veri madenciliği teknikleriyle keşfedilmiş, bu değişkenlerin okuma başarısındaki değişkenliğin ne kadarını açıkladığı tespit edilmiş ve kullanılan veri madenciliği tekniklerinin öğrencilerin okuma performanslarını tahmin etmede başarım açısından farklılık gösterip göstermediği araştırılmıştır. Araştırmada PISA 2022 Türkiye örnekleminde bulunan 7250 öğrencinin yanıtladığı anketler kullanılmıştır. CRISP-DM yöntemi kullanılarak yürütülen araştırmada verilerin hazırlanması aşamasında kayıp ve gürültülü veriler tespit edilerek analizden çıkarılmıştır. Model kurmaya hazırlık aşamasında öğrenciler okuma performansı yeterlilik düzeylerine göre “Başarılı-Başarısız” olmak üzere iki kategoride ölçeklendirilmiştir. Model kurma aşamasında ise BİT değişkenlerinin okuma okuryazarlık puanlarındaki değişkenliğin ne kadarlık bir bölümünü açıkladığını ortaya çıkarmak amacıyla çoklu doğrusal regresyon modeli oluşturulmuştur. Akabinde okuma başarılarını tahmin etmek amacıyla Naive Bayes, C4.5 Karar Ağacı, Yapay Sinir Ağları, K-En Yakın Komşu ve Lojistik Regresyon algoritmaları kullanılarak tahmin modelleri oluşturulmuştur. Oluşturulan modellerde 10 katlı çapraz geçerleme örneklemesi yapılarak doğrulama seti oluşturulmuştur. Verilerin analiz edilmesi sürecinde; çoklu doğrusal regresyon analizinde IDB Analyzer V.5 programından, makine öğrenme modellerinin eğitilmesi ve test edilmesinde ise R Studio ortamından faydalanılmıştır. Elde edilen bulgular ışığında; BİT’e dair erişim, kullanım ve yeterlilik düzeylerinin öğrencilerin okuma puanlarındaki varyansın %24’lük bir bölümünü açıklayabildiği, tahmin amaçlı oluşturulan modellerin tümünün okuma okuryazarlık puanlarını kabul edilebilir düzeyde bir doğrulukla tahmin ettiği belirlenmiştir. Veri madenciliği sınıflandırma tekniklerinde kullanılan modellerin performansları kıyaslandığında; en yüksek başarımı %70,29 doğrulukla Yapay Sinir Ağları, en düşük başarımı ise %67,13 doğrulukla Lojistik Regresyon yönteminin gösterdiği belirlenmiştir. Araştırma sonucunda; BİT değişkenlerinden bir kısmının öğrencilerin okuma okuryazarlık performanslarını yordamada etkili oldukları, kullanılan veri madenciliği sınıflandırma tekniklerinin kabul edilebilir bir doğrulukla ve rastgele olmayan tahminler yürütmesinden ötürü öğrenci başarılarının kestirilmesinde kullanılabileceği sonucuna varılmıştır.
The purpose of this study is to examine the relationship between information and communication technologies (ICT) related access, usage and proficiency levels of Turkish students participating in the PISA 2022 exam and their reading literacy performance. In line with this purpose, the study explored the ICT variables that are predicted to affect reading performance with different data mining techniques, determined how much of the variability in reading achievement these variables explain, and investigated whether the data mining techniques used differ in terms of success in predicting students' reading performance. In the study, questionnaires answered by 7250 students in the PISA 2022 Turkey sample were used. In the research conducted using CRISP-DM method, missing and noisy data were identified and removed from the analysis during the data preparation phase. In the preparation stage of model building, students were scaled in two categories as "Successful-Failure" according to their reading performance proficiency levels. In the model building phase, a multiple linear regression model was created to reveal how much of the variability in reading literacy scores was explained by ICT variables. Subsequently, prediction models were created using Naive Bayes, C4.5 Decision Tree, Artificial Neural Networks, K-Nearest Neighbor and Logistic Regression algorithms to predict reading achievement. A validation set was created by performing 10-fold cross validation sampling in the created models. In the process of analyzing the data; IDB Analyzer V.5 program was used for multiple linear regression analysis, and R Studio environment was used for training and testing machine learning models. In the light of the findings, it was determined that ICT access, usage and proficiency levels could explain 24% of the variance in students' reading scores, and all of the models created for prediction purposes predicted reading literacy scores with an acceptable level of accuracy. When the performances of the models used in data mining classification techniques were compared, it was determined that Artificial Neural Networks showed the highest success with 70.29% accuracy and Logistic Regression method showed the lowest success with 67.13% accuracy. As a result of the study, it was concluded that some of the ICT variables were effective in predicting students' reading literacy performances and that the data mining classification techniques used could be used in predicting student achievement because they made non-random predictions with acceptable accuracy.
The purpose of this study is to examine the relationship between information and communication technologies (ICT) related access, usage and proficiency levels of Turkish students participating in the PISA 2022 exam and their reading literacy performance. In line with this purpose, the study explored the ICT variables that are predicted to affect reading performance with different data mining techniques, determined how much of the variability in reading achievement these variables explain, and investigated whether the data mining techniques used differ in terms of success in predicting students' reading performance. In the study, questionnaires answered by 7250 students in the PISA 2022 Turkey sample were used. In the research conducted using CRISP-DM method, missing and noisy data were identified and removed from the analysis during the data preparation phase. In the preparation stage of model building, students were scaled in two categories as "Successful-Failure" according to their reading performance proficiency levels. In the model building phase, a multiple linear regression model was created to reveal how much of the variability in reading literacy scores was explained by ICT variables. Subsequently, prediction models were created using Naive Bayes, C4.5 Decision Tree, Artificial Neural Networks, K-Nearest Neighbor and Logistic Regression algorithms to predict reading achievement. A validation set was created by performing 10-fold cross validation sampling in the created models. In the process of analyzing the data; IDB Analyzer V.5 program was used for multiple linear regression analysis, and R Studio environment was used for training and testing machine learning models. In the light of the findings, it was determined that ICT access, usage and proficiency levels could explain 24% of the variance in students' reading scores, and all of the models created for prediction purposes predicted reading literacy scores with an acceptable level of accuracy. When the performances of the models used in data mining classification techniques were compared, it was determined that Artificial Neural Networks showed the highest success with 70.29% accuracy and Logistic Regression method showed the lowest success with 67.13% accuracy. As a result of the study, it was concluded that some of the ICT variables were effective in predicting students' reading literacy performances and that the data mining classification techniques used could be used in predicting student achievement because they made non-random predictions with acceptable accuracy.
Description
Source:
Keywords:
Keywords
Bilgi ve iletişim teknolojileri, Makine öğrenmesi, PISA okuma becerileri, Sınıflandırma, Veri madenciliği, Classification, Data mining, Information and communication technologies, Machine learning, PISA reading skills