Büyük veri ve istatistikteki uygulamaları
Files
Date
2018-02-27
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Uludağ Üniversitesi
Abstract
Son yıllarda bilgisayar ve bulut teknolojilerinde görülen modern gelişmeler üretilen ve saklanan bilginin miktarında ve hızında büyük artışa sebep oldu. Bilgi miktarındaki bu artış "Büyük Veri" olarak adlandırılan yeni bir kavramın hayatımıza girmesini sağladı. Büyük Veri özellikle hükûmetlerin ve işletmelerin gelecekleriyle ilgili bilinçli kararları almaları konusunda büyük avantaj sağlar. Fakat ortaya çıkan bu verinin büyüklüğü ve çeşitliliği beraberinde bazı sorunları da getirdi. Geleneksel veritabanı sistemleri bu veri formatlarını işlemekte yetersiz kaldığından, bu sorunun üstesinden gelmek için yeni araç ve tekniklere ihtiyaç duyulmaktadır. Bugün çok çeşitli teknik ve teknolojiler "Büyük Veri"yi; toplamak, işlemek, analiz etmek ve görselleştirmek için geliştirilmiştir. Bu teknik ve teknolojiler; istatistik, bilgisayar bilimi, uygulamalı matematik ve ekonomi gibi birçok alanı kapsamakta ve bunlardan yararlanmaktadır. Bu çalışmada Google'ın altyapısında bulunan BigQuery'deki GDELT veri seti kullanılarak 1979-2017 yılları arasında dünyada yaşanan çatışma olayları ile Türkiye ve Ukrayna'da yaşanan protestolar SQL yardımıyla gerçek zamanlı olarak analiz edilmiştir. Analiz sonucunda elde edilen verilerden 1979-2017 yılları arasında dünyada yaşanan çatışmalar ile Türkiye ve Ukrayna'da yaşanan protestolar grafikler şeklinde sunulmuştur. Ayrıca, analiz sonucunda elde edilen çatışma ve protesto verilerinin kuvvet yasasına uygun olup olmadığı test edilmiş ve test sonuçlarında bu verilerin kuvvet yasasına uygun bir dağılım gösterdikleri bulunmuştur. Elde edilen bu bulgulardan, çatışma ve protesto gibi toplumsal olayların kuvvet yasasına uygun bir dağılım sergiledikleri söylenebilir.
Developments in computer and cloud technologies in recent years have led to a significant increase in the amount and speed of information generated and stored. This increase in the amount of information enabled a new concept called "Big Data" to enter into our lives. The Big Data gives a big advantage especially for governments and businesses to make informed decisions about their future. But the size and diversity of the resulting data also emerged some problems. Since traditional database systems are insufficient to handle these data formats, new tools and techniques are needed to overcome this problem. Today, a wide range of techniques and technologies are being developed to manipulate, analyse and visualize "Big Data". These techniques and technologies comprise and use statistics, computer science, applied mathematics and economics. In this study, using the GDELT dataset at BigQuery in Google's infrastructure, the protesters living in Turkey and Ukraine and the conflict events in the world between 1979-2017 were analysed in real time with SQL. The data obtained as a result of the analysis are presented in the form of graphs of conflicts in the world between 1979 and 2017 and protests in Turkey and Ukraine. In addition, it was tested if the conflicts and protest data obtained as the result of the analysis were in accordance with the power law, and it was found that these data were distributed according to the power law in the test results. From these findings, it can be said that social events such as conflict and protest have a distribution compatible with power law.
Developments in computer and cloud technologies in recent years have led to a significant increase in the amount and speed of information generated and stored. This increase in the amount of information enabled a new concept called "Big Data" to enter into our lives. The Big Data gives a big advantage especially for governments and businesses to make informed decisions about their future. But the size and diversity of the resulting data also emerged some problems. Since traditional database systems are insufficient to handle these data formats, new tools and techniques are needed to overcome this problem. Today, a wide range of techniques and technologies are being developed to manipulate, analyse and visualize "Big Data". These techniques and technologies comprise and use statistics, computer science, applied mathematics and economics. In this study, using the GDELT dataset at BigQuery in Google's infrastructure, the protesters living in Turkey and Ukraine and the conflict events in the world between 1979-2017 were analysed in real time with SQL. The data obtained as a result of the analysis are presented in the form of graphs of conflicts in the world between 1979 and 2017 and protests in Turkey and Ukraine. In addition, it was tested if the conflicts and protest data obtained as the result of the analysis were in accordance with the power law, and it was found that these data were distributed according to the power law in the test results. From these findings, it can be said that social events such as conflict and protest have a distribution compatible with power law.
Description
Keywords
Büyük veri, Spark, Hadoop, BigQuery, GDELT, Kuvvet yasası dağılımı, Çatışma, Protesto, Big data, Power law distribution, Conflict, Protest
Citation
Çelik, S. (2018). Büyük veri ve istatistikteki uygulamaları. Yayınlanmamış doktora tezi. Uludağ Üniversitesi Sosyal Bilimler Enstitüsü.