SCALABLE IMPLEMENTATIONS OF DESCRIPTIVE STATISTICS ON HADOOP

Ozgur Yilmazel

SCALABLE IMPLEMENTATIONS OF DESCRIPTIVE STATISTICS ON HADOOP

2019

Ozgur Yilmazel

Buyuk Veri, Ingilizce dilindeki karsiligi ile Big Data, cagimizin en guncel teknolojilerinden biri olarak karsimiza cikmaktadir. Sosyal medya, sensor verileri, Nesnelerin Internet’i gibi seri halde veri ureten teknolojilerin sayesinde veri hacmi gun gectikce artmaktadir. Dunyada veri miktarindaki buyuk artis, buyuk verinin depolanmasi, islenmesi ve analiz edilmesi icin farkli yaklasimlar gerektirmektedir. Bir nicel veriseti bircok ozellige sahiptir ve betimleyici istatistikler veri setindeki bu ozellikleri her bir degeri listelemek zorunda kalmadan anlamli ve yonetilebilir bir bicimde tanimlayabilir. Bununla birlikte, standart istatistiksel teknikler, verinin buyuklugu, karmasikligi ve hizi nedeniyle buyuk verilere uygun olmayabilir. Nicel verileri analiz etmek icin kullanima hazir cok sayida istatistiksel arac olmasina ragmen, her zaman buyuk veri dosya sistemleri ile calismak icin uyumlu degildir. Bu yazida, betimleyici istatistik algoritmalarinin buyuk veri setleri uzerindeki uygulamalari sergilenmektedir ve deneylerin 196 yivli kucuk bir Hadoop kumesinde olceklenebilirligini gosterilmektedir. Bu calisma, buyuk veri kumeleri icin tanimlayici istatistiklerin bir Hadoop kumesinin dagitilmis hesaplama ozelliklerinden yararlanabilecegini gostermektedir. Calisma TUBITAK TEYDEB destegi ile tamamlanmistir.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations