SCALABLE IMPLEMENTATIONS OF DESCRIPTIVE STATISTICS ON HADOOP

2019 
Buyuk Veri, Ingilizce dilindeki karsiligi ile Big Data, cagimizin en guncel teknolojilerinden biri olarak karsimiza cikmaktadir. Sosyal medya, sensor verileri, Nesnelerin Internet’i gibi seri halde veri ureten teknolojilerin sayesinde veri hacmi gun gectikce artmaktadir. Dunyada veri miktarindaki buyuk artis, buyuk verinin depolanmasi, islenmesi ve analiz edilmesi icin farkli yaklasimlar gerektirmektedir. Bir nicel veriseti bircok ozellige sahiptir ve betimleyici istatistikler veri setindeki bu ozellikleri her bir degeri listelemek zorunda kalmadan anlamli ve yonetilebilir bir bicimde tanimlayabilir. Bununla birlikte, standart istatistiksel teknikler, verinin buyuklugu, karmasikligi ve hizi nedeniyle buyuk verilere uygun olmayabilir. Nicel verileri analiz etmek icin kullanima hazir cok sayida istatistiksel arac olmasina ragmen, her zaman buyuk veri dosya sistemleri ile calismak icin uyumlu degildir. Bu yazida, betimleyici istatistik algoritmalarinin buyuk veri setleri uzerindeki uygulamalari sergilenmektedir ve deneylerin 196 yivli kucuk bir Hadoop kumesinde olceklenebilirligini gosterilmektedir. Bu calisma, buyuk veri kumeleri icin tanimlayici istatistiklerin bir Hadoop kumesinin dagitilmis hesaplama ozelliklerinden yararlanabilecegini gostermektedir. Calisma TUBITAK TEYDEB destegi ile tamamlanmistir.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    10
    References
    0
    Citations
    NaN
    KQI
    []