Rumo à Otimização de Operadores sobre UDF no Spark

2018 
A analise de dados em larga escala tem ganhado muita importância na comunidade cientifica devido ao fenomeno do Big Data. Neste contexto, funcoes definidas pelo usuario (UDF) sao, comumente, implementadas em frameworks como Apache Spark para viabilizar a analise de dados em larga escala. No entanto, o uso de UDF traz desafios no processo de otimizacao de execucao pois sao opacas. Este trabalho propoe um metodo de otimizacao de workflows de analise de dados apoiadas em UDF sobre o Apache Spark. Tal metodo e baseado na API Catalyst do SparkSQL e em macros da linguagem Scala.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []