Rumo à Otimização de Operadores sobre UDF no Spark

Joäo Antonio Ferreira,Fábio Porto,Rafaelli Coutinho,Eduardo S. Ogasawara

Rumo à Otimização de Operadores sobre UDF no Spark

2018

Joäo Antonio Ferreira
Fábio Porto
Rafaelli Coutinho
Eduardo S. Ogasawara

A analise de dados em larga escala tem ganhado muita importância na comunidade cientifica devido ao fenomeno do Big Data. Neste contexto, funcoes definidas pelo usuario (UDF) sao, comumente, implementadas em frameworks como Apache Spark para viabilizar a analise de dados em larga escala. No entanto, o uso de UDF traz desafios no processo de otimizacao de execucao pois sao opacas. Este trabalho propoe um metodo de otimizacao de workflows de analise de dados apoiadas em UDF sobre o Apache Spark. Tal metodo e baseado na API Catalyst do SparkSQL e em macros da linguagem Scala.

Keywords:

Physics
Spark (mathematics)
Humanities

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations