Rumo à Otimização de Operadores sobre UDF no Spark

  • João Antonio Ferreira
  • Fábio Porto
  • Rafaelli Coutinho
  • Eduardo Ogasawara

Resumo


A análise de dados em larga escala tem ganhado muita importância na comunidade científica devido ao fenômeno do Big Data. Neste contexto, funções definidas pelo usuário (UDF) são, comumente, implementadas em frameworks como Apache Spark para viabilizar a análise de dados em larga escala. No entanto, o uso de UDF traz desafios no processo de otimização de execução pois são opacas. Este trabalho propõe um método de otimização de workflows de análise de dados apoiadas em UDF sobre o Apache Spark. Tal método é baseado na API Catalyst do SparkSQL e em macros da linguagem Scala.

Publicado
06/07/2018
FERREIRA, João Antonio; PORTO, Fábio; COUTINHO, Rafaelli; OGASAWARA, Eduardo. Rumo à Otimização de Operadores sobre UDF no Spark. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 12. , 2018, Natal. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2018 . ISSN 2763-8774. DOI: https://doi.org/10.5753/bresci.2018.3280.