Rumo à Otimização de Operadores sobre UDF no Spark

João Antonio Ferreira; Fábio Porto; Rafaelli Coutinho; Eduardo Ogasawara

doi:10.5753/bresci.2018.3280

Rumo à Otimização de Operadores sobre UDF no Spark

João Antonio Ferreira
Fábio Porto
Rafaelli Coutinho
Eduardo Ogasawara

DOI: https://doi.org/10.5753/bresci.2018.3280

Resumo

A análise de dados em larga escala tem ganhado muita importância na comunidade científica devido ao fenômeno do Big Data. Neste contexto, funções definidas pelo usuário (UDF) são, comumente, implementadas em frameworks como Apache Spark para viabilizar a análise de dados em larga escala. No entanto, o uso de UDF traz desafios no processo de otimização de execução pois são opacas. Este trabalho propõe um método de otimização de workflows de análise de dados apoiadas em UDF sobre o Apache Spark. Tal método é baseado na API Catalyst do SparkSQL e em macros da linguagem Scala.

Publicado

06/07/2018

Como Citar

Selecione um Formato

FERREIRA, João Antonio; PORTO, Fábio; COUTINHO, Rafaelli; OGASAWARA, Eduardo. Rumo à Otimização de Operadores sobre UDF no Spark. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 12. , 2018, Natal. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2018 . ISSN 2763-8774. DOI: https://doi.org/10.5753/bresci.2018.3280.