Rumo à Otimização de Operadores sobre UDF no Spark

  • João Antonio Ferreira CEFET/RJ
  • Fábio Porto LNCC
  • Rafaelli Coutinho CEFET/RJ
  • Eduardo Ogasawara CEFET/RJ

Resumo


A análise de dados em larga escala tem ganhado muita importância na comunidade científica devido ao fenômeno do Big Data. Neste contexto, funções definidas pelo usuário (UDF) são, comumente, implementadas em frameworks como Apache Spark para viabilizar a análise de dados em larga escala. No entanto, o uso de UDF traz desafios no processo de otimização de execução pois são opacas. Este trabalho propõe um método de otimização de workflows de análise de dados apoiadas em UDF sobre o Apache Spark. Tal método é baseado na API Catalyst do SparkSQL e em macros da linguagem Scala.

Referências

Armbrust, M., Xin, R., Lian, C., Huai, Y., Liu, D., Bradley, J., Meng, X., Kaftan, T., Frankliny, M., Ghodsi, A., and Zaharia, M. (2015). Spark SQL: Relational data processing in spark. In Proceedings of the ACM SIGMOD International Conference on Management of Data, volume 2015-May, pages 1383–1394.

Ferreira, J., Gaspar, D., Monteiro, B., Silva, A. B., Porto, F., and Ogasawara, E. (2017). Uma Proposta de Implementação de Álgebra de Workflows em Apache Spark no Apoio a Processos de Análise de Dados. In Brazilian e-Science Workshop.

Ogasawara, E., de Oliveira, D., Valduriez, P., Dias, J., Porto, F., and Mattoso, M. (2011). An algebraic approach for data-centric scientific workflows. In Proceedings of the VLDB Endowment, volume 4, pages 1328–1339.

Zaharia, M., Franklin, M. J., Ghodsi, A., Gonzalez, J., Shenker, S., Stoica, I., Xin, R. S., Wendell, P., Das, T., Armbrust, M., Dave, A., Meng, X., Rosen, J., and Venkataraman, S. (2016). Apache spark: A unified engine for big data processing. Communications of the ACM, 59(11):56–65.
Publicado
26/07/2018
FERREIRA, João Antonio; PORTO, Fábio; COUTINHO, Rafaelli; OGASAWARA, Eduardo. Rumo à Otimização de Operadores sobre UDF no Spark. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 12. , 2018, Natal. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2018 . p. 89-92. ISSN 2763-8774. DOI: https://doi.org/10.5753/bresci.2018.3280.