Spark-SGreedy: Um Algoritmo de Escalonamento de Workflows Intensivos em Dados no Framework Apache Spark

Victor F. de Sousa; Cristina Boeres; Daniel Oliveira

doi:10.5753/eradrj.2020.14518

Victor F. de Sousa UFF
Cristina Boeres UFF
Daniel Oliveira UFF

DOI: https://doi.org/10.5753/eradrj.2020.14518

Resumo

Nos últimos anos, o Apache Spark vem sendo utilizado como framework para execução de experimentos científicos modelados como workflows. Por mais que represente um avanço, o Spark não foi projetado para gerenciar execuções de aplicações científicas, e seu escalonamento não considera estimativas de consumo de recursos pelas atividades do workflow. Esse artigo apresenta o Spark-SGreedy, uma proposta de algoritmo de escalonamento de workflows no Spark que usa dados de proveniência (histórico) para analisar a previsão de consumo de recursos das atividades do workflow e escaloná-las de acordo com tal previsão.

Palavras-chave: Escalonamento e Balanceamento de Carga, Big Data

Referências

Bryant, R. E. (2011). Data-intensive scalable computing for scientific applications. Computing in Science Engineering, 13(06):25–33.

de Oliveira, D., Ocaña, K. A. C. S., Baião, F. A., and Mattoso, M. (2012). A provenance-based adaptive scheduling heuristic for parallel scientific workflows in clouds. J. Grid Comput., 10(3):521–552.

de Oliveira, D. C. M., Liu, J., and Pacitti, E. (2019). Data-Intensive Workflow Management: For Clouds and Data-Intensive and Scalable Computing Environments. Synthesis Lectures on Data Management. Morgan & Claypool Publishers.

Freire, J., Koop, D., Santos, E., and Silva, C. T. (2008). Provenance for computational tasks: A survey. Comput. Sci. Eng., 10(3):11–21.

Guedes, T., Martins, L. B., Falci, M. L. F., Silva, V., Ocaña, K. A. C. S., Mattoso, M., Bedo, M. V. N., and de Oliveira, D. (2020). Capturing and analyzing provenance from spark-based scientific workflows with samba-rap. Future Gener. Comput. Syst., 112:658–669.

Topcuoglu, H., Hariri, S., and Wu, M. (2002). Performance-effective and low-complexity task scheduling for heterogeneous computing. IEEE Trans. Parallel Distributed Syst., 13(3):260–274.

Zaharia, M., Xin, R. S., Wendell, P., Das, T., Armbrust, M., Dave, A., Meng, X., Rosen, J., Venkataraman, S., Franklin, M. J., Ghodsi, A., Gonzalez, J., Shenker, S., and Stoica, I. (2016). Apache spark: a unified engine for big data processing. Commun. ACM, 59(11):56–65.