Spark-SGreedy: Um Algoritmo de Escalonamento de Workflows Intensivos em Dados no Framework Apache Spark
Resumo
Nos últimos anos, o Apache Spark vem sendo utilizado como framework para execução de experimentos científicos modelados como workflows. Por mais que represente um avanço, o Spark não foi projetado para gerenciar execuções de aplicações científicas, e seu escalonamento não considera estimativas de consumo de recursos pelas atividades do workflow. Esse artigo apresenta o Spark-SGreedy, uma proposta de algoritmo de escalonamento de workflows no Spark que usa dados de proveniência (histórico) para analisar a previsão de consumo de recursos das atividades do workflow e escaloná-las de acordo com tal previsão.
Palavras-chave:
Escalonamento e Balanceamento de Carga, Big Data
Referências
Bryant, R. E. (2011). Data-intensive scalable computing for scientific applications. Computing in Science Engineering, 13(06):25–33.
de Oliveira, D., Ocaña, K. A. C. S., Baião, F. A., and Mattoso, M. (2012). A provenance-based adaptive scheduling heuristic for parallel scientific workflows in clouds. J. Grid Comput., 10(3):521–552.
de Oliveira, D. C. M., Liu, J., and Pacitti, E. (2019). Data-Intensive Workflow Management: For Clouds and Data-Intensive and Scalable Computing Environments. Synthesis Lectures on Data Management. Morgan & Claypool Publishers.
Freire, J., Koop, D., Santos, E., and Silva, C. T. (2008). Provenance for computational tasks: A survey. Comput. Sci. Eng., 10(3):11–21.
Guedes, T., Martins, L. B., Falci, M. L. F., Silva, V., Ocaña, K. A. C. S., Mattoso, M., Bedo, M. V. N., and de Oliveira, D. (2020). Capturing and analyzing provenance from spark-based scientific workflows with samba-rap. Future Gener. Comput. Syst., 112:658–669.
Topcuoglu, H., Hariri, S., and Wu, M. (2002). Performance-effective and low-complexity task scheduling for heterogeneous computing. IEEE Trans. Parallel Distributed Syst., 13(3):260–274.
Zaharia, M., Xin, R. S., Wendell, P., Das, T., Armbrust, M., Dave, A., Meng, X., Rosen, J., Venkataraman, S., Franklin, M. J., Ghodsi, A., Gonzalez, J., Shenker, S., and Stoica, I. (2016). Apache spark: a unified engine for big data processing. Commun. ACM, 59(11):56–65.
de Oliveira, D., Ocaña, K. A. C. S., Baião, F. A., and Mattoso, M. (2012). A provenance-based adaptive scheduling heuristic for parallel scientific workflows in clouds. J. Grid Comput., 10(3):521–552.
de Oliveira, D. C. M., Liu, J., and Pacitti, E. (2019). Data-Intensive Workflow Management: For Clouds and Data-Intensive and Scalable Computing Environments. Synthesis Lectures on Data Management. Morgan & Claypool Publishers.
Freire, J., Koop, D., Santos, E., and Silva, C. T. (2008). Provenance for computational tasks: A survey. Comput. Sci. Eng., 10(3):11–21.
Guedes, T., Martins, L. B., Falci, M. L. F., Silva, V., Ocaña, K. A. C. S., Mattoso, M., Bedo, M. V. N., and de Oliveira, D. (2020). Capturing and analyzing provenance from spark-based scientific workflows with samba-rap. Future Gener. Comput. Syst., 112:658–669.
Topcuoglu, H., Hariri, S., and Wu, M. (2002). Performance-effective and low-complexity task scheduling for heterogeneous computing. IEEE Trans. Parallel Distributed Syst., 13(3):260–274.
Zaharia, M., Xin, R. S., Wendell, P., Das, T., Armbrust, M., Dave, A., Meng, X., Rosen, J., Venkataraman, S., Franklin, M. J., Ghodsi, A., Gonzalez, J., Shenker, S., and Stoica, I. (2016). Apache spark: a unified engine for big data processing. Commun. ACM, 59(11):56–65.
Publicado
30/11/2020
Como Citar
SOUSA, Victor F. de; BOERES, Cristina; OLIVEIRA, Daniel.
Spark-SGreedy: Um Algoritmo de Escalonamento de Workflows Intensivos em Dados no Framework Apache Spark. In: ESCOLA REGIONAL DE ALTO DESEMPENHO DO RIO DE JANEIRO (ERAD-RJ), 6. , 2020, Evento Online.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2020
.
p. 48-50.
DOI: https://doi.org/10.5753/eradrj.2020.14518.