Avaliação da Biblioteca SCR em Instâncias AWS Spot Utilizando a Ferramenta HPC@Cloud
Resumo
A computação em nuvem tem sido útil para a Computação de Alto Desempenho (HPC), pois permite que experimentos em larga escala possam ser realizados sem a necessidade de aquisição de infraestruturas físicas de alto custo financeiro. Instâncias do tipo “spot” têm sido oferecidas pelos provedores de nuvem, as quais possuem baixo custo mas podem ser tomadas do usuário a qualquer momento. Esse artigo apresenta um estudo comparativo da biblioteca Scalable Checkpoint/Restart (SCR) com outras existentes para prover tolerância a faltas a aplicações de HPC em clusters de instâncias spot.Referências
Bland, W., Bouteiller, A., Herault, T., Bosilca, G., and Dongarra, J. (2013). Post-failure recovery of mpi communication capability: Design and rationale. The International Journal of High Performance Computing Applications, 27(3):244–254.
Hargrove, P. H. and Duell, J. C. (2006). Berkeley lab checkpoint/restart (blcr) for linux clusters. In Journal of Physics: Conference Series, volume 46, page 494. IOP Publishing.
Moody, A., Bronevetsky, G., Mohror, K., and De Supinski, B. R. (2010). Design, modeling, and evaluation of a scalable multi-level checkpointing system. In SC’10: Proceedings of the 2010 ACM/IEEE International Conference for High Performance Computing, Networking, Storage and Analysis, pages 1–11. IEEE.
Munhoz, V. and Castro, M. (2023). Enabling the Execution of HPC Applications on Public Clouds with HPC@Cloud Toolkit. Concurrency and Computation: Practice and Experience, pages 1–19.
Hargrove, P. H. and Duell, J. C. (2006). Berkeley lab checkpoint/restart (blcr) for linux clusters. In Journal of Physics: Conference Series, volume 46, page 494. IOP Publishing.
Moody, A., Bronevetsky, G., Mohror, K., and De Supinski, B. R. (2010). Design, modeling, and evaluation of a scalable multi-level checkpointing system. In SC’10: Proceedings of the 2010 ACM/IEEE International Conference for High Performance Computing, Networking, Storage and Analysis, pages 1–11. IEEE.
Munhoz, V. and Castro, M. (2023). Enabling the Execution of HPC Applications on Public Clouds with HPC@Cloud Toolkit. Concurrency and Computation: Practice and Experience, pages 1–19.
Publicado
24/04/2024
Como Citar
FERES, João Gabriel; FILHO, Vanderlei; CASTRO, Márcio.
Avaliação da Biblioteca SCR em Instâncias AWS Spot Utilizando a Ferramenta HPC@Cloud. In: ESCOLA REGIONAL DE ALTO DESEMPENHO DA REGIÃO SUL (ERAD-RS), 24. , 2024, Florianópolis/SC.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2024
.
p. 49-52.
ISSN 2595-4164.
DOI: https://doi.org/10.5753/eradrs.2024.238736.