Gerenciamento Hierárquico de Falhas para Aplicações MPI

  • Lucas Baptista de Moraes UFF
  • Fernanda Gonçalves de Oliveira Passos UFF

Resumo


Um grande desafio para cenários de larga escala são as falhas, uma vez que a biblioteca de troca de mensagens MPI não possui, nativamente, um suporte de tolerância a falhas. Por isso, é necessário o uso de bibliotecas com tal suporte, como a ULFM. Neste trabalho, é proposto um protótipo simplificado de um sistema gerenciador de aplicações MPI, chamado EasyGrid SGA, com uma nova implementação do mecanismo de sua tolerância a falhas. Resultados preliminares mostram sua eficácia na detecção e reparo de falhas e suas baixas sobrecargas no tempo de execução da aplicação.
Palavras-chave: Algoritmos Paralelos e Distribuídos, Computação em Nuvem, Grade, Aglomerado (Cluster) e Peer-to-Peer Tolerância a Falhas

Referências

Bland, W. et al. (2013). Post-failure recovery of MPI communication capability: Design and rationale. Int. J. of High Performance Computing Applications, 27:244 – 254.

Boeres, C. and Rebello, V. E. F. (2004). Easygrid: Towards a framework for the automatic grid enabling of legacy MPI applications. Concurrency and Computation: Practice and Experience, 16(5):425–432.

da Silva, J. A. (2010). Tolerância a Falhas para Aplicações Autônomas em Grades Computacionais. PhD thesis, Universidade Federal Fluminense.

Ivaki, N., Laranjeiro, N., and Araujo, F. (2018). A survey on reliable distributed communication. Journal of Systems and Software, 137:713 – 732.

Passos, F. G. O. and Rebello, V. E. F. (2016). An autonomic parallel strategy for the projection of ecological niche models in heterogeneous computational environments. In European Conference on Parallel Processing, pages 363–375. Springer.

Tanenbaum, A. and Van Steen, M. (2007). Sistemas distribuı́dos: princı́pios e paradigmas. Pearson.
Publicado
30/11/2020
MORAES, Lucas Baptista de; PASSOS, Fernanda Gonçalves de Oliveira. Gerenciamento Hierárquico de Falhas para Aplicações MPI. In: ESCOLA REGIONAL DE ALTO DESEMPENHO DO RIO DE JANEIRO (ERAD-RJ), 6. , 2020, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 39-41. DOI: https://doi.org/10.5753/eradrj.2020.14515.