Extensões na LAM/MPI para Automatizar o Checkpoint e Tolerar Falhas em Cluster de Computadores

  • Antonio da Silva Martins Jr. UEM
  • Ronaldo A. L. Gonçalves UEM


Os clusters de computadores estão se tornando cada vez mais comuns, em função do barateamento dos equipamentos e do potencial de processamento que eles podem dispor para a execução de aplicações complexas. Com isso, o desenvolvimento de técnicas de tolerância a falhas torna-se fundamental para garantir alto desempenho com confiabilidade. Em clusters com LAM/MPI (Local Area MultiComputer MPl), mecanismos de checkpoint disponíveis permitem a recuperação do estado seguro da aplicação após a ocorrência de falhas no sistema, mas são dependentes de intervenções do usuário. O presente trabalho propõe a automatização tanto do checkpoint quanto da recuperação durante a ocorrência de falhas em um dos nós, provendo confiabilidade com praticidade ao sistema. As alterações necessárias no código da LAM/MPI são aqui apresentadas. Os resultados experimentais mostram que a perda de tempo causada pela ocorrência de falhas pode ser reduzida significativamente e de forma transparente para o usuário. Nos testes realizados com aplicação de cálculo matricial, a automatização pode prover uma redução de 55% no tempo total de execução da aplicação, quando um nó do cluster falha, após a execução de 90% do tempo de execução normal sem falhas.


MARTINS JR., Antonio da Silva; GONÇALVES, Ronaldo A. L.. Extensões na LAM/MPI para Automatizar o Checkpoint e Tolerar Falhas em Cluster de Computadores. In: SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 6. , 2005, Rio de Janeiro. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2005 . p. 129-136. DOI: https://doi.org/10.5753/wscad.2005.18985.