Extensões na LAM/MPI para Automatizar o Checkpoint e Tolerar Falhas em Cluster de Computadores

  • Antonio da Silva Martins Jr. UEM
  • Ronaldo A. L. Gonçalves UEM

Resumo


Os clusters de computadores estão se tornando cada vez mais comuns, em função do barateamento dos equipamentos e do potencial de processamento que eles podem dispor para a execução de aplicações complexas. Com isso, o desenvolvimento de técnicas de tolerância a falhas torna-se fundamental para garantir alto desempenho com confiabilidade. Em clusters com LAM/MPI (Local Area MultiComputer MPl), mecanismos de checkpoint disponíveis permitem a recuperação do estado seguro da aplicação após a ocorrência de falhas no sistema, mas são dependentes de intervenções do usuário. O presente trabalho propõe a automatização tanto do checkpoint quanto da recuperação durante a ocorrência de falhas em um dos nós, provendo confiabilidade com praticidade ao sistema. As alterações necessárias no código da LAM/MPI são aqui apresentadas. Os resultados experimentais mostram que a perda de tempo causada pela ocorrência de falhas pode ser reduzida significativamente e de forma transparente para o usuário. Nos testes realizados com aplicação de cálculo matricial, a automatização pode prover uma redução de 55% no tempo total de execução da aplicação, quando um nó do cluster falha, após a execução de 90% do tempo de execução normal sem falhas.

Referências

BUYY A, R. 'High Performance Cluster Computing: Architectures and Systems". V.1. N.J. Prentice-Hall. 1999.

STERLING. T. "Beowulf Breakthroughs- The Genesis of Linux Clusters in High Performance Computing". Linux Magazine. Jun. 2003.

SANKARAN, S. et ai. "The LAM/MPI Checkpoint Restart Framework: System-lnitiated Checkpoint. In: Proceedings of LACSI Symposium. Santa Fé, USA. 2003.

WANG. Y-M.; et ai. "Checkpointing and its Applications". In: 25th International Symposium on Fault-Tolerant Computing, Pasadena, 1995.

PLANK. J. S.; et ai. "Libckpt: Transparent Checkpointing under Unix". In: Usenix Winter 1995 Technical Conference. New Orleans. Jan 1995.

PLANK. J. S. "An Overview of Checkpointing in Uniprocessor and Distributed Systems, Focusing on Implementation and Performance. University of Tennessee. TR UT-CS-97-372., Jul. 1997.

DUELL. J.; HARGROVE. P. & ROMAN, E. "The Design and Implementation of Berkeley Lab's Linux Checkpoint/Restart". Berkeley Lab. TR LBNL-54941, 2003.

ELNOZAHY, E. N.: JOHNSON, D. 8. & WANG. Y. M. "A Survey of Rollback-Recovery Protocols in Message-Passing Systems". C. Mellon University. TR CMU-CS-96-181,. 1996.

MANIVANNAN, D.: NETZER, R. H. B.; SINGHAL M. "Finding Consistem Global Checkpoints in a Distributed Computation". In: IEEE Transactions on Parallel and Distributed Systems, vol. 8. n. 6, p. 623-627, 1997.

NEVES, N. & FUCHS, W. K. "Coordinated Checkpointing without Direct Coordination". In: Proceedings of IEEE International Computer Performance & Dependability Symposium, pp. 23-31, Sep. 1998.

VAIDYA, N. H. "Staggered Consistem Checkpointing". In: IEEE Transactions on Parallel and Distributed Systems. vol. 10, n. 7. p. 694-702. 1999.

STELLNER, G. CoCheck: checkpoint and Process Migration for MPI. In: Proceedings of the 10th International Parallel Processing Consortium (IPPS 96). p. 526-531, 1996.

CHEN. Y.: PLANK, J. S. & LI, K. "CLI P: A checkpointing tool for message-passing parallel programs". Princeton University, TR-543-97, May 1997.

LITZKOW, M. et ai. "Checkpoint and Migration of UNIX Processes in the Condor Distributed System". 1997. <www.cs.wisc.edulcondor/doc/ckpt97.ps>. Acesso em: 20 mar. 2004.

BOSILCA, G.; et ai. "MPICHV: Toward a Scalable Fault Toleram MPI for Volatile Nodes". In: Proceedings of IEEE SuperComputing 2002 (SC2002). Nov. 2002.

LAM/MPI TEAM. "LAM/MPI Installation Guide version 7.1.1". Set. 2004. Disponível em: <www.lam-mpi.org/download/files/7.1.1-install.pdf>. Acesso em: 25 out. 2004.

LAM/MPI TEAM. 'LAM/MPI User's Guide version 7.1.1". Set. 2004. Disponível em: <www.lam-mpi.org/download/files/7.1.1-user.pdf>. Acesso em: 25 out. 2004.

SQUYRES, J. M.; BARRET. 8.: & LUMSDAINE. A. "Boot System Services Interface Modules for LAM/MPI". TR576. CS, Indiana University. Aug. 2003.

SQUYRES, J. M.; BARRET, 8.; & LUMSDAINE. A. "MPI Collective Operations System Services Interface Modules for LAM/MPI". TR577. CS, Indiana University. Aug. 2003.

SQUYRES. J. M.; 8ARRET. 8.: & LUMSDAINE. A. "Request Progression Interface System Services Interface Modules for LAM/MPI". TR579, CS, Indiana University. 2003.

SANKARAN, S. et ai. "Checkpoint-Restart Support System Services Interface (SSI) Modules for LAM/MPI". Technical Report TR578, CSD. Indiana University. 2003.

MARTINS JR, Antonio da Silva; GONCALVES. Ronaldo A. L. Checkpoint Automático em Cluster MPI: Testes Preliminares. In: VI FITEM - FÓRUM DE INFORMÁTICA E TECNOLOGIA DE MARINGÁ. 2004, Maringa. 2004.
Publicado
24/10/2005
MARTINS JR., Antonio da Silva; GONÇALVES, Ronaldo A. L.. Extensões na LAM/MPI para Automatizar o Checkpoint e Tolerar Falhas em Cluster de Computadores. In: SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 6. , 2005, Rio de Janeiro. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2005 . p. 129-136. DOI: https://doi.org/10.5753/wscad.2005.18985.