Checkpointing Quase-Síncrono no LAM/MPI
Resumo
Atualmente, na área de computação de alto desempenho, um número crescente de aplicações distribuídas utiliza alguma biblioteca MPI (Message Passing Interface) para a troca de mensagens. Desse modo, há uma crescente demanda por mecanismos de tolerância a falhas para aplicações que utilizem esse sistema de comunicação. Nesse artigo, é discutida uma infra-estrutura para checkpointing quase-síncrono feita numa implementação livre do padrão MPI como base para a construção de um sistema tolerante a falhas que utilize recuperação por retrocesso de estado.
Referências
Condor Checkpointing. Homepage oficial: http://www.cs.wisc.edu/condor/checkpointing.html. (consultado em 06/08/2004).
LAM/MPI Parallel Computing. Homepage oficial: http://www.lam-mpi.org/. (consultado em 06/08/2004)
Message Passing Interface Forum. Homepage oficial: http://www.mpi-forum.org/. (consultado em 06/08/2004).
MPICH-V. Homepage oficial: http://www.lri.fr/~gk/MPICH-V/. (consultado em 06/08/2004).
The Globus Alliance. Homepage oficial: http://www.globus.org. (consultado em 06/08/2004).
The Linux Kernel Archives. Homepage oficial: http://www.kernel.org/. (consultado em 06/08/2004).
A. Agbaria, H. Attiya, R Friedman, and R. Vitenberg. Quantifying rollback propagation in distributed checkpointing. In Proceedings of the 20th Symposium on Reliable Distributed Systems, pages 36-45, New Orleans, 2001.
R. Baldoni, J. M. Helary, and M. Raynal. Rollback-dependency trackability: Visible characterizations. In 18th ACM Symposium on the Principies of Distributed Computing, Atlanta, Estados Unidos, May 1999.
R. Baldoni, J. M. Helary, and M. Raynal. Rollback-dependency trackability: A minimal characterization and its protocol. Information and Computation, 165(2):144-173, Mar. 2001.
G. Bosilca, A. Bouteiller, F. Cappello, S. Djilali, G. Fédak, C. Germain, T. Hérault, P. Lemarinier, O. Lodygensky, F. Magniette, V. Néri, andA. Selikhov. MPICH-V: Toward a Scalable Fault Tolerant MPI for Volatile Nodes. In SuperComputing 2002, Baltimore, Nov. 2002.
M. Chandy and L. Lamport. Distributed Snapshots: Determining Global States of Distributed Systems. ACM Trans. on Computing Systems, 3(1):63-75, Feb. 1985.
J. Duell, P. Hargrove, and E. Roman. The Design and lmplementation of Berkeley Lab's Linux Checkpoint/Restart. Publicação eletrônica disponível em: http://ftg.lbl.gov/twiki/pub/Whiteboard/ CheckpointPapers/blcr.pdf, 2003. (consultado em 06/08/2004).
E. N. Elnozahy, L. Alvisi, Y. M. Wang, and D. B. Johnson. A Survey of Rollback-Recovery Protocols in Message- Passing Systems. ACM Computing Surveys, 3(34):375-408, September 2002.
I. C. Garcia. Visões Progressivas de Computações Distribuídas. PhD thesis, Instituto de Computação Unicamp, Dec. 2001.
I. C. Garcia and L. E. Buzato. On the minimal characterization of rollback-dependency trackability property. In Proceedings of the 21th IEEE Int. Conf. on Distributed Computing Systems, Phoenix, Arizona, EUA, Apr. 2001.
I. C. Garcia and L. E. Buzato. An Efficient Checkpointing Protocol for the Minimal Characterization of Operational Rollback-Dependency Trackability. In 23rd Symposium on Reliable Distributed Systems, Oct. 2004.
J. Gray and A. Reuter. Transaction Processing: Concepts and Techniques. Morgan Kaufmann, 1993.
R. Koo and S. Toueg. Checkpoint ing and Rollback-Recovery for Distributed Systems. IEEE Trans. onSoftware Engineering, 13:23-31, Jan. 1987.
D. Manivannan and M. Singhal. Quasi-Synchronous Checkpointing: Models, Characterization, and Classification. IEEE Trans. Parallel Distrib. Syst., 10(7):703- 713, 1999.
N. Neves and W. K. Fuchs. RENEW: A Tool for Fast and Efficient Implementation of Checkpoint Protocols. In Symposium on Fault-Tolerant Computing, pages 58-67, 1998.
B. Randell. System Structure for Software Fault Tolerance. IEEE Trans. on Software Engineering, 1(2):220-232, June 1975.
S. Sankaran, J. M. Squyres, B. Barrett. A. Lumsdaine, J. Duell, P. Hargrove, and E. Roman. The LAM/MPI Checkpoint/Restart Framework: System Initiated Checkpointing. In LACSI Symposium Oct. 2003.
R. Schmidt, I. Garcia, F. Pedone, and L. Buzato. Optimal asynchronous garbage collection for checkpointing protocols with rollback-dependency trackability. In 23rd ACM Symposium on the Principies of Distributed Computing, July 2004. (Brief Announcement).
R. M. Schmidt. Coleta de Lixo para Protocolos de Checkpointing. Master's thesis, lnstituto de Computação-Universidade Estadual de Campinas, 2003.
G. Stellner. CoCheck: Checkpointing and Pruces Migration for MPI. In Proceedings of the 10th International Parallel Processing Symposium (IPPS), Honolulu, Hawaii, 1996.
G. M. D. Vieira. Est udo comparativo de a lgoritmos para Checkpointing. Master's thesis, Ins tituto de Computação-Universidade Estadual de Campinas, Dcc. 2001.
Y. M. Wang. Consistent Global Checkpoints that Coutain a Given Set of Local Checkpoints. IEEE Trans. on Computers, 46(4):456-468, Apr. 1997.
N. Woo, H. Y. Yeom, and T. Park. MPICH-GF: Transparent Checkpointing and Roll bock-Recovery for GRID-enabled MPI Processes. In 2nd Workshop on Hardware/Software Support for High Performance Scientific and Engineering Computing(SHPSEC03). New Orleans, Louisiana, Sept. 2003.