Checkpointing e Recuperação de Falhas em Sistemas Distribuídos Particionáveis

  • Tiemi C. Sakata UNICAMP
  • Islene C. Garcia UNICAMP
  • Luiz E. Buzato UNICAMP

Resumo


Os protocolos existentes para checkpointing e recuperação por retrocesso normalmente consideram que não haverá partições na rede de comunicação e que a recuperação por retrocesso só será iniciada quando todos os processos que falharam voltarem à operação normal. Estas restrições podem tornar inviável a utilização de checkpointing e recuperação por retrocesso em aplicações que operam sobre ambientes móveis. Neste resumo comentaremos como essas restrições podem ser contornadas para permitir o avanço seguro da aplicação mesmo na presença de falhas e/ou partições da rede.

Referências

A. Acharya and B. R. Badrinath. Checkpointing Distributed Applications on Mobile Computers. In International Conference on Parallel and Distributed Information Systems, Sept. 1994.

G. Cao and M. Singhal. Mutable Checkpoints: A New Checkpointing Approach for Mobile Computing Systems. IEEE Trans. on Parallel and Distributed Systems, 12(2):157–172, Feb. 2001.

M. Chandy and L. Lamport. Distributed Snapshots: Determining Global States of Distributed Systems. ACM Trans. on Computing Systems, 3(1):63–75, Feb. 1985.

E. N. Elnozahy, D. Johnson, and Y.M.Yang. A Survey of Rollback-Recovery Protocols in Message-Passing Systems. Technical Report CMU-CS-96-181, Carnegie Mellon University, 1996.

P. A. Lee and T. Anderson. Fault Tolerance: Principles and Practice. Second, Revised Edition, Springer-Verlag, New York, 1990.

D. Manivannan and M. Singhal. Quasi-Synchronous Checkpointing: Models, Characterization, and Classification. Technical Report OH 43210, Department of Computer and Information Science, The Ohio State University, 1997.

A. Ricciardi, A. Schiper, and K. Birman. Understanding Partitions and the ”No Partition” Assumption. In Proceedings of the 4th IEEE Computer Society Workshop on Future Trends in Distributed Computing Systems, pages 354–360, Lisboa, Portugal, 1993.
Publicado
21/05/2002
Como Citar

Selecione um Formato
SAKATA, Tiemi C.; GARCIA, Islene C.; BUZATO, Luiz E.. Checkpointing e Recuperação de Falhas em Sistemas Distribuídos Particionáveis. In: WORKSHOP DE TESTES E TOLERÂNCIA A FALHAS (WTF), 3. , 2002, Búzios/RJ. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2002 . p. 101-104. ISSN 2595-2684. DOI: https://doi.org/10.5753/wtf.2002.23406.