Checkpointing e Recuperação de Falhas em Sistemas Distribuídos Particionáveis
Resumo
Os protocolos existentes para checkpointing e recuperação por retrocesso normalmente consideram que não haverá partições na rede de comunicação e que a recuperação por retrocesso só será iniciada quando todos os processos que falharam voltarem à operação normal. Estas restrições podem tornar inviável a utilização de checkpointing e recuperação por retrocesso em aplicações que operam sobre ambientes móveis. Neste resumo comentaremos como essas restrições podem ser contornadas para permitir o avanço seguro da aplicação mesmo na presença de falhas e/ou partições da rede.
Referências
G. Cao and M. Singhal. Mutable Checkpoints: A New Checkpointing Approach for Mobile Computing Systems. IEEE Trans. on Parallel and Distributed Systems, 12(2):157–172, Feb. 2001.
M. Chandy and L. Lamport. Distributed Snapshots: Determining Global States of Distributed Systems. ACM Trans. on Computing Systems, 3(1):63–75, Feb. 1985.
E. N. Elnozahy, D. Johnson, and Y.M.Yang. A Survey of Rollback-Recovery Protocols in Message-Passing Systems. Technical Report CMU-CS-96-181, Carnegie Mellon University, 1996.
P. A. Lee and T. Anderson. Fault Tolerance: Principles and Practice. Second, Revised Edition, Springer-Verlag, New York, 1990.
D. Manivannan and M. Singhal. Quasi-Synchronous Checkpointing: Models, Characterization, and Classification. Technical Report OH 43210, Department of Computer and Information Science, The Ohio State University, 1997.
A. Ricciardi, A. Schiper, and K. Birman. Understanding Partitions and the ”No Partition” Assumption. In Proceedings of the 4th IEEE Computer Society Workshop on Future Trends in Distributed Computing Systems, pages 354–360, Lisboa, Portugal, 1993.