Implementando Recuperação por Retorno Baseada em Checkpointing em Sistemas Distribuídos Assíncronos
Resumo
A recuperação por retorno baseada em pontos de recuperação é largamente usada como técnica de tolerância a falhas. O modelo complexo de sistemas distribuídos tem motivado o desenvolvimento de diversos algoritmos buscando soluções mais simples e eficientes. No Grupo de Tolerância a Falhas da UFRGS, foi proposto recentemente um algoritmo que é voltado para aplicações em sistemas distribuídos assíncronos baseados na troca de mensagens, opera com salvamento coordenado de pontos de recuperação e prevê o tratamento de mensagens órfãs e perdidas. Este artigo descreve as decisões de projeto, a implementação do algoritmo e resultados obtidos até o momento.Referências
Bar, M. (2000). Linux Internals. McGraw-Hill, New York.
Beck, M., Böhme, H., Dziadzka, M., Kunitz, U., Magnus, R., and Verworner, D. (1999). Linux Kernel Internals. Addison Wesley, Harlow, 2nd edition.
Cechin, S. L. (2002). Protocolo de Recuperação por Retorno, Coordenado, não Determinístico. Tese (Doutorado em Ciência da Computação), UFRGS, Porto Alegre.
Cristian, F. (1991). Understanding fault-tolerant distributed systems. Communications of the ACM, 34(2):56–78.
Elnozahy, E. N. M., Alvisi, L., Wang, Y.-M., and Johnson, D. B. (2002). A survey of rollback-recovery protocols in message-passing systems. ACM Computing Surveys (CSUR), 34(3):375–408.
Fontoura, A. B. (2002). Avaliação de Abordagens para Captura de Informações da Aplicação. Dissertação (Mestrado em Ciência da Computação), UFRGS, Porto Alegre.
Jalote, P. (1994). Fault Tolerance in Distributed Systems. Prentice-Hall, New Jersey.
Lamport, L. (1994). The temporal logic of actions. ACM Transactions on Programming Languages and Systems, 16(3):872–923.
Nebbet, G. (2000). Windows NT/2000 Native API Reference. Macmillan Techinical Publishing, Indianapolis.
Rubini, A. (1999). Linux Device Drivers. Market Books, São Paulo.
Sankaran, S., Squyres, J. M., Barrett, B., Lumsdaine, A., Duell, J., Hargrove, P., and Roman, E. (2003) The LAM/MPI Checkpoint/Restart Framework: System-Initiated Checkpointing. In Proceedings, LACSI Symposium, Sante Fe, New Mexico, USA.
Stones, R. and Matthew, N. (1999). Beginning Linux Programming. Wrox Press, Birmingham, 2nd edition.
Zhong, H. and Nieh, J. (2001). Crak: Linux checkpointing/restart as a kernel module. Technical Report CUCS-014-01, Department of Computer Science, Columbia University, Columbia USA.
Beck, M., Böhme, H., Dziadzka, M., Kunitz, U., Magnus, R., and Verworner, D. (1999). Linux Kernel Internals. Addison Wesley, Harlow, 2nd edition.
Cechin, S. L. (2002). Protocolo de Recuperação por Retorno, Coordenado, não Determinístico. Tese (Doutorado em Ciência da Computação), UFRGS, Porto Alegre.
Cristian, F. (1991). Understanding fault-tolerant distributed systems. Communications of the ACM, 34(2):56–78.
Elnozahy, E. N. M., Alvisi, L., Wang, Y.-M., and Johnson, D. B. (2002). A survey of rollback-recovery protocols in message-passing systems. ACM Computing Surveys (CSUR), 34(3):375–408.
Fontoura, A. B. (2002). Avaliação de Abordagens para Captura de Informações da Aplicação. Dissertação (Mestrado em Ciência da Computação), UFRGS, Porto Alegre.
Jalote, P. (1994). Fault Tolerance in Distributed Systems. Prentice-Hall, New Jersey.
Lamport, L. (1994). The temporal logic of actions. ACM Transactions on Programming Languages and Systems, 16(3):872–923.
Nebbet, G. (2000). Windows NT/2000 Native API Reference. Macmillan Techinical Publishing, Indianapolis.
Rubini, A. (1999). Linux Device Drivers. Market Books, São Paulo.
Sankaran, S., Squyres, J. M., Barrett, B., Lumsdaine, A., Duell, J., Hargrove, P., and Roman, E. (2003) The LAM/MPI Checkpoint/Restart Framework: System-Initiated Checkpointing. In Proceedings, LACSI Symposium, Sante Fe, New Mexico, USA.
Stones, R. and Matthew, N. (1999). Beginning Linux Programming. Wrox Press, Birmingham, 2nd edition.
Zhong, H. and Nieh, J. (2001). Crak: Linux checkpointing/restart as a kernel module. Technical Report CUCS-014-01, Department of Computer Science, Columbia University, Columbia USA.
Publicado
10/05/2004
Como Citar
BULIGON, Clairton; CECHIN, Sérgio; JANSCH-PÔRTO, Ingrid.
Implementando Recuperação por Retorno Baseada em Checkpointing em Sistemas Distribuídos Assíncronos. In: WORKSHOP DE TESTES E TOLERÂNCIA A FALHAS (WTF), 5. , 2004, Gramado/RS.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2004
.
p. 13-24.
ISSN 2595-2684.
DOI: https://doi.org/10.5753/wtf.2004.23376.