Mecanismo de Tolerância a Falhas para a Linguagem Distribuída DPC++

  • Maurício Lima Pilla UFRGS
  • Marcos Ennes Barreto ULBRA
  • Rafael R. dos Santos UFRGS
  • Gerson G. H. Cavalheiro IMAG
  • Philippe O. A. Navaux UFRGS

Resumo


Este trabalho apresenta um mecanismo e algoritmo para criar checkpoints e aumentar a confiabilidade de DPC++. O mecanismo proposto permite a criação de checkpoints distribuídos e a recuperação de objetos DPC++ na ocorrência de falhas. Um ambiente de testes foi criado para validar o modelo em questão. Ao final, é apresentada uma análise dos resultados obtidos e de futuros trabalhos.

Referências

BELMONTE, Valdir Rossi, WEBER, Raul Fernando. Gerindo Tolerância a Falhas em Sistemas Distribuídos. São José dos Campos: V Simpósio de Computadores Tolerantes a Falhas, anais ..., outubro, 1993.

CAVALHEIRO, Gerson G. H., NAVAUX, P. O. A.. DPC++: Uma Linguagem para Processamento Distribuído. Florianópolis: V SBAC-PAD, anais ..., outubro, 1993.

CAVALHEIRO, Gerson G. H., SANTOS, Rafael R., NAVAUX, Philippe O. A.. Análise de Desempenho de um Protótipo da Linguagem DPC++. Caxambu : XXI SEMISH, anais ..., 1994.

JALOTE, Pankaj. Fault Tolerance in Distributed Systems. P T R Pretince Hall. 1994.

KOO, H.ichard, TOUEG, Sam. Checkpointing and Rollback-Recovery for Distributed Systems. IEEE Transactions on Software Engineering, vol. SE-13, no.1, January, 1987.

MIDKIFF, S. F. e VAIDYANATHAN, P. Performance evalutation of communication protocols for distributed processing. Computer Communications, 13:(5) junho 1990.

PLANK, James S. et alli. Libckpt: Transparent Checkpointing under Unix. USENIX Winter 95 Technical Conference. 1995.

SANTOS, Rafael R. dos; CAVALHEIRO, Gerson G. H.; NAVAUX, Philippe O. A. Mecanismo de Transporte para Comunicação entre Objetos Distribuídos. Simpósio Nacional de Redes de Computadores e suas Aplicações. Porto Alegre. SUCESU-RS. s.n, Agosto 1993.

SINGHAL, Mukesh; SHIVARATRI, Niranjan G. Advanced Concepts in Operating Systems. McGraw-Hill. 1994.

YAU, S. S., JIA, X., BAE, D. H.. Software Design Methods for Distributed. Computing Systems. Computer Communications, 15(4):213-224, May, 1992.

ZOMAYA, Albert Y.H. Parallel and Distributed Computing Handbook. McGraw Hill. 1996.
Publicado
07/10/1997
PILLA, Maurício Lima; BARRETO, Marcos Ennes; SANTOS, Rafael R. dos; CAVALHEIRO, Gerson G. H.; NAVAUX, Philippe O. A.. Mecanismo de Tolerância a Falhas para a Linguagem Distribuída DPC++. In: INTERNATIONAL SYMPOSIUM ON COMPUTER ARCHITECTURE AND HIGH PERFORMANCE COMPUTING (SBAC-PAD), 9. , 1997, Campos do Jordão/SP. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 1997 . p. 139-152. DOI: https://doi.org/10.5753/sbac-pad.1997.22621.