Mecanismo de Tolerância a Falhas para a Linguagem Distribuída DPC++
Resumo
Este trabalho apresenta um mecanismo e algoritmo para criar checkpoints e aumentar a confiabilidade de DPC++. O mecanismo proposto permite a criação de checkpoints distribuídos e a recuperação de objetos DPC++ na ocorrência de falhas. Um ambiente de testes foi criado para validar o modelo em questão. Ao final, é apresentada uma análise dos resultados obtidos e de futuros trabalhos.
Referências
BELMONTE, Valdir Rossi, WEBER, Raul Fernando. Gerindo Tolerância a Falhas em Sistemas Distribuídos. São José dos Campos: V Simpósio de Computadores Tolerantes a Falhas, anais ..., outubro, 1993.
CAVALHEIRO, Gerson G. H., NAVAUX, P. O. A.. DPC++: Uma Linguagem para Processamento Distribuído. Florianópolis: V SBAC-PAD, anais ..., outubro, 1993.
CAVALHEIRO, Gerson G. H., SANTOS, Rafael R., NAVAUX, Philippe O. A.. Análise de Desempenho de um Protótipo da Linguagem DPC++. Caxambu : XXI SEMISH, anais ..., 1994.
JALOTE, Pankaj. Fault Tolerance in Distributed Systems. P T R Pretince Hall. 1994.
KOO, H.ichard, TOUEG, Sam. Checkpointing and Rollback-Recovery for Distributed Systems. IEEE Transactions on Software Engineering, vol. SE-13, no.1, January, 1987.
MIDKIFF, S. F. e VAIDYANATHAN, P. Performance evalutation of communication protocols for distributed processing. Computer Communications, 13:(5) junho 1990.
PLANK, James S. et alli. Libckpt: Transparent Checkpointing under Unix. USENIX Winter 95 Technical Conference. 1995.
SANTOS, Rafael R. dos; CAVALHEIRO, Gerson G. H.; NAVAUX, Philippe O. A. Mecanismo de Transporte para Comunicação entre Objetos Distribuídos. Simpósio Nacional de Redes de Computadores e suas Aplicações. Porto Alegre. SUCESU-RS. s.n, Agosto 1993.
SINGHAL, Mukesh; SHIVARATRI, Niranjan G. Advanced Concepts in Operating Systems. McGraw-Hill. 1994.
YAU, S. S., JIA, X., BAE, D. H.. Software Design Methods for Distributed. Computing Systems. Computer Communications, 15(4):213-224, May, 1992.
ZOMAYA, Albert Y.H. Parallel and Distributed Computing Handbook. McGraw Hill. 1996.
CAVALHEIRO, Gerson G. H., NAVAUX, P. O. A.. DPC++: Uma Linguagem para Processamento Distribuído. Florianópolis: V SBAC-PAD, anais ..., outubro, 1993.
CAVALHEIRO, Gerson G. H., SANTOS, Rafael R., NAVAUX, Philippe O. A.. Análise de Desempenho de um Protótipo da Linguagem DPC++. Caxambu : XXI SEMISH, anais ..., 1994.
JALOTE, Pankaj. Fault Tolerance in Distributed Systems. P T R Pretince Hall. 1994.
KOO, H.ichard, TOUEG, Sam. Checkpointing and Rollback-Recovery for Distributed Systems. IEEE Transactions on Software Engineering, vol. SE-13, no.1, January, 1987.
MIDKIFF, S. F. e VAIDYANATHAN, P. Performance evalutation of communication protocols for distributed processing. Computer Communications, 13:(5) junho 1990.
PLANK, James S. et alli. Libckpt: Transparent Checkpointing under Unix. USENIX Winter 95 Technical Conference. 1995.
SANTOS, Rafael R. dos; CAVALHEIRO, Gerson G. H.; NAVAUX, Philippe O. A. Mecanismo de Transporte para Comunicação entre Objetos Distribuídos. Simpósio Nacional de Redes de Computadores e suas Aplicações. Porto Alegre. SUCESU-RS. s.n, Agosto 1993.
SINGHAL, Mukesh; SHIVARATRI, Niranjan G. Advanced Concepts in Operating Systems. McGraw-Hill. 1994.
YAU, S. S., JIA, X., BAE, D. H.. Software Design Methods for Distributed. Computing Systems. Computer Communications, 15(4):213-224, May, 1992.
ZOMAYA, Albert Y.H. Parallel and Distributed Computing Handbook. McGraw Hill. 1996.
Publicado
07/10/1997
Como Citar
PILLA, Maurício Lima; BARRETO, Marcos Ennes; SANTOS, Rafael R. dos; CAVALHEIRO, Gerson G. H.; NAVAUX, Philippe O. A..
Mecanismo de Tolerância a Falhas para a Linguagem Distribuída DPC++. In: INTERNATIONAL SYMPOSIUM ON COMPUTER ARCHITECTURE AND HIGH PERFORMANCE COMPUTING (SBAC-PAD), 9. , 1997, Campos do Jordão/SP.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
1997
.
p. 139-152.
DOI: https://doi.org/10.5753/sbac-pad.1997.22621.