Suporte a Tolerância a Falhas no Ambiente de Programação DPC++
Resumo
Este trabalho apresenta o suporte a Tolerância a Falhas para o ambiente de programação DPC++. O mecanismo que está sendo implementado atualmente é constituído por um algoritmo de criação e recuperação de checkpoints, o qual permite a um programa realizar recuperação automática de falhas de um objeto distribuído, aumentando a confiabilidade da aplicação. As aplicações DPC++ são geradas através do pré-compilador DPC++, o qual possibilita que aplicações utilizem o mecanismo de tolerância a falhas de modo transparente ao usuário.
Referências
CAVALHEIRO, Gerson G. H., NAVAUX, P. O. A.. DPC++: Uma Linguagem para Processamento Distribuído. Florianópolis: V SBAC-PAD. anais..., outubro, 1993.
CAVALHEIRO, Gerson G. H., SANTOS, Rafael R., NAVAUX, Philippe O. A.. Análise de Desempenho de um Protótipo da Linguagem DPC ++. Caxambu: XXI SEMISH, anais..., 1994.
JALOTE, Pankaj. Fault Tolerance in Distributed Systems. PTR Hall. 1994.
KANELLAXKIS, Paris C.; SHVARTSMAN, Alex A. Fault-Tolerant Parallel Computation. Kluwer Academic Publishers, 1997.
KOO, Richard, TOUEG, Sam. Checkpointing and Rollback-Recovery for Distributed Systems. IEEE Transactions on Software Engineering, vol. SE-13. no.1, January, 1987.
MIDKIFF. S. F. e VAIDYANATHAN, P. Performance evalutation of communication protocols for distributed processing. Computer Communications, 13:(5) junho 1990.
PILLA, M. L.; BARRETO, M. E.; SANTOS, R. R.; CAVALHEIRO, G. G. H.: NAVAUX, P. O. A. Mecanismo de Tolerância a Falhas para a Linguagem de Programação DPC++. EX SBAC-PAD. Campos do Jordão. SP:SBC. 1997.
PLANK, James S. et all. Libekpt: Transparent Checkpointing under USENIX Winter 95 Technical Conference. 1995.
SANTOS, R. R.; CAVALHEIRO, G. G. H.; NAVAUX. P. O. A., Mecanismo de Uniz. Transporte para Comunicação entre Objetos Distribuídos. Simpósio Nacional de Redes de Computadores e suas Aplicações. Porto Alegre. SUCESU-RS: 1993.
SINGHAL, Mukesh; SHIVARATRI, rating Systems. McGraw-Hill. 1994.
YAU, S. S., JIA, X., BAE, D. H.. Software Design Methods for Distributed Computing Systems. Computer Communications, 15(4):213-224, May, 1992.
ZOMAYA, Albert Y.H. Parallel and Distributed Computing Handbook. McGraw Hill. 1996.