Suporte a Tolerância a Falhas no Ambiente de Programação DPC++
Abstract
This paper presents Fault Tolerance support for DPC++ programming environment. The mechanism, that has been implemented, is constituted by an algorithm of creation and recovery of checkpoints, which allows a program to recover automatically from distributed object faults, increasing the reliability of applications. The DPC++ programs are generated by the precompiler, making possible the use of the fault tolerance mechanism in a transparent way to the user.
References
CAVALHEIRO, Gerson G. H., NAVAUX, P. O. A.. DPC++: Uma Linguagem para Processamento Distribuído. Florianópolis: V SBAC-PAD. anais..., outubro, 1993.
CAVALHEIRO, Gerson G. H., SANTOS, Rafael R., NAVAUX, Philippe O. A.. Análise de Desempenho de um Protótipo da Linguagem DPC ++. Caxambu: XXI SEMISH, anais..., 1994.
JALOTE, Pankaj. Fault Tolerance in Distributed Systems. PTR Hall. 1994.
KANELLAXKIS, Paris C.; SHVARTSMAN, Alex A. Fault-Tolerant Parallel Computation. Kluwer Academic Publishers, 1997.
KOO, Richard, TOUEG, Sam. Checkpointing and Rollback-Recovery for Distributed Systems. IEEE Transactions on Software Engineering, vol. SE-13. no.1, January, 1987.
MIDKIFF. S. F. e VAIDYANATHAN, P. Performance evalutation of communication protocols for distributed processing. Computer Communications, 13:(5) junho 1990.
PILLA, M. L.; BARRETO, M. E.; SANTOS, R. R.; CAVALHEIRO, G. G. H.: NAVAUX, P. O. A. Mecanismo de Tolerância a Falhas para a Linguagem de Programação DPC++. EX SBAC-PAD. Campos do Jordão. SP:SBC. 1997.
PLANK, James S. et all. Libekpt: Transparent Checkpointing under USENIX Winter 95 Technical Conference. 1995.
SANTOS, R. R.; CAVALHEIRO, G. G. H.; NAVAUX. P. O. A., Mecanismo de Uniz. Transporte para Comunicação entre Objetos Distribuídos. Simpósio Nacional de Redes de Computadores e suas Aplicações. Porto Alegre. SUCESU-RS: 1993.
SINGHAL, Mukesh; SHIVARATRI, rating Systems. McGraw-Hill. 1994.
YAU, S. S., JIA, X., BAE, D. H.. Software Design Methods for Distributed Computing Systems. Computer Communications, 15(4):213-224, May, 1992.
ZOMAYA, Albert Y.H. Parallel and Distributed Computing Handbook. McGraw Hill. 1996.
