Comunicação Não Confiável em Detectores de Defeitos com Falhas por Crash
Resumo
A definição dos detectores de defeitos para ambientes com falhas por crash apresenta restrições severas, mesmo nos mais fracos detectores. Ainda assim, a operação dos detectores em sistemas distribuídos assíncronos é possível, mediante certas adaptações como, por exemplo, a utilização de timeouts. Um fator importante para a construção dos detectores é a necessidade de comunicação confiável: mesmo que esta seja requerida pela definição dos detectores, experiências práticas demonstram que se pode utilizar comunicação não confiável para a sua implementação. Este artigo toma como base os protocolos TCP e UDP, respectivamente confiável e não confiável, que representam as opções nativas da maioria dos sistemas operacionais, para avaliar o impacto de seu uso no funcionamento dos detectores de defeitos.
Referências
CHANDRA, Tushar Deepak.; TOUEG, SAM. Unreliable Failure Detectors for Reliable Distributed Systems. Journal of the ACM, v. 43, n. 2, pg 225-267, Marco 1996. Também disponivel por WWW em [link] (12 Janeiro 2000)
DOUDOU, A.; GARBINATO, Benoit; GUERRAOUI, Rachid; and SCHIPER, André. Muteness Failure Detectors: Specification & Implementation. In: Third European Dependable Computing Conference (EDCC-3), Proceedings..., Springer Verlag. Suiça, Setembro 1999. Também disponível por WWW em [link] (9 Maio 2000)
FELBER, Pascal. The CORBA Object Group Service, Tese de Doutorado, École Polytechnique Fédérale de Lausanne, Suíça, 1998. Disponível por WWW em http://lsewww.epfl.ch/OGS/thesis/ (12 Janeiro 2000)
FISCHER, Michael J.; LYNCH, Nancy A.; PATERSON, Michael S. Impossibility of distributed consensus with one faulty process. Journal of the ACM, v. 32, n. 2, pg 374-382, 1985.
GARBINATO, Benoit. Protocol Objects and Patterns for Structuring Reliable Distributed Systems, Tese de Doutorado, Ecole Polytechnique Fédérale de Lausanne, Suiça, 1998. Disponivel por WWW em http://lsewww.epfl.ch/garbinato/PhD/ (11 Janeiro 2000).
GUERRAOUI, Rachid; SCHIPER, André. Consensus: The Big Misunderstanding. In: IEEE International Workshop on Future Trends in Distributed Computing Systems (FTDCS'97), Outubro 1997. Proceedings.... Também disponivel por WWW em http://lsewww.epfl.ch/~rachid/papers/ftdcs2-97.ps (12 Janeiro 2000)
MOSER, L. E.; MELLIAR-SMITH, P. M.; AGARWAL, D. A.; BUDHIA, R. K., LINGLEY-PAPADOPOULUS, C. A. Totem: A Fault-Tolerant Multicast Group Communication System. Communications of the ACM, v. 39, n. 4, pg 54-63, Abril 1996.
SCHIPER, André. Implementação de um detector Pull, Março 2000. Comunicação pessoal por e-mail.