Comunicação Não Confiável em Detectores de Defeitos com Falhas por Crash

  • Luiz Angelo Barchet Estefanel UFRGS
  • Ingrid Jansch-Pôrto UFRGS

Resumo


A definição dos detectores de defeitos para ambientes com falhas por crash apresenta restrições severas, mesmo nos mais fracos detectores. Ainda assim, a operação dos detectores em sistemas distribuídos assíncronos é possível, mediante certas adaptações como, por exemplo, a utilização de timeouts. Um fator importante para a construção dos detectores é a necessidade de comunicação confiável: mesmo que esta seja requerida pela definição dos detectores, experiências práticas demonstram que se pode utilizar comunicação não confiável para a sua implementação. Este artigo toma como base os protocolos TCP e UDP, respectivamente confiável e não confiável, que representam as opções nativas da maioria dos sistemas operacionais, para avaliar o impacto de seu uso no funcionamento dos detectores de defeitos.

Referências

AGUILERA, Marcos Kawazoe; CHEN, Wei; TOUEG, Sam. Heartbeat: a timeout-free failure detector for quiescent reliable communication. In: 11th International Workshop on Distributed Algorithms, Proceedings..., Setembro 1997. Também publicado como Technical Report, Comell University, Maio 1997. Disponível por WWW em [link] (11 Janeiro 2000)

CHANDRA, Tushar Deepak.; TOUEG, SAM. Unreliable Failure Detectors for Reliable Distributed Systems. Journal of the ACM, v. 43, n. 2, pg 225-267, Marco 1996. Também disponivel por WWW em [link] (12 Janeiro 2000)

DOUDOU, A.; GARBINATO, Benoit; GUERRAOUI, Rachid; and SCHIPER, André. Muteness Failure Detectors: Specification & Implementation. In: Third European Dependable Computing Conference (EDCC-3), Proceedings..., Springer Verlag. Suiça, Setembro 1999. Também disponível por WWW em [link] (9 Maio 2000)

FELBER, Pascal. The CORBA Object Group Service, Tese de Doutorado, École Polytechnique Fédérale de Lausanne, Suíça, 1998. Disponível por WWW em http://lsewww.epfl.ch/OGS/thesis/ (12 Janeiro 2000)

FISCHER, Michael J.; LYNCH, Nancy A.; PATERSON, Michael S. Impossibility of distributed consensus with one faulty process. Journal of the ACM, v. 32, n. 2, pg 374-382, 1985.

GARBINATO, Benoit. Protocol Objects and Patterns for Structuring Reliable Distributed Systems, Tese de Doutorado, Ecole Polytechnique Fédérale de Lausanne, Suiça, 1998. Disponivel por WWW em http://lsewww.epfl.ch/garbinato/PhD/ (11 Janeiro 2000).

GUERRAOUI, Rachid; SCHIPER, André. Consensus: The Big Misunderstanding. In: IEEE International Workshop on Future Trends in Distributed Computing Systems (FTDCS'97), Outubro 1997. Proceedings.... Também disponivel por WWW em http://lsewww.epfl.ch/~rachid/papers/ftdcs2-97.ps (12 Janeiro 2000)

MOSER, L. E.; MELLIAR-SMITH, P. M.; AGARWAL, D. A.; BUDHIA, R. K., LINGLEY-PAPADOPOULUS, C. A. Totem: A Fault-Tolerant Multicast Group Communication System. Communications of the ACM, v. 39, n. 4, pg 54-63, Abril 1996.

SCHIPER, André. Implementação de um detector Pull, Março 2000. Comunicação pessoal por e-mail.
Publicado
15/07/2000
ESTEFANEL, Luiz Angelo Barchet; JANSCH-PÔRTO, Ingrid. Comunicação Não Confiável em Detectores de Defeitos com Falhas por Crash. In: WORKSHOP DE TESTES E TOLERÂNCIA A FALHAS (WTF), 2. , 2000, Curitiba/PR. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2000 . p. 64-69. ISSN 2595-2684. DOI: https://doi.org/10.5753/wtf.2000.23476.