Um Serviço Distribuído de Detecção de Falhas Baseado em Disseminação Epidêmica

Leandro P. de Sousa; Elias P. Duarte Jr.

doi:10.5753/wtf.2010.23094

Leandro P. de Sousa UFPR
Elias P. Duarte Jr. UFPR

DOI: https://doi.org/10.5753/wtf.2010.23094

Resumo

Detectores de falhas são abstrações que, dependendo das propriedades que oferecem, permitem a solução do consenso em sistemas distribuídos assíncronos. Este trabalho apresenta um serviço de detecção de falhas baseado em disseminação epidêmica. O serviço foi implementado para a plataforma JXTA. Para permitir a avaliação com um número maior de processos, foi também implementado um simulador. Resultados experimentais são apresentados para o uso de processador e memória, tempo de detecção, taxa de enganos do detector, além do seu uso na execução de eleição de líder. Os resultados experimentais e de simulação indicam que o serviço é escalável com o número de processos e mostram que a estratégia de disseminação epidêmica possui vantagens significativas em grupos com grande número de processos.

Referências

Chandra, T. D. and Toueg, S. (1996). Unreliable failure detectors for reliable distributed systems. J. ACM, 43(2):225–267.

Chen, W., Toueg, S., and Aguilera, M. K. (2002). On the quality of service of failure detectors. IEEE Trans. Comput., 51(1):13–32.

Das, A., Gupta, I., and Motivala, A. (2002). Swim: scalable weakly-consistent infection-style process group membership protocol. In Proc. International Conference on Dependable Systems and Networks DSN 2002, pages 303–312.

Fischer, M. J., Lynch, N. A., and Paterson, M. S. (1985). Impossibility of distributed consensus with one faulty process. J. ACM, 32(2):374–382.

Greve, F. G. P. (2005). Protocolos fundamentais para o desenvolvimento de aplicações robustas. SBRC’05.

Gupta, I., Birman, K. P., and van Renesse, R. (2002). Fighting fire with fire: using randomized gossip to combat stochastic scalability limits. Quality and Reliability Engineering International, 18(3):165–184.

Gupta, I., Chandra, T. D., and Goldszmidt, G. S. (2001). On scalable and efficient distributed failure detectors. In PODC ’01: Proceedings of the twentieth annual ACM symposium on Principles of distributed computing, pages 170–179, New York, NY, USA. ACM.

JXTA (2009). Jxta community website. https://jxta.dev.java.net/, acessado em junho de 2009.

Lamport, L. (1998). The part-time parliament. ACM Trans. Comput. Syst., 16(2):133–169.

MacDougall, M. H. (1997). Simulating Computer Systems, Techniques and Tools. The MIT Press.

Raynal, M. (2005). A short introduction to failure detectors for asynchronous distributed systems. SIGACT News, 36(1):53–70.

Turek, J. and Shasha, D. (1992). The many faces of consensus in distributed systems. Computer, 25(6):8–17.

van Renesse, R., Minsky, Y., and Hayden, M. (1998). A gossip-style failure detection service. Technical report, Cornell University, Ithaca, NY, USA.