Implementação e Análise de Desempenho de um Mecanismo Adaptativo para Tolerância a Falhas em Sistemas Distribuídos com QoS

  • Sérgio Gorender UFBA
  • Raimundo J. A. Macêdo UFBA
  • Matheus Cunha UFBA

Resumo


Tolerância a falhas e adaptabilidade são requisitos importantes para sistemas distribuídos modernos, especialmente aqueles que precisam se adaptar dinamicamente para diferentes níveis de qualidade de serviço (QoS). Neste artigo, apresentamos a implementação de uma infraestrutura de comunicação e gerenciamento de recursos de QoS, implementada sobre uma rede de estações LINUX equipadas com um pacote de controle de trafego (DiffServ). Baseados nesta estrutura, mostramos a implementação de um mecanismo de tolerância a falhas adaptável em tempo de execução (run-time) a diferentes níveis de QoS, o qual é composto de um detector de defeitos e um módulo de consenso. O protocolo de consenso apresentado goza de uma propriedade bastante interessante: a de poder operar concomitantemente, numa mesma execução, com diferentes níveis de QoS para processos distintos, caracterizando um modelo híbrido de tolerância a falhas. Também apresentamos dados de desempenho coletados a partir de vários experimentos onde foram medidos os tempos de obtenção de consenso para cenários diversos.

Referências

Aguilera, M. K. e Toueg, S., Failure Detection and Randomization: A Hybrid Approach to Solve Consensus, SIAM Journal of Computing, 28(3), 1998, pp. 890-903, junho, 1999.

Aguilera, M. K., Chen, W. e Toueg, S., Heartbeat: a timeout-free failure detector for quiescent reliable communication, Proceedings of the 11th International Workshop on Distributed Algorithms, Lecture Notes on Computer Science. Springer-Verlag, setembro, 1997.

Aurrecoechea, C., Cambell, A. T. e Hauw, L., A Survey of QoS architectures, Multimedia Systems 6(3), Springer-Verlag, pp – 138-151, maio, 1998.

Ben Or, M., Another Advantage of Free-Choice: Completely Asynchronous Agreement Protocols, Proceedings of the 2 nd Annual ACM Symposium on Principles of distributed Computing (PODC 1983), pp. 27-30 , agosto, 1983.

Blake, S. at al, “An Architecture for Differentiated Services”, RFC 2475, dezembro, 1998.

Chandra, T. D. e Toueg, S., Unreliable Failure Detectors for Reliable Distributed Systems, Journal of the ACM, Vol. 43 (2), pp. 225-267, março, 1996.

Cristian, F. e Fetzer C., The Timed Asynchronous Distributed System Model, IEEE Transactions on Parallel and Distributed Systems, Vol. 10 (6), pp. 642-657, junho, 1999.

Dolev, D., Dwork, C. e Stockmeyer, L., On the Minimal Synchronism Needed for Distributed Consensus, Journal of the ACM, Vol. 34 (1), pp. 77-97, janeiro, 1987.

Dwork, C., Lynch, N. e Stockmeyer, L., Consensus in the Presence of Partial Synchrony, Journal of the ACM, Vol. 35 (2), pp. 288-323, abril, 1988.

Fisher, M. J., Lynch, N. A. e Paterson, M. S., Impossibility of Distributed Consensus with One Faulty Process, Journal of the ACM, vol. 32 (2), pp. 374-382, abril, 1985.

Gorender, S. e Macêdo , R. Um Modelo para Tolerância a Falhas em Sistemas Distribuídos com QoS, Anais do Simpósio Brasileiro de Redes de Computadores (SBRC2002), pp. 277-292, maio, 2002.

Gorender, S. e Macêdo, R., A Dynamically QoS Adaptable Consensus and Failure Detector, The IEEE/IFIP International Conference on Dependable Systems and Networks, DSN 2002 – Fast Abstract Track, pp. B80-B81, junho, 2002.

Hurfin M., Macêdo R., Mostefaoui A. e Raynal M., A Consensus Protocol based on a Weak Failure Detector and a Sliding Round Window, Proceedings of the 20th IEEE Int. Symposium on Reliable Distributed Systems (SRDS'01). New Orleans, USA, pp. 120-129, outubro, 2001.

Keidar, I. e Rajsbaum, S., On the Cost of Fault-Tolerant Consensus When There Are No Faults – A Tutorial, SIGACT News 32(2), Distributed Computing column, pp. 45-63, junho,2001.

Lamport, L., The Part Time Parliament, ACM Transactions on Computer Systems, 16(2), pp. 133-169, maio, 1998.

Mostefaoui, A. e Raynal, M., Solving Consensus Using Chandra-Toueg's Unreliable Failure detectors: a General Quorum-Based Approach, in Proceedings of the 13 th International Symposium on Distributed Computing (Disc1999), pp. 49-63, setembro, 1999.

Mostefaoui, A., Raynal, M. e Tronel, F., The Best of Both Worlds: a Hybrid Approach to Solve Consensus, Proceedings of the 2000 International Conference on Dependable Systems and Networks (DSN 2000), pp. 513-522, junho, 2000.

Nahrstedt, K. e Smith, J. M., The QoS Broker, IEEE Multimedia, 2(1), pp – 53-67, março, 1995.

Veríssimo, P., Casimiro, A. e Fetzer, C., The Timely Computing Base: Timely Actions in the Presence of Uncertain Timeliness, Proceedings of the International Conference on Dependable Systems and Networks, pp. 533-542, junho, 2000.

Xiao, X. e Ni, L. M., “Internet QoS: A Big Picture”, IEEE Network, pp. 8 – 18, março/abril, 1999.
Publicado
10/05/2004
GORENDER, Sérgio; MACÊDO, Raimundo J. A.; CUNHA, Matheus. Implementação e Análise de Desempenho de um Mecanismo Adaptativo para Tolerância a Falhas em Sistemas Distribuídos com QoS. In: WORKSHOP DE TESTES E TOLERÂNCIA A FALHAS (WTF), 5. , 2004, Gramado/RS. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2004 . p. 1-12. ISSN 2595-2684. DOI: https://doi.org/10.5753/wtf.2004.23375.