Avaliação Experimental de Tolerância a Falhas e Resiliência em Microsserviços na Nuvem Privada com Engenharia do Caos, NetEm e Scaphandre

  • Ivan J. S. Pereira UFRPE
  • Gustavo Callou UFRPE

Resumo


A arquitetura de microsserviços tornou-se predominante devido à sua escalabilidade e agilidade, mas introduz desafios significativos na gestão de falhas em ambientes de nuvem privada. Este trabalho apresenta uma metodologia experimental para avaliar a tolerância a falhas e o consumo energético da aplicação TeaStore, implantada em contêineres Docker sobre máquinas virtuais gerenciadas pelo OpenNebula. A abordagem combina Engenharia do Caos, com injeção de falhas de rede (via NetEm) e de contêineres (via Pumba), sob carga gerada pelo Apache JMeter, além da medição de energia com Scaphandre em um testbed físico. Três cenários foram analisados: baseline, degradação de rede e falha de serviços críticos. Os resultados mostram que falhas podem elevar o custo energético por requisição em até 5,6 vezes, evidenciando que a resiliência é essencial não apenas para disponibilidade, mas também para sustentabilidade.

Referências

Basiri, A., Behnam, N., de Rooij, R., Hochstein, L., Kosewski, L., Reynolds, J., and Rosenthal, C. (2016). Chaos engineering. IEEE Software, 33(3):35–41.

Callou, G. and Vieira, M. (2024). Availability and performance analysis of cloud services. In Proceedings of the 13th Latin-American Symposium on Dependable and Secure Computing, LADC ’24, page 262–271, New York, NY, USA. Association for Computing Machinery.

de Oliveira, A. B. and Callou, G. (2025). Quantifying the impact of security strategies on the performance and availability of cloud services. In 2025 IEEE 36th International Symposium on Software Reliability Engineering Workshops (ISSREW), pages 225–228.

Gill, P., Jain, N., and Nagappan, N. (2011). Understanding network failures in data centers: measurement, analysis, and implications. SIGCOMM Comput. Commun. Rev., 41(4):350–361.

Gunawi, H. S., Hao, M., Suminto, R. O., Laksono, A., Satria, A. D., Adityatama, J., and Eliazar, K. J. (2016). Why does the cloud stop computing? lessons from hundreds of service outages. In Proceedings of the Seventh ACM Symposium on Cloud Computing, pages 1–16.

Hubblo (2022). Scaphandre: Energy consumption metrology agent. Disponível em: [link]. Acesso: 06 abr. 2026.

Leonardo, W. and Callou, G. (2025). Avaliação da disponibilidade do serviço nextcloud hospedado em nuvem privada. In Anais do XXVI Workshop de Testes e Tolerância a Falhas, pages 85–98, Porto Alegre, RS, Brasil. SBC.

Wurster, M., Mendoza, D. E., Scharr, T., Straesser, M., and Kounev, S. (2018). TeaStore: A Micro-Service Reference Application for Benchmarking, Modeling and Resource Management Research. In Proceedings of the 26th IEEE International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems (MASCOTS), pages 223–236.
Publicado
25/05/2026
PEREIRA, Ivan J. S.; CALLOU, Gustavo. Avaliação Experimental de Tolerância a Falhas e Resiliência em Microsserviços na Nuvem Privada com Engenharia do Caos, NetEm e Scaphandre. In: WORKSHOP DE TESTES E TOLERÂNCIA A FALHAS (WTF), 27. , 2026, Praia do Forte/BA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2026 . p. 237-241. ISSN 2595-2684. DOI: https://doi.org/10.5753/wtf.2026.24158.