Chaos-K8s: Avaliação Sistemática de Disponibilidade em Clusters Kubernetes

  • Jonas Nunes UFPI
  • Iure Fé UFPI
  • Lucas Silva Lopes UFPI
  • José Miqueias UFPI
  • Elias P. Duarte Jr. UFPR
  • Francisco Airton Silva UFPI

Resumo


A dependência crescente de serviços digitais críticos tornou a disponibilidade um requisito estratégico, porém a variedade de configurações possíveis em clusters Kubernetes dificulta antecipar o comportamento do sistema frente a falhas. Apesar dos avanços em técnicas de experimentação controlada, ainda é pouco explorado como relacionar configurações do cluster a métricas de disponibilidade percebidas pelos usuários. Este trabalho propõe o Chaos-K8s, uma solução que orquestra campanhas de testes de falhas em componentes (plano de controle, nós e pods), realizando descoberta automática da infraestrutura, calibração de MTTR por componente e medição de tempo de indisponibilidade, com o objetivo de permitir que administradores quantifiquem o impacto de diferentes configurações sobre a disponibilidade percebida pelos usuários finais. O estudo de caso demonstrou a eficácia do Chaos-K8s na avaliação de configurações, resultando em estimativas de disponibilidade validadas por modelagem em Rede de Petri Estocástica, com 95% de confiança.

Referências

Aderaldo, C. M. and Mendonça, N. C. (2025). Resiliencebench-operator: A kubernetes extension for orchestrating resilience experiments on microservice applications. In Simpósio Brasileiro de Engenharia de Software (SBES), pages 983–989. SBC.

Baptista, G., Correia, J., Bento, A., Soares, J., Ferreira, A., Duraes, J., Barbosa, R., and Araujo, F. (2023). Defektor: An extensible tool for fault injection campaign management in microservice systems. In Proceedings of the 38th ACM/SIGAPP Symposium on Applied Computing, pages 184–187.

Barletta, M., Cinque, M., Martino, C., Kalbarczyk, Z., and Iyer, R. K. (2024). Mutiny! how does kubernetes fail, and what can we do about it? 2024 54th Annual IEEE/IFIP International Conference on Dependable Systems and Networks (DSN), pages 1–14.

Carvalho, D., Rodrigues, L., Takako Endo, P., Kosta, S., and Airton Silva, F. (2020). Mobile edge computing performance evaluation using stochastic petri nets. In 2020 IEEE Symposium on Computers and Communications (ISCC), pages 1–6.

Chen, Z., Goudarzi, M., and Toosi, A. N. (2025). Resilience evaluation of kubernetes in cloud-edge environments via failure injection. arXiv preprint arXiv:2507.16109.

Flora, J., Gonçalves, P., Teixeira, M., and Antunes, N. (2022). A study on the aging and fault tolerance of microservices in kubernetes. IEEE Access, 10:132786–132799.

Fé, I., Nguyen, T. A., Soares, A. B., Son, S., Choi, E., Min, D., Lee, J.-W., and Silva, F. A. (2023). Model-driven dependability and power consumption quantification of kubernetes-based cloud-fog continuum. IEEE Access, 11:140826–140852.

G1 (2025). Como pane em apenas um data center da amazon causou falhas para ifood, mercado livre e mais centenas de empresas. [link]. Acesso via conteúdo replicado e referências de busca.

Gortázar, F., Gallego, M., García, B., Carella, G. A., Pauls, M., and Gheorghe-Pop, I.-D. (2017). Elastest — an open source project for testing distributed applications with failure injection. In 2017 IEEE Conference on Network Function Virtualization and Software Defined Networks (NFV-SDN), pages 1–2.

Grafana Labs (2026). k6: Open-source load testing tool. [link].

Hecht, M. and Agena, S. (2024). A reliability and availability model of a kubernetes cluster using sysml. 2024 Annual Reliability and Maintainability Symposium (RAMS), pages 1–7.

Ikeuchi, H., Ge, J., Matsuo, Y., and Watanabe, K. (2020). A framework for automatic failure recovery in ict systems by deep reinforcement learning. In 2020 IEEE 40th International Conference on Distributed Computing Systems (ICDCS), pages 1310–1315.

Limam, S., Mokadem, R., and Belalem, G. (2019). Data replication strategy with satisfaction of availability, performance and tenant budget requirements. Cluster Computing, 22:1199 – 1210.

Nguyen, T., Fé, I., Brito, C., Kaliappan, V. K., Choi, E., Min, D., Lee, J.-W., and Silva, F. A. (2021). Performability evaluation of load balancing and fail-over strategies for medical information systems with edge/fog computing using stochastic reward nets. Sensors (Basel, Switzerland), 21.

Nguyen, T.-T., Yeom, Y.-J., Kim, T., Park, D.-H., and Kim, S. (2020). Horizontal pod autoscaling in kubernetes for elastic container orchestration. Sensors (Basel, Switzerland), 20.

Pinheiro, T., Oliveira, D., Matos, R., Silva, B., Pereira, P., Melo, C., Oliveira, F., Tavares, E., Dantas, J., and Maciel, P. (2021). The mercury environment: a modeling tool for performance and dependability evaluation. In Intelligent Environments 2021, pages 16–25. IOS Press.

Sebastio, S., Ghosh, R., and Mukherjee, T. (2021). An availability analysis approach for deployment configurations of containers. IEEE Transactions on Services Computing, 14(1):16–29.

Silva, F. A., Rodrigues, M., Maciel, P., Kosta, S., and Mei, A. (2015). Planning mobile cloud infrastructures using stochastic petri nets and graphic processing units. In 2015 IEEE 7th International Conference on Cloud Computing Technology and Science (CloudCom), pages 471–474.

Thakare, S. (2025). The societal imperative of resilient cloud infrastructure: Beyond business continuity. Global Journal of Engineering and Technology Advances.

Vayghan, L. A., Saied, M. A., Toeroe, M., and Khendek, F. (2019). Kubernetes as an availability manager for microservice applications. arXiv preprint arXiv:1901.04946.
Publicado
25/05/2026
NUNES, Jonas; FÉ, Iure; LOPES, Lucas Silva; MIQUEIAS, José; DUARTE JR., Elias P.; SILVA, Francisco Airton. Chaos-K8s: Avaliação Sistemática de Disponibilidade em Clusters Kubernetes. In: SIMPÓSIO BRASILEIRO DE REDES DE COMPUTADORES E SISTEMAS DISTRIBUÍDOS (SBRC), 44. , 2026, Praia do Forte/BA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2026 . p. 421-434. ISSN 2177-9384. DOI: https://doi.org/10.5753/sbrc.2026.19317.

Artigos mais lidos do(s) mesmo(s) autor(es)

<< < 2 3 4 5 6 7 8 9 > >>