Amostragem Dinâmica para Telemetria em Microsserviços: Uma Abordagem Baseada em Aprendizado por Reforço e Entropia

Renan Martins Alves; Jéferson Campos Nobre; Juliano Araujo Wickboldt

doi:10.5753/wgrs.2026.23523

Renan Martins Alves UFRGS
Jéferson Campos Nobre UFRGS https://orcid.org/0000-0002-6275-6503
Juliano Araujo Wickboldt UFRGS http://orcid.org/0000-0002-7686-8370

DOI: https://doi.org/10.5753/wgrs.2026.23523

Resumo

Este artigo propõe RADAR (Reinforcement learning Agent for Dynamic And Relevant trace sampling), um agente que utiliza aprendizado por reforço e avaliação de entropia para uma captura mais eficiente de traces relevantes para o monitoramento de um sistema. O RADAR testa diferentes regras de amostragem para descobrir qual o conjunto é o mais eficiente. Um ambiente de testes simulando uma loja online minimalista com diversos microsserviços distribuídos em um cluster Kubernetes foi a base para os experimentos, que avaliaram a convergência do agente e o desempenho do sistema em relação ao consumo de recursos e a qualidade dos dados coletados. Os resultados demonstraram que o RADAR foi capaz de reduzir o consumo de banda de rede em 97,5% e o uso de CPU em 99% quando comparado à coleta integral, superando também a eficiência de estratégias de amostragem fixa. Além da economia de recursos, a abordagem preservou a observabilidade de cenários críticos, mantendo cerca de 89% dos padrões de traces raros e aumentando a entropia média das informações armazenadas em aproximadamente 25%, validando a viabilidade de utilizar entropia para orquestrar telemetria de forma autônoma e eficiente.

Referências

Gomez Blanco, D. (2023). Practical OpenTelemetry: Adopting Open Observability Standards Across Your Organization. Apress, Berkeley, CA.

Kratzke, N. (2018). A brief history of cloud application architectures. Applied Sciences, 8(8):1368.

Las-Casas, P., Mace, J., Guedes, D., and Fonseca, R. (2018). Weighted sampling of execution traces: Capturing more needles and less hay. In ACM Symposium on Cloud Computing, SoCC ’18, page 326–332, New York, NY, USA.

Luo, L., Nath, S., Sivalingam, L. R., Musuvathi, M., and Ceze, L. (2018). Troubleshooting transiently-recurring problems in production systems with blame-proportional logging. In 2018 Usenix Annual Technical Conference, USENIX ATC ’18, page 321–334, USA.

Majors, C., Fong-Jones, L., and Miranda, G. (2022). Observability Engineering. O’Reilly Media.

Poghosyan, A., Harutyunyan, A., Davtyan, E., Petrosyan, K., and Baloian, N. (2024). The diagnosis-effective sampling of application traces. Applied Sciences, 14(13).

Sutton, R. S. and Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 2 edition.

Zhang, L., Xie, Z., Anand, V., Vigfusson, Y., and Mace, J. (2023). The benefit of hind-sight: Tracing {Edge-Cases} in distributed systems. In 20th USENIX Symposium on Networked Systems Design and Implementation (NSDI 23), pages 321–339.

Zhou, X., Peng, X., Xie, T., Sun, J., Ji, C., Li, W., and Ding, D. (2018). Fault analysis and debugging of microservice systems: Industrial survey, benchmark system, and empirical study. IEEE Transactions on Software Engineering, 47(2):243–260.