A Proposal for Hierarchical Monitoring Using Heartbeat in High-Performance Computing Systems
Abstract
Sistemas de Computação de Alto Desempenho (HPC) são fundamentais para aplicações científicas e industriais de larga escala, exigindo alta disponibilidade e tolerância a falhas. A biblioteca DeLIA oferece suporte a essas aplicações por meio de mecanismos como heartbeat, checkpoint e restart. Contudo, sua arquitetura atual adota um processo centralizado de monitoramento, que representa um ponto único de falha. Este artigo propõe uma nova arquitetura para os processos da biblioteca DeLIA, baseada em uma topologia em anel com heartbeat, eliminando a centralização e distribuindo as responsabilidades de monitoramento entre múltiplos nós.References
Chetan, S., Ranganathan, A., and Campbell, R. (2005). Towards fault tolerance pervasive computing. IEEE Technology and Society Magazine, 24(1):38–44.
Herault, T. and Robert, Y. (2015). Fault-Tolerance Techniques for High-Performance Computing. Springer Publishing Company, Incorporated, 1st edition.
Netto, M. A. S., Calheiros, R. N., Rodrigues, E. R., Cunha, R. L. F., and Buyya, R. (2018). Hpc cloud for scientific and business applications: Taxonomy, vision, and research challenges. ACM Computing Surveys, 51(1):1–29.
Santana, C., Araújo, R. C., Sardina, I. M., Ítalo A.S. Assis, Barros, T., Bianchini, C. P., de S. Oliveira, A. D., de Araújo, J. M., Chauris, H., Tadonki, C., and de Souza, S. X. (2024). Delia: A dependability library for iterative applications applied to parallel geophysical problems. Computers & Geosciences, 191:105662.
Silva, G. P., Bianchini, C. P., and Costa, E. B. (2022). Programação Paralela e Distribuída com MPI, OpenMP e OpenACC para computação de alto desempenho. CasaDoCodigo.
Tanenbaum, A. S. and Steen, M. V. (2007). Distributed Systems: Principles and Paradigms. Pearson - Prentice Hall, 2 edition.
Herault, T. and Robert, Y. (2015). Fault-Tolerance Techniques for High-Performance Computing. Springer Publishing Company, Incorporated, 1st edition.
Netto, M. A. S., Calheiros, R. N., Rodrigues, E. R., Cunha, R. L. F., and Buyya, R. (2018). Hpc cloud for scientific and business applications: Taxonomy, vision, and research challenges. ACM Computing Surveys, 51(1):1–29.
Santana, C., Araújo, R. C., Sardina, I. M., Ítalo A.S. Assis, Barros, T., Bianchini, C. P., de S. Oliveira, A. D., de Araújo, J. M., Chauris, H., Tadonki, C., and de Souza, S. X. (2024). Delia: A dependability library for iterative applications applied to parallel geophysical problems. Computers & Geosciences, 191:105662.
Silva, G. P., Bianchini, C. P., and Costa, E. B. (2022). Programação Paralela e Distribuída com MPI, OpenMP e OpenACC para computação de alto desempenho. CasaDoCodigo.
Tanenbaum, A. S. and Steen, M. V. (2007). Distributed Systems: Principles and Paradigms. Pearson - Prentice Hall, 2 edition.
Published
2025-05-28
How to Cite
SILVA, Cleverson P.; SANTOS, Gustavo T.; MOTA, João V. S.; BIANCHINI, Calebe P..
A Proposal for Hierarchical Monitoring Using Heartbeat in High-Performance Computing Systems. In: REGIONAL SCHOOL OF HIGH PERFORMANCE COMPUTING FROM SÃO PAULO (ERAD-SP), 16. , 2025, São José do Rio Preto/SP.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 13-16.
DOI: https://doi.org/10.5753/eradsp.2025.9581.
