Análise de uma estratégia para alta disponibilidade de clusters CEPH

  • Gustavo V. Mitraud UPM
  • Calebe P. Bianchini UPM / CESAR

Resumo


Ambientes de Computação de Alto Desempenho (CAD) demandam sistemas de armazenamento com disponibilidade ininterrupta e alta resiliência a falhas. Embora sistemas distribuídos apresentem recursos de redundância, a aplicação prática e a validação experimental de replicações em múltiplos locais geográficos ou lógicos (multisite) para recuperação de desastres ainda representam uma lacuna na literatura. Para endereçar esse cenário, este trabalho propõe a implementação e validação experimental de uma estratégia de alta disponibilidade baseada na replicação multisite de clusters CEPH por meio de seu portal de acesso aos dados, denominada RAGOS Gateway Multi-Site Replication. A pesquisa adota abordagem mista, exploratória e aplicada, combinando métodos qualitativos e quantitativos em um estudo de caso com três nós Ubuntu Server 24.04 LTS executando instâncias CEPH completas. Estes foram organizados em zonas primária, secundária e terciária sob um balanceador de carga com verificações proativas de integridade (health checks ativos). Testes preliminares foram conduzidos por 24 horas com operações de leitura e escrita contínuas, além de desligamentos aleatórios de nós, produzindo disponibilidade de 99,9985%, Tempo Médio de Recuperação (MTTR) de 2,33 segundos e Tempo Médio Entre Falhas (MTBF) de 4,80 horas. Os resultados validam a eficácia da arquitetura proposta para ambientes CAD que demandam tolerância a falhas em armazenamento de objetos.

Referências

Bocchi, Enrico, Lekshmanan, Abhishek, Valverde, Roberto, and Goggin, Zachary (2024). Enabling storage business continuity and disaster recovery with ceph distributed storage. EPJ Web of Conf., 295:01021.

Sengupta, S. and Annervaz, K. (2014). Multi-site data distribution for disaster recovery—a planning framework. Future Generation Computer Systems, 41:53–64.

Tamimi, A. A., Dawood, R., and Sadaqa, L. (2019). Disaster recovery techniques in cloud computing. In 2019 IEEE Jordan International Joint Conference on Electrical Engineering and Information Technology (JEEIT), pages 845–850.

Uehara, K., Chen, Y.-F. R., Hiltunen, M., Joshi, K., and Schlichting, R. (2018). Feasibility study of location-conscious multi-site erasure-coded ceph storage for disaster recovery. In 2018 IEEE International Conference on Cloud Engineering (IC2E), pages 204–210.

Weil, S. A., Brandt, S. A., Miller, E. L., Long, D. D. E., and Maltzahn, C. (2006). Ceph: a scalable, high-performance distributed file system. In Proceedings of the 7th Symposium on Operating Systems Design and Implementation, OSDI ’06, page 307–320, USA. USENIX Association.

Weil, S. A., Leung, A. W., Brandt, S. A., and Maltzahn, C. (2007). Rados: a scalable, reliable storage service for petabyte-scale storage clusters. In Proceedings of the 2nd International Workshop on Petascale Data Storage: Held in Conjunction with Supercomputing ’07, PDSW ’07, page 35–44, New York, NY, USA. Association for Computing Machinery.
Publicado
08/07/2026
MITRAUD, Gustavo V.; BIANCHINI, Calebe P.. Análise de uma estratégia para alta disponibilidade de clusters CEPH. In: ESCOLA REGIONAL DE ALTO DESEMPENHO DA REGIÃO NORDESTE (ERAD-NE), 7. , 2026, Recife/PE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2026 . p. 5-8. DOI: https://doi.org/10.5753/erad-ne.2026.25257.