O Apache ZooKeeper como Estratégia de Monitoramento Ativo para manter o Balanceamento de Réplicas no HDFS

Resumo


O Apache ZooKeeper é um serviço escalável e altamente confiável para coordenação em ambientes distribuídos. Seguindo um modelo de namespace compartilhado baseado em uma árvore de znodes, o ZooKeeper apresenta-se como uma solução eficiente para o gerenciamento ativo de informações de configuração. Nesse trabalho, analisamos uma possibilidade de uso do ZooKeeper e seus znodes como uma estratégia para à manutenção do balanceamento na distribuição de dados no HDFS: um sistema de arquivos que opera com base na replicação. Através do monitoramento em tempo real do cluster, removeu-se a necessidade de execução manual do balanceador nativo do HDFS, automatizando assim a tomada de decisão no processo de balanceamento de réplicas.

Palavras-chave: sistemas distribuídos, tolerância a falhas, replicação de dados, balanceamento de réplicas, apache zookeeper

Referências

Achari, S. (2015). Hadoop Essentials. Packt Publishing Ltd, Birmingham, Ist edition.

Foundation, A. S. (2019). “HDFS Architecture”. hadoop.apache.org/docs/r2. 9.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign. Novembro.

Foundation, A. S. (2020). “ZooKeeper: A Distributed Coordination Service for Dis-tributed Applications”. https://zookeeper.apache.org/doc/r3.6.0/|'zookeeperOver.htmlfch DesignOverview, Janeiro.

Guo, Z., Fox, G., and Zhou, M. (2012). Investigation of data locality in mapreduce. In Proceedings of the 2012 12th IEEE/ACM International Symposium on Cluster, Cloudand Grid Computing (ccgrid 2012), pages 419-426, Ottawa. IEEE Computer Society.

Haloi, S. (2015). Apache Zookeeper Essentials. Packt Publishing Ltd, Ist edition.

Hortonworks (2019). “Balancing data across an HDFS cluster”. https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.4/data-storage/content/balancing_data_across_hdfs_cluster.html. Dezembro.

Ibrahim, I. A., Dai, W., and Bassiouni, M. (2016). Intelligent data placement mechanismfor replicas distribution in cloud storage systems. In IEEE International Conferenceon Smart Cloud (SmartCloud), pages 134-139, New York. IEEE.

Junqueira, F. and Reed, B. (2013). ZooKeeper: Distributed Process Coordination.O'Reilly Media, Inc., Ist edition.

Shvachko, K., Kuang, H., Radia, S., and Chansler, R. (2010). The hadoop distributed filesystem. In Symposium on Mass Storage Systems and Technologies, pages 1-10. IEEE.

Srinivasa, K. and Muppalla, A. K. (2016). Guide to High Performance Distributed Com-puting. Springer, Swindon, Ist edition.

Turkington, G. (2013). Hadoop Beginner's Guide. Packt Publishing Ltd, Ist edition.

White, T. (2015). Hadoop: The Definitive Guide. O"Reilly Media, Inc., 4th edition.
Publicado
07/12/2020
FAZUL, Rhauani Weber Aita; BARCELOS, Patrícia Pitthan. O Apache ZooKeeper como Estratégia de Monitoramento Ativo para manter o Balanceamento de Réplicas no HDFS. In: WORKSHOP DE TESTES E TOLERÂNCIA A FALHAS (WTF), 21. , 2020, Rio de Janeiro. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 1-14. ISSN 2595-2684. DOI: https://doi.org/10.5753/wtf.2020.12483.