O Apache ZooKeeper como Estratégia de Monitoramento Ativo para manter o Balanceamento de Réplicas no HDFS
Resumo
O Apache ZooKeeper é um serviço escalável e altamente confiável para coordenação em ambientes distribuídos. Seguindo um modelo de namespace compartilhado baseado em uma árvore de znodes, o ZooKeeper apresenta-se como uma solução eficiente para o gerenciamento ativo de informações de configuração. Nesse trabalho, analisamos uma possibilidade de uso do ZooKeeper e seus znodes como uma estratégia para à manutenção do balanceamento na distribuição de dados no HDFS: um sistema de arquivos que opera com base na replicação. Através do monitoramento em tempo real do cluster, removeu-se a necessidade de execução manual do balanceador nativo do HDFS, automatizando assim a tomada de decisão no processo de balanceamento de réplicas.
Referências
Foundation, A. S. (2019). “HDFS Architecture”. hadoop.apache.org/docs/r2. 9.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign. Novembro.
Foundation, A. S. (2020). “ZooKeeper: A Distributed Coordination Service for Dis-tributed Applications”. https://zookeeper.apache.org/doc/r3.6.0/|'zookeeperOver.htmlfch DesignOverview, Janeiro.
Guo, Z., Fox, G., and Zhou, M. (2012). Investigation of data locality in mapreduce. In Proceedings of the 2012 12th IEEE/ACM International Symposium on Cluster, Cloudand Grid Computing (ccgrid 2012), pages 419-426, Ottawa. IEEE Computer Society.
Haloi, S. (2015). Apache Zookeeper Essentials. Packt Publishing Ltd, Ist edition.
Hortonworks (2019). “Balancing data across an HDFS cluster”. https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.4/data-storage/content/balancing_data_across_hdfs_cluster.html. Dezembro.
Ibrahim, I. A., Dai, W., and Bassiouni, M. (2016). Intelligent data placement mechanismfor replicas distribution in cloud storage systems. In IEEE International Conferenceon Smart Cloud (SmartCloud), pages 134-139, New York. IEEE.
Junqueira, F. and Reed, B. (2013). ZooKeeper: Distributed Process Coordination.O'Reilly Media, Inc., Ist edition.
Shvachko, K., Kuang, H., Radia, S., and Chansler, R. (2010). The hadoop distributed filesystem. In Symposium on Mass Storage Systems and Technologies, pages 1-10. IEEE.
Srinivasa, K. and Muppalla, A. K. (2016). Guide to High Performance Distributed Com-puting. Springer, Swindon, Ist edition.
Turkington, G. (2013). Hadoop Beginner's Guide. Packt Publishing Ltd, Ist edition.
White, T. (2015). Hadoop: The Definitive Guide. O"Reilly Media, Inc., 4th edition.