Otimização da Redistribuição de Réplicas no HDFS com base na Carga dos Nodos

  • Rhauani Fazul UFSM
  • Patrícia Barcelos UFSM

Resumo


O HDFS Balancer é a solução nativa para o balanceamento de réplicas no sistema de arquivos distribuído do Hadoop. Entretanto, o balanceador possui limitações de uso, uma vez que depende do disparo manual e sua política de balanceamento não considera o estado de sobrecarga do ambiente computacional. Este trabalho apresenta uma estratégia que automatiza a tomada de decisão para a configuração e execução do HDFS Balancer com base no monitoramento ativo do sistema. Em complemento, implementou-se uma customização para que a ferramenta passe a operar visando um balanceamento mínimo, enquanto esforça-se em reduzir a sobrecarga nas demais aplicações no cluster ao priorizar nodos com baixa carga para a redistribuição das réplicas.

Referências

Achari, S. (2015). Hadoop Essentials. Packt Publishing Ltd, Birmingham, 1st edition.

Dharanipragada, J., Padala, S., Kammili, B., and Kumar, V. (2017). Tula: A disk latency aware balancing and block placement strategy for hadoop. In 2017 IEEE International Conference on Big Data (Big Data), pages 2853–2858. IEEE.

Foundation, A. S. (2020a). "HDFS Architecture". hadoop.apache.org/docs/r3. 3.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html. Maio.

Foundation, A. S. (2020b). "ZooKeeper". https://zookeeper.apache.org/doc/r3.6.1/zookeeperOver.html. Maio.

Haloi, S. (2015). Apache Zookeeper Essentials. Packt Publishing Ltd, 1st edition. Hortonworks (2019).

"Scaling Namespaces and Optimizing Data Storage".docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.5/data-storage/content/balancing_data_across_hdfs_cluster.html. Junho.

Junqueira, F. and Reed, B. (2013). ZooKeeper: Distributed Process Coordination. O'Reilly Media, Inc., 1st edition.

Liu, K., Xu, G., and Yuan, J. (2013). An improved hadoop data load balancing algorithm. Journal of Networks, 8(12):2816–2822.

Shah, A. and Padole, M. (2018). Load balancing through block rearrangement policy for hadoop heterogeneous cluster. In 2018 Int. Conference on Advances in Computing, Communications and Informatics (ICACCI), pages 230–236, Bangalore. IEEE.

Shvachko, K., Kuang, H., Radia, S., and Chansler, R. (2010). The hadoop distributed le system. In Symposium on Mass Storage Systems and Technologies, pages 1–10. IEEE.

Turkington, G. (2013). Hadoop Beginner's Guide. Packt Publishing Ltd, 1st edition.

White, T. (2015). Hadoop: The Denitive Guide. O'Reilly Media, Inc., 4th edition.
Publicado
21/10/2020
FAZUL, Rhauani; BARCELOS, Patrícia. Otimização da Redistribuição de Réplicas no HDFS com base na Carga dos Nodos. In: SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 21. , 2020, Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 287-298. DOI: https://doi.org/10.5753/wscad.2020.14077.