Priorização no Balanceamento de Réplicas em Instâncias Heterogêneas do HDFS baseada na Capacidade dos Nodos

  • Rhauani Fazul Universidade Federal de Santa Maria
  • Patricia Pitthan Barcelos Universidade Federal de Santa Maria

Resumo


O HDFS Balancer é o balanceador de réplicas nativo do Apache Hadoop, que opera em redistribuir os blocos de dados armazenados no sistema até que a utilização de todos os nodos do cluster fique dentro de um determinado threshold. Entretanto, a ferramenta não é otimizada para o balanceamento de instâncias do Hadoop executando em ambientes heterogêneos. Esse trabalho apresenta uma customização na polı́tica de operação padrão do HDFS Balancer que faz com que o reposicionamento das réplicas seja realizado considerando diferenças nas capacidades dos nodos. Dessa forma, nodos com alta capacidade são priorizados para o recebimento de um maior volume de dados.

Referências

Achari, S. (2015). Hadoop Essentials. Packt Publishing Ltd, Birmingham, 1st edition.

Fazul, R. W. A. and Barcelos, P. P. (2019). Polı́tica customizada de balanceamento de réplicas para o hdfs balancer do apache hadoop. In Anais do XX Workshop de Testes e Tolerância a Falhas, pages 93–106. SBC.

Fazul, R. W. A., Cardoso, P. V., and Barcelos, P. P. (2019). Análise do impacto da replicação de dados implementada pelo apache hadoop no balanceamento de carga. In Anais do X Computer on the Beach, pages 579–588, Florianópolis. Univali.

Foundation, A. S. (2018). “HDFS Architecture”. hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign. Junho.

Hortonworks (2018). “HDFS Administration”. https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.5/bk_hdfs-administration/content/ch_balancing-in-hdfs.html. Junho.

Ibrahim, I. A., Dai, W., and Bassiouni, M. (2016). Intelligent data placement mechanism for replicas distribution in cloud storage systems. In IEEE International Conference on Smart Cloud (SmartCloud), pages 134–139, New York. IEEE.

Liu, K., Xu, G., and Yuan, J. (2013). An improved hadoop data load balancing algorithm. Journal of Networks, 8(12):2816–2822.

Shah, A. and Padole, M. (2018). Load balancing through block rearrangement policy for hadoop heterogeneous cluster. In 2018 Int. Conference on Advances in Computing, Communications and Informatics (ICACCI), pages 230–236, Bangalore. IEEE.

Shvachko, K., Kuang, H., Radia, S., and Chansler, R. (2010). The hadoop distributed file system. In Symposium on Mass Storage Systems and Technologies, pages 1–10. IEEE.

White, T. (2015). Hadoop: The Definitive Guide. O’Reilly Media, Inc., 4 edition.
Publicado
08/11/2019
FAZUL, Rhauani; BARCELOS, Patricia Pitthan. Priorização no Balanceamento de Réplicas em Instâncias Heterogêneas do HDFS baseada na Capacidade dos Nodos. In: SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 20. , 2019, Campo Grande. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 264-275. DOI: https://doi.org/10.5753/wscad.2019.8674.