Priorização no Balanceamento de Réplicas em Instâncias Heterogêneas do HDFS baseada na Capacidade dos Nodos
Resumo
O HDFS Balancer é o balanceador de réplicas nativo do Apache Hadoop, que opera em redistribuir os blocos de dados armazenados no sistema até que a utilização de todos os nodos do cluster fique dentro de um determinado threshold. Entretanto, a ferramenta não é otimizada para o balanceamento de instâncias do Hadoop executando em ambientes heterogêneos. Esse trabalho apresenta uma customização na polı́tica de operação padrão do HDFS Balancer que faz com que o reposicionamento das réplicas seja realizado considerando diferenças nas capacidades dos nodos. Dessa forma, nodos com alta capacidade são priorizados para o recebimento de um maior volume de dados.
Referências
Fazul, R. W. A. and Barcelos, P. P. (2019). Polı́tica customizada de balanceamento de réplicas para o hdfs balancer do apache hadoop. In Anais do XX Workshop de Testes e Tolerância a Falhas, pages 93–106. SBC.
Fazul, R. W. A., Cardoso, P. V., and Barcelos, P. P. (2019). Análise do impacto da replicação de dados implementada pelo apache hadoop no balanceamento de carga. In Anais do X Computer on the Beach, pages 579–588, Florianópolis. Univali.
Foundation, A. S. (2018). “HDFS Architecture”. hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign. Junho.
Hortonworks (2018). “HDFS Administration”. https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.5/bk_hdfs-administration/content/ch_balancing-in-hdfs.html. Junho.
Ibrahim, I. A., Dai, W., and Bassiouni, M. (2016). Intelligent data placement mechanism for replicas distribution in cloud storage systems. In IEEE International Conference on Smart Cloud (SmartCloud), pages 134–139, New York. IEEE.
Liu, K., Xu, G., and Yuan, J. (2013). An improved hadoop data load balancing algorithm. Journal of Networks, 8(12):2816–2822.
Shah, A. and Padole, M. (2018). Load balancing through block rearrangement policy for hadoop heterogeneous cluster. In 2018 Int. Conference on Advances in Computing, Communications and Informatics (ICACCI), pages 230–236, Bangalore. IEEE.
Shvachko, K., Kuang, H., Radia, S., and Chansler, R. (2010). The hadoop distributed file system. In Symposium on Mass Storage Systems and Technologies, pages 1–10. IEEE.
White, T. (2015). Hadoop: The Definitive Guide. O’Reilly Media, Inc., 4 edition.