O Balanceamento de Réplicas no HDFS frente a aplicações com uso intensivo de E/S, dados e CPU

Rhauani Weber Aita Fazul; Patrícia Pitthan Barcelos

doi:10.5753/sbesc_estendido.2021.18499

Rhauani Weber Aita Fazul UFSM
Patrícia Pitthan Barcelos UFSM

DOI: https://doi.org/10.5753/sbesc_estendido.2021.18499

Resumo

A replicação de dados é essencial para o sistema de arquivos distribuído do Apache Hadoop (HDFS). Para garantir alta confiabilidade, disponibilidade e desempenho, as réplicas precisam estar armazenadas de forma otimizada pelos nodos do cluster. Entretanto, quando os nodos armazenam quantidades desproporcionais de dados, o funcionamento do sistema é afetado. Visando mitigar os problemas inerentes do desbalanceamento de réplicas, o HDFS Balancer é a solução oficial disponibilizada para a redistribuição dos dados já armazenados no cluster. Neste trabalho, nós avaliamos a efetividade do HDFS Balancer e como o sistema de arquivos explora a localidade dos dados em diferentes situações. Para uma análise aprofundada, aplicações com comportamentos distintos foram consideradas. Os resultados demonstram que o balanceamento de réplicas possibilita otimizações de desempenho significativas no HDFS.

Palavras-chave: replicação de dados, balanceamento de réplicas, localidade de dados, sistemas de arquivos distribuídos

Referências

Apache Software Foundation. (2021) Apache hadoop. [Online]. Available: https://hadoop.apache.org/docs/r3.3.1/. [Acesso: Maio, 2021].

T. White, Hadoop: The Definitive Guide, 4th ed. Sebastopol: O’Reilly Media, Inc., 2015.

G. Turkington, Hadoop Beginner’s Guide, 1st ed. Birmingham: Packt Publishing Ltd, 2013.

K. Shvachko, H. Kuang, S. Radia, and R. Chansler, “The hadoop distributed file system,” in Symposium on Mass Storage Systems and Technologies. IEEE, 2010, pp. 1–10.

R. W. A. Fazul and P. P. Barcelos, “Automation and prioritization of replica balancing in hdfs,” in Proceedings of the 36th Annual ACM Symposium on Applied Computing, 2021, pp. 35–38.

S. Achari, Hadoop Essentials, 1st ed. Packt Publishing Ltd, 2015.

H. E. Ciritoglu et al., “Investigation of replication factor for performance enhancement in the hadoop distributed file system,” in Companion of the 2018 ACM/SPEC International Conference on Performance Engineering, 2018, pp. 135–140.

E. S. Abead, M. H. Khafagy, and F. A. Omara, “A comparative study of hdfs replication approaches,” International Journal in IT and Engineering (IJITE), vol. 3, pp. 5–11, 2015.

K. Liu, G. Xu, and J. Yuan, “An improved hadoop data load balancing algorithm,” Journal of Networks, vol. 8, no. 12, pp. 2816–2822, 2013.

A. Shah and M. Padole, “Load balancing through block rearrangement policy for hadoop heterogeneous cluster,” in 2018 Int. Conference on Advances in Computing, Communications and Informatics (ICACCI). Bangalore: IEEE, 2018, pp. 230–236.