O Balanceamento de Réplicas em um Cluster HDFS com base na Confiabilidade dos Racks
Resumo
A replicação de dados é um dos principais mecanismos de tolerância a falhas utilizados pelo HDFS. Porém, a forma de posicionamento das réplicas entre os nodos computacionais afeta diretamente o balanceamento e o desempenho do sistema. O HDFS Balancer é uma solução disponibilizada pelo Apache Hadoop que visa equilibrar a distribuição dos dados. Todavia, sua política de operação atual não permite endereçar demandas de disponibilidade e confiabilidade ao redistribuir as réplicas entre os racks do cluster. Esse trabalho apresenta uma estratégia de balanceamento customizada para o HDFS Balancer baseada em fatores de confiança, que são calculados para cada rack a partir da taxa de falhas de seus nodos. Após detalhar a implementação, conduziu-se uma investigação experimental que permitiu validar e demonstrar a efetividade da estratégia desenvolvida.
Referências
T. White, Hadoop: The Definitive Guide, 4th ed. Sebastopol: O’Reilly Media, Inc., 2015.
R. W. A. Fazul and P. P. Barcelos, “Efetividade da política de posicionamento de blocos no balanceamento de réplicas do hdfs,” in Anais do XX Workshop de Testes e Tolerância a Falhas. SBC, 2019, pp. 79–92.
K. Shvachko, H. Kuang, S. Radia, and R. Chansler, “The hadoop distributed file system,” in Symposium on Mass Storage Systems and Technologies. Incline Village: IEEE, 2010, pp. 1–10.
Z. Guo, G. Fox, and M. Zhou, “Investigation of data locality in mapreduce,” in Proceedings of the 2012 12th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (ccgrid 2012). Ottawa: IEEE Computer Society, 2012, pp. 419–426.
R. W. A. Fazul, P. V. Cardoso, and P. P. Barcelos, “Análise do impacto da replicação de dados implementada pelo apache hadoop no balanceamento de carga,” in Anais do X Computer on the Beach. Florianópolis: Universidade do Vale do Itajaí, 2019, pp. 579–588.
C. B. VishnuVardhan and P. K. Baruah, “Improving the performance of heterogeneous hadoop cluster,” in Fourth International Conference on Parallel, Distributed and Grid Computing. IEEE, 2016, pp. 225–230.
J. Dharanipragada, S. Padala, B. Kammili, and V. Kumar, “Tula: A disk latency aware balancing and block placement strategy for hadoop,” in International Conference on Big Data. IEEE, 2017, pp. 2853–2858.
K. Liu, G. Xu, and J. Yuan, “An improved hadoop data load balancing algorithm,” Journal of Networks, vol. 8, no. 12, pp. 2816–2822, 2013.
A. Shah and M. Padole, “Load balancing through block rearrangement policy for hadoop heterogeneous cluster,” in 2018 International Conference on Advances in Computing, Communications and Informatics (ICACCI). Bangalore: IEEE, 2018, pp. 230–236.
Hortonworks Data Plataform. (2018) Scaling namespaces and optimizing data storage. [Online]. Available: https://docs.hortonworks.com/HDPDocuments/HDP3/HDP-3.1.0/data-storage/content/balancingdataacrosshdfscluster.html. [Acesso: 2 de Junho, 2019].
R. W. A. Fazul and P. P. Barcelos, “Política customizada de balanceamento de réplicas para o hdfs balancer do apache hadoop,” in Anais do XX Workshop de Testes e Tolerância a Falhas. SBC, 2019, pp. 93–106.
R. W. A. Fazul. (2019) Implementação de uma política customizada de balanceamento de réplicas para o hdfs balancer do apache hadoop. [Online]. Disponível em: https://repositorio.ufsm.br/. Universidade Federal de Santa Maria, Centro de Tecnologia. (no prelo).