A Confiabilidade dos Racks e a Disponibilidade dos Dados como Métricas para o Balanceamento de Réplicas de um Cluster HDFS

Resumo


A replicação, embora vital para o bom funcionamento do HDFS, favorece o desbalanceamento do cluster. O HDFS Balancer é uma solução integrada ao Apache Hadoop voltada ao balanceamento de réplicas. O balanceador, entretanto, não é otimizado para atender possíveis demandas de tolerância a falhas e disponibilidade dos dados ao realizar a redistribuição das réplicas. Este trabalho apresenta uma customização para o HDFS Balancer que considera a propensão a falhas dos racks do sistema para definir quais nodos devem receber uma maior ou menor quantidade de dados. Em conjunto, utilizou-se uma prioridade que esforça-se em aumentar a disponibilidade geral dos dados armazenados no HDFS durante o reposicionamento das réplicas no cluster.

Palavras-chave: big data, balanceamento de réplicas, tolerância a falhas e resiliência, confiabilidade, disponibilidade

Referências

Achari, S. (2015). Hadoop Essentials. Packt Publishing Ltd, Birmingham, 1st edition.

Dharanipragada, J., Padala, S., Kammili, B., and Kumar, V. (2017). Tula: A disk latency aware balancing and block placement strategy for hadoop. In International Conference on Big Data, pages 2853–2858. IEEE.

Fazul, R. W. A., Cardoso, P. V., and Barcelos, P. P. (2019a). Improving data availability in hdfs through replica balancing. In 2019 9th Latin-American Symposium on Dependable Computing (LADC), pages 1–6. IEEE.

Fazul, R. W. A., Cardoso, P. V., and Barcelos, P. P. (2019b). O balanceamento de réplicas em um cluster hdfs com base na confiabilidade dos racks. In Anais do Simpósio Brasileiro de Engenharia de Sistemas Computacionais (SBESC 2019), pages 31–38. SBC.

Foundation, A. S. (2019). “HDFS Architecture”. hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign. Novembro.

Hortonworks (2019). “Balancing data across an HDFS cluster”. https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.4/data-storage/content/balancing_data_across_hdfs_cluster.html. Dezembro.

Ibrahim, I. A., Dai, W., and Bassiouni, M. (2016). Intelligent data placement mechanism for replicas distribution in cloud storage systems. In IEEE International Conference on Smart Cloud (SmartCloud), pages 134–139, New York. IEEE.

Liu, K., Xu, G., and Yuan, J. (2013). An improved hadoop data load balancing algorithm. Journal of Networks, 8(12):2816–2822.

Shah, A. and Padole, M. (2018). Load balancing through block rearrangement policy for hadoop heterogeneous cluster. In 2018 Int. Conference on Advances in Computing, Communications and Informatics (ICACCI), pages 230–236, Bangalore. IEEE.

Shvachko, K., Kuang, H., Radia, S., and Chansler, R. (2010). The hadoop distributed file system. In Symposium on Mass Storage Systems and Technologies, pages 1–10. IEEE.

Turkington, G. (2013). Hadoop Beginner’s Guide. Packt Publishing Ltd, 1 edition.

White, T. (2015). Hadoop: The Definitive Guide. O’Reilly Media, Inc., 4 edition.
Publicado
07/12/2020
Como Citar

Selecione um Formato
FAZUL, Rhauani Weber Aita; BARCELOS, Patrícia Pitthan. A Confiabilidade dos Racks e a Disponibilidade dos Dados como Métricas para o Balanceamento de Réplicas de um Cluster HDFS. In: SIMPÓSIO BRASILEIRO DE REDES DE COMPUTADORES E SISTEMAS DISTRIBUÍDOS (SBRC), 38. , 2020, Rio de Janeiro. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 1-14. ISSN 2177-9384. DOI: https://doi.org/10.5753/sbrc.2020.12269.