A Confiabilidade dos Racks e a Disponibilidade dos Dados como Métricas para o Balanceamento de Réplicas de um Cluster HDFS
Resumo
A replicação, embora vital para o bom funcionamento do HDFS, favorece o desbalanceamento do cluster. O HDFS Balancer é uma solução integrada ao Apache Hadoop voltada ao balanceamento de réplicas. O balanceador, entretanto, não é otimizado para atender possíveis demandas de tolerância a falhas e disponibilidade dos dados ao realizar a redistribuição das réplicas. Este trabalho apresenta uma customização para o HDFS Balancer que considera a propensão a falhas dos racks do sistema para definir quais nodos devem receber uma maior ou menor quantidade de dados. Em conjunto, utilizou-se uma prioridade que esforça-se em aumentar a disponibilidade geral dos dados armazenados no HDFS durante o reposicionamento das réplicas no cluster.
Referências
Dharanipragada, J., Padala, S., Kammili, B., and Kumar, V. (2017). Tula: A disk latency aware balancing and block placement strategy for hadoop. In International Conference on Big Data, pages 2853–2858. IEEE.
Fazul, R. W. A., Cardoso, P. V., and Barcelos, P. P. (2019a). Improving data availability in hdfs through replica balancing. In 2019 9th Latin-American Symposium on Dependable Computing (LADC), pages 1–6. IEEE.
Fazul, R. W. A., Cardoso, P. V., and Barcelos, P. P. (2019b). O balanceamento de réplicas em um cluster hdfs com base na confiabilidade dos racks. In Anais do Simpósio Brasileiro de Engenharia de Sistemas Computacionais (SBESC 2019), pages 31–38. SBC.
Foundation, A. S. (2019). “HDFS Architecture”. hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign. Novembro.
Hortonworks (2019). “Balancing data across an HDFS cluster”. https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.4/data-storage/content/balancing_data_across_hdfs_cluster.html. Dezembro.
Ibrahim, I. A., Dai, W., and Bassiouni, M. (2016). Intelligent data placement mechanism for replicas distribution in cloud storage systems. In IEEE International Conference on Smart Cloud (SmartCloud), pages 134–139, New York. IEEE.
Liu, K., Xu, G., and Yuan, J. (2013). An improved hadoop data load balancing algorithm. Journal of Networks, 8(12):2816–2822.
Shah, A. and Padole, M. (2018). Load balancing through block rearrangement policy for hadoop heterogeneous cluster. In 2018 Int. Conference on Advances in Computing, Communications and Informatics (ICACCI), pages 230–236, Bangalore. IEEE.
Shvachko, K., Kuang, H., Radia, S., and Chansler, R. (2010). The hadoop distributed file system. In Symposium on Mass Storage Systems and Technologies, pages 1–10. IEEE.
Turkington, G. (2013). Hadoop Beginner’s Guide. Packt Publishing Ltd, 1 edition.
White, T. (2015). Hadoop: The Definitive Guide. O’Reilly Media, Inc., 4 edition.