Uma Abordagem Baseada em Feedback Control Loops para Otimização de Desempenho no Hadoop
Resumo
O modelo para computação distribuída MapReduce tornou-se popular no processamento distribuído de grandes conjuntos de dados. Apesar do Hadoop constituir uma plataforma completa para execução de jobs MapReduce, uma configuração mais elaborada dos seus diversos parâmetros pode trazer melhorias de desempenho. Este artigo apresenta uma extensão dos serviços básicos do Hadoop com o objetivo de suportar a execução facilitada de estratégias para feedback control. O objetivo é adicionar recursos de autogerenciamento para continuamente otimizar os parâmetros que impactam o desempenho. O artigo apresenta a arquitetura da solução proposta, um exemplo de uso de controladores PID e os resultados de experimentos preliminares.
Referências
[Herodotou et al. 2011] Herodotou, H., Lim, H., Luo, G., Borisov, N., Dong, L., Cetin, F. B., and Babu, S. (2011). Starfish: A self-tuning system for big data analytics. In CIDR, pages 261–272.
[Lin et al. 2013] Lin, M., Wierman, A., Andrew, L. L., and Thereska, E. (2013). Dynamic right-sizing for power-proportional data centers. Networking, IEEE/ACM Transactions on, 21(5):1378–1391.
[Salehie and Tahvildari 2009] Salehie, M. and Tahvildari, L. (2009). Self-adaptive software: Landscape and research challenges. ACM Transactions on Autonomous and Adaptive Systems, 4(2):14:1–14:42.
[White 2012] White, T. (2012). Hadoop: The Definitive Guide. O’Reilly Media, 3rd edition.