Comparação de Desempenho entre Ambientes Distribuídos Virtualizados na Mineração de Dados

  • Joelson dos Santos USP
  • Murilo Naldi UFV

Resumo


Atualmente, grandes quantidades de dados são um desafio e causam a necessidade de distribuição e gerenciamento de grandes conjuntos de dados em repositórios separados. Novos sistemas distribuídos foram desenvolvidos para escalonar de um único servidor para centenas de máquinas. Sistemas como o Apache Hadoop e Apache Mahout são flexíveis e confiáveis, possibilitando o suporte à técnicas de Mineração de Dados. Aliada à esses sistemas, a Virtualização é um mecanismo importante para o desenvolvimento de sistemas estáveis e econˆomicos para que sejam passíveis de analise de grandes quantidades de dados. Atualmente, existem diversos softwares de Virtualização consolidados no mercado como VMware, Virtualbox e Xen, dentre outros. Entretanto, é preciso escolher qual software de Virtualização atende com maior eficiência as necessidades de cenários de aplicações reais ou simuladas. Técnicas de avaliação de desempenho são importantes para avaliar de forma mais precisa as vantagens e desvantagens de cada software de Virtualização. O principal objetivo deste trabalho consiste em desenvolver ambientes virtuais e distribuídos sobre os virtualizadores Virtualbox, VMware Player e Xen que sejam capazes de suportar as plataformas Apache Hadoop e Apache Mahout. O desempenho de cada ambiente desenvolvido é comparado por meio de técnicas de avaliação de desempenho computacional, a fim de buscar vantagens na utilização da Virtualização em tarefas de Mineração de Dados.

Palavras-chave: Big Data, Virtualização, Mineração de Dados, Apache Hadoop, Apache Mahout.

Referências

Barham, P., Dragovic, B., Fraser, K., Hand, S., Harris, T., Ho, A., Neugebauer, R., Pratt, I., andWarfield, A. (2003). Xen and the art of virtualization. SIGOPS Oper. Syst. Rev., 37(5):164–177.

Dearo Garcia, K. and Coelho Naldi, M. (2014). Multiple parallel mapreduce k-means clustering with validation and selection. In Intelligent Systems (BRACIS), 2014 Brazilian Conference on, pages 432–437.

Faceli, K., Gama, J., Carvalho, A. C. P. L. d., and Lorena, A. C. (2011). Inteligência Artificial, Uma Abordagem de Aprendizado de Máquina. GEN.

Galdámez, E. V. C. (2002). Aplicação das Técnicas de Planejamento e Análise de Experimentos na Melhoria da Qualidade de um Processo de Fabricação de Produtos Plásticos. Dissertação de Mestrado.

Ivanov, T., Zicari, R. V., Izberovic, S., and Tolle, K. (2014). Performance evaluation of virtualized hadoop clusters. CoRR, abs/1411.3811.

Jain, R. (1991). The art of computer system performance analysis: techniques for experimental design, measurement, simulation and modeling. New York: John Willey.

Johnson, T. (2011). Avaliação de Desempenho de Sistemas Computacionais. Gen. Lam, C. (2011). Hadoop in Action. Manning.

Larose, D. T. (2006). Data mining methods & models. John Wiley & Sons. Laureano, M. (2006). Máquinas Virtuais e Emuladores, Conceitos, Técnicas e Aplicações. Novatec.

Melnykov, V., Chen, W.-C., and Maitra, R. (2012). Mixsim: An r package for simulating data to study performance of clustering algorithms. Journal of Statistical Software, 51(12):131–158.

OWEN, S., Anil, R., Dunning, T., and Friedman, E. (2012). Mahout in Action. Manning Publications (October 17, 2011).

Portnoy, M. (2012). Virtualization Essentials. Wiley / Sybex.

Rabkin, A. and Katz, R. (2013). How hadoop clusters break. Software, IEEE, 30(4):88– 94.

Romero, A. V. (2010). Virtualbox 3.1 - Deploy and Manage a cost-effective virtual environment using Virtualbox - Beginner’s Guide. PACKT.

Schroeck, M., Shockley, R., Smart, J., Romero-Morales, D., and Tufano, P. (2012). Analytics : The real-world use of big data - How innovative enterprises extract value from uncertain data. Technical report, IBM Global Services, Route 100 Somers, NY 10589 U.S.A.

Sosinsky, B. (2010). Defining Cloud Computing, pages 1–22. Wiley Publishing, Inc. TAN, P.-N., STEINBACH, M., and KUMAR, V. (2009). Introdução ao Data Mining, Mineração de Dados. CI êNCIA MODERNA.

VERAS, M. (2011). Virtualização, Componente Central do Datacenter. Brasport.

VMware (2013a). Getting started with vmware player - vmware player 6. http:// www.vmware.com/pdf/desktop/vmware_player60.pdf. Acessado em 02/05/2014.

VMware (2013b). Virtualized hadoop performance with vmware vsphere R 5.1 - performance study - technical white paper. http://www.vmware.com/files/pdf/vmware-virtualizing-apache-hadoop.pdf. Acessado em 28/11/2014.

White, T. (2012). Hadoop The Definitive Guide. O’REILLY, 3° edition.
Publicado
20/07/2015
DOS SANTOS, Joelson; NALDI, Murilo. Comparação de Desempenho entre Ambientes Distribuídos Virtualizados na Mineração de Dados. In: WORKSHOP EM DESEMPENHO DE SISTEMAS COMPUTACIONAIS E DE COMUNICAÇÃO (WPERFORMANCE), 14. , 2015, Recife. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2015 . p. 1-14. ISSN 2595-6167. DOI: https://doi.org/10.5753/wperformance.2015.10393.