Metodologia para Clusterização em Tempo Real de Fluxos de Dados Climáticos Distribuídos no Contexto de Big Data

  • João Gabriel Lima UFPA
  • Nandamudi Vijaykumar INPE
  • Renato Francês UFPA
  • Jeremy Gault University College Cork
  • Robert Devoy University College Cork
  • Ádamo Santana UFPA

Resumo


Cresce cada vez mais a quantidade de cenários e aplicações que necessitam de processamento e respostas em tempo real e que se utilizam de modelos matemáticos e de mineração de dados a fim de garantir o melhor suporte à tomada de decisão. Neste trabalho, propomos uma metodologia para processamento e clusterização de grandes volumes de fluxos, contínuos e infinitos, de dados com respostas em tempo real, através do uso de redes neurais artificiais conhecidas como mapas auto-organizáveis. Os experimentos e simulações foram realizadas em um ambiente de Cloud Computing sobre um conjunto de dados climáticos. Os resultados mostram a eficiência da proposta ao garantir que o modelo neural utilizado possa gerar respostas em tempo real para o processamento de Big Data.

Referências

Tom White. Hadoop: The definitive guide. O’Reilly, 2012. 7

Justin Erickson Marcel Kornacker. Cloudera impala: Real-time queries in apache hadoop, for real. http://blog.cloudera.com/blog/2012/10/ cloudera-impala-real-time-queries-in-apache-hadoop-for-real/

Henrique C. M. Andrade, J. P. Morgan Buğra Gedik. Fundamentals of Stream Processing: Application Design, Systems, and Analytics, 2013.

Seguin K. The Little Redis Book. Disponível em https://github.com/karlseguin/the-little-redis-book. Acesso em agosto de 2014.

Redmond, E.; Wilson, J. R. Seven Databases in seven weeks - A Guide to Modern Databases and the NoSQL Movement. Ed. The Pragmatic Programmers, 2014.

Pakhira, M. K., Bandyopadhyay, S., Maulik, U. Validity index for crisp and fuzzy clusters, Pattern Recognition, June 2004.

Simon H. Redes neurais: princípios e técnicas, Porto Alegre: Bookman; 2001.

Joey R. Object-oriented neural networks in C++, London: Academic Press; 1997.

Nathan Marz. Trident tutorial - nathanmarz/storm wiki. Disponível em https://github.com/nathanmarz/storm/wiki/Trident-tutorial

Cascading — application platform for enterprise big data. Disponível em: http://www.cascading.org

Bifet, G. Holmes, R. Kirkby, and B. Pfahringer, “MOA: Massive Online Analysis,” J. Mach. Learn. Res., vol. 11, pp. 1601–1604, Aug. 2012.

M. Wojnarski, “Debellor: A Data Mining Platform with Stream Architecture,” in Transactions on Rough Sets IX, pp. 405–427, Springer, 2008.
Publicado
20/07/2015
LIMA, João Gabriel; VIJAYKUMAR, Nandamudi; FRANCÊS, Renato; GAULT, Jeremy; DEVOY, Robert; SANTANA, Ádamo. Metodologia para Clusterização em Tempo Real de Fluxos de Dados Climáticos Distribuídos no Contexto de Big Data. In: WORKSHOP EM DESEMPENHO DE SISTEMAS COMPUTACIONAIS E DE COMUNICAÇÃO (WPERFORMANCE), 14. , 2015, Recife. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2015 . p. 172-176. ISSN 2595-6167. DOI: https://doi.org/10.5753/wperformance.2015.10407.