Metodologia para Clusterização em Tempo Real de Fluxos de Dados Climáticos Distribuídos no Contexto de Big Data

João Gabriel Lima; Nandamudi Vijaykumar; Renato Francês; Jeremy Gault; Robert Devoy; Ádamo Santana

doi:10.5753/wperformance.2015.10407

João Gabriel Lima UFPA
Nandamudi Vijaykumar INPE
Renato Francês UFPA
Jeremy Gault University College Cork
Robert Devoy University College Cork
Ádamo Santana UFPA

DOI: https://doi.org/10.5753/wperformance.2015.10407

Resumo

Cresce cada vez mais a quantidade de cenários e aplicações que necessitam de processamento e respostas em tempo real e que se utilizam de modelos matemáticos e de mineração de dados a fim de garantir o melhor suporte à tomada de decisão. Neste trabalho, propomos uma metodologia para processamento e clusterização de grandes volumes de fluxos, contínuos e infinitos, de dados com respostas em tempo real, através do uso de redes neurais artificiais conhecidas como mapas auto-organizáveis. Os experimentos e simulações foram realizadas em um ambiente de Cloud Computing sobre um conjunto de dados climáticos. Os resultados mostram a eficiência da proposta ao garantir que o modelo neural utilizado possa gerar respostas em tempo real para o processamento de Big Data.

Referências

Tom White. Hadoop: The definitive guide. O’Reilly, 2012. 7

Justin Erickson Marcel Kornacker. Cloudera impala: Real-time queries in apache hadoop, for real. http://blog.cloudera.com/blog/2012/10/ cloudera-impala-real-time-queries-in-apache-hadoop-for-real/

Henrique C. M. Andrade, J. P. Morgan Buğra Gedik. Fundamentals of Stream Processing: Application Design, Systems, and Analytics, 2013.

Seguin K. The Little Redis Book. Disponível em https://github.com/karlseguin/the-little-redis-book. Acesso em agosto de 2014.

Redmond, E.; Wilson, J. R. Seven Databases in seven weeks - A Guide to Modern Databases and the NoSQL Movement. Ed. The Pragmatic Programmers, 2014.

Pakhira, M. K., Bandyopadhyay, S., Maulik, U. Validity index for crisp and fuzzy clusters, Pattern Recognition, June 2004.

Simon H. Redes neurais: princípios e técnicas, Porto Alegre: Bookman; 2001.

Joey R. Object-oriented neural networks in C++, London: Academic Press; 1997.

Nathan Marz. Trident tutorial - nathanmarz/storm wiki. Disponível em https://github.com/nathanmarz/storm/wiki/Trident-tutorial

Cascading — application platform for enterprise big data. Disponível em: http://www.cascading.org

Bifet, G. Holmes, R. Kirkby, and B. Pfahringer, “MOA: Massive Online Analysis,” J. Mach. Learn. Res., vol. 11, pp. 1601–1604, Aug. 2012.

M. Wojnarski, “Debellor: A Data Mining Platform with Stream Architecture,” in Transactions on Rough Sets IX, pp. 405–427, Springer, 2008.