Sistema de Computação Paralela e Distribuída Utilizando Raspberry Pi e Apache Hadoop
Resumo
No contexto de Big Data, o grande fluxo e a complexidade dos dados gerados exigem elevado custo computacional para tarefas de processamento e extração de informação, sendo um desafio concluir tais execuções em tempo hábil para tomadas de decisões técnicas ou empresariais. No entanto, em clusters computacionais, pode-se gerenciar e distribuir pacotes de dados entre diferentes unidades de processamento, tornando-se possível e viável trabalhar com um grande volume de dados, processando-os de forma paralela e distribuída. Portanto, o presente trabalho se dispõe a construir a infraestrutura de um cluster e estudar seu funcionamento utilizando, para isso, a ferramenta Apache Hadoop para o processamento distribuído de dados.
Referências
Apache Hadoop. (2018) “Homepage”. http://hadoop.apache.org, Novembro.
Big Data Business. (2018) “A importância de Big Data para a Indústria 4.0”, http://www.bigdatabusiness.com.br/big-data-na-industria-4-0/, Novembro.
Goldman, Alfredo & Kon, Fabio & Pereira Junior, Francisco & Polato, Ivanilton & De, Rosangela & Pereira, Fátima. (2018) “Capítulo 3 Apache Hadoop: conceitos teóricos e práticos, evolução e novas possibilidades”.
Manyika, J.; Chui, M.; Brown, B.; Bughin, J.; Dobbs, R.; Roxbugh, C.; Byers, A. H. (2011) “Big data: The next frontier for innovation, competition, and productivity”. The McKinsey Global Institute.