ParallelNACluster: Uma estratégia paralela de clusterização para o casamento de múltiplos catálogos

  • Vinícius Pires de Moura Freire Universidade Federal do Ceará (UFC) / Instituto Federal de Educação, Ciência e Tecnologia do Maranhão (IFMA)
  • Fábio Porto Laboratório Nacional de Computação Científica (LNCC)
  • José A. F. de Macêdo Universidade Federal do Ceará (UFC)

Resumo


O casamento de catálogos de astronomia tem o objetivo identificar objetos celestes em comum presentes em diferentes levantamentos astronômicos. As abordagens tradicionais em astronomia não apresentam soluções para o problema de casamento no contexto de grande volume de dados. Neste artigo, melhoramos o algoritmo NACluster ao apresentar a estratégia ParallelNACluster, uma versão paralela do NACluster que se aproveita do particionamento dos dados de entrada, e aceita grandes volumes de dados mesmo utilizando um conjunto de hardware de pequeno porte. Além disso, propomos o SCIBoundary, uma nova estratégia para tratamento do casamento de objetos espacialmente separados em partições de dados vizinhas. O SCIBoundary permite que obtenhamos resultados equivalentes entre o NACluster e o ParallelNACluster.
Palavras-chave: Cruzamento de dados, Paralelismo, Clusterização

Referências

Dai, B.-R. and Lin, I.-C. (2012). Efficient Map/Reduce-Based DBSCAN Algorithm with Optimized Data Partition. In Proceedings of the 2012 IEEE Fifth International Conference on Cloud Computing, pages 59–66, Washington, DC, USA. IEEE Computer Society.

Freire, V. P., Porto, F., Akbarinia, R., and de Macêdo, J. A. F. (2014). NACluster: A Non-supervised Clustering Algorithm for Matching Multi Catalogues. In 2014 IEEE 10th International Conference on e-Science, pages 83–86. IEEE.

Gaspar, D. and Porto, F. (2014). A Multi-Dimensional Equi-Depth Partitioning Strategy for Astronomy Catalog Data.

Kwon, Y., Nunley, D., Gardner, J. P., Balazinska, M., Howe, B., and Loebman, S. (2010). Scalable clustering algorithm for N-body simulations in a shared-nothing cluster. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 6187 LNCS:132–150.

Zaschke, T., Zimmerli, C., and Norrie, M. C. (2014). The PH-tree: A Space-efficient Storage Structure and Multi-dimensional Index. In Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data, SIGMOD ’14, pages 397–408, New York, NY, USA. ACM.

Zhao, W., Ma, H., and He, Q. (2009). Parallel k-means clustering based on mapreduce. In IEEE International Conference on Cloud Computing, pages 674–679. Springer.
Publicado
02/10/2017
FREIRE, Vinícius Pires de Moura; PORTO, Fábio; MACÊDO, José A. F. de. ParallelNACluster: Uma estratégia paralela de clusterização para o casamento de múltiplos catálogos. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 32. , 2017, Uberlândia/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2017 . p. 100-111. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2017.171359.