Uma Abordagem para Processamento Distribuído de Junção por Similaridade sobre Múltiplos Atributos

  • Diego Junior do Carmo Oliveira Universidade Federal de Goiás
  • Felipe Ferreira Borges Universidade Federal de Goiás
  • Leonardo Andrade Ribeiro Universidade Federal de Goiás

Resumo


Junção por similaridade é uma operação fundamental em integração dados. Algoritmos existentes assumem, em sua ampla maioria, dados representados por um único atributo. Contudo, dados reais são tipicamente compostos por múltiplos atributos. Além de demandar expressões de similaridade mais complexas, dados desse tipo são mais volumosos e, com isso, o custo de processamento em um único computador pode tornar-se proibitivo. Este artigo apresenta um algoritmo distribuído de junção por similaridade sobre múltiplos atributos usando a plataforma Spark. Resultados experimentais iniciais mostram que a abordagem proposta é eficiente e escalável.
Palavras-chave: Junção por Similaridade, Spark

Referências

Chaudhuri, S., Ganti, V., and Kaushik, R. (2006). A Primitive Operator for Similarity Joins in Data Cleaning. In ICDE, page 5.

Deng, D., Li, G., Hao, S., Wang, J., and Feng, J. (2014). MassJoin: A Mapreduce-based Method for Scalable String Similarity Joins. In ICDE, pages 340–351.

Li, G., He, J., Deng, D., and Li, J. (2015). Efficient Similarity Join and Search on Multi-Attribute Data. In SIGMOD, pages 1137–1151.

Ribeiro, L. A. and Härder, T. (2011). Generalizing Prefix Filtering to Improve Set Similarity Joins. Information Systems, 36(1):62–78.

Sidney, C. F., Mendes, D. S., Ribeiro, L. A., and Härder, T. (2015). Performance Prediction for Set Similarity Joins. In SAC, pages 967–972.

Vernica, R., Carey, M. J., and Li, C. (2010). Efficient Parallel Set-similarity Joins using MapReduce. In SIGMOD, pages 495–506.

Zaharia, M., Xin, R. S., Wendell, P., Das, T., Armbrust, M., Dave, A., Meng, X., Rosen, J., Venkataraman, S., Franklin, M. J., Ghodsi, A., Gonzalez, J., Shenker, S., and Stoica, I. (2016). Apache Spark: a Unified Engine for Big Data Processing. Communications of the ACM, 59(11):56–65.
Publicado
02/10/2017
OLIVEIRA, Diego Junior do Carmo; BORGES, Felipe Ferreira; RIBEIRO, Leonardo Andrade. Uma Abordagem para Processamento Distribuído de Junção por Similaridade sobre Múltiplos Atributos. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 32. , 2017, Uberlândia/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2017 . p. 300-305. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2017.174658.