Uma Abordagem para Processamento Distribuído de Junção por Similaridade sobre Múltiplos Atributos

Diego Junior do Carmo Oliveira; Felipe Ferreira Borges; Leonardo Andrade Ribeiro

doi:10.5753/sbbd.2017.174658

Diego Junior do Carmo Oliveira Universidade Federal de Goiás
Felipe Ferreira Borges Universidade Federal de Goiás
Leonardo Andrade Ribeiro Universidade Federal de Goiás

DOI: https://doi.org/10.5753/sbbd.2017.174658

Resumo

Junção por similaridade é uma operação fundamental em integração dados. Algoritmos existentes assumem, em sua ampla maioria, dados representados por um único atributo. Contudo, dados reais são tipicamente compostos por múltiplos atributos. Além de demandar expressões de similaridade mais complexas, dados desse tipo são mais volumosos e, com isso, o custo de processamento em um único computador pode tornar-se proibitivo. Este artigo apresenta um algoritmo distribuído de junção por similaridade sobre múltiplos atributos usando a plataforma Spark. Resultados experimentais iniciais mostram que a abordagem proposta é eficiente e escalável.

Palavras-chave: Junção por Similaridade, Spark

Referências

Chaudhuri, S., Ganti, V., and Kaushik, R. (2006). A Primitive Operator for Similarity Joins in Data Cleaning. In ICDE, page 5.

Deng, D., Li, G., Hao, S., Wang, J., and Feng, J. (2014). MassJoin: A Mapreduce-based Method for Scalable String Similarity Joins. In ICDE, pages 340–351.

Li, G., He, J., Deng, D., and Li, J. (2015). Efficient Similarity Join and Search on Multi-Attribute Data. In SIGMOD, pages 1137–1151.

Ribeiro, L. A. and Härder, T. (2011). Generalizing Prefix Filtering to Improve Set Similarity Joins. Information Systems, 36(1):62–78.

Sidney, C. F., Mendes, D. S., Ribeiro, L. A., and Härder, T. (2015). Performance Prediction for Set Similarity Joins. In SAC, pages 967–972.

Vernica, R., Carey, M. J., and Li, C. (2010). Efficient Parallel Set-similarity Joins using MapReduce. In SIGMOD, pages 495–506.

Zaharia, M., Xin, R. S., Wendell, P., Das, T., Armbrust, M., Dave, A., Meng, X., Rosen, J., Venkataraman, S., Franklin, M. J., Ghodsi, A., Gonzalez, J., Shenker, S., and Stoica, I. (2016). Apache Spark: a Unified Engine for Big Data Processing. Communications of the ACM, 59(11):56–65.