Avaliando o Processo de Seleção de Características na Tarefa de Junção de Similaridade

Lucas Romeiro Silva; Dimas Cassimiro Nascimento

doi:10.5753/sbbd.2023.233336

Lucas Romeiro Silva Universidade Federal do Agreste de Pernambuco
Dimas Cassimiro Nascimento Universidade Federal do Agreste de Pernambuco / Universidade Federal de Campina Grande

DOI: https://doi.org/10.5753/sbbd.2023.233336

Resumo

A junção de similaridade consiste no processo de identificar pares de registros semelhantes em uma ou mais bases de dados. Uma vez que esta tarefa usualmente produz uma quantidade significativa de comparações entre registros, é importante empregar filtros que visem limitar a quantidade de comparações produzidas. Para tal, é necessário determinar quais atributos serão explorados pelos filtros. Este trabalho visa propor e avaliar uma técnica de seleção incremental de características para a tarefa de junção de similaridade. Os resultados experimentais obtidos indicam que a técnica investigada se mostra promissora, uma vez que combinações específicas de atributos na junção resultaram em uma maior identificação de pares de registros similares.

Palavras-chave: junção de similaridade, seleção de características, filtro de prefixo, filtro de tamanho

Referências

Chandrashekar, G. and Sahin, F. (2014). A survey on feature selection methods. Computers & Electrical Engineering, 40(1):16–28.

Chu, X. and Ilyas, I. F. (2016). Qualitative data cleaning. Proceedings of the VLDB Endowment, 9(13):1605–1608.

Deng, D., Li, G., and Feng, J. (2014). A pivotal prefix based filtering algorithm for string similarity search. In Proceedings of the 2014 ACM SIGMOD international conference on Management of data, pages 673–684.

do Carmo Oliveira, D. J., Borges, F. F., Ribeiro, L. A., and Cuzzocrea, A. (2018). Set similarity joins with complex expressions on distributed platforms. In Advances in Databases and Information Systems: 22nd European Conference, ADBIS 2018, Budapest, Hungary, September 2–5, 2018, Proceedings 22, pages 216–230. Springer.

Jiang, Y., Li, G., Feng, J., and Li, W.-S. (2014). String similarity joins: An experimental evaluation. Proceedings of the VLDB Endowment, 7(8):625–636.

Li, G., He, J., Deng, D., and Li, J. (2015). Efficient similarity join and search on multiattribute data. In Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, pages 1137–1151.

Ribeiro, L. A., Borges, F. F., and do Carmo Oliveira, D. J. (2020). A framework for set similarity join on multi-attribute data. In SBBD, pages 61–72.

Yang, Y., Chen, D., Zhang, e., Ji, Z., and Zhang, Y. (2022). Incremental feature selection by sample selection and feature-based accelerator. Applied Soft Computing, 121:108800.

Yu, M., Li, G., Deng, D., and Feng, J. (2016). String similarity search and join: a survey. Frontiers of Computer Science, 10:399–417.