Uma Análise Experimental do Impacto da Seleção de Atributos em Processos de Resolução de Entidades

Levy de Souza Silva; Gabrielle Karine Canalle; Ana Carolina Salgado; Bernadette Farias Lóscio; Mirella M. Moro

doi:10.5753/sbbd.2019.8806

Levy de Souza Silva UFPE / UFMG
Gabrielle Karine Canalle UFPE
Ana Carolina Salgado UFPE
Bernadette Farias Lóscio UFPE
Mirella M. Moro UFMG

DOI: https://doi.org/10.5753/sbbd.2019.8806

Resumo

Resolução de Entidades (RE) é a tarefa de identificar instâncias duplicadas em conjuntos de dados por meio de um processo de várias etapas. Um ponto em comum entre suas etapas é a seleção de atributos. Apesar de existirem trabalhos de seleção de atributos na RE, há uma falta de estudos experimentais que analisem o impacto da seleção de atributos no processo completo. Esta análise é importante pois a eficácia da RE varia conforme os atributos adotados. Assim, este trabalho aborda tal lacuna por meio de experimentos em dados reais e sintéticos de vários domínios. Por fim, os resultados mostram que a seleção de atributos afeta a eficácia da RE em até 92%.

Palavras-chave: Resolução de enteidade, registros duplicados, seleção de atributos, algoritmos de agrupamento, métodos de indexação

Referências

Barbosa, L. et al. (2018). Big data integration for product specifications. Technical Committee on Data Engineering, 41(2):71–81.

Baxter, R. et al. (2003). A comparison of fast blocking methods for record linkage. In ACM SIGKDD, volume 3, pages 25–27, Washington, USA.

Caldeira, L. S. and Ferreira, A. A. (2018). Melhorias no processo de blocagem para resolução de entidades baseadas na relevˆancia dos termos. In SBBD, pages 61–72, Rio de Janeiro, Brasil.

Canalle, G. K. et al. (2017). A strategy for selecting relevant attributes for entity resolution in data integration systems. In ICEIS, pages 80–88, Porto, Portugal. DOI: https://doi.org/10.5220/0006316100800088

Christen, P. (2006). A comparison of personal name matching: Techniques and practical issues. In ICDM, pages 290–294, Hong Kong, China. DOI: https://doi.org/10.1109/ICDMW.2006.2

Christen, P. (2012). A survey of indexing techniques for scalable record linkage and deduplication. TKDE, 24(9):1537–1555. DOI: https://doi.org/10.1109/TKDE.2011.127

Cohen, W. W. et al. (2003). A comparison of string distance metrics for name-matching tasks. In WIIW, pages 73–78, Acapulco, México.

Draisbach, U. and Naumann, F. (2009). A comparison and generalization of blocking and windowing algorithms for duplicate detection. In QDB, pages 51–56, Lyon, France.

Jain, R. (1992). The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Measurement, Simulation, and Modeling. Wiley.

Konda, P. et al. (2019). Executing entity matching end to end: A case study. In EDBT, pages 489–500, Lisbon, Portugal. DOI: https://doi.org/10.5441/002/edbt.2019.45

Papadakis, G. et al. (2015). Schema-agnostic vs schema-based configurations for blocking methods on homogeneous data. PVLDB, 9(4):312–323. DOI: https://doi.org/10.14778/2856318.2856326

Silva, L. S. et al. (2017). Uma avaliação de eficiência e eficácia da combinação de técnicas para deduplicação de dados. In SBBD, pages 160–171, Uberlândia, Brasil.

Silva, L. S. et al. (2018). Automatic identification of best attributes for indexing in data deduplication. In AMW, Cali, Colombia.