Uma Análise Experimental do Impacto da Seleção de Atributos em Processos de Resolução de Entidades

  • Levy de Souza Silva UFPE / UFMG
  • Gabrielle Karine Canalle UFPE
  • Ana Carolina Salgado UFPE
  • Bernadette Farias Lóscio UFPE
  • Mirella M. Moro UFMG

Resumo


Resolução de Entidades (RE) é a tarefa de identificar instâncias duplicadas em conjuntos de dados por meio de um processo de várias etapas. Um ponto em comum entre suas etapas é a seleção de atributos. Apesar de existirem trabalhos de seleção de atributos na RE, há uma falta de estudos experimentais que analisem o impacto da seleção de atributos no processo completo. Esta análise é importante pois a eficácia da RE varia conforme os atributos adotados. Assim, este trabalho aborda tal lacuna por meio de experimentos em dados reais e sintéticos de vários domínios. Por fim, os resultados mostram que a seleção de atributos afeta a eficácia da RE em até 92%.

Palavras-chave: Resolução de enteidade, registros duplicados, seleção de atributos, algoritmos de agrupamento, métodos de indexação

Referências

Barbosa, L. et al. (2018). Big data integration for product specifications. Technical Committee on Data Engineering, 41(2):71–81.

Baxter, R. et al. (2003). A comparison of fast blocking methods for record linkage. In ACM SIGKDD, volume 3, pages 25–27, Washington, USA.

Caldeira, L. S. and Ferreira, A. A. (2018). Melhorias no processo de blocagem para resolução de entidades baseadas na relevˆancia dos termos. In SBBD, pages 61–72, Rio de Janeiro, Brasil.

Canalle, G. K. et al. (2017). A strategy for selecting relevant attributes for entity resolution in data integration systems. In ICEIS, pages 80–88, Porto, Portugal. DOI: https://doi.org/10.5220/0006316100800088

Christen, P. (2006). A comparison of personal name matching: Techniques and practical issues. In ICDM, pages 290–294, Hong Kong, China. DOI: https://doi.org/10.1109/ICDMW.2006.2

Christen, P. (2012). A survey of indexing techniques for scalable record linkage and deduplication. TKDE, 24(9):1537–1555. DOI: https://doi.org/10.1109/TKDE.2011.127

Cohen, W. W. et al. (2003). A comparison of string distance metrics for name-matching tasks. In WIIW, pages 73–78, Acapulco, México.

Draisbach, U. and Naumann, F. (2009). A comparison and generalization of blocking and windowing algorithms for duplicate detection. In QDB, pages 51–56, Lyon, France.

Jain, R. (1992). The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Measurement, Simulation, and Modeling. Wiley.

Konda, P. et al. (2019). Executing entity matching end to end: A case study. In EDBT, pages 489–500, Lisbon, Portugal. DOI: https://doi.org/10.5441/002/edbt.2019.45

Papadakis, G. et al. (2015). Schema-agnostic vs schema-based configurations for blocking methods on homogeneous data. PVLDB, 9(4):312–323. DOI: https://doi.org/10.14778/2856318.2856326

Silva, L. S. et al. (2017). Uma avaliação de eficiência e eficácia da combinação de técnicas para deduplicação de dados. In SBBD, pages 160–171, Uberlândia, Brasil.

Silva, L. S. et al. (2018). Automatic identification of best attributes for indexing in data deduplication. In AMW, Cali, Colombia.
Publicado
07/10/2019
SILVA, Levy de Souza; CANALLE, Gabrielle Karine; SALGADO, Ana Carolina; LÓSCIO, Bernadette Farias; MORO, Mirella M.. Uma Análise Experimental do Impacto da Seleção de Atributos em Processos de Resolução de Entidades. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 34. , 2019, Fortaleza. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 37-48. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2019.8806.