Uma Estratégia para Seleção de Atributos Relevantes no Processo de Resolução de Entidades
Resumo
Integração de Dados é um processo essencial quando deseja-se obter uma visão unificada de dados armazenados em fontes de dados heterogêneas e distribuídas. Uma etapa crucial desse processo é a Resolução de Entidades, que consiste em identificar instâncias que se referem à mesma entidade do mundo real. Para a descoberta de instâncias equivalentes, são usadas funções que avaliam a similaridade entre os valores dos atributos que as descrevem. Este trabalho propõe uma estratégia para seleção de atributos relevantes a serem considerados na fase de comparação de instâncias do processo de Resolução de Entidades. A estratégia proposta utiliza características dos atributos, como a quantidade de valores repetidos e valores nulos, a fim de identificar os mais relevantes para o processo de comparação de instâncias.
Palavras-chave:
Integração de dados, Resolução de Entidades
Referências
Chen, J., Jin, C., Zhang, R., and Zhou, A. (2012). A learning method for entity matching. In In Proceedings of 10th International Workshop on Quality in Databases, East China Normal University, China.
Christen, P. (2012). Data Matching. Springer, Heidelberg.
Dong, X. L. and Srivastava, D. (2015). Big Data Integration. Synthesis Lectures on Data Management. Morgan & Claypool Publishers.
Mihaila, G. A., Raschid, L., and Vidal, M.-E. (2000). Using quality of data metadata for source selection and ranking. In WebDB (Informal Proceedings), pages 93–98.
Naumann, F. and Freytag, J. C. (2000). Completeness of information sources. Technical report, Humboldt University of Berlin.
Su, W., Wang, J., Lochovsky, F. H., and Society, I. C. (2010). Record Matching over Query Results from Multiple Web Databases. IEEE Transactions on Knowledge and Data Engineering, 22(4):578–589.
Christen, P. (2012). Data Matching. Springer, Heidelberg.
Dong, X. L. and Srivastava, D. (2015). Big Data Integration. Synthesis Lectures on Data Management. Morgan & Claypool Publishers.
Mihaila, G. A., Raschid, L., and Vidal, M.-E. (2000). Using quality of data metadata for source selection and ranking. In WebDB (Informal Proceedings), pages 93–98.
Naumann, F. and Freytag, J. C. (2000). Completeness of information sources. Technical report, Humboldt University of Berlin.
Su, W., Wang, J., Lochovsky, F. H., and Society, I. C. (2010). Record Matching over Query Results from Multiple Web Databases. IEEE Transactions on Knowledge and Data Engineering, 22(4):578–589.
Publicado
04/10/2016
Como Citar
CANALLE, Gabrielle K.; LÓSCIO, Bernadette F.; SALGADO, Ana Carolina.
Uma Estratégia para Seleção de Atributos Relevantes no Processo de Resolução de Entidades. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 31. , 2016, Salvador/BA.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2016
.
p. 259-264.
ISSN 2763-8979.
DOI: https://doi.org/10.5753/sbbd.2016.24338.