Estudo Comparativo de Estratégias para o Pareamento de Nomes de Entidades na Língua Portuguesa

Antônio Mamede Araújo de Medeiros; Eduardo Corrêa Gonçalves

doi:10.5753/erbd.2023.229498

Antônio Mamede Araújo de Medeiros ENCE / IBGE
Eduardo Corrêa Gonçalves ENCE / IBGE

DOI: https://doi.org/10.5753/erbd.2023.229498

Resumo

O pareamento de nomes de entidades é a tarefa que consiste em realizar a correspondência automática entre nomes de uma lista A com os de uma outra lista B, considerando a semelhança entre eles. Há muitas aplicações modernas e importantes para a tarefa, variando desde a identificação de registros duplicados em bases de dados até a otimização de sistemas comparadores de preços. Este trabalho realiza a avaliação de duas técnicas propostas para o pareamento de nomes em português. Experimentos realizados em uma base contendo nomes de produtos e serviços mostraram que a combinação da medida Jaro-Winkler com vetores TF-IDF e embeddings word2vec foi capaz de produzir os melhores pareamentos.

Referências

Alves, A. O., Rodrigues, R. and Oliveira, H. G. (2016). ASAPP: alinhamento semântico automático de palavras aplicado ao português. In Linguamática, 8(2):43-58.

Barbosa, L., Cavalin, P., Guimarães, V. and Kormaksson, M. (2016). Blue man group no assin: Usando representações distribuídas para similaridade semântica e inferência textual. In Linguamática, 8(2):15-22.

de Souza, J. V. A., et al. (2019). "Multiple Feature Groups to a Siamese Neural Network for Semantic Textual Similarity Task in Portuguese Texts", In: Proc. of the ASSIN 2 Shared Task: Evaluating Semantic Textual Similarity and Textual Entailment in Portuguese (ASSIN@STIL), SBC, p. 59-68.

Fonseca, E. R., Santos, L. B., Criscuolo, M. and Aluísio, S. M. (2016). Visão geral da avaliação de similaridade semântica e inferência textual. In Linguamática, 8(2):3-13.

Freire, J., Pinheiro, V. and Feitosa, D. (2016). FlexSTS: Um framework para similaridade semântica textual. In Linguamática, 8(2):23-31.

Freire, S. M., et al. (2009). "Análise da Efetividade de Comparadores de Strings para Discriminar Pares de Verdadeiros de Pares Falsos no Relacionamento de Registros". In: IX Workshop de Informática Médica, SBC, p. 2119 - 2128

Gali, N., Mariescu-Istodor, R., Hostettler and D., Fränti, P. (2019). Framework for syntactic string similarity measures. In Expert Systems with Applications, 129(2019):169-185.

Hartmann, N. S. (2016). Solo queue at ASSIN: Combinando abordagens tradicionais e emergentes. In Linguamática, 8(2):59-64.

Hillen, J. (2019). Web scraping for food price research. In British Food Journal, 121(12):3350-3361.

IBGE (2016), Para compreender o INPC (um texto simplificado), IBGE, 7a. ed.

IBGE (2021), Pesquisa de orçamentos familiares 2017-2018, IBGE. [link]. Acesso em: 27 fev. 2023.

Jurafsky, D. and Martin, J. H. (2023), Speech and Language Processing, Stanford, 3rd edition (draft).

Lin, D. (1998) "An Information-Theoretic Definition of Similarity", In: Proc. of the 15th Int'l Conf. on Machine Learning (ICML), ACM, p. 296-304.

Mazieiro, E. G., et al. (2008). "A base de dados lexical e a interface web do TeP 2.0: thesaurus eletrônico para o Português do Brasil", In: Proc. of the XIV Brazilian Symposium on Multimedia and the Web (WEBMEDIA), ACM, p. 390-392.

Meirelles, T. P., Gonçalves, E. C. and Gomes, D. T. (2021). Pareamento de nomes de produtos e serviços utilizando medidas de similaridade textual nos níveis alfabético, léxico e semântico. In Cadernos do IME - Série Informática, 46:104-117.

Mikolov, T., et al. (2013). "Distributed Representations of Words and Phrases and Their Compositionality", In: Proc. of the 26th Intl' Conf. on Neural Information Processing Systems (NIPS), Neurips, p. 3111-3119.

NILC - Núcleo Interinstitucional de Linguística Computacional (2017). Repositório de Word Embeddings do NILC. http://www.nilc.icmc.usp.br/embeddings. Acesso em: 17 fev. 2023.

Pedregosa et al. (2011). Scikit-learn: Machine learning in python. In Journal of Machine Learning Research, 12:2825-2830.

Radim, R. and Sojka, P. (2010). "Software Framework for Topic Modelling with Large Corpora", In: Proc. of the LREC 2010 Workshop on New Challenges for NLP Frameworks, ELRA, p. 45-50.

Romualdo, A. S., Real, L. and Caseli, H. M. (2021). "Measuring Brazilian Portuguese Product Titles Similarity using Embeddings", In: Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL), SBC, p. 121-132.

Strsimpy 0.2.1 (2023) https://pypi.org/project/strsimpy/. Acesso em: 27 fev. 2023.