Estudo Comparativo de Estratégias para o Pareamento de Nomes de Entidades na Língua Portuguesa
Resumo
O pareamento de nomes de entidades é a tarefa que consiste em realizar a correspondência automática entre nomes de uma lista A com os de uma outra lista B, considerando a semelhança entre eles. Há muitas aplicações modernas e importantes para a tarefa, variando desde a identificação de registros duplicados em bases de dados até a otimização de sistemas comparadores de preços. Este trabalho realiza a avaliação de duas técnicas propostas para o pareamento de nomes em português. Experimentos realizados em uma base contendo nomes de produtos e serviços mostraram que a combinação da medida Jaro-Winkler com vetores TF-IDF e embeddings word2vec foi capaz de produzir os melhores pareamentos.Referências
Alves, A. O., Rodrigues, R. and Oliveira, H. G. (2016). ASAPP: alinhamento semântico automático de palavras aplicado ao português. In Linguamática, 8(2):43-58.
Barbosa, L., Cavalin, P., Guimarães, V. and Kormaksson, M. (2016). Blue man group no assin: Usando representações distribuídas para similaridade semântica e inferência textual. In Linguamática, 8(2):15-22.
de Souza, J. V. A., et al. (2019). "Multiple Feature Groups to a Siamese Neural Network for Semantic Textual Similarity Task in Portuguese Texts", In: Proc. of the ASSIN 2 Shared Task: Evaluating Semantic Textual Similarity and Textual Entailment in Portuguese (ASSIN@STIL), SBC, p. 59-68.
Fonseca, E. R., Santos, L. B., Criscuolo, M. and Aluísio, S. M. (2016). Visão geral da avaliação de similaridade semântica e inferência textual. In Linguamática, 8(2):3-13.
Freire, J., Pinheiro, V. and Feitosa, D. (2016). FlexSTS: Um framework para similaridade semântica textual. In Linguamática, 8(2):23-31.
Freire, S. M., et al. (2009). "Análise da Efetividade de Comparadores de Strings para Discriminar Pares de Verdadeiros de Pares Falsos no Relacionamento de Registros". In: IX Workshop de Informática Médica, SBC, p. 2119 - 2128
Gali, N., Mariescu-Istodor, R., Hostettler and D., Fränti, P. (2019). Framework for syntactic string similarity measures. In Expert Systems with Applications, 129(2019):169-185.
Hartmann, N. S. (2016). Solo queue at ASSIN: Combinando abordagens tradicionais e emergentes. In Linguamática, 8(2):59-64.
Hillen, J. (2019). Web scraping for food price research. In British Food Journal, 121(12):3350-3361.
IBGE (2016), Para compreender o INPC (um texto simplificado), IBGE, 7a. ed.
IBGE (2021), Pesquisa de orçamentos familiares 2017-2018, IBGE. [link]. Acesso em: 27 fev. 2023.
Jurafsky, D. and Martin, J. H. (2023), Speech and Language Processing, Stanford, 3rd edition (draft).
Lin, D. (1998) "An Information-Theoretic Definition of Similarity", In: Proc. of the 15th Int'l Conf. on Machine Learning (ICML), ACM, p. 296-304.
Mazieiro, E. G., et al. (2008). "A base de dados lexical e a interface web do TeP 2.0: thesaurus eletrônico para o Português do Brasil", In: Proc. of the XIV Brazilian Symposium on Multimedia and the Web (WEBMEDIA), ACM, p. 390-392.
Meirelles, T. P., Gonçalves, E. C. and Gomes, D. T. (2021). Pareamento de nomes de produtos e serviços utilizando medidas de similaridade textual nos níveis alfabético, léxico e semântico. In Cadernos do IME - Série Informática, 46:104-117.
Mikolov, T., et al. (2013). "Distributed Representations of Words and Phrases and Their Compositionality", In: Proc. of the 26th Intl' Conf. on Neural Information Processing Systems (NIPS), Neurips, p. 3111-3119.
NILC - Núcleo Interinstitucional de Linguística Computacional (2017). Repositório de Word Embeddings do NILC. http://www.nilc.icmc.usp.br/embeddings. Acesso em: 17 fev. 2023.
Pedregosa et al. (2011). Scikit-learn: Machine learning in python. In Journal of Machine Learning Research, 12:2825-2830.
Radim, R. and Sojka, P. (2010). "Software Framework for Topic Modelling with Large Corpora", In: Proc. of the LREC 2010 Workshop on New Challenges for NLP Frameworks, ELRA, p. 45-50.
Romualdo, A. S., Real, L. and Caseli, H. M. (2021). "Measuring Brazilian Portuguese Product Titles Similarity using Embeddings", In: Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL), SBC, p. 121-132.
Strsimpy 0.2.1 (2023) https://pypi.org/project/strsimpy/. Acesso em: 27 fev. 2023.
Barbosa, L., Cavalin, P., Guimarães, V. and Kormaksson, M. (2016). Blue man group no assin: Usando representações distribuídas para similaridade semântica e inferência textual. In Linguamática, 8(2):15-22.
de Souza, J. V. A., et al. (2019). "Multiple Feature Groups to a Siamese Neural Network for Semantic Textual Similarity Task in Portuguese Texts", In: Proc. of the ASSIN 2 Shared Task: Evaluating Semantic Textual Similarity and Textual Entailment in Portuguese (ASSIN@STIL), SBC, p. 59-68.
Fonseca, E. R., Santos, L. B., Criscuolo, M. and Aluísio, S. M. (2016). Visão geral da avaliação de similaridade semântica e inferência textual. In Linguamática, 8(2):3-13.
Freire, J., Pinheiro, V. and Feitosa, D. (2016). FlexSTS: Um framework para similaridade semântica textual. In Linguamática, 8(2):23-31.
Freire, S. M., et al. (2009). "Análise da Efetividade de Comparadores de Strings para Discriminar Pares de Verdadeiros de Pares Falsos no Relacionamento de Registros". In: IX Workshop de Informática Médica, SBC, p. 2119 - 2128
Gali, N., Mariescu-Istodor, R., Hostettler and D., Fränti, P. (2019). Framework for syntactic string similarity measures. In Expert Systems with Applications, 129(2019):169-185.
Hartmann, N. S. (2016). Solo queue at ASSIN: Combinando abordagens tradicionais e emergentes. In Linguamática, 8(2):59-64.
Hillen, J. (2019). Web scraping for food price research. In British Food Journal, 121(12):3350-3361.
IBGE (2016), Para compreender o INPC (um texto simplificado), IBGE, 7a. ed.
IBGE (2021), Pesquisa de orçamentos familiares 2017-2018, IBGE. [link]. Acesso em: 27 fev. 2023.
Jurafsky, D. and Martin, J. H. (2023), Speech and Language Processing, Stanford, 3rd edition (draft).
Lin, D. (1998) "An Information-Theoretic Definition of Similarity", In: Proc. of the 15th Int'l Conf. on Machine Learning (ICML), ACM, p. 296-304.
Mazieiro, E. G., et al. (2008). "A base de dados lexical e a interface web do TeP 2.0: thesaurus eletrônico para o Português do Brasil", In: Proc. of the XIV Brazilian Symposium on Multimedia and the Web (WEBMEDIA), ACM, p. 390-392.
Meirelles, T. P., Gonçalves, E. C. and Gomes, D. T. (2021). Pareamento de nomes de produtos e serviços utilizando medidas de similaridade textual nos níveis alfabético, léxico e semântico. In Cadernos do IME - Série Informática, 46:104-117.
Mikolov, T., et al. (2013). "Distributed Representations of Words and Phrases and Their Compositionality", In: Proc. of the 26th Intl' Conf. on Neural Information Processing Systems (NIPS), Neurips, p. 3111-3119.
NILC - Núcleo Interinstitucional de Linguística Computacional (2017). Repositório de Word Embeddings do NILC. http://www.nilc.icmc.usp.br/embeddings. Acesso em: 17 fev. 2023.
Pedregosa et al. (2011). Scikit-learn: Machine learning in python. In Journal of Machine Learning Research, 12:2825-2830.
Radim, R. and Sojka, P. (2010). "Software Framework for Topic Modelling with Large Corpora", In: Proc. of the LREC 2010 Workshop on New Challenges for NLP Frameworks, ELRA, p. 45-50.
Romualdo, A. S., Real, L. and Caseli, H. M. (2021). "Measuring Brazilian Portuguese Product Titles Similarity using Embeddings", In: Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL), SBC, p. 121-132.
Strsimpy 0.2.1 (2023) https://pypi.org/project/strsimpy/. Acesso em: 27 fev. 2023.
Publicado
11/04/2023
Como Citar
MEDEIROS, Antônio Mamede Araújo de; GONÇALVES, Eduardo Corrêa.
Estudo Comparativo de Estratégias para o Pareamento de Nomes de Entidades na Língua Portuguesa. In: ESCOLA REGIONAL DE BANCO DE DADOS (ERBD), 18. , 2023, Palmas/PR.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2023
.
p. 21-30.
ISSN 2595-413X.
DOI: https://doi.org/10.5753/erbd.2023.229498.