Uma Estratégia Híbrida para o Pareamento de Textos Curtos Baseada em Similaridade Léxica e Embeddings Semânticos

Thiago Pereira Meirelles; Eduardo Corrêa Gonçalves; Daniel Takata Gomes

doi:10.5753/eri-rj.2021.18772

Thiago Pereira Meirelles ENCE / IBGE
Eduardo Corrêa Gonçalves ENCE / IBGE
Daniel Takata Gomes ENCE / IBGE

DOI: https://doi.org/10.5753/eri-rj.2021.18772

Resumo

Pareamento de textos é a tarefa de escolher, dentre um conjunto de textos possíveis, qual deles faz menção a um mesmo conceito ou objeto que outro determinado texto de entrada faz. Este trabalho propõe uma nova estratégia híbrida que tem por foco o pareamento de textos curtos, como nomes de produtos, marcas e serviços. A estratégia proposta baseia-se na combinação de medidas de similaridade léxica e embeddings semânticos gerados através do modelo Word2vec. Experimentos preliminares realizados em uma base de dados real contendo nomes de produtos e serviços revelam resultados promissores.

Palavras-chave: Mineração de Textos, Pareamento, Similaridade, Embeddings

Referências

Anuar, F. M., Setchi, R., Lai, Y.-K. (2016). Semantic retrieval of trademarks based on conceptual similarity. In IEEE Transactions on Systems, Man, and Cybernetics: Systems, 46(2), pages 220–233. IEEE.

Davis Jr., C. A. e Salles, E. (2009). "Approximate String Matching for Geographic Names and Personal Names", In: Proc. of the IX GEOINFO, INPE, p. 49–60.

Francisco, R. E. e Ambrosio, A. P. (2016). Uso do algoritmo distância de edição com técnicas de pré-processamento para apoiar a identificação de plágio em códigos-fonte de problemas de programação introdutória. In iSys, 9(2), pages 32–52.

Jurafsky, D. e Martin, J. H. (2020), Speech and Language Processing, Stanford, 3rd edition.

Leskovec, J., Rajaraman, A. e Ullman, J. (2020), Mining of Massive Datasets Cambridge University Press, 3rd edition.

Levenshtein, V. I. Binary codes capable of correcting deletions, insertions, and reversals. In Cybernetics and Control Theory, 10(8), pages 707–710.

Mikolov, T., et al. (2013). Distributed Representations of Words and Phrases and Their Compositionality, In: Proc. of the 26th Intl’ Conf. on Neural Information Processing Systems (NIPS), Neurips, p. 3111–3119.

Mikolov, T., Chen, K., Corrado, G., e Dean, J. (2013). Efficient estimation of word representations in vector space, In CoRR, abs/1301.3781.

NILC - Núcleo Interinstitucional de Linguística Computacional (2017). Repositório de Word Embeddings do NILC. Disponível em: http://www.nilc.icmc.usp.br/embeddings.

Silva et al. (2010). "Inovações no Sistema de Pareamento de Domicílios e Pessoas para a Pesquisa de Avaliação da Cobertura da Coleta do Censo 2010". In: Anais do XVII Encontro Nacional de Estudos Populacionais, ABEP, p. 1–19.

Sinoara, R., Antunes, J., Rezende, S.O. (2017). Text mining and semantics: A systematic mapping study. In Journal of the Brazilian Computer Society, 23(9), pages 1–20.

Winkler, W.E. (1990). "String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage". In: Proc. of the Sect. on Surv. Research, ERIC, p. 354–359.