Uma Estratégia Híbrida para o Pareamento de Textos Curtos Baseada em Similaridade Léxica e Embeddings Semânticos

  • Thiago Pereira Meirelles ENCE / IBGE
  • Eduardo Corrêa Gonçalves ENCE / IBGE
  • Daniel Takata Gomes ENCE / IBGE

Resumo


Pareamento de textos é a tarefa de escolher, dentre um conjunto de textos possíveis, qual deles faz menção a um mesmo conceito ou objeto que outro determinado texto de entrada faz. Este trabalho propõe uma nova estratégia híbrida que tem por foco o pareamento de textos curtos, como nomes de produtos, marcas e serviços. A estratégia proposta baseia-se na combinação de medidas de similaridade léxica e embeddings semânticos gerados através do modelo Word2vec. Experimentos preliminares realizados em uma base de dados real contendo nomes de produtos e serviços revelam resultados promissores.

Palavras-chave: Mineração de Textos, Pareamento, Similaridade, Embeddings

Referências

Anuar, F. M., Setchi, R., Lai, Y.-K. (2016). Semantic retrieval of trademarks based on conceptual similarity. In IEEE Transactions on Systems, Man, and Cybernetics: Systems, 46(2), pages 220–233. IEEE.

Davis Jr., C. A. e Salles, E. (2009). "Approximate String Matching for Geographic Names and Personal Names", In: Proc. of the IX GEOINFO, INPE, p. 49–60.

Francisco, R. E. e Ambrosio, A. P. (2016). Uso do algoritmo distância de edição com técnicas de pré-processamento para apoiar a identificação de plágio em códigos-fonte de problemas de programação introdutória. In iSys, 9(2), pages 32–52.

Jurafsky, D. e Martin, J. H. (2020), Speech and Language Processing, Stanford, 3rd edition.

Leskovec, J., Rajaraman, A. e Ullman, J. (2020), Mining of Massive Datasets Cambridge University Press, 3rd edition.

Levenshtein, V. I. Binary codes capable of correcting deletions, insertions, and reversals. In Cybernetics and Control Theory, 10(8), pages 707–710.

Mikolov, T., et al. (2013). Distributed Representations of Words and Phrases and Their Compositionality, In: Proc. of the 26th Intl’ Conf. on Neural Information Processing Systems (NIPS), Neurips, p. 3111–3119.

Mikolov, T., Chen, K., Corrado, G., e Dean, J. (2013). Efficient estimation of word representations in vector space, In CoRR, abs/1301.3781.

NILC - Núcleo Interinstitucional de Linguística Computacional (2017). Repositório de Word Embeddings do NILC. Disponível em: http://www.nilc.icmc.usp.br/embeddings.

Silva et al. (2010). "Inovações no Sistema de Pareamento de Domicílios e Pessoas para a Pesquisa de Avaliação da Cobertura da Coleta do Censo 2010". In: Anais do XVII Encontro Nacional de Estudos Populacionais, ABEP, p. 1–19.

Sinoara, R., Antunes, J., Rezende, S.O. (2017). Text mining and semantics: A systematic mapping study. In Journal of the Brazilian Computer Society, 23(9), pages 1–20.

Winkler, W.E. (1990). "String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage". In: Proc. of the Sect. on Surv. Research, ERIC, p. 354–359.
Publicado
23/11/2021
MEIRELLES, Thiago Pereira; GONÇALVES, Eduardo Corrêa; GOMES, Daniel Takata. Uma Estratégia Híbrida para o Pareamento de Textos Curtos Baseada em Similaridade Léxica e Embeddings Semânticos. In: ESCOLA REGIONAL DE INFORMÁTICA DO RIO DE JANEIRO (ERI-RJ), 4. , 2021, Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 33-40. DOI: https://doi.org/10.5753/eri-rj.2021.18772.