Representação Semântica Vetorial para Análise de Similaridade de Documentos Textuais

Kátia Kelvis Cassiano; Douglas Faria Cordeiro

Kátia Kelvis Cassiano UFG
Douglas Faria Cordeiro UFG

Resumo

Este artigo descreve um modelo baseado em uma ferramenta de Processamento de Linguagem Natural denominada Doc2Vec, para representação semântica de documentos textuais. A base de dados de interesse é composta por 44 (quarenta e quatro) monografias de trabalhos de conclusão do curso Gestão da Informação da Universidade Federal de Goiás. Técnicas de mineração de texto foram utilizadas para processamento dos arquivos digitais das monografias e geração do corpus. Cada documento é representado por vetores de palavras e o modelo realiza inferência de termos para análise semântica. Como resultado, a similaridade dos documentos é apresentada na forma de um grafo ponderado, realçando a proximidade entre cada elemento da amostra de dados.

Palavras-chave: Linguagem Natural, Doc2Vec, Semântica Vetorial.

Referências

Andrade, P. H. M. A. (2015). Aplicação de tecnicas´ de mineração de textos para classificação de documentos: um estudo da automatização da triagem de denuncias´ na cgu. Dissertação de mestrado, Instituto de Cienciasˆ Exatas - Universidade de Brasília, Brasília.

Beppler, M. D. and Fernandes, A. M. R. (2005). Aplicação de text mining para extração de conhecimento jurisprudencial. In Anais do I Congresso Sul Catarinense de Computação.

Castro, L. N. and Ferrari, D. G. (2016). Introdução a` Mineração de Dados: conceitos basicos,´ algoritimos e aplicações. Editora Saraiva, São Paulo.

Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databases. American Association for Artificial Intelligence.

Hussein, H., Alaaeldin, H., and Hassan, M. (2015). Selection criteria for text mining approaches. Computers in Human Behavior, 51:729–733.

Jurafsky, D. and Martin, J. H. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall, Upper Saddle River, NJ, USA.

Le, Q. V. and Mikolov, T. (2014). Distributed representations of sentences and documents. In Proceedings of the 31st International Conference on Machine Learning, volume 32, Beijing, China.

Lee, M. D. and Welsh, M. (2005). An empirical evaluation of models of text document similiarity. In CogSci2005, pages 1254–1259.

Loh, S. (2001). Abordagem baseada em conceitos para descoberta de conhecimento em textos. Tese de doutorado, Unviersidade Federal do Rio Grande do Sul, Porto Alegre.

Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013a). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR, abs/1301.3781.

Mikolov, T., Sutskever, I., Chen, K., Corrado, G., and Dean, J. (2013b). Distributed representations of words and phrases and their compositionality. In Proceedings of the 26th International Conference on Neural Information Processing Systems, volume 2, pages 3111–3119.

Morais, E. A. M. and Ambrosio,´ A. P. L. (2007). Mineração de textos. Technical report, Universidade Federal de Goias,´ Goianiaˆ.

Norvig, P. and Russel, S. (2011). Inteligenciaˆ Artificial. Elsevier, 3 edition.

Rumelhart, D. E., Hinton, G. E., and Williams, R. J. (1986). Learning representations by back propagating errors. Nature, 323:533–536.

Salton, G. and McGill, M. J. (1983). Introduction to Modern Information Retrieval. John Wiley & Sons, New York.

Silva, L. A., Peres, S. M., and Boscarioli, C. (2016). Introdução a` Mineração de Dados: com aplicações em R. Elsevier, Rio de Janeiro.

Silva, N. F. F. (2016). análise de sentimentos em textos curtos provenientes de redes sociais. Tese de doutorado, Instituto de Cienciasˆ Matematicas´ e de Computac¸ao,˜ São Carlos.

Specia, L. and Rino, L. H. (2002). Representação semantica:ˆ Alguns modelos ilustrativos. Technical report, NILC - ICMC-USP.