A Comparative Analysis of Machine Learning Named Entity Recognition Tools for the Brazilian and European Portuguese Language Variants

  • Breno David Lopes Pinheiro UFRPE
  • Ellen Polliana Ramos Souza UFRPE
  • Douglas Vitório UFRPE
  • Hidelberg Oliveira Albuquerque UFRPE

Resumo


Informações textuais, apesar de digitais, não são computacionalmente estruturadas, necessitando do uso de técnicas para estruturá-las e extrair informações. Este trabalho tem o objetivo de avaliar ferramentas de REN utilizando machine learning para as variantes brasileira e europeia da língua portuguesa. As ferramentas Apache OpenNLP, Stanford CoreNLP e spaCy foram selecionadas; o corpus HAREM foi usado para treinar e avaliar os modelos; uma ferramenta foi desenvolvida para pré-processar o corpus HAREM. Dois tipos de comparações foram realizadas: uma geral e outra entre variantes do português. Foi possível identificar que as variantes podem afetar no treinamento e avaliação de modelos de REN (Reconhecimento de entidades nomeadas).

Referências

Aggarwal, C. C. and Zhai, C. (2012). Mining text data. Springer Science & Business Media.

Akbik, A., Chiticariu, L., Danilevsky, M., Kbrom, Y., Li, Y., and Zhu, In Proceedings of H. (2016). Multilingual information extraction with PolyglotIE. COLING 2016, the 26th International Conference on Computational Linguistics: System Demonstrations, pages 268–272, Osaka, Japan. The COLING 2016 Organizing Committee.

Amaral, D., Fonseca, E., Lopes, L., and Vieira, R. (2014). Comparative analysis of Portuguese named entities recognition tools. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), pages 2554–2558, Reykjavik, Iceland. European Language Resources Association (ELRA).

Amaral, D. O. F. d. et al. (2013). O reconhecimento de entidades nomeadas por meio de conditional random fields para a língua portuguesa.

Baldridge, J. (2005). The opennlp project. URL: http://opennlp.apache.org/index.html, (accessed 2 February 2012), page 1.

Castro, D. W., Souza, E., Vitório, D., Santos, D., and Oliveira, A. L. (2017). Smoothed n-gram based models for tweet language identification: A case study of the brazilian and european portuguese national varieties. Applied Soft Computing, 61:1160–1172.

CoreNLP, S. (2020). Modelos oficiais do Stanford CoreNLP.

do Amaral, D. O. F. and Vieira, R. (2014). Nerp-crf: uma ferramenta para o reconhecimento de entidades nomeadas por meio de conditional random fields. Linguamática, 6(1):41–49.

Fonseca, B. E., Chiele, C. G., Vieira, R., and Vanin, A. A. (2015). Reconhecimento de entidades nomeadas para o português usando o opennlp. In XII National Meeting on Artificial and Computational Intelligence. Brazilian Conference on Inteligent Systems.

Gruhl, D., Guha, R., Liben-Nowell, D., and Tomkins, A. (2004). Information diffusion through blogspace. In Proceedings of the 13th international conference on World Wide Web, pages 491–501. ACM.

Honnibal, M. and Montani, I. (2017). spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing. To appear.

Hotho, A., Nürnberger, A., and Paass, G. (2005). A brief survey of text mining. LDV Forum GLDV Journal for Computational Linguistics and Language Technology, 20:19–62.

Jiang, J., Aggarwal, C. C., and Zhai, C. X. (2012). Mining Text Data. Springer Publishing Company, Incorporated.

Liguateca (2015). Linguateca.

Linguateca (2013). Harem: Reconhecimento de entidades mencionadas em português.

Manning, C., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S., and McClosky, D. (2014). The stanford corenlp natural language processing toolkit. In Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations, pages 55–60.

Mota, C. and Santos, D., editors (2008). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM. ISBN: 978-989-20-1656-6.

Nadeau, D. and Sekine, S. (2007). A survey of named entity recognition and classification. Lingvisticae Investigationes, 30(1):3–26.

OpenNLP, A. (2020). Modelos oficiais do Apache OpenNLP.

Pinheiro, B. (2020). Repositório com código-fonte haremfmt.

Pires, A., Devezas, J. L., and Nunes, S. (2017). Benchmarking named entity recognition tools for portuguese.

Ronen Feldman, J. S. (2006). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, 1 edition.

Santos, D. and Cardoso, N. (2007). Reconhecimento de entidades mencionadas em português: Documentação e actas do harem, a primeira avaliação conjunta na área.

Santos, D., Simões, A., Frankenberg-Garcia, A., Pinto, A., Barreiro, A., Maia, B., Mota, C., Oliveira, D., Bick, E., Ranchhod, E., et al. (2004). Linguateca: um centro de recursos distribuído para o processamento computacional da língua portuguesa.

spaCy (2020). Modelos oficiais do spaCy.

Vitório, D., Souza, E., Teles, I., and Oliveira, A. L. I. (2017). Investigating opinion mining through language varieties: a case study of brazilian and european portuguese tweets. In Anais do XI Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 43–52, Porto Alegre, RS, Brasil. SBC.

Weiss, S., Indurkhya, N., Zhang, T., and Damerau, F. (2004). Text Mining: Predictive Methods for Analyzing Unstructured Information. SpringerVerlag.
Publicado
29/11/2021
PINHEIRO, Breno David Lopes; SOUZA, Ellen Polliana Ramos; VITÓRIO, Douglas; ALBUQUERQUE, Hidelberg Oliveira. A Comparative Analysis of Machine Learning Named Entity Recognition Tools for the Brazilian and European Portuguese Language Variants. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 18. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 244-255. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2021.18257.