Desafios da tarefa de Extração de Informação Aberta: uma abordagem metodológica de um corpus automatizado até o corpus manual

Resumo


Este trabalho descreve a metodologia definida para a construção de um corpus, em português, anotado manualmente a partir de uma geração automatizada de um corpus para a tarefa de Extração de Informação Aberta em Português. Regras foram definidas para a extração de triplas com o objetivo de subsidiar a geração de corpus na criação de modelos baseado em aprendizado de máquinas. Os resultados obtidos foram o corpus gerado que vem sendo utilizado na criação de algoritmos para a tarefa de EIA.

Palavras-chave: corpus manual, Processamento de Linguagem Natural (PLN), Extração de Informação Aberta (EIA)

Referências

Alencar, L. F., Cuconato, B., and Rademaker, A. (2018). Morphobr: An open source large-coverage full-form lexicon for morphological analysis of portuguese. Texto Livre: Linguagem e Tecnologia, 11(3):1–25. https://doi.org/10.17851/1983-3652.11.3.1-25

Banko, M., Cafarella, M., Soderland, S., Broadhead, M., and Etzioni, O. (2007). Open information extraction from the web. In Proceedings of the 20th International Joint Conference on Artifical intelligence, pages 2670–2676. University of Washington. https://aclanthology.org/N07-4013

Fader, Anthony, e. a. (2011). Identifying Relations for Open Information Extraction. Association for Computational Linguistics https://aclanthology.org/D11-1142.pdf

Glauber, R., de Oliveira, L. S., Sena, C. F. L., Claro, D. B., and Souza, M. (2018). Challenges of an annotation task for open information extraction in portuguese. In Villavicencio, A., Moreira, V., Abad, A., Caseli, H., Gamallo, P., Ramisch, C., Gonc¸alo Oliveira, H., and Paetzold, G. H., editors, Computational Processing of the Portuguese Language, pages 66–76, Cham. Springer International Publishing. https://doi.org/10.1007/978-3-319-99722-3_5

Stanovsky, G. and Dagan, I. (2016). Creating a large benchmark for open information extraction. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. http://dx.doi.org/10.18653/v1/D16-1252
Publicado
25/09/2023
QUEIROZ, Beatriz Paixão; CAVALCANTE, Rerisson; CLARO, Daniela Barreiro. Desafios da tarefa de Extração de Informação Aberta: uma abordagem metodológica de um corpus automatizado até o corpus manual. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 388-392. DOI: https://doi.org/10.5753/stil.2023.234606.