Desafios da tarefa de Extração de Informação Aberta: uma abordagem metodológica de um corpus automatizado até o corpus manual
Resumo
Este trabalho descreve a metodologia definida para a construção de um corpus, em português, anotado manualmente a partir de uma geração automatizada de um corpus para a tarefa de Extração de Informação Aberta em Português. Regras foram definidas para a extração de triplas com o objetivo de subsidiar a geração de corpus na criação de modelos baseado em aprendizado de máquinas. Os resultados obtidos foram o corpus gerado que vem sendo utilizado na criação de algoritmos para a tarefa de EIA.
Referências
Banko, M., Cafarella, M., Soderland, S., Broadhead, M., and Etzioni, O. (2007). Open information extraction from the web. In Proceedings of the 20th International Joint Conference on Artifical intelligence, pages 2670–2676. University of Washington. https://aclanthology.org/N07-4013
Fader, Anthony, e. a. (2011). Identifying Relations for Open Information Extraction. Association for Computational Linguistics https://aclanthology.org/D11-1142.pdf
Glauber, R., de Oliveira, L. S., Sena, C. F. L., Claro, D. B., and Souza, M. (2018). Challenges of an annotation task for open information extraction in portuguese. In Villavicencio, A., Moreira, V., Abad, A., Caseli, H., Gamallo, P., Ramisch, C., Gonc¸alo Oliveira, H., and Paetzold, G. H., editors, Computational Processing of the Portuguese Language, pages 66–76, Cham. Springer International Publishing. https://doi.org/10.1007/978-3-319-99722-3_5
Stanovsky, G. and Dagan, I. (2016). Creating a large benchmark for open information extraction. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. http://dx.doi.org/10.18653/v1/D16-1252