OIEAnnotator: Uma ferramenta para construção e anotação de corpora para Extração de Informação Aberta

  • Igor Tironi UFBA
  • Daniela Barreiro Claro UFBA

Resumo


A disponibilidade de corpora anotados é uma importante tarefa de Open Information Extraction (Open IE). Porém, essa é uma tarefa difícil pois demanda trabalho manual de anotadores. Essa tarefa se torna ainda mais complicada no contexto da língua portuguesa, dada a sua complexidade e a falta de uma estrutura prévia para tarefas de anotação nesta língua. Ferramentas que possam agilizar esse processo tem um grande valor para a construção de conhecimento nesta área. Esse trabalho propôs uma ferramenta capaz de auxiliar no processo de construção de corpora anotados, através da anotação e identificação de novas triplas relacionais nas sentenças. Para validação, foi definido um grupo de especialistas, composto por três especialistas na tarefa, e um grupo de controle, composto por indivíduos sem conhecimento no processo para teste de usabilidade da ferramenta. A ferramenta foi utilizada para anotação de um corpus em português, mas não foi identificado nenhum impedimento para a utilização desta para outras linguas.

Palavras-chave: Open IE, Corpora, Português, Anotação, Ferramenta

Referências

Emily Bender. 2019. English isn’t generic for language, despite what NLP papers might lead you to believe. In Symposium and Data Science and Statistics (Bellevue WA). [link] [Online; accessed 15-may-2020].

Bruno Cabral. 2014. SPLICE: A Flexible SPL Lifecycle Management Tool. (2014). Universidade Federal da Bahia. Graduação sob orientação de Eduardo Santana de Almeida.

Oren Etzioni, Michele Banko, Stephen Soderland, and Daniel S Weld. 2008. Open information extraction from the web. Commun. ACM 51, 12 (2008), 68–74.

Explosion. 2017. Prodigy: Radically efficient machine teaching. An annotation tool powered by active learning. https://prodi.gy/ Disponível em https://prodi.gy/.

Cláudia Freitas, Milena Uzeda-Garrão, and Claudia Oliveira. 2005. A anotação de um corpus para o aprendizado supervisionado de um modelo de SN. XXV Congresso da Sociedade Brasileira de Computação (01 2005). [link].

Rafael Glauber, Leandro Souza de Oliveira, Cleiton Fernando Lima Sena, Daniela Barreiro Claro, and Marlo Souza. 2018. Challenges of an Annotation Task for Open Information Extraction in Portuguese. In Computational Processing of the Portuguese Language, Aline Villavicencio, Viviane Moreira, Alberto Abad, Helena Caseli, Pablo Gamallo, Carlos Ramisch, Hugo Gonçalo Oliveira, and Gustavo Henrique Paetzold (Eds.). Springer International Publishing, Cham, 66–76.

Hiroki Nakayama, Takahiro Kubo, Junya Kamura, Yasufumi Taniguchi, and Xu Liang. 2018. doccano: Text Annotation Tool for Human. https://github.com/doccano/doccano Software available from https://github.com/doccano/doccano.

Taylor Otwell. 2011. Laravel: The PHP Framework for Web Artisans. https://laravel.com/ Software available from https://github.com/laravel/laravel.

Arley Prates and Luis Emanuel. 2021. OPEN IE - Annotation tool. https://github.com/arleyprates/openie-annotation-tool

Jordan Walke. 2013. React: A JavaScript library for building user interfaces. https://reactjs.org/ Software available from https://github.com/facebook/react.
Publicado
07/11/2022
TIRONI, Igor; CLARO, Daniela Barreiro. OIEAnnotator: Uma ferramenta para construção e anotação de corpora para Extração de Informação Aberta. In: WORKSHOP DE FERRAMENTAS E APLICAÇÕES - SIMPÓSIO BRASILEIRO DE SISTEMAS MULTIMÍDIA E WEB (WEBMEDIA), 28. , 2022, Curitiba. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2022 . p. 95-98. ISSN 2596-1683. DOI: https://doi.org/10.5753/webmedia_estendido.2022.226553.