Avaliação de ferramentas de extração automática de metadados na catalogação de artigos científicos do CONNEPI

  • Igor Moreira IFAL
  • Mônica Cunha IFAL

Resumo


Este artigo descreve as etapas de busca e teste de soluções computacionais para extração e catalogação automática de metadados de publicações científicas para o repositório do evento CONNEPI, desde a sua origem, em 2006. Foi realizada uma revisão sistemática de literatura para identificar as ferramentas mais utilizadas. Em seguida foram realizados testes comparativos entre três delas: Cermine, Grobid e pdfx. Os resultados não sinalizaram para uma ferramenta predominante, com alto percentual de acertos em todos os metadados predefinidos. Assim sendo, a próxima etapa da pesquisa está sendo adaptar uma ferramenta de extração para a realidade de formatos de cabeçalhos das publicações do CONNEPI.

Referências

ASSUNÇÃO, Maria Clara Rabanal da Silva. Catalogação de documentos musicais escritos: uma abordagem à luz da evolução normativa. 2005. 128f. Dissertação (Mestrado em Ciências documentais). Universidade de Évora, Évora, 2005.

BARBOSA, Leonardo Maia. Um modelo para extrair conhecimento de artigos científicos utilizando redes complexas. 2016. Dissertação (mestrado) – Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, 2016.

BAST, Hannah; KORZEN, Korzen. 2017. A Benchmark and Evaluation for Text Extraction from PDF. In Proceedings of Joint Conference On Digital Libraries, Toronto, Ontario, Canada, June 2017 (JCDL’17).

BODO, Zalan; CSATO, Lehel. A Hybrid Approach for Scholarly Information Extraction. Studia Universitatis Babeș-Bolyai Informatica, [S.l.], v. 62, n. 2, p. 5-16, dec. 2017.

DOS SANTOS, V. Uma arquitetura suportada por busca semântica para recuperação de fontes de informação em repositórios de metadados. Dissertação de Mestrado. Programa de Pós-Graduação em Informática, Universidade Federal do Estado do Rio de Janeiro, 2011.

FONSECA, João José Saraiva da. Metodologia da pesquisa científica. Ceará: Universidade Estadual do Ceará, 2002.

GROSSI JÚNIOR, José Alberto. Análise comparativa de ferramentas de extração de metadados em artigos científicos. 2016. 84f. Dissertação (mestrado) – Universidade Federal de Minas Gerais, Escola de Ciência da Informação. Belo Horizonte, 2016.

GUO, Z.; Jin, H. Reference Metadata Extraction from Scientific Papers. 12th International Conference on Parallel and Distributed Computing, Applications and Technologies, PDCAT 2011, Gwangju, Korea, October 20-22, 2011.

IKEMATU, R. S. Gestão de metadados: sua evolução na tecnologia da informação. Data Grama Zero - Revista de Ciência da Informação, 2(6), 2001.

KOWATA, ELISABETE TOMOMI. Metadados de Bancos de Dados Relacionais: Extração e Exposição com o Protocolo OAI-PMH. Dissertação de Mestrado. 2011. 127 p. Programa de Pós– Graduação em Ciência da Computação - Instituto de Informática da Universidade Federal de Goiás.

MANICA, Edimar; CERVI, Cristiano Roberto; GALANTE, Renata de Matos. Um Processo Automático para Extração de Metadados de Documentos PDF Usando um Template XML. In: Escola Regional de Banco de Dados (ERBD 2008), 4, 2008. Anais... Disponível em http://download.docslide.net/documents/um-processo-automatico-para-extracao-de-metadados-dedocumentos-pdf-usando.html. Acesso em 18 de junho de 2017.

MEY, Eliane Serrão Alves. Introdução à catalogação. Brasília. Briquet de Lemos, 1995.

MOURA, F. R. E.; SANTOS, L. G. C. Desenvolvimento de um Repositório Digital para armazenar as Publicações Científicas do CONNEPI. In: Congresso Norte e Nordeste de Pesquisa e Inovação dos Institutos Federais (CONNEPI), 11, 2016. Anais... Maceió, 2016.

RILEY, Jenn. UNDERSTANDING METADATA - WHAT IS METADATA AND WHAT IS IT FOR? National Information Standards Organization (NISO), 2017. Disponível em http://www.niso.org/apps/group_public/download.php/17446/Understanding%20Metadata.pdf. Acesso em 18 de junho de 2017.

ROSENTHOL, l. Developing with PDF: dive into the portable document format. 1. ed. [S.1]: O´REILLY, 2013.

SANTIAGO, M. C. C. Metadados para recuperação da informação em ambiente virtual. Dissertação (Mestrado em Ciência da Informação) Programa de Pós-Graduação em Ciência da Informação, Universidade Federal de Rio de Janeiro, RJ, 2004.

SOUZA, Alan Pinto. Metadata extraction from Scientific Documents in PDF. 59 f. Dissertação de Mestrado – Universidade Federal do Rio Grande do Sul. Programa de Pós-Graduação em Computação. Porto Alegre: PPGC da UFRGS, 2014.

TKACZYK, Dominika; SZOSTEK, Pawel; DENDEK, Piotr Jan; FEDORYSZAK, Mateusz. CERMINE -- Automatic Extraction of Metadata and References from Scientific Literature. 11th IAPR International Workshop on Document Analysis Systems. 2014.

WILLIAMS, K.; WU, J. WU, Z; GILES, C. L. 2016. Information extraction for scholarly digital libraries. 2016 IEEE/ACM Joint Conference on Digital Libraries (JCDL). Newark, NJ, USA. 2016.
Publicado
14/12/2019
MOREIRA, Igor; CUNHA, Mônica. Avaliação de ferramentas de extração automática de metadados na catalogação de artigos científicos do CONNEPI. In: ESCOLA REGIONAL DE COMPUTAÇÃO BAHIA, ALAGOAS E SERGIPE (ERBASE) , 2019, Ilhéus. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 386-395.