Avaliação de ferramentas de extração automática de metadados na catalogação de artigos científicos do CONNEPI

  • Igor Moreira IFAL
  • Mônica Cunha IFAL

Abstract


This article describes the search and test steps of computational solutions for extracting and automatically cataloging scientific publication metadata for the CONNEPI event repository since its origin in 2006. A systematic literature review was performed to identify the most commonly used tools. Then, comparative tests were performed between three of them: Cermine, Grobid and pdfx. The results did not signal to a predominant tool, with a high percentage of correct answers in all the predefined metadata. Therefore, the next step of the research is to adapt an extraction tool to the reality of headings formats of the CONNEPI publications.

References

ASSUNÇÃO, Maria Clara Rabanal da Silva. Catalogação de documentos musicais escritos: uma abordagem à luz da evolução normativa. 2005. 128f. Dissertação (Mestrado em Ciências documentais). Universidade de Évora, Évora, 2005.

BARBOSA, Leonardo Maia. Um modelo para extrair conhecimento de artigos científicos utilizando redes complexas. 2016. Dissertação (mestrado) – Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, 2016.

BAST, Hannah; KORZEN, Korzen. 2017. A Benchmark and Evaluation for Text Extraction from PDF. In Proceedings of Joint Conference On Digital Libraries, Toronto, Ontario, Canada, June 2017 (JCDL’17).

BODO, Zalan; CSATO, Lehel. A Hybrid Approach for Scholarly Information Extraction. Studia Universitatis Babeș-Bolyai Informatica, [S.l.], v. 62, n. 2, p. 5-16, dec. 2017.

DOS SANTOS, V. Uma arquitetura suportada por busca semântica para recuperação de fontes de informação em repositórios de metadados. Dissertação de Mestrado. Programa de Pós-Graduação em Informática, Universidade Federal do Estado do Rio de Janeiro, 2011.

FONSECA, João José Saraiva da. Metodologia da pesquisa científica. Ceará: Universidade Estadual do Ceará, 2002.

GROSSI JÚNIOR, José Alberto. Análise comparativa de ferramentas de extração de metadados em artigos científicos. 2016. 84f. Dissertação (mestrado) – Universidade Federal de Minas Gerais, Escola de Ciência da Informação. Belo Horizonte, 2016.

GUO, Z.; Jin, H. Reference Metadata Extraction from Scientific Papers. 12th International Conference on Parallel and Distributed Computing, Applications and Technologies, PDCAT 2011, Gwangju, Korea, October 20-22, 2011.

IKEMATU, R. S. Gestão de metadados: sua evolução na tecnologia da informação. Data Grama Zero - Revista de Ciência da Informação, 2(6), 2001.

KOWATA, ELISABETE TOMOMI. Metadados de Bancos de Dados Relacionais: Extração e Exposição com o Protocolo OAI-PMH. Dissertação de Mestrado. 2011. 127 p. Programa de Pós– Graduação em Ciência da Computação - Instituto de Informática da Universidade Federal de Goiás.

MANICA, Edimar; CERVI, Cristiano Roberto; GALANTE, Renata de Matos. Um Processo Automático para Extração de Metadados de Documentos PDF Usando um Template XML. In: Escola Regional de Banco de Dados (ERBD 2008), 4, 2008. Anais... Disponível em http://download.docslide.net/documents/um-processo-automatico-para-extracao-de-metadados-dedocumentos-pdf-usando.html. Acesso em 18 de junho de 2017.

MEY, Eliane Serrão Alves. Introdução à catalogação. Brasília. Briquet de Lemos, 1995.

MOURA, F. R. E.; SANTOS, L. G. C. Desenvolvimento de um Repositório Digital para armazenar as Publicações Científicas do CONNEPI. In: Congresso Norte e Nordeste de Pesquisa e Inovação dos Institutos Federais (CONNEPI), 11, 2016. Anais... Maceió, 2016.

RILEY, Jenn. UNDERSTANDING METADATA - WHAT IS METADATA AND WHAT IS IT FOR? National Information Standards Organization (NISO), 2017. Disponível em http://www.niso.org/apps/group_public/download.php/17446/Understanding%20Metadata.pdf. Acesso em 18 de junho de 2017.

ROSENTHOL, l. Developing with PDF: dive into the portable document format. 1. ed. [S.1]: O´REILLY, 2013.

SANTIAGO, M. C. C. Metadados para recuperação da informação em ambiente virtual. Dissertação (Mestrado em Ciência da Informação) Programa de Pós-Graduação em Ciência da Informação, Universidade Federal de Rio de Janeiro, RJ, 2004.

SOUZA, Alan Pinto. Metadata extraction from Scientific Documents in PDF. 59 f. Dissertação de Mestrado – Universidade Federal do Rio Grande do Sul. Programa de Pós-Graduação em Computação. Porto Alegre: PPGC da UFRGS, 2014.

TKACZYK, Dominika; SZOSTEK, Pawel; DENDEK, Piotr Jan; FEDORYSZAK, Mateusz. CERMINE -- Automatic Extraction of Metadata and References from Scientific Literature. 11th IAPR International Workshop on Document Analysis Systems. 2014.

WILLIAMS, K.; WU, J. WU, Z; GILES, C. L. 2016. Information extraction for scholarly digital libraries. 2016 IEEE/ACM Joint Conference on Digital Libraries (JCDL). Newark, NJ, USA. 2016.
Published
2019-12-14
MOREIRA, Igor; CUNHA, Mônica. Avaliação de ferramentas de extração automática de metadados na catalogação de artigos científicos do CONNEPI. In: REGIONAL SCHOOL ON COMPUTING OF BAHIA, ALAGOAS, AND SERGIPE (ERBASE) , 2019, Ilhéus. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 386-395.