Avaliação de ferramentas de extração automática de metadados na catalogação de artigos científicos do CONNEPI
Resumo
Este artigo descreve as etapas de busca e teste de soluções computacionais para extração e catalogação automática de metadados de publicações científicas para o repositório do evento CONNEPI, desde a sua origem, em 2006. Foi realizada uma revisão sistemática de literatura para identificar as ferramentas mais utilizadas. Em seguida foram realizados testes comparativos entre três delas: Cermine, Grobid e pdfx. Os resultados não sinalizaram para uma ferramenta predominante, com alto percentual de acertos em todos os metadados predefinidos. Assim sendo, a próxima etapa da pesquisa está sendo adaptar uma ferramenta de extração para a realidade de formatos de cabeçalhos das publicações do CONNEPI.
Referências
BARBOSA, Leonardo Maia. Um modelo para extrair conhecimento de artigos científicos utilizando redes complexas. 2016. Dissertação (mestrado) – Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, 2016.
BAST, Hannah; KORZEN, Korzen. 2017. A Benchmark and Evaluation for Text Extraction from PDF. In Proceedings of Joint Conference On Digital Libraries, Toronto, Ontario, Canada, June 2017 (JCDL’17).
BODO, Zalan; CSATO, Lehel. A Hybrid Approach for Scholarly Information Extraction. Studia Universitatis Babeș-Bolyai Informatica, [S.l.], v. 62, n. 2, p. 5-16, dec. 2017.
DOS SANTOS, V. Uma arquitetura suportada por busca semântica para recuperação de fontes de informação em repositórios de metadados. Dissertação de Mestrado. Programa de Pós-Graduação em Informática, Universidade Federal do Estado do Rio de Janeiro, 2011.
FONSECA, João José Saraiva da. Metodologia da pesquisa científica. Ceará: Universidade Estadual do Ceará, 2002.
GROSSI JÚNIOR, José Alberto. Análise comparativa de ferramentas de extração de metadados em artigos científicos. 2016. 84f. Dissertação (mestrado) – Universidade Federal de Minas Gerais, Escola de Ciência da Informação. Belo Horizonte, 2016.
GUO, Z.; Jin, H. Reference Metadata Extraction from Scientific Papers. 12th International Conference on Parallel and Distributed Computing, Applications and Technologies, PDCAT 2011, Gwangju, Korea, October 20-22, 2011.
IKEMATU, R. S. Gestão de metadados: sua evolução na tecnologia da informação. Data Grama Zero - Revista de Ciência da Informação, 2(6), 2001.
KOWATA, ELISABETE TOMOMI. Metadados de Bancos de Dados Relacionais: Extração e Exposição com o Protocolo OAI-PMH. Dissertação de Mestrado. 2011. 127 p. Programa de Pós– Graduação em Ciência da Computação - Instituto de Informática da Universidade Federal de Goiás.
MANICA, Edimar; CERVI, Cristiano Roberto; GALANTE, Renata de Matos. Um Processo Automático para Extração de Metadados de Documentos PDF Usando um Template XML. In: Escola Regional de Banco de Dados (ERBD 2008), 4, 2008. Anais... Disponível em http://download.docslide.net/documents/um-processo-automatico-para-extracao-de-metadados-dedocumentos-pdf-usando.html. Acesso em 18 de junho de 2017.
MEY, Eliane Serrão Alves. Introdução à catalogação. Brasília. Briquet de Lemos, 1995.
MOURA, F. R. E.; SANTOS, L. G. C. Desenvolvimento de um Repositório Digital para armazenar as Publicações Científicas do CONNEPI. In: Congresso Norte e Nordeste de Pesquisa e Inovação dos Institutos Federais (CONNEPI), 11, 2016. Anais... Maceió, 2016.
RILEY, Jenn. UNDERSTANDING METADATA - WHAT IS METADATA AND WHAT IS IT FOR? National Information Standards Organization (NISO), 2017. Disponível em http://www.niso.org/apps/group_public/download.php/17446/Understanding%20Metadata.pdf. Acesso em 18 de junho de 2017.
ROSENTHOL, l. Developing with PDF: dive into the portable document format. 1. ed. [S.1]: O´REILLY, 2013.
SANTIAGO, M. C. C. Metadados para recuperação da informação em ambiente virtual. Dissertação (Mestrado em Ciência da Informação) Programa de Pós-Graduação em Ciência da Informação, Universidade Federal de Rio de Janeiro, RJ, 2004.
SOUZA, Alan Pinto. Metadata extraction from Scientific Documents in PDF. 59 f. Dissertação de Mestrado – Universidade Federal do Rio Grande do Sul. Programa de Pós-Graduação em Computação. Porto Alegre: PPGC da UFRGS, 2014.
TKACZYK, Dominika; SZOSTEK, Pawel; DENDEK, Piotr Jan; FEDORYSZAK, Mateusz. CERMINE -- Automatic Extraction of Metadata and References from Scientific Literature. 11th IAPR International Workshop on Document Analysis Systems. 2014.
WILLIAMS, K.; WU, J. WU, Z; GILES, C. L. 2016. Information extraction for scholarly digital libraries. 2016 IEEE/ACM Joint Conference on Digital Libraries (JCDL). Newark, NJ, USA. 2016.