Uma Abordagem Flexível para Extração de Metadados em Citações Bibliográficas
Resumo
Neste artigo apresentamos o FLUX-CiM, um novo método de extração de componentes de citações bibliográficas, tais como nomes de autores, títulos de artigo, etc. Tal método não se baseia em padrões específicos de codificação de delimitadores de um determinado estilo de citação, o que lhe confere um alto grau de automação e flexibilidade. Diferentemente de abordagens anteriores que dependem de treinamento manual para realizar o processo de extração, o nosso método necessita apenas de uma base de conhecimento que pode ser automaticamente construída a partir de um conjunto existente de registros de metadados de um dado domínio, por exemplo: Ciência da Computação, Ciências da Saúde, etc. Para demonstrar a eficácia e aplicabilidade do método proposto, realizamos experimentos que de extração dados de citações bibliográficas de artigos científicos. Os resultados destes experimentos apresentam níveis precisão e revocação acima de 94% para todos os domínios, bem como extração perfeita para a grande maioria das citações testadas. Além disso, em uma comparação com o método que representa o estado da arte, o FLUX-CiM produziu resultados superiores, sem a fase de treino que é exigida por esse método.Referências
Cortez, E., da Silva, A., Gonçalves, M., Mesquita, F., and de Moura, E. (2007). FLUX-CIM: flexible unsupervised extraction of citation metadata. Proceedings of the ACM/IEEE JCDL 2007 Conference on Digital Libraries, pages 215–224.
Cortez, E., da Silva, A., Gonçalves, M., Mesquita, F., and de Moura, E. (2008). FLUX-CIM: flexible unsupervised extraction of citation metadata. Demo Section of Brazilian Symposium in Databases - SBBD.
Cortez, E., da Silva, A., Gonçalves, M., Mesquita, F., and de Moura, E. A flexible approach for extracting metadata from bibliographic citations. Journal of the American Society for Information Science and Technology, 60(6):1144-1158, 2009.
Day, M.-Y., Tsai, T.-H., Sung, C.-L., Lee, C.-W., Wu, S.-H., Ong, C.-S., and Hsu, W.-L. (2005). A knowledge-based approach to citation extraction. In IRI ’05: Proceedings of the 2005 IEEE International Conference on Information Reuse and Integration, pages 50–55, New York, NY, USA. IEEE Systems, Man, and Cybernetics Society.
Han, H., Giles, C. L., Manavoglu, E., Zha, H., Zhang, Z., and Fox, E. A. (2003). Automatic document metadata extraction using support vector machines. In ACM/IEEE Joint Conference on Digital Libraries, JCDL 2003, pages 37–48. IEEE Computer Society.
Peng, F. and McCallum, A. (2006). Information extraction from research papers using conditional random fields. Inf. Process. Manage., 42(4):963–979.
Cortez, E., da Silva, A., Gonçalves, M., Mesquita, F., and de Moura, E. (2008). FLUX-CIM: flexible unsupervised extraction of citation metadata. Demo Section of Brazilian Symposium in Databases - SBBD.
Cortez, E., da Silva, A., Gonçalves, M., Mesquita, F., and de Moura, E. A flexible approach for extracting metadata from bibliographic citations. Journal of the American Society for Information Science and Technology, 60(6):1144-1158, 2009.
Day, M.-Y., Tsai, T.-H., Sung, C.-L., Lee, C.-W., Wu, S.-H., Ong, C.-S., and Hsu, W.-L. (2005). A knowledge-based approach to citation extraction. In IRI ’05: Proceedings of the 2005 IEEE International Conference on Information Reuse and Integration, pages 50–55, New York, NY, USA. IEEE Systems, Man, and Cybernetics Society.
Han, H., Giles, C. L., Manavoglu, E., Zha, H., Zhang, Z., and Fox, E. A. (2003). Automatic document metadata extraction using support vector machines. In ACM/IEEE Joint Conference on Digital Libraries, JCDL 2003, pages 37–48. IEEE Computer Society.
Peng, F. and McCallum, A. (2006). Information extraction from research papers using conditional random fields. Inf. Process. Manage., 42(4):963–979.
Publicado
20/07/2010
Como Citar
CORTEZ, Eli; SILVA, Altigran Soares da.
Uma Abordagem Flexível para Extração de Metadados em Citações Bibliográficas. In: CONCURSO DE TESES E DISSERTAÇÕES (CTD), 23. , 2010, Belo Horizonte/MG.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2010
.
p. 33-40.
ISSN 2763-8820.