Um Framework para Extração de Dados em Documentos Científicos: Uma Abordagem baseada em XML

  • Davi Medeiros Cabral UFPE
  • Roberto Souto Maior de Barros UFPE


Hoje em dia, documentos são facilmente publicados através da Internet. Assim. um grande número de documentos torna-se avaliados diariamente, fazendo o gerenciamento e a manipulação desses progressivamente mais difícil. Além disso, a existência de formatos incompatíveis faz o desenvolvimento de ferramentas eficientes para o tratamento com documentos uma tarefa altamente complexa. Este artigo propõe um framework de reestruturação semântica para a conversão de documentos para XML, fazendo possível o uso consistente de linguagens de consulta e transformação.

Palavras-chave: Framework, Extração de Dados, Documentos Científicos, XML


Aldea, A., Bañares-Alcántara, R., Bocio, J., Gramajo, J., Isern, D., Kokossis, A Jiménez, L., Moreno, A. and Riaño, D. (2003) An Ontology-Based Knowledge Management Platform", In: 18th IJCAI. IIWeb-03.

Arocena, G. and Mendelzon, A. (1998) "WebOQL: Restructing Documents, Databases, and Webs", In: Proceedings of the 14th ICDE. Orlando, Flórida.

Berners-Lee, T., Hendler, J. and Lassila, O. (2001) "The Semantic Web", In: Scientific American.COM.,

Bray, T., Paoli, J., Sperberg-McQueen, C., Maler, E. and Yergeau, F. (2004) "Extensible Markup Language (XML) 1.0 (Third Edition)", In: W3C Recommendation,

Embley, D., Campbell, D., Jiang, Y., Liddle, S., Lonsdale, D., Ng, Y. and Smith, R. (1999) "Conceptual-Model-Based Data Extraction from Multiple-Record Web Pages".

Fayad, M., Schmidt, D., Johnson, R. (1999) "Building Application Frameworks: Object-Oriented foundations of frameworks design". Wiley, Estados Unidos.

Freitag, D. (2000) "Machine Learning for Information Extraction in Informal Domains", In: Machine Learning 39.

Gilmartin, A., Horowitz, R. and Suez, E. (2002) "Castor: An Open Source Data Binding Framework for Java", In: ExoLab Group,, February.

Gruber, T. (1993) "A translation approach to portable ontology specifications", In: Kknowledge Acqui-sition, 5(2): 199-220.

Hammer, J., McHugh, J. and Gracia-Molina H. (1997) "Semistructured Data: The TSIMMIS Experience", In: Proceedings of the 1st ADBIS. St. Petersburg, Russia.

Kushmerick, N. (2000) "Wrapper Induction: Efficiency and Expressiveness", In: Artificial Intelligence Journal 118.

Laender, A., Ribeiro-Neto, B., Silva, A. and Teixeira, J. (2002) "A Brief Survey of Web Data Extraction Tools".

Muslea, I., Minton, S. and Knoblock, C. (2001) "Hierarchical wrapper induction for semistructured information sources", In: Autonomous Agents and Multi-Agent 4

Raggett, D. (1994) "Clean up your Web pages with HTML TIDY",, January.

Santos, H., Batista, M. and Barros, R. (2002) "Publishing Theses and Dissertations: An Approach Using XML", In: The 4th IIWAS.

Soderlan, S. (1999) "Learning Information Extraction Rules for Semi-Structured and Free Text", In: Machine Learning 34.

Wache, H., Võgele, T., Visser, U., Stuckenschmidt, H., Schuster, G., Neumann, H. and Hübner, S. (2001) "Ontology-Based Integration of Information - A Survey of Existing Approaches".

Walsh, N. and Muellner, L. (2003) "DocBook: The Definitive Guide". O'Reil1y.
CABRAL, Davi Medeiros; BARROS, Roberto Souto Maior de. Um Framework para Extração de Dados em Documentos Científicos: Uma Abordagem baseada em XML. In: SIMPÓSIO BRASILEIRO DE SISTEMAS DE INFORMAÇÃO (SBSI), 1. , 2004, Porto Alegre. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2004 . p. 67-74. DOI: