Um Framework para Extração de Dados em Documentos Científicos: Uma Abordagem baseada em XML
Resumo
Hoje em dia, documentos são facilmente publicados através da Internet. Assim. um grande número de documentos torna-se avaliados diariamente, fazendo o gerenciamento e a manipulação desses progressivamente mais difícil. Além disso, a existência de formatos incompatíveis faz o desenvolvimento de ferramentas eficientes para o tratamento com documentos uma tarefa altamente complexa. Este artigo propõe um framework de reestruturação semântica para a conversão de documentos para XML, fazendo possível o uso consistente de linguagens de consulta e transformação.
Referências
Arocena, G. and Mendelzon, A. (1998) "WebOQL: Restructing Documents, Databases, and Webs", In: Proceedings of the 14th ICDE. Orlando, Flórida.
Berners-Lee, T., Hendler, J. and Lassila, O. (2001) "The Semantic Web", In: Scientific American.COM., http://www.sciam.com/print_version.cfm?articleID=0004814410D2-1C70-84A9809EC588EF21.
Bray, T., Paoli, J., Sperberg-McQueen, C., Maler, E. and Yergeau, F. (2004) "Extensible Markup Language (XML) 1.0 (Third Edition)", In: W3C Recommendation, http://www.w3.org/TR/2004/REC-xml-20040204.
Embley, D., Campbell, D., Jiang, Y., Liddle, S., Lonsdale, D., Ng, Y. and Smith, R. (1999) "Conceptual-Model-Based Data Extraction from Multiple-Record Web Pages".
Fayad, M., Schmidt, D., Johnson, R. (1999) "Building Application Frameworks: Object-Oriented foundations of frameworks design". Wiley, Estados Unidos.
Freitag, D. (2000) "Machine Learning for Information Extraction in Informal Domains", In: Machine Learning 39.
Gilmartin, A., Horowitz, R. and Suez, E. (2002) "Castor: An Open Source Data Binding Framework for Java", In: ExoLab Group, http://www.castor.org, February.
Gruber, T. (1993) "A translation approach to portable ontology specifications", In: Kknowledge Acqui-sition, 5(2): 199-220.
Hammer, J., McHugh, J. and Gracia-Molina H. (1997) "Semistructured Data: The TSIMMIS Experience", In: Proceedings of the 1st ADBIS. St. Petersburg, Russia.
Kushmerick, N. (2000) "Wrapper Induction: Efficiency and Expressiveness", In: Artificial Intelligence Journal 118.
Laender, A., Ribeiro-Neto, B., Silva, A. and Teixeira, J. (2002) "A Brief Survey of Web Data Extraction Tools".
Muslea, I., Minton, S. and Knoblock, C. (2001) "Hierarchical wrapper induction for semistructured information sources", In: Autonomous Agents and Multi-Agent 4
Raggett, D. (1994) "Clean up your Web pages with HTML TIDY", http://www.w3.org/People/Raggett/tidy, January.
Santos, H., Batista, M. and Barros, R. (2002) "Publishing Theses and Dissertations: An Approach Using XML", In: The 4th IIWAS.
Soderlan, S. (1999) "Learning Information Extraction Rules for Semi-Structured and Free Text", In: Machine Learning 34.
Wache, H., Võgele, T., Visser, U., Stuckenschmidt, H., Schuster, G., Neumann, H. and Hübner, S. (2001) "Ontology-Based Integration of Information - A Survey of Existing Approaches".
Walsh, N. and Muellner, L. (2003) "DocBook: The Definitive Guide". O'Reil1y.