Implementação de um esquema de extração de dados tabulares da web
Resumo
Grande parcela das informações atuais se encontram distribuídas na web de forma não estruturada sem estarem armazenadas em qualquer base de dados, como por exemplo em WebTables. Considerando que os sistemas computacionais operam eficientemente sobre dados estruturados, muitos estudos são realizados para realizar a extração destes dados não estruturados para modelos estruturados de dados. O presente artigo possui a finalidade de demonstrar a implementação de uma proposta [1] de extração de WebTables que inclui um algoritmo capaz de particionar as linhas de uma tabela em compartimentos por características semelhantes. O objetivo do algoritmo desenvolvido, denominado pelos autores de logarithmic binning, é encontrar a similaridade entre as linhas para poder classificá-las e extrai-las de forma precisa. O resultado gerado pelo algoritmo consiste em um conjunto de valores que reunidos identificará o papel que cada linha tem na tabela, tornando assim o processo de extração alcançável de forma automatizada.
Publicado
21/10/2015
Como Citar
LEAL, Stéphanie S.; SCHEIDT, Marcelo M.; DORNELES, Carina F..
Implementação de um esquema de extração de dados tabulares da web. In: WORKSHOP DE TRABALHOS DE INICIAÇÃO CIENTÍFICA - SIMPÓSIO BRASILEIRO DE SISTEMAS MULTIMÍDIA E WEB (WEBMEDIA) , 2015, Manaus.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2015
.
p. 35-38.
ISSN 2596-1683.