Um Método Probabilístico para o Preenchimento Automático de Formulários Web a partir de Textos Ricos em Dados

  • Guilherme Alves Toda UFAM
  • Altigran Soares da Silva UFAM

Resumo


Apresentamos neste artigo um novo método para preencher automaticamente formulários Web utilizando como entrada textos ricos em dados (por exemplo, um anúncio). A partir de tal entrada, nosso método identifica e extrai automaticamente dados de interesse nela contidos e os utiliza para preencher os campos apropriados do formulário. Para essa tarefa, utilizamos o conhecimento obtido a partir de valores utilizados previamente pelos usuários para preencher os formulários. Nosso método, chamado de iForm, utiliza características relacionadas ao conteúdo e ao estilo desses valores, que são combinadas através de uma Rede Bayesiana. Mostramos através de experimentos que o iForm atinge resultados superiores na comparação com o método que representa o estado da arte para o problema.
Palavras-chave: Formulários Web, Extração de Dados, Recuperação de Informação, Aprendizagem de Máquina

Referências

Al-Muhammed, M. and Embley, D. W. (2007). Ontology-based constraint recognition for free-form service requests. In Proc. of the 23rd Intl. Conf. on Data Engineering, pages 366–375.

F. Mesquita et. al. (2007). LABRADOR: Efficiently publishing relational databases on the web by using keyword-based query interfaces. Inform. Proc. and Management, 43(4):983–1004.

G. A. Toda et. al. (2009). Automatically filling form-based web interfaces with free text inputs. In Proc. of the 18th Intl. Conf. on World wide web, pages 1163–1164.

G. A. Toda et. al. (2010). A probabilistic approach for automatically filling form-based web interfaces. Proc. VLDB Endow., 4(3):151–160.

J. D. Lafferty et. al. (2001). Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. In Proc. 8th Intl. Conf. on Mach. Learning, pages 282–289.

T. Kristjansson et. al. (2004). Interactive information extraction with constrained conditional random fields. In Proc. of the 19th Nat. Conf. on Artifical intelligence, pages 412–418.

V. Borkar et. al. (2001). Automatic Segmentation of Text into Structured Records. In Proc. ACM SIGMOD Intl. Conf. on Management of Data, pages 175–186.
Publicado
19/07/2011
TODA, Guilherme Alves; SILVA, Altigran Soares da. Um Método Probabilístico para o Preenchimento Automático de Formulários Web a partir de Textos Ricos em Dados. In: CONCURSO DE TESES E DISSERTAÇÕES (CTD), 24. , 2011, Natal/RN. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2011 . p. 64-69. ISSN 2763-8820.