Detecção e Extração de Templates em Páginas Web
Resumo
O difundido uso de templates na Web é considerado prejudicial por duas razões principais. Não só eles comprometem o julgamento de relevância de muitos métodos de RI e mineração para a Web, mas também influenciam negativamente o uso de recursos por ferramentas que processam páginas web. Neste artigo, apresentamos dois novos algoritmos baseados em mapeamentos de árvores que de forma eficiente e acurada removem templates encontrados em coleções de páginas web inspecionando apenas poucas páginas exemplo. Mostramos que nossos algoritmos são efetivos em identificar termos que ocorrem em templates - obtendo valores de medida F por volta de 0,9 - e que eles podem melhorar a acurácia de métodos de agrupamento e classificação de páginas web.
Referências
de Castro Reis, D., Golgher, P. B., da Silva, A. S., and Laender, A. H. F. (2004). Automatic web news extraction using tree edit distance. In Proc. of the Int. Conf. on the World Wide Web, pages 502–511.
Gibson, D., Punera, K., and Tomkins, A. (2005). The volume and evolution of web page templates. In Proc. of the Int. Conf. on the World Wide Web - Poster Session, pages 830–839.
Valiente, G. (2001). An efficient bottom-up distance between trees. In Proc. of the Int. Symposium on String Processing and Information Retrieval.
Vieira, K., Costa Carvalho, A. L., Berlt, K., Moura, E. S., Silva, A. S., and Freire, J. (2009). On finding templates on web collections. World Wide Web, 12(2):171–211.
Vieira, K., da Silva, A. S., Pinto, N., de Moura, E. S., Cavalcanti, J. M. B., and Freire, J. (2006). A fast and robust method for web page template detection and removal. In Proc. of the ACM Int. Conf. on Information and Knowledge Management, pages 258–267.
Yi, L., Liu, B., and Li, X. (2003). Eliminating noisy information in web pages for data mining. In Proc. of the Int. ACM Conf. on Knowledge Discovery and Data Mining, pages 296–305.